O Problema: Softmax Tradicional

Num vocabulário real, calcular a probabilidade da palavra correta exige atualizar pesos para todas as palavras simultaneamente. Uma tarefa titânica $O(|V|)$.

Calculando Softmax para milhares de palavras simultaneamente... (Amostra ilustrativa abaixo)

A Solução: Negative Sampling

Treinamos o modelo para maximizar 1 palavra positiva e minimizar apenas $K=5$ palavras negativas sorteadas. Muito mais rápido: $O(K)$.