Num vocabulário real, calcular a probabilidade da palavra correta exige atualizar pesos para todas as palavras simultaneamente. Uma tarefa titânica $O(|V|)$.
Treinamos o modelo para maximizar 1 palavra positiva e minimizar apenas $K=5$ palavras negativas sorteadas. Muito mais rápido: $O(K)$.