Selecione as palavras que compõem o contexto para que o modelo CBoW faça a previsão da palavra-alvo (central).
O CBoW tira a média de todos os vetores de contexto para formar uma única representação ($h$).
Transforma o vetor $h$ (3D) de volta para o tamanho do vocabulário (5D).
A probabilidade de cada palavra ser o alvo correto.