O decodificador é causal. Ele não pode olhar para o futuro da frase.
Abaixo está a matriz de pesos softmax. A área vermelha recebe soma de $-\infty$, garantindo que a probabilidade de olhar para palavras futuras seja exatamente zero ($e^{-\infty} = 0$).