Tempo de Geração ($t$)

O decodificador é causal. Ele não pode olhar para o futuro da frase.

Passo $t$:0
Tokens gerados:
  0: <SOS>
  1: I
  2: love
  3: bread

Matriz de Atenção Mascarada $M$

Abaixo está a matriz de pesos softmax. A área vermelha recebe soma de $-\infty$, garantindo que a probabilidade de olhar para palavras futuras seja exatamente zero ($e^{-\infty} = 0$).