Padrões de Atenção
Numa sequência de $N=30$ tokens, selecione os padrões para ver como aliviar o cálculo $30 \times 30 = 900$.
Atenção Densa: O padrão original do Transformer. Cada palavra atende a todas as outras. Custo insustentável para textos longos.