Padrões de Atenção

Numa sequência de $N=30$ tokens, selecione os padrões para ver como aliviar o cálculo $30 \times 30 = 900$.

Atenção Densa: O padrão original do Transformer. Cada palavra atende a todas as outras. Custo insustentável para textos longos.
900
Cálculos Totais
0%
Economia Computacional