CliffordNet: Quando o Produto Escalar Não Basta

por Frank de Alcantara em 02/07/2026

Hoje eu fiz um post no linkedin que chamou muita atenção. Euzinho, aqui do meu cantinho, acho que a atenção foi devida ao estilo chamativo que usei no artigo. De qualquer forma, resolvi dar uma olhada. Quem sabe aproveito o conteúdo na série transformers, em algum ponto do futuro.

Neste artigo aprenderemos como a busca por representações matemáticas mais ricas nos leva das limitações das técnicas escalares para a Álgebra Geométrica, também conhecida como Álgebra de Clifford. O objetivo não será transformar a dedicada leitora em especialista em geometria algébrica, mas construir a intuição necessária para entender por que alguns pesquisadores estão tentando substituir partes familiares das arquiteturas neurais modernas por operações geométricas mais expressivas.

A pergunta que nos guiará é simples:

o que perdemos quando reduzimos a relação entre dois vetores a um único número?

Essa pergunta é mais importante do que parece. Em modelos de linguagem e visão computacional, usamos produtos escalares por toda parte. O mecanismo de atenção dos Transformers, por exemplo, mede a compatibilidade entre queries e keys usando produtos escalares. Esse número é útil, eficiente e fácil de otimizar. Mas ele responde principalmente a uma pergunta: os vetores apontam mais ou menos para a mesma direção?

Só que geometria não é feita apenas de alinhamento. Dois vetores também definem um plano, uma orientação, uma área, uma rotação possível. Quando descartamos tudo isso e ficamos apenas com um escalar, ganhamos simplicidade, mas perdemos estrutura.

E nesse espaço entre simplicidade e estrutura que entram a Álgebra Geométrica e arquiteturas recentes como a CliffordNet.

O Limite do Produto Escalar

A atenta leitora deve se lembrar que, na álgebra linear tradicional, vetores costumam ser comparados por meio do produto escalar. Se temos dois vetores $u$ e $v$, o produto escalar será:

\[u \cdot v\]

Esse valor mede o quanto os vetores estão alinhados. Quando o resultado é alto e positivo, os vetores apontam em direções semelhantes. Quando é próximo de zero, eles são ortogonais. Quando é negativo, apontam em sentidos opostos.

Essa operação é extraordinariamente útil. A similaridade de cosseno, o cálculo de atenção, muitos modelos de recuperação de informação e várias técnicas de aprendizado profundo dependem dela. O problema é que o produto escalar comprime a relação entre dois vetores em um único número.

Considere:

\[u = (1, 0, 0), \quad v = (0, 1, 0)\]

O produto escalar entre eles é:

\[u \cdot v = 0\]

Isso nos diz que os vetores são ortogonais. Correto. Mas os dois vetores também determinam o plano $xy$, com uma orientação específica: sair de $u$ em direção a $v$ é diferente de sair de $v$ em direção a $u$. Essa informação orientada desaparece no produto escalar.

Em muitos problemas, essa perda não importa. Em outros, especialmente quando estamos lidando com imagens, campos físicos, rotações, simetrias ou estruturas espaciais, ela pode importar muito.

A Ideia da Álgebra Geométrica

A Álgebra Geométrica nasce da tentativa de tratar objetos geométricos e operações algébricas dentro de uma linguagem unificada. Em vez de trabalhar apenas com escalares e vetores, ela permite combinar objetos de diferentes graus em uma mesma entidade chamada multivetor.

Em um espaço tridimensional, podemos pensar em:

Grau	Objeto	Intuição geométrica
0	Escalar	Magnitude sem direção
1	Vetor	Segmento ou direção orientada
2	Bivetor	Área orientada, como um plano com sentido
3	Trivetor	Volume orientado

Tabela 1: Interpretação intuitiva dos graus mais comuns em uma Álgebra Geométrica tridimensional.

Observe o cuidado: vetores, bivetores e trivetores não são apenas “números maiores”. Eles carregam tipos diferentes de informação geométrica. Um bivetor, por exemplo, não é um vetor comum. Ele representa uma área orientada, isto é, a extensão gerada por dois vetores e a orientação desse plano.

A sagaz leitora pode imaginar o bivetor como a informação que falta quando dizemos apenas que dois vetores são ortogonais. O produto escalar nos diz que o alinhamento é zero; o bivetor nos diz qual plano orientado eles formam.

O Produto Geométrico

A operação central da Álgebra Geométrica é o produto geométrico. Para dois vetores $u$ e $v$, ele pode ser escrito como:

\[uv = u \cdot v + u \wedge v\]

Nesta equação:

$u \cdot v$ é o produto interno, responsável pela parte escalar da relação, ligada ao alinhamento;
$u \wedge v$ é o produto exterior, responsável pela parte orientada, ligada ao plano e à área formada pelos vetores.

A beleza dessa expressão está em sua simplicidade. Em vez de escolher entre alinhamento e estrutura, o produto geométrico preserva os dois. A relação entre $u$ e $v$ não vira apenas um número: vira um objeto composto, com uma parte escalar e uma parte geométrica orientada.

No exemplo anterior:

\[u = (1,0,0), \quad v = (0,1,0)\]

temos:

\[u \cdot v = 0\]

mas:

\[u \wedge v \ne 0\]

Ou seja, os vetores não têm alinhamento escalar, mas ainda assim definem uma estrutura geométrica importante: o plano orientado $xy$.

Isso nos permite resumir a diferença:

Operação	Resultado	O que preserva	O que perde
Produto escalar	Escalar	Alinhamento, semelhança, coerência	Orientação e estrutura do plano
Produto exterior	Bivetor	Área orientada, diferença estrutural	Magnitude escalar de alinhamento
Produto geométrico	Multivetor	Alinhamento e estrutura orientada	Menos informação é descartada

Tabela 2: Comparação intuitiva entre produto escalar, produto exterior e produto geométrico.

Esse ponto será importante quando chegarmos às redes neurais. Muitas arquiteturas aprendem a partir de operações que enfatizam a semelhança entre vetores. A Álgebra Geométrica sugere que talvez também devamos preservar a diferença orientada entre eles.

No explorador a seguir, mova os vetores $u$ e $v$ e observe como o produto escalar pode desaparecer enquanto a área orientada continua carregando informação geométrica.

Da Álgebra Para as Redes Neurais

O artigo CliffordNet: All You Need is Geometric Algebra, publicado em janeiro de 2026 por Zhongping Ji, parte justamente dessa intuição. Arquiteturas modernas de visão computacional costumam empilhar dois tipos de módulo:

um módulo de mistura espacial, como atenção ou convolução;
uma rede Feed-Forward (FFN), responsável pela mistura de canais e por transformações não lineares.

Esse padrão aparece, de várias formas, em CNNs modernas, Vision Transformers e arquiteturas derivadas. A CliffordNet propõe uma pergunta ousada: se a interação entre representações fosse geometricamente mais rica, ainda precisaríamos separar tanto esses papéis?

Em vez de usar apenas interações escalares, a arquitetura introduz um mecanismo chamado Clifford Interaction Ansatz. A ideia é modelar a interação entre um estado $H$ e seu contexto $\mathcal{C}$ usando uma aproximação do produto geométrico:

\[\mathcal{F}(H, \mathcal{C}) = \mathcal{P} \left( H \cdot \mathcal{C} \oplus H \wedge \mathcal{C} \right)\]

Aqui:

$H$ representa o estado da representação em uma camada;
$\mathcal{C}$ representa o contexto local extraído da vizinhança;
$H \cdot \mathcal{C}$ captura a coerência entre estado e contexto;
$H \wedge \mathcal{C}$ captura a variação estrutural entre eles;
$\oplus$ indica uma concatenação ou composição das partes;
$\mathcal{P}$ é uma projeção aprendível que leva essa informação de volta ao espaço vetorial usado pela rede.

Na prática, a CliffordNet não implementa uma Álgebra de Clifford completa com todos os custos que isso poderia trazer. Ela usa uma aproximação eficiente, desenhada para caber no fluxo usual de tensores e retropropagação. Esse detalhe é essencial. O interesse da proposta não está apenas em dizer “vamos usar Álgebra Geométrica”, mas em adaptar parte dessa estrutura a uma arquitetura treinável e computacionalmente viável.

Coerência e Estrutura

Uma forma simples de entender a proposta é separar dois tipos de informação:

Componente	Papel intuitivo	Analogia em redes neurais
$H \cdot \mathcal{C}$	mede coerência e alinhamento	parecido com mecanismos de similaridade e gating
$H \wedge \mathcal{C}$	mede variação estrutural e orientação	captura diferenças, bordas, textura e mudanças locais

Tabela 3: Interpretação dos dois componentes usados pela CliffordNet.

Em uma imagem, essa diferença é particularmente interessante. Uma região lisa tende a apresentar alta coerência local: pixels ou características vizinhas se parecem. Uma borda, uma textura ou uma mudança de orientação introduz variação estrutural. O produto exterior aparece como uma maneira de representar essa diferença de forma orientada.

O próximo artefato mostra essa intuição em um campo local de características. Compare uma região lisa com uma borda ou uma variação rotacional: a parte escalar e a parte exterior respondem de formas diferentes.

A amável leitora deve notar que isso não significa que a CliffordNet “entende geometria” como um ser humano entende uma figura. O que ela faz é incorporar uma operação matemática que preserva mais informação geométrica local do que uma interação puramente escalar.

Essa distinção evita entusiasmo exagerado. Não estamos diante de uma fórmula mágica. Estamos diante de uma hipótese arquitetural: talvez interações locais, quando são suficientemente expressivas, possam reduzir a necessidade de alguns blocos pesados usados hoje.

O Que Acontece Com as FFNs?

Um dos resultados mais provocativos do artigo da CliffordNet é a afirmação de que as redes Feed-Forward podem se tornar menos necessárias quando a interação geométrica é suficientemente densa.

Aqui precisamos ser cuidadosos. A frase “as FFNs são redundantes” é forte demais se tomada como regra geral. O que os experimentos do artigo sugerem é algo mais específico:

nas configurações avaliadas pelos autores, variantes da CliffordNet conseguiram bons resultados reduzindo ou removendo blocos FFN tradicionais.

Segundo o resumo do artigo, a variante Nano atinge 76,41% de acurácia no CIFAR-100 com 1,4 milhão de parâmetros. A variante Base é reportada com 78,05%. Esses números são interessantes, mas devem ser lidos como resultados iniciais de uma proposta recente, não como uma lei universal da arquitetura neural.

Essa cautela é importante por três motivos:

o artigo é recente e ainda precisa de reprodução independente ampla;
os resultados dependem dos conjuntos de dados, escalas e baselines escolhidos;
arquiteturas neurais costumam envelhecer rapidamente quando novas comparações aparecem.

Ainda assim, a ideia é intelectualmente elegante: em vez de empilhar blocos que primeiro misturam espacialmente e depois misturam canais, podemos tentar uma interação que já combine coerência e estrutura em uma única operação.

Complexidade Linear e Topologia 2D

Outro ponto relevante da CliffordNet é a preocupação com eficiência. O mecanismo de atenção global dos Vision Transformers tem custo quadrático em relação ao número de tokens. Se uma imagem é quebrada em muitos patches, cada patch pode atender a todos os outros, gerando uma matriz de atenção grande.

\[\mathcal{O}(N^2)\]

No caso da CliffordNet, os autores argumentam que a interação pode ser implementada com complexidade linear em relação ao número de posições:

\[\mathcal{O}(N)\]

Isso ocorre por meio de uma estratégia chamada sparse rolling interaction. Em vez de calcular todas as interações possíveis entre canais, a rede usa deslocamentos cíclicos esparsos para capturar fatias do produto geométrico. A ideia lembra olhar para diagonais específicas de uma matriz de interações, em vez de materializar a matriz inteira.

Há também uma diferença conceitual importante. Vision Transformers costumam achatar a imagem em uma sequência de patches. Isso permite usar a mesma maquinaria de sequências que funciona tão bem em linguagem, mas enfraquece a estrutura 2D nativa da imagem. A CliffordNet, por outro lado, preserva a grade bidimensional durante o processamento.

A persistente leitora que acompanhou nossa jornada pelos Transformers perceberá a tensão: transformar tudo em sequência simplifica o projeto, mas pode cobrar um preço geométrico. A proposta da CliffordNet é manter a imagem como imagem por mais tempo.

Um Exemplo Simples em C++

O exemplo a seguir não implementa uma Álgebra Geométrica completa. Ele serve apenas para construir intuição em três dimensões. Usaremos a biblioteca Eigen para calcular:

o produto escalar, que mede alinhamento;
o produto vetorial, que em 3D corresponde ao dual do bivetor gerado pelo produto exterior.

Esse cuidado é importante: em três dimensões, é comum representar a orientação do plano por um vetor perpendicular ao plano. Esse vetor é útil, mas não é literalmente o bivetor. Ele é uma representação dual conveniente.

#include <Eigen/Dense>
#include <iostream>

/**
 * Demonstra a decomposição intuitiva da relação entre dois vetores.
 *
 * O produto escalar mede alinhamento. O produto vetorial em 3D é usado aqui
 * como representação dual do bivetor associado ao produto exterior.
 */
class GeometricProductDemo {
public:
    static void compute(const Eigen::Vector3d& u, const Eigen::Vector3d& v) {
        const double inner_product = u.dot(v);
        const Eigen::Vector3d bivector_dual = u.cross(v);

        std::cout << "u = [" << u.transpose() << "]\n";
        std::cout << "v = [" << v.transpose() << "]\n\n";

        std::cout << "Produto escalar, u . v: "
                  << inner_product << "\n";

        std::cout << "Dual do produto exterior, u ^ v, em 3D: ["
                  << bivector_dual.transpose() << "]\n";
    }
};

int main() {
    const Eigen::Vector3d u(1.0, 0.0, 0.0);
    const Eigen::Vector3d v(0.0, 1.0, 0.0);

    GeometricProductDemo::compute(u, v);

    return 0;
}

Para esses vetores, o produto escalar será zero, pois eles são ortogonais. Mas o dual do produto exterior não será zero:

Produto escalar, u . v: 0
Dual do produto exterior, u ^ v, em 3D: [0 0 1]

O resultado $[0, 0, 1]$ indica a orientação perpendicular ao plano formado por $u$ e $v$. O ponto pedagógico é simples: mesmo quando o alinhamento escalar desaparece, a relação geométrica entre os vetores ainda contém informação.

O Que Este Artigo Não Está Dizendo

Antes de concluir, vale proteger a leitora de três interpretações apressadas.

Primeiro, Álgebra Geométrica não substitui álgebra linear. Ela a amplia. Matrizes, vetores, produtos escalares e transformações lineares continuam sendo ferramentas fundamentais.

Segundo, CliffordNet não prova que “geometria é tudo que você precisa” em qualquer problema. O título do artigo faz uma provocação, como muitos títulos em aprendizado profundo fazem. A contribuição real está em mostrar que uma interação inspirada no produto geométrico pode ser competitiva em certos cenários de visão computacional.

Terceiro, preservar mais estrutura não é automaticamente melhor. Mais estrutura também pode significar mais complexidade, mais escolhas arquiteturais e mais dificuldade de interpretação. A pergunta correta não é “essa matemática é mais bonita?”, mas sim: ela melhora o compromisso entre expressividade, eficiência e generalização?

Conclusão

O produto escalar foi uma das grandes engrenagens da inteligência artificial moderna. Ele é simples, eficiente e aparece em quase todos os lugares: similaridade, busca vetorial, atenção, classificadores lineares e muito mais.

Mas simplicidade tem custo. Quando reduzimos a relação entre dois vetores a um escalar, perdemos informação sobre orientação, área e estrutura geométrica. A Álgebra Geométrica oferece uma maneira de recuperar parte dessa riqueza por meio do produto geométrico:

\[uv = u \cdot v + u \wedge v\]

A CliffordNet explora essa ideia em redes neurais, tentando combinar coerência e variação estrutural em uma única interação eficiente. Seu resultado mais interessante talvez não seja um número de acurácia, mas a pergunta que ela recoloca sobre a mesa:

será que algumas arquiteturas neurais são pesadas porque suas operações fundamentais descartam informação demais cedo demais?

Esta pergunta merece atenção. Talvez nem todas as respostas venham da Álgebra Geométrica. Mas, quando uma boa pergunta aparece, a curiosa leitora sabe que vale a pena segui-la por algum tempo.

Referências

[1] JI, Zhongping. CliffordNet: All You Need is Geometric Algebra. arXiv:2601.06793, 2026. Disponível em: https://arxiv.org/abs/2601.06793.

[2] RUHE, David; BRANDSTETTER, Johannes; FORRÉ, Patrick. Clifford Group Equivariant Neural Networks. arXiv:2305.11141, 2023. Disponível em: https://arxiv.org/abs/2305.11141.

[3] DORST, Leo; FONTIJNE, Daniel; MANN, Stephen. Geometric Algebra for Computer Science: An Object-Oriented Approach to Geometry. Morgan Kaufmann, 2007.

[4] HITZER, Eckhard. Introduction to Clifford’s Geometric Algebra. arXiv:1306.1660, 2013. Disponível em: https://arxiv.org/abs/1306.1660.

02 Jul 2026

Inteligência Artificial

« Educação e Teoria dos Jogos: Sumário Executivo Seu Programa Não Começa na main »