Neste post, falaremos sobre análise de correspondência. Primeiramente, explicaremos o que é essa técnica estatística e como ela pode ser utilizada para identificar associações entre variáveis categóricas. Em seguida, descreveremos os tipos mais comuns de análise de correspondência, incluindo exemplos práticos e opções de software. Por fim, abordaremos como é realizado o cálculo de similaridade que dá origem aos gráficos, além de destacar algumas limitações importantes da técnica.
O que é análise de correspondência?
A análise de correspondência (correspondence analysis) é uma técnica exploratória que simplifica a estrutura de dados multivariados. Ela é especialmente útil quando lidamos com variáveis categóricas organizadas em tabelas de contingência. Em síntese, a técnica avalia medidas de correspondência entre as linhas e as colunas da matriz de dados.
Com isso, é possível gerar gráficos baseados nos componentes principais das linhas e colunas. Esses gráficos revelam relações entre os grupos analisados: quanto mais próximos estiverem os pontos de linha e coluna, maior é a associação entre eles. Em contrapartida, o distanciamento indica repulsão ou ausência de relação.
Desse modo, a análise responde à seguinte pergunta: quais são os perfis ou agrupamentos gerados pela associação entre duas ou mais variáveis categóricas, sejam elas nominais ou ordinais?
Por exemplo, a Figura 1 fornece um exemplo de um gráfico de análise de correspondência gerado com dados sobre as características de alguns animais.

Tipos de análise de correspondência
Resumidamente, existem dois principais tipos de análise de correspondência:
- Análise de correspondência simples (AC): utilizada para duas variáveis categóricas.
- Análise de correspondência múltipla (ACM): aplicada quando há mais de duas variáveis categóricas.
Ambas podem ser realizadas no SPSS. No entanto, há boas notícias para quem não possui esse software. O jamovi, um pacote estatístico gratuito e com interface amigável (disponível em jamovi.org), lançou recentemente o pacote snowCluster. Esse pacote permite a execução da análise de correspondência. Apesar disso, recomendamos utilizá-lo apenas para AC simples, já que a execução da ACM ainda apresenta instabilidades.

Entendendo o cálculo na análise de correspondência
Embora o cálculo envolvido na análise de correspondência seja complexo, é possível compreender a lógica básica por trás da conta da similaridade. Essa medida é fundamental a fim de construir os eixos que compõem o gráfico final.
A tabela de contingência
Vamos imaginar duas variáveis categóricas:
- Grupo: A, B e C.
- Idade: jovens, adultos e idosos.
Com isso, temos uma tabela de contingência tal como a da Tabela 1.
| A | B | C | Total | |
| Jovens | n11 | n12 | n13 | L1 |
| Adultos | n21 | n22 | n23 | L2 |
| Idosos | n31 | n32 | n33 | L3 |
| Total | C1 | C2 | C3 | Total |
Cada valor n representa o número de participantes que pertencem simultaneamente às duas categorias. Por exemplo, n11 indica o número de jovens no grupo A.
Além disso, L1, L2 e L3, representam as somatórias das linhas, enquanto C1, C2 e C3 representam as somatórias das colunas. Por fim, na célula no canto inferior direito, temos o total geral da tabela de contingência.
Veja também: O que é teste qui-quadrado de independência?

Perfil da linha e perfil da coluna
Em seguida, geramos a tabela do perfil da linha. Por exemplo, se queremos saber o perfil da linha da célula n11 — isto é, o percentual da linha que a célula n11 representa —, devemos calcular n11/L1. De forma genérica:

O cálculo desse valor para todos os ns gera a tabela do perfil da linha. Em seguida, queremos obter os mesmos percentuais para a tabela do perfil da coluna. Por exemplo, se queremos saber o perfil da coluna da célula n11 — isto é, o percentual da linha que a célula n11 representa —, devemos calcular n11/C1. De forma genérica:

Agora, ainda com os dados da tabela de contingência, calcularemos outros dois dados importantes. Primeiramente, calculamos a média do perfil da linha:

Em seguida, calculamos a média do perfil da coluna:

Cálculo da similaridade
Com os perfis obtidos, partimos para o cálculo da similaridade, representada por d². Essa medida expressa a distância entre os perfis, sendo essencial para gerar as coordenadas do gráfico. O valor de d² é dado por:

Por exemplo, para calcular a similaridade entre n11 e n21, comparamos seus perfis em relação às médias da linha e da coluna (Figura 2).

Esse cálculo é feito pela seguinte fórmula:

É importante notar que os valores de similaridade são calculados separadamente para linhas e colunas. Quando o d² é pequeno, isso indica que ambas as categorias compartilham padrões semelhantes — portanto, estão próximas no gráfico.
Geração das coordenadas e do gráfico
A partir dos valores de similaridade, obtemos coordenadas em eixos x e y. Assim, construímos tabelas com as dimensões correspondentes para cada variável.
Por exemplo, para a variável grupo, temos as estatísticas representadas na Figura 3.

Com a variável idade, temos uma tabela semelhante. A apresentação dos resultados inclui o gráfico da análise de correspondência, acompanhado da inércia e do valor próprio (eigenvalue) em cada eixo.
Naturalmente, esses cálculos se tornam ainda mais complexos em uma análise de correspondência múltipla.
Limitações da análise de correspondência
Por fim, vale destacar uma limitação importante: a análise de correspondência revela associações dentro de um mesmo conjunto de dados. Portanto, não é adequado comparar distâncias entre gráficos obtidos com diferentes bases de dados.
Conclusão
Gostou deste conteúdo? Então aproveite e também se inscreva em nosso canal do YouTube para ficar por dentro de nossas novidades.
Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Referências
Infantosi, A. F. C., Costa, J. C. D. G. D., & Almeida, R. M. V. R. D. (2014). Análise de correspondência: Bases teóricas na interpretação de dados categóricos em Ciências da Saúde. Cadernos de Saúde Pública, 30, 473-486. https://doi.org/10.1590/0102-311X00128513
Como citar este post
Damásio, B. (2021, 2 de junho). O que é análise de correspondência? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/analise-de-correspondencia/
