O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

O que é análise de correspondência?

Bruno Damásio

jun 2, 2021

Neste post, falaremos sobre análise de correspondência. Primeiramente, explicaremos o que é essa técnica estatística e como ela pode ser utilizada para identificar associações entre variáveis categóricas. Em seguida, descreveremos os tipos mais comuns de análise de correspondência, incluindo exemplos práticos e opções de software. Por fim, abordaremos como é realizado o cálculo de similaridade que dá origem aos gráficos, além de destacar algumas limitações importantes da técnica.

O que é análise de correspondência?

A análise de correspondência (correspondence analysis) é uma técnica exploratória que simplifica a estrutura de dados multivariados. Ela é especialmente útil quando lidamos com variáveis categóricas organizadas em tabelas de contingência. Em síntese, a técnica avalia medidas de correspondência entre as linhas e as colunas da matriz de dados.

Com isso, é possível gerar gráficos baseados nos componentes principais das linhas e colunas. Esses gráficos revelam relações entre os grupos analisados: quanto mais próximos estiverem os pontos de linha e coluna, maior é a associação entre eles. Em contrapartida, o distanciamento indica repulsão ou ausência de relação.

Desse modo, a análise responde à seguinte pergunta: quais são os perfis ou agrupamentos gerados pela associação entre duas ou mais variáveis categóricas, sejam elas nominais ou ordinais?

Por exemplo, a Figura 1 fornece um exemplo de um gráfico de análise de correspondência gerado com dados sobre as características de alguns animais.

Figura 1. Exemplo de biplot de análise de correspondência.

Tipos de análise de correspondência

Resumidamente, existem dois principais tipos de análise de correspondência:

  • Análise de correspondência simples (AC): utilizada para duas variáveis categóricas.
  • Análise de correspondência múltipla (ACM): aplicada quando há mais de duas variáveis categóricas.

Ambas podem ser realizadas no SPSS. No entanto, há boas notícias para quem não possui esse software. O jamovi, um pacote estatístico gratuito e com interface amigável (disponível em jamovi.org), lançou recentemente o pacote snowCluster. Esse pacote permite a execução da análise de correspondência. Apesar disso, recomendamos utilizá-lo apenas para AC simples, já que a execução da ACM ainda apresenta instabilidades.

banner da Psicometria Online Academy.

Entendendo o cálculo na análise de correspondência

Embora o cálculo envolvido na análise de correspondência seja complexo, é possível compreender a lógica básica por trás da conta da similaridade. Essa medida é fundamental a fim de construir os eixos que compõem o gráfico final.

A tabela de contingência

Vamos imaginar duas variáveis categóricas:

  • Grupo: A, B e C.
  • Idade: jovens, adultos e idosos.

Com isso, temos uma tabela de contingência tal como a da Tabela 1.

ABCTotal
Jovensn11n12n13L1
Adultosn21n22n23L2
Idososn31n32n33L3
TotalC1C2C3Total
Tabela 1. Tabela de contingência do exemplo.

Cada valor n representa o número de participantes que pertencem simultaneamente às duas categorias. Por exemplo, n11 indica o número de jovens no grupo A.

Além disso, L1, L2 e L3, representam as somatórias das linhas, enquanto C1, C2 e C3 representam as somatórias das colunas. Por fim, na célula no canto inferior direito, temos o total geral da tabela de contingência.

Veja também: O que é teste qui-quadrado de independência?

banner do post sobre teste qui-quadrado de independência.

Perfil da linha e perfil da coluna

Em seguida, geramos a tabela do perfil da linha. Por exemplo, se queremos saber o perfil da linha da célula n11 — isto é, o percentual da linha que a célula n11 representa —, devemos calcular n11/L1. De forma genérica:

análise de correspondência, perfil da linha.

O cálculo desse valor para todos os ns gera a tabela do perfil da linha. Em seguida, queremos obter os mesmos percentuais para a tabela do perfil da coluna. Por exemplo, se queremos saber o perfil da coluna da célula n11 — isto é, o percentual da linha que a célula n11 representa —, devemos calcular n11/C1. De forma genérica:

análise de correspondência, perfil da coluna.

Agora, ainda com os dados da tabela de contingência, calcularemos outros dois dados importantes. Primeiramente, calculamos a média do perfil da linha:

análise de correspondência, média do perfil da linha.

Em seguida, calculamos a média do perfil da coluna:

análise de correspondência, média do perfil da coluna.

Cálculo da similaridade

Com os perfis obtidos, partimos para o cálculo da similaridade, representada por d². Essa medida expressa a distância entre os perfis, sendo essencial para gerar as coordenadas do gráfico. O valor de d² é dado por:

análise de correspondência, cálculo da similaridade.

Por exemplo, para calcular a similaridade entre n11 e n21, comparamos seus perfis em relação às médias da linha e da coluna (Figura 2).

tabela de contingência e cálculo de similaridade entre células.
Figura 2. Representação esquemática da tabela de contingência destacando a similaridade entre as células n11 e n21.

Esse cálculo é feito pela seguinte fórmula:

fórmula da similaridade.

É importante notar que os valores de similaridade são calculados separadamente para linhas e colunas. Quando o d² é pequeno, isso indica que ambas as categorias compartilham padrões semelhantes — portanto, estão próximas no gráfico.

Geração das coordenadas e do gráfico

A partir dos valores de similaridade, obtemos coordenadas em eixos x e y. Assim, construímos tabelas com as dimensões correspondentes para cada variável.

Por exemplo, para a variável grupo, temos as estatísticas representadas na Figura 3.

representação esquemática do eigenvalue, da inércia e da massa.
Figura 3. Eigenvalue, inércia e massa.

Com a variável idade, temos uma tabela semelhante. A apresentação dos resultados inclui o gráfico da análise de correspondência, acompanhado da inércia e do valor próprio (eigenvalue) em cada eixo.

Naturalmente, esses cálculos se tornam ainda mais complexos em uma análise de correspondência múltipla.

Limitações da análise de correspondência

Por fim, vale destacar uma limitação importante: a análise de correspondência revela associações dentro de um mesmo conjunto de dados. Portanto, não é adequado comparar distâncias entre gráficos obtidos com diferentes bases de dados.

Conclusão

Gostou deste conteúdo? Então aproveite e também se inscreva em nosso canal do YouTube para ficar por dentro de nossas novidades.

Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Infantosi, A. F. C., Costa, J. C. D. G. D., & Almeida, R. M. V. R. D. (2014). Análise de correspondência: Bases teóricas na interpretação de dados categóricos em Ciências da Saúde. Cadernos de Saúde Pública30, 473-486. https://doi.org/10.1590/0102-311X00128513

Como citar este post

Damásio, B. (2021, 2 de junho). O que é análise de correspondência? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/analise-de-correspondencia/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

O que significa soma dos quadrados, em estatística?

O que é modelo linear geral?

O que é o tamanho de efeito em linguagem comum (common language effect size)?

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é correlação de Spearman?

Postados recentemente

O que significa soma dos quadrados, em estatística?

Como inverter itens no SPSS?

O algoritmo k-means clustering

Tudo que você precisa saber sobre inversão de itens de instrumentos de autorrelato

Deseja se tornar completamente independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias