O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

O que é multicolinearidade, como identificar e como lidar?

Bruno Damásio

maio 3, 2021

O que é multicolinearidade?

A multicolinearidade ocorre quando duas ou mais variáveis independentes de um modelo de regressão linear múltipla apresentam alta correlação entre si. Embora pareça apenas um detalhe técnico, esse fenômeno pode distorcer as estimativas dos coeficientes, prejudicar a interpretação dos resultados e comprometer a validade da análise.

Para entender o impacto, imagine que você deseja estimar os efeitos da renda, da escolaridade e do estado civil sobre a satisfação com a vida. No entanto, no Brasil, renda e escolaridade tendem a estar altamente correlacionadas — isto é, quem tem maior escolaridade tende a ter maior renda, e vice-versa.

Isso significa que o modelo pode ter dificuldade em distinguir a contribuição única de cada uma dessas variáveis em predizer a variável dependente.

Portanto, identificar e lidar com a multicolinearidade é essencial antes de interpretar os resultados de um modelo. Em seguida, explicamos como diagnosticar esse problema e quais são as estratégias mais eficazes para resolvê-lo.

Como identificar a multicolinearidade?

Saber o que é multicolinearidade ajuda o pesquisador a detectar seus sinais com mais precisão. Uma das formas mais simples de identificação é observar a matriz de correlação entre variáveis preditoras. Quando os coeficientes de correlação ultrapassam 0,70 ou, pior ainda, 0,80, há um alerta importante.

No entanto, a matriz de correlação captura apenas relações bivariadas. Por isso, usamos também o fator de inflação da variância (variance inflation factor, VIF), que mede quanto a variância de um coeficiente está inflada devido à correlação com outros preditores. VIFs entre 5 e 10 já indicam atenção; valores acima de 10 indicam um problema sério.

Vale destacar que o termo multicolinearidade se aplica a situações com três ou mais variáveis que apresentam relações altamente lineares entre si — com apenas duas variáveis, é conceitualmente mais preciso se falar em colinearidade. Assim, quanto maior o número de preditores correlacionados, mais crítico o problema se torna.

Saiba mais: Diagnóstico de multicolinearidade

banner do post sobre diagnóstico de multicolinearidade.

Como lidar com a multicolinearidade? Três estratégias úteis

Uma vez que você entenda o que é multicolinearidade e consiga identificá-la, o próximo passo é decidir como enfrentá-la. Em seguida, listamos três abordagens práticas.

Exclusão de variáveis redundantes

A abordagem mais direta é remover uma das variáveis correlacionadas. Como há redundância, a exclusão pode não prejudicar a análise. No entanto, é fundamental considerar o papel teórico da variável excluída, pois sua retirada pode comprometer a interpretação.

Por exemplo, suponha que um pesquisador esteja analisando fatores que influenciam o risco cardiovascular e inclua, entre os preditores, tanto o colesterol total quanto o LDL (lipoproteína de baixa densidade).

Como o LDL compõe grande parte do colesterol total, essas variáveis tendem a estar altamente correlacionadas. Sendo assim, excluir o colesterol total e manter apenas o LDL — que é considerado clinicamente mais específico para o risco cardiovascular — pode ser uma decisão estatística e teoricamente justificada.

Redução de dimensionalidade

Outra alternativa é agrupar as variáveis correlacionadas por meio de técnicas como a análise de componentes principais. Em vez de várias variáveis altamente correlacionadas, você passa a usar um único escore composto. Isso torna o modelo mais parcimonioso, embora se perca a interpretação individual de cada preditor.

Imagine que você está interessado em prever o índice de produtividade de profissionais a partir de variáveis como número de horas trabalhadas por semana, número de projetos em andamento, frequência de reuniões e tempo médio de dedicação por projeto. Essas variáveis mensuram diferentes aspectos do volume de trabalho e tendem a estar altamente correlacionadas entre si.

Como elas representam dimensões complementares de um mesmo construto (carga de trabalho), faz sentido aplicar uma análise de componentes principais. O resultado seria um único escore que resume essa carga, eliminando a multicolinearidade e mantendo a essência formativa do modelo — ainda que a contribuição individual de cada variável se torne menos evidente.

Modelagem por equações estruturais

Por fim, se o objetivo for manter todas as variáveis no modelo, mesmo que correlacionadas, uma saída sofisticada é a modelagem por equações estruturais. Essa abordagem permite estimar diretamente a correlação entre preditores (como uma seta bidirecional entre renda e escolaridade; Figura 2) e isolar seus efeitos sobre a variável dependente. Assim, o modelo é “purificado”, sem distorções causadas pela multicolinearidade.

modelagem por equações estruturais e controle de multicolinearidade.
Figura 1. Exemplo de diagrama de caminho, um tipo de modelo de equações estruturais.

Conclusão

Gostou deste conteúdo? Então aproveite e também se inscreva em nosso canal do YouTube para ficar por dentro de nossas novidades.

Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Como citar este post

Damásio, B. (2021, 3 de maio). O que é multicolinearidade, como identificar e como lidar? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-multicolinearidade/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

Diagnóstico de multicolinearidade

Reamostragem e o método bootstrap

Assimetria e curtose: um guia completo

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é correlação de Spearman?

Postados recentemente

Diagnóstico de multicolinearidade

Você precisa conhecer o FACTOR

O que é a distância de Cook?

O que é exploratory graph analysis?

Deseja se tornar completamente independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias