O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

Diagnóstico de multicolinearidade

Marcos Lima

jun 24, 2025

Quando conduzimos regressões lineares, precisamos observar uma série de pressupostos em nossos dados. Neste post, falaremos sobre a multicolinearidade, um aspecto que precisamos avaliar quando conduzimos esse tipo de técnica estatística.

Primeiramente, vamos entender o que é a multicolinearidade e como ela pode surgir a partir de dados observacionais ou da criação de variáveis compostas. Em seguida, veremos exemplos de modelos com e sem multicolinearidade, exploraremos métodos de diagnóstico como VIF e tolerância, e finalizaremos com estratégias para lidar com esse problema nos modelos de regressão.

O que é multicolinearidade?

A multicolinearidade, ou dependência aproximadamente linear, ocorre quando duas ou mais variáveis preditoras de um modelo de regressão múltipla estão fortemente correlacionadas entre si. Em outras palavras, há redundância de informação entre as variáveis preditoras.

Esse fenômeno pode se manifestar de diversas formas. Na multicolinearidade baseada em dados, os preditores estão naturalmente relacionados, possivelmente em decorrência da natureza observacional do estudo.

Por exemplo, suponha que usemos as variáveis preditoras horas semanais de trabalho e número de projetos simultâneos para predizer nível de estresse no trabalho. No entanto, as variáveis preditoras provavelmente estão fortemente correlacionadas: quem tem carga horária de trabalho maior também está envolvido em mais projetos.

Por outro lado, a multicolinearidade estrutural emerge a partir da criação de novas variáveis no banco de dados. Por exemplo, suponha que usemos as variáveis peso (em kg), altura (em metros) e e índice de massa corporal (IMC) para predizer pressão arterial sistólica.

No entanto, IMC = peso / (altura)². Sendo assim, como o IMC é calculado com base nas demais variáveis preditoras, essa variável automaticamente terá forte correlação com as demais preditoras — um possível problema de multicolinearidade.

Mas por que se preocupar com a multicolinearidade? Em síntese, os coeficientes do modelo podem mudar drasticamente quando incluímos ou excluímos uma variável que apresenta multicolinearidade com as demais. Além disso, coeficientes teoricamente relevantes podem apresentar erros-padrões elevados, diminuindo a probabilidade de detectarmos um preditor estatisticamente significativo da variável critério.

Note que o pressuposto estatístico da regressão múltipla é de ausência de multicolinearidade. Em geral, o pesquisador só identifica a multicolinearidade após aplicar testes apropriados aos dados já coletados. Portanto, é fundamental conhecer os sinais de alerta e utilizar ferramentas de diagnóstico confiáveis.

ebook Análises Bi e Multivariadas.

Exemplos com e sem multicolinearidade

Preditores sem multicolinearidade

A fim de ilustrar na prática o conceito de multicolinearidade, consideraremos dois diferentes cenários. Primeiramente, consideraremos o cenário em que usaremos as variáveis preditoras X1 e X2 para predizer a variável critério Y1. A Figura 1 apresenta os diagramas de dispersão mostrando as correlações bivariadas entre os pares de variáveis.

diagramas de dispersão sugerindo ausência de multicolinearidade.
Figura 1. Diagramas de dispersão mostrando correlações bivariadas: caso sem multicolinearidade entre preditores.

O cenário anterior é o que almejamos em nossas pesquisas: as variáveis preditoras estão correlacionadas com a variável critério, mas não entre si. Dado que as variáveis X1 e X2 são ortogonais, provavelmente elas explicarão porções únicas da variância da variável critério Y1.

Isso é ilustrado na Figura 2, onde mostramos os coeficientes de três modelos de regressão.

modelos de regressão sem multicolinearidade.
Figura 2. Modelos de regressão: caso sem multicolinearidade entre preditores.

Nos Modelos 1 e 2, as variáveis preditoras X1 e X2 predizem significativamente Y1. Mais importante, no Modelo 3, onde X1 e X2 são incluídas em um mesmo modelo, ambas seguem predizendo Y1, com pequenas mudanças nos valores dos coeficientes e de seus respectivos erros-padrões.

Preditores com multicolinearidade

Em seguida, consideraremos o cenário em que usaremos as variáveis preditoras X3 e X4 para predizer a variável critério Y2. A Figura 3 apresenta os diagramas de dispersão mostrando as correlações bivariadas entre os pares de variáveis.

diagramas de dispersão sugerindo multicolinearidade.
Figura 3. Diagramas de dispersão mostrando correlações bivariadas: caso com multicolinearidade entre preditores.

Os dois primeiros paineis sugerem que as variáveis X3 e X4 estão positivamente correlacionadas com a variável critério Y2. No entanto, o aspecto preocupante desses dados emerge no terceiro painel da Figura 3: as duas variáveis preditoras estão fortemente correlacionadas, r = 0,99, p < 0,001.

Similar ao que mostramos na seção anterior, a Figura 4 apresenta os coeficientes de três modelos de regressão, agora tomando Y2 como variável critério.

modelos de regressão com multicolinearidade.
Figura 4. Modelos de regressão: caso com multicolinearidade entre preditores.

Nos Modelos 4 e 5, as variáveis preditoras X3 e X4 predizem significativamente Y2. Contudo, no Modelo 6, onde X3 e X4 são incluídas em um mesmo modelo, observamos três modificações: (1) os coeficientes mudam drasticamente na presença da outra preditora; (2) os erros-padrões são severamente inflacionados; e (3) um dos testes de hipóteses (para X3) indica ausência de significância estatística na predição de Y2.

Como diagnosticar a multicolinearidade?

Um dos primeiros indícios de multicolinearidade é a alta correlação entre variáveis preditoras (e.g., Figura 3, painel 3). No entanto, essa abordagem possui limitações. A avaliação da correlação é subjetiva e depende do contexto da pesquisa.

Por isso, usamos indicadores objetivos, como o fator de inflação de variância (variance inflation factor, VIF). O VIF indica quanto a variância do coeficiente de uma variável está inflada devido à correlação com outras variáveis do modelo. Um VIF maior que 5 indica preditores fortemente correlacionados, enquanto que um VIF maior que 10 indica um problema sério.

De modo complementar, a tolerância — definida como 1 menos o R² da regressão de uma variável sobre as demais — também é útil. Valores de tolerância abaixo de 0,20 geralmente indicam um problema em potencial. Dessa forma, a combinação de VIF e tolerância oferece um diagnóstico mais robusto.

banner do canal da Psicometria Online no YouTube.

Interpretando o VIF e a tolerância

O VIF mede diretamente o impacto da multicolinearidade na variância dos coeficientes. Por convenção, valores até 5 indicam correlação moderada, enquanto valores acima de 5 sugerem correlação elevada. Quando o VIF ultrapassa 10, o problema é considerado crítico.

Além disso, a raiz quadrada do VIF indica o aumento no erro-padrão do coeficiente associado. Por exemplo, um VIF de 9 implica que o erro padrão triplicou, tornando o coeficiente menos confiável.

Já a tolerância oferece uma perspectiva oposta: valores próximos de 1 indicam ausência de multicolinearidade. Em contrapartida, valores baixos mostram que a variável está explicada pelas demais, comprometendo sua utilidade analítica.

A Figura 5 reapresenta os Modelos 3 e 6, que introduzimos previamente. Note que, no Modelo 3, as estatísticas de tolerância e de VIF estão dentro dos valores esperados quando não temos multicolinearidade. Em contrapartida, no Modelo 6, os VIFs estão severamente inflacionados, e as tolerâncias estão muito baixas, o que sugerem multicolinearidade entre as preditoras.

Figura 5. Estatísticas de multicolinearidade: tolerância (Tol) e fator de inflação de variância (VIF).

Além disso, no Modelo 6, a raiz quadrada do VIF é de 8,22. Isso quer dizer que os erros-padrões de X3 e de X4 no Modelo 6 são aproximadamente 8 vezes maior do que esses mesmos erros-padrões nos Modelos 4 e 5, respectivamente (veja a Figura 4).

Portanto, interpretar esses indicadores com atenção é essencial para assegurar a estabilidade e a precisão do modelo de regressão.

Como corrigir a multicolinearidade?

Quando identificamos multicolinearidade elevada, devemos agir. A solução depende do objetivo do estudo e do conhecimento prévio sobre as variáveis envolvidas.

Uma estratégia simples é eliminar variáveis altamente correlacionadas. Com isso, o modelo torna-se mais parcimonioso. Outra possibilidade é aplicar análise de componentes principais, transformando variáveis correlacionadas em componentes ortogonais.

Além disso, métodos de regressão penalizada, como LASSO e Ridge, oferecem soluções eficientes. Essas abordagens reduzem o impacto da multicolinearidade ao penalizar coeficientes elevados.

Por fim, regressões específicas, como mínimos quadrados parciais, podem ser úteis em contextos com alta correlação entre preditores. Cada técnica apresenta vantagens distintas, exigindo uma escolha criteriosa conforme o contexto.

banner da Psicometria Online Academy.

Referências

Daoud, J. I. (2017). Multicollinearity and regression analysis. Journal of Physics: Conference Series, 949, Article 012009. https://doi.org/10.1088/1742-6596/949/1/012009

Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.

Como citar este post

Lima, M. (2025, 24 de junho). Diagnóstico de multicolinearidade. Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/diagnostico-de-multicolinearidade/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

0 0 Votos
Classificação do artigo
Inscrever-se
Notificar de
guest

0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários

Posts sugeridos

O que é o teste de Wald-Wolfowitz?

Teste de esfericidade de Mauchly: o que é e para que serve?

O que é um mapa de calor de correlação?

Conteúdo

Mais lidos

Análise de moderação: como identificar potenciais variáveis moderadoras?

Modelagem por equações estruturais no R: conceitos e aplicações

O que são variáveis ​​independentes e dependentes?

O que é correlação de Pearson?

Postados recentemente

Qual é a diferença entre explicação e predição?

O que é o teste de esfericidade de Bartlett?

AFE não é horóscopo: o fim do “olhômetro” na Análise Fatorial

O que é o teste de Wald-Wolfowitz?

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias