Quando conduzimos regressões lineares, precisamos observar uma série de pressupostos em nossos dados. Neste post, falaremos sobre a multicolinearidade, um aspecto que precisamos avaliar quando conduzimos esse tipo de técnica estatística.
Primeiramente, vamos entender o que é a multicolinearidade e como ela pode surgir a partir de dados observacionais ou da criação de variáveis compostas. Em seguida, veremos exemplos de modelos com e sem multicolinearidade, exploraremos métodos de diagnóstico como VIF e tolerância, e finalizaremos com estratégias para lidar com esse problema nos modelos de regressão.
O que é multicolinearidade?
A multicolinearidade, ou dependência aproximadamente linear, ocorre quando duas ou mais variáveis preditoras de um modelo de regressão múltipla estão fortemente correlacionadas entre si. Em outras palavras, há redundância de informação entre as variáveis preditoras.
Esse fenômeno pode se manifestar de diversas formas. Na multicolinearidade baseada em dados, os preditores estão naturalmente relacionados, possivelmente em decorrência da natureza observacional do estudo.
Por exemplo, suponha que usemos as variáveis preditoras horas semanais de trabalho e número de projetos simultâneos para predizer nível de estresse no trabalho. No entanto, as variáveis preditoras provavelmente estão fortemente correlacionadas: quem tem carga horária de trabalho maior também está envolvido em mais projetos.
Por outro lado, a multicolinearidade estrutural emerge a partir da criação de novas variáveis no banco de dados. Por exemplo, suponha que usemos as variáveis peso (em kg), altura (em metros) e e índice de massa corporal (IMC) para predizer pressão arterial sistólica.
No entanto, IMC = peso / (altura)². Sendo assim, como o IMC é calculado com base nas demais variáveis preditoras, essa variável automaticamente terá forte correlação com as demais preditoras — um possível problema de multicolinearidade.
Mas por que se preocupar com a multicolinearidade? Em síntese, os coeficientes do modelo podem mudar drasticamente quando incluímos ou excluímos uma variável que apresenta multicolinearidade com as demais. Além disso, coeficientes teoricamente relevantes podem apresentar erros-padrões elevados, diminuindo a probabilidade de detectarmos um preditor estatisticamente significativo da variável critério.
Note que o pressuposto estatístico da regressão múltipla é de ausência de multicolinearidade. Em geral, o pesquisador só identifica a multicolinearidade após aplicar testes apropriados aos dados já coletados. Portanto, é fundamental conhecer os sinais de alerta e utilizar ferramentas de diagnóstico confiáveis.

Exemplos com e sem multicolinearidade
Preditores sem multicolinearidade
A fim de ilustrar na prática o conceito de multicolinearidade, consideraremos dois diferentes cenários. Primeiramente, consideraremos o cenário em que usaremos as variáveis preditoras X1 e X2 para predizer a variável critério Y1. A Figura 1 apresenta os diagramas de dispersão mostrando as correlações bivariadas entre os pares de variáveis.

O cenário anterior é o que almejamos em nossas pesquisas: as variáveis preditoras estão correlacionadas com a variável critério, mas não entre si. Dado que as variáveis X1 e X2 são ortogonais, provavelmente elas explicarão porções únicas da variância da variável critério Y1.
Isso é ilustrado na Figura 2, onde mostramos os coeficientes de três modelos de regressão.

Nos Modelos 1 e 2, as variáveis preditoras X1 e X2 predizem significativamente Y1. Mais importante, no Modelo 3, onde X1 e X2 são incluídas em um mesmo modelo, ambas seguem predizendo Y1, com pequenas mudanças nos valores dos coeficientes e de seus respectivos erros-padrões.
Preditores com multicolinearidade
Em seguida, consideraremos o cenário em que usaremos as variáveis preditoras X3 e X4 para predizer a variável critério Y2. A Figura 3 apresenta os diagramas de dispersão mostrando as correlações bivariadas entre os pares de variáveis.

Os dois primeiros paineis sugerem que as variáveis X3 e X4 estão positivamente correlacionadas com a variável critério Y2. No entanto, o aspecto preocupante desses dados emerge no terceiro painel da Figura 3: as duas variáveis preditoras estão fortemente correlacionadas, r = 0,99, p < 0,001.
Similar ao que mostramos na seção anterior, a Figura 4 apresenta os coeficientes de três modelos de regressão, agora tomando Y2 como variável critério.

Nos Modelos 4 e 5, as variáveis preditoras X3 e X4 predizem significativamente Y2. Contudo, no Modelo 6, onde X3 e X4 são incluídas em um mesmo modelo, observamos três modificações: (1) os coeficientes mudam drasticamente na presença da outra preditora; (2) os erros-padrões são severamente inflacionados; e (3) um dos testes de hipóteses (para X3) indica ausência de significância estatística na predição de Y2.
Como diagnosticar a multicolinearidade?
Um dos primeiros indícios de multicolinearidade é a alta correlação entre variáveis preditoras (e.g., Figura 3, painel 3). No entanto, essa abordagem possui limitações. A avaliação da correlação é subjetiva e depende do contexto da pesquisa.
Por isso, usamos indicadores objetivos, como o fator de inflação de variância (variance inflation factor, VIF). O VIF indica quanto a variância do coeficiente de uma variável está inflada devido à correlação com outras variáveis do modelo. Um VIF maior que 5 indica preditores fortemente correlacionados, enquanto que um VIF maior que 10 indica um problema sério.
De modo complementar, a tolerância — definida como 1 menos o R² da regressão de uma variável sobre as demais — também é útil. Valores de tolerância abaixo de 0,20 geralmente indicam um problema em potencial. Dessa forma, a combinação de VIF e tolerância oferece um diagnóstico mais robusto.

Interpretando o VIF e a tolerância
O VIF mede diretamente o impacto da multicolinearidade na variância dos coeficientes. Por convenção, valores até 5 indicam correlação moderada, enquanto valores acima de 5 sugerem correlação elevada. Quando o VIF ultrapassa 10, o problema é considerado crítico.
Além disso, a raiz quadrada do VIF indica o aumento no erro-padrão do coeficiente associado. Por exemplo, um VIF de 9 implica que o erro padrão triplicou, tornando o coeficiente menos confiável.
Já a tolerância oferece uma perspectiva oposta: valores próximos de 1 indicam ausência de multicolinearidade. Em contrapartida, valores baixos mostram que a variável está explicada pelas demais, comprometendo sua utilidade analítica.
A Figura 5 reapresenta os Modelos 3 e 6, que introduzimos previamente. Note que, no Modelo 3, as estatísticas de tolerância e de VIF estão dentro dos valores esperados quando não temos multicolinearidade. Em contrapartida, no Modelo 6, os VIFs estão severamente inflacionados, e as tolerâncias estão muito baixas, o que sugerem multicolinearidade entre as preditoras.

Além disso, no Modelo 6, a raiz quadrada do VIF é de 8,22. Isso quer dizer que os erros-padrões de X3 e de X4 no Modelo 6 são aproximadamente 8 vezes maior do que esses mesmos erros-padrões nos Modelos 4 e 5, respectivamente (veja a Figura 4).
Portanto, interpretar esses indicadores com atenção é essencial para assegurar a estabilidade e a precisão do modelo de regressão.
Como corrigir a multicolinearidade?
Quando identificamos multicolinearidade elevada, devemos agir. A solução depende do objetivo do estudo e do conhecimento prévio sobre as variáveis envolvidas.
Uma estratégia simples é eliminar variáveis altamente correlacionadas. Com isso, o modelo torna-se mais parcimonioso. Outra possibilidade é aplicar análise de componentes principais, transformando variáveis correlacionadas em componentes ortogonais.
Além disso, métodos de regressão penalizada, como LASSO e Ridge, oferecem soluções eficientes. Essas abordagens reduzem o impacto da multicolinearidade ao penalizar coeficientes elevados.
Por fim, regressões específicas, como mínimos quadrados parciais, podem ser úteis em contextos com alta correlação entre preditores. Cada técnica apresenta vantagens distintas, exigindo uma escolha criteriosa conforme o contexto.

Referências
Daoud, J. I. (2017). Multicollinearity and regression analysis. Journal of Physics: Conference Series, 949, Article 012009. https://doi.org/10.1088/1742-6596/949/1/012009
Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.
Como citar este post
Lima, M. (2025, 24 de junho). Diagnóstico de multicolinearidade. Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/diagnostico-de-multicolinearidade/
