Neste post, vamos abordar a multicolinearidade entre as variáveis explicativas no modelo de regressão linear múltipla. Seus efeitos sobre o modelo de regressão linear e alguns diagnósticos de multicolinearidade para este modelo são apresentados.
O que é multicolinearidade?
A Multicolinearidade, ou dependência quase linear, é um fenômeno estatístico em que duas ou mais variáveis preditoras em um modelo de regressão múltipla estão altamente correlacionadas.
A multicolinearidade pode ser observada nos seguintes casos: i) Grandes mudanças nos coeficientes estimados quando uma variável é adicionada ou excluída. ii) Grandes mudanças nos coeficientes quando um ponto de dados é alterado ou excluído.
A multicolinearidade pode estar presente se:
i) Os sinais algébricos dos coeficientes estimados não estiverem de acordo com a expectativa prévia; ou ii) Coeficientes de variáveis que se esperam ser importantes têm grandes erros padrão (pequenos valores de t).
Na verdade, o pesquisador não tem ferramentas para conhecer a multicolinearidade a menos que os dados tenham sido coletados e sejam aplicadas técnicas para o diagnóstico da multicolinearidade.
Diagnóstico de multicolinearidade
Existem vários indícios de multicolinearidade na análise, a primeira é a correlação entre preditores é grande. Porém, confiar apenas na correlação entre pares de preditores tem limitações, pois o valor pequeno ou grande da correlação é algo subjetivo, dependendo do indivíduo e também do campo de pesquisa.
Por isso, na maioria das vezes, para detectar a multicolinearidade, usamos um indicador chamado fatores de inflação da variância (VIF).
Variance Inflation Factors (VIF )
Quando existe correlação entre os preditores, o erro padrão dos coeficientes dos preditores aumenta e, consequentemente, a variância dos coeficientes dos preditores é inflada.
O VIF é uma ferramenta para medir e quantificar o quanto a variância está inflada. Os VIFs geralmente são calculados pelo software como parte da análise de regressão e aparecerão na coluna VIF como parte do resultado.
Para interpretar o valor do VIF, a seguinte regra é usada: VIF = 1 “não correlacionado; VIF maior do que 1 e igual ou menor do que 5 “moderadamente correlacionado” e VIF mais do que 5 “altamente correlacionado”
Além do significado do próprio VIF em mostrar se os preditores estão correlacionados, a raiz quadrada do VIF indica o quanto maior é o erro padrão. Por exemplo, se VIF = 9, isso significa que o erro padrão para o coeficiente desse preditor é 3 vezes maior do que seria se esse preditor não estivesse correlacionado com outros preditores.
Você também pode examinar os valores de tolerância. Valores de tolerância, no contexto da regressão linear, são uma medida usada para avaliar a colinearidade entre as variáveis independentes.
A Tolerância pode ser definida como a quantidade de variabilidade em uma variável independente que não é explicada pelas outras variáveis independentes, e é de fato 1 – R².
- Um valor de tolerância próximo de 1 indica que a variável independente não está linearmente relacionada com as outras variáveis independentes, ou seja, há pouca ou nenhuma multicolinearidade.
- Por outro lado, um valor de tolerância baixo (geralmente considera-se um valor abaixo de 0.1 ou 0.2 como preocupante) sugere que a variável em questão está altamente correlacionada com outras variáveis no modelo, indicando a presença de multicolinearidade.
Valores de tolerância baixos podem ser problemáticos porque indicam que as variáveis independentes estão fornecendo informações sobrepostas, o que pode distorcer ou inflar as estimativas dos coeficientes e afetar a precisão do modelo de regressão.
Valores de tolerância inferiores a 0,10 indicam colinearidade. Se descobrirmos colinearidade na saída da regressão, devemos rejeitar a interpretação das relações e resolver o problema de (multi)colineariedade.
O que fazer quando meu modelo apresenta multicolineriedade?
No pior caso, se as variáveis estiverem perfeitamente correlacionadas, a regressão não pode ser computada. Por outro lado, se a multicolinearidade nos dados for alta, então você precisará avaliar qual é a melhor opção para corrigi-la, considerando seus objetivos e conhecimento prévio da área de estudo. Algumas opções são:
- Eliminar algumas das variáveis independentes que estão altamente correlacionadas. Isso pode simplificar o modelo ao reduzir a redundância.
- Combinar linearmente as variáveis independentes, por exemplo, realizar uma Análise de Componentes Principais (PCA) para criar novos preditores independentes e, em seguida, reajustar o modelo de regressão com eles.
- Realizar uma análise projetada para variáveis altamente correlacionadas, como a regressão de mínimos quadrados parciais. Este método pode ser útil quando as variáveis independentes estão correlacionadas e deseja-se prever uma variável dependente.
- Realizar uma regressão que possa lidar com a multicolinearidade, como LASSO (Least Absolute Shrinkage and Selection Operator) e a regressão de Ridge. Estes métodos incluem uma penalidade nos coeficientes de regressão para reduzir o impacto da multicolinearidade.
Conclusão
A multicolineariedade, definida pela forte correlação entre duas ou mais variáveis independentes, pode ser identificada utilizando ferramentas diagnósticas como Fatores de Inflação da Variância (VIF) e tolerância.
Embora uma pequena multicolineariedade possa ser aceitável, níveis elevados trazem sérias complicações. Eles podem tornar as estimativas dos coeficientes instáveis e aumentar os erros padrões, o que dificulta a interpretação e a confiabilidade dos resultados do modelo. Essa distorção na análise de regressão afeta a precisão das previsões e a validade das conclusões inferenciais.
Para mitigar a multicolineariedade, pode-se remover variáveis altamente correlacionadas, combinar variáveis através da Análise de Componentes Principais (PCA), ou aplicar métodos de regressão como LASSO e regressão de Ridge, que são mais tolerantes à multicolineariedade.
A compreensão e o gerenciamento eficaz da multicolineariedade são essenciais para assegurar a integridade e aplicabilidade dos modelos de regressão.
Isso é crucial não apenas para a precisão analítica, mas também para garantir que as conclusões e previsões baseadas em tais modelos sejam válidas e confiáveis. Portanto, uma abordagem cuidadosa e informada é indispensável no uso de modelos de regressão em qualquer contexto de pesquisa e análise de dados.
Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Referência
Daoud, J. I. (2017). Multicollinearity and Regression Analysis. Journal of Physics: Conference Series, 949 012009.
Como citar este post
França, A. (2023, 10 de dezembro). Diagnóstico de multicolinearidade. Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/diagnostico-de-multicolinearidade/