Receba gratuitamente todos os nossos conteúdos.

Fique por dentro das novidades e oportunidades referentes à Psicometria e Análise Quantitativa de Dados.

Diagnóstico de multicolinearidade

Neste post, vamos abordar a multicolinearidade entre as variáveis explicativas no modelo de regressão linear múltipla. Seus efeitos sobre o modelo de regressão linear e alguns diagnósticos de multicolinearidade para este modelo são apresentados.

O que é multicolinearidade?

A Multicolinearidade, ou dependência quase linear, é um fenômeno estatístico em que duas ou mais variáveis preditoras em um modelo de regressão múltipla estão altamente correlacionadas.

A multicolinearidade pode ser observada nos seguintes casos: i) Grandes mudanças nos coeficientes estimados quando uma variável é adicionada ou excluída. ii) Grandes mudanças nos coeficientes quando um ponto de dados é alterado ou excluído.

A multicolinearidade pode estar presente se:

i) Os sinais algébricos dos coeficientes estimados não estiverem de acordo com a expectativa prévia; ou ii) Coeficientes de variáveis que se esperam ser importantes têm grandes erros padrão (pequenos valores de t).

Na verdade, o pesquisador não tem ferramentas para conhecer a multicolinearidade a menos que os dados tenham sido coletados e sejam aplicadas técnicas para o diagnóstico da multicolinearidade.

Diagnóstico de multicolinearidade

Existem vários indícios de multicolinearidade na análise, a primeira é a correlação entre preditores é grande. Porém, confiar apenas na correlação entre pares de preditores tem limitações, pois o valor pequeno ou grande da correlação é algo subjetivo, dependendo do indivíduo e também do campo de pesquisa.

Por isso, na maioria das vezes, para detectar a multicolinearidade, usamos um indicador chamado fatores de inflação da variância (VIF).

Variance Inflation Factors (VIF )

Quando existe correlação entre os preditores, o erro padrão dos coeficientes dos preditores aumenta e, consequentemente, a variância dos coeficientes dos preditores é inflada.

O VIF é uma ferramenta para medir e quantificar o quanto a variância está inflada. Os VIFs geralmente são calculados pelo software como parte da análise de regressão e aparecerão na coluna VIF como parte do resultado.

Para interpretar o valor do VIF, a seguinte regra é usada: VIF = 1 “não correlacionado; VIF maior do que 1 e igual ou menor do que 5 “moderadamente correlacionado” e VIF mais do que 5 “altamente correlacionado”

Além do significado do próprio VIF em mostrar se os preditores estão correlacionados, a raiz quadrada do VIF indica o quanto maior é o erro padrão. Por exemplo, se VIF = 9, isso significa que o erro padrão para o coeficiente desse preditor é 3 vezes maior do que seria se esse preditor não estivesse correlacionado com outros preditores.

Você também pode examinar os valores de tolerância. Valores de tolerância, no contexto da regressão linear, são uma medida usada para avaliar a colinearidade entre as variáveis independentes.

A Tolerância pode ser definida como a quantidade de variabilidade em uma variável independente que não é explicada pelas outras variáveis independentes, e é de fato 1 – R².

  • Um valor de tolerância próximo de 1 indica que a variável independente não está linearmente relacionada com as outras variáveis independentes, ou seja, há pouca ou nenhuma multicolinearidade.
  • Por outro lado, um valor de tolerância baixo (geralmente considera-se um valor abaixo de 0.1 ou 0.2 como preocupante) sugere que a variável em questão está altamente correlacionada com outras variáveis no modelo, indicando a presença de multicolinearidade.

Valores de tolerância baixos podem ser problemáticos porque indicam que as variáveis independentes estão fornecendo informações sobrepostas, o que pode distorcer ou inflar as estimativas dos coeficientes e afetar a precisão do modelo de regressão.

Valores de tolerância inferiores a 0,10 indicam colinearidade. Se descobrirmos colinearidade na saída da regressão, devemos rejeitar a interpretação das relações e resolver o problema de (multi)colineariedade.

O que fazer quando meu modelo apresenta multicolineriedade?

No pior caso, se as variáveis estiverem perfeitamente correlacionadas, a regressão não pode ser computada. Por outro lado, se a multicolinearidade nos dados for alta, então você precisará avaliar qual é a melhor opção para corrigi-la, considerando seus objetivos e conhecimento prévio da área de estudo. Algumas opções são:

  1. Eliminar algumas das variáveis independentes que estão altamente correlacionadas. Isso pode simplificar o modelo ao reduzir a redundância.
  2. Combinar linearmente as variáveis independentes, por exemplo, realizar uma Análise de Componentes Principais (PCA) para criar novos preditores independentes e, em seguida, reajustar o modelo de regressão com eles.
  3. Realizar uma análise projetada para variáveis altamente correlacionadas, como a regressão de mínimos quadrados parciais. Este método pode ser útil quando as variáveis independentes estão correlacionadas e deseja-se prever uma variável dependente.
  4. Realizar uma regressão que possa lidar com a multicolinearidade, como LASSO (Least Absolute Shrinkage and Selection Operator) e a regressão de Ridge. Estes métodos incluem uma penalidade nos coeficientes de regressão para reduzir o impacto da multicolinearidade.

Conclusão

A multicolineariedade, definida pela forte correlação entre duas ou mais variáveis independentes, pode ser identificada utilizando ferramentas diagnósticas como Fatores de Inflação da Variância (VIF) e tolerância.

Embora uma pequena multicolineariedade possa ser aceitável, níveis elevados trazem sérias complicações. Eles podem tornar as estimativas dos coeficientes instáveis e aumentar os erros padrões, o que dificulta a interpretação e a confiabilidade dos resultados do modelo. Essa distorção na análise de regressão afeta a precisão das previsões e a validade das conclusões inferenciais.

Para mitigar a multicolineariedade, pode-se remover variáveis altamente correlacionadas, combinar variáveis através da Análise de Componentes Principais (PCA), ou aplicar métodos de regressão como LASSO e regressão de Ridge, que são mais tolerantes à multicolineariedade.

A compreensão e o gerenciamento eficaz da multicolineariedade são essenciais para assegurar a integridade e aplicabilidade dos modelos de regressão.

Isso é crucial não apenas para a precisão analítica, mas também para garantir que as conclusões e previsões baseadas em tais modelos sejam válidas e confiáveis. Portanto, uma abordagem cuidadosa e informada é indispensável no uso de modelos de regressão em qualquer contexto de pesquisa e análise de dados.

Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referência

Daoud, J. I. (2017). Multicollinearity and Regression Analysis. Journal of Physics: Conference Series, 949 012009.

BRUNO FIGUEIREDO DAMÁSIO

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) eEditor-Associado da Spanish Journal of Psychology, na sub-seção Psicometri e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 3000 citações, nas melhores revistas nacionais e internacionais. Atualmente, me dedico a formação de novos pesquisadores, através da Psicometria Online Academy. Minha missão é ampliar a formação em Psicometria no Brasil e lhe auxiliar a conquistar os seus objetivos profissionais.

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Veja mais

Posts relacionados

Covariância e correlação

Covariância e correlação

Se você é estudante, professor ou pesquisador você está no lugar certo. Hoje, vamos mergulhar em um conceito fundamental: covariância e correlação. Na análise de dados, entender a relação entre

Diferenças entre Modelos Lineares e Modelos Lineares Generalizados (GLMs)

Diferenças entre Modelos Lineares e Modelos Lineares Generalizados (GLMs)

Em análise de dados, Modelos Lineares (LMs) e Modelos Lineares Generalizados (GLMs) são duas técnicas fundamentais que desempenham papéis cruciais na modelagem e interpretação de dados. Embora ambos compartilhem o

Explorando as etapas da análise de dados

Explorando as etapas da análise de dados

No vasto universo da análise de dados, encontramos duas vertentes cruciais: as estatísticas descritivas e as estatísticas inferenciais. Cada uma desempenha um papel distintivo na interpretação e compreensão de conjuntos

Breve check list para escrita de artigo acadêmico

Breve check list para escrita de artigo acadêmico

Você está pronto para embarcar em uma jornada de descoberta acadêmica? Seja você um pesquisado experiente ou iniciante, ter um guia para escrever um artigo de pesquisa é essencial para

O que são médias marginais?

O que são médias marginais?

Ao começar com estatísticas descritivas tradicionais, como as médias brutas, reconhecemos a necessidade de ir além, considerando possíveis viéses decorrentes de variações no número de observações e covariâncias. A pergunta-chave

Covariância e correlação

Covariância e correlação

Se você é estudante, professor ou pesquisador você está no lugar certo. Hoje, vamos mergulhar em um conceito fundamental: covariância e correlação. Na análise de dados, entender a relação entre

Diferenças entre Modelos Lineares e Modelos Lineares Generalizados (GLMs)

Diferenças entre Modelos Lineares e Modelos Lineares Generalizados (GLMs)

Em análise de dados, Modelos Lineares (LMs) e Modelos Lineares Generalizados (GLMs) são duas técnicas fundamentais que desempenham papéis cruciais na modelagem e interpretação de dados. Embora ambos compartilhem o

Explorando as etapas da análise de dados

Explorando as etapas da análise de dados

No vasto universo da análise de dados, encontramos duas vertentes cruciais: as estatísticas descritivas e as estatísticas inferenciais. Cada uma desempenha um papel distintivo na interpretação e compreensão de conjuntos

Breve check list para escrita de artigo acadêmico

Breve check list para escrita de artigo acadêmico

Você está pronto para embarcar em uma jornada de descoberta acadêmica? Seja você um pesquisado experiente ou iniciante, ter um guia para escrever um artigo de pesquisa é essencial para

O que são médias marginais?

O que são médias marginais?

Ao começar com estatísticas descritivas tradicionais, como as médias brutas, reconhecemos a necessidade de ir além, considerando possíveis viéses decorrentes de variações no número de observações e covariâncias. A pergunta-chave

Cadastre-se para ser notificado com o link das aulas ao vivo:

Módulo 4: Redes neurais artificiais

• Introdução a Deep Learning

• Avaliando sistemas de Deep Learning

• Redes Neurais feitas (sem programação) no SPSS

• Aula bônus: O futuro da IA na Sociedade

• Aula bônus: Dois Estudos de Caso 

Módulo 3: Interpretar e reportar resultados

• Gerar, interpretar e reportar resultados em Machine Learning

Módulo 2: Criando o seu sistema

• Selecionando algoritmos e métodos 
• Práticas de Machine Learning (Sem programação): Decision Tree (JASP), Linear Discriminant Classification (JASP) e Plataforma ORANGE
• Aula Bônus: Avaliação Psicológica e Machine Learning
• Aula Bônus: Livros e Cursos recomendados  
• Aula Bônus: Entrevista com Cientista de Dados focado na área da Saúde

Módulo 1: O que é Machine Learning

• O que é Machine Learning?
• Como a máquina aprende?
• Machine Learning para Psicometria e Pesquisa Quantitativa (pesquisas comentadas)
• Tipos de Machine Learning (Supervisionado e Não-supervisionado)
• Práticas de Machine Learning (Sem programação): JASP e SPSS
Aula Bônus: Filosofia da Inteligência Artificial
• Aula Bônus: Entrevista com Cientista de Dados graduado em Psicologia
• Aula bônus: Estudo de Caso sobre Redução Dimensional 

Preencha abaixo para
participar gratuitamente

Fique tranquilo, não utilizaremos suas informações de contato para enviar qualquer tipo de SPAM. Os dados coletados são tratados nos termos da Lei Geral de Proteção de Dados e você pode se descadastrar da nossa lista de contatos a qualquer momento.