O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Regressão Logística: Pseudo R²

Alex França

ago 13, 2023

A regressão logística é uma ferramenta estatística essencial que permite analisar e modelar a relação entre uma variável dependente binária e uma ou mais variáveis independentes.

Em contraste com a regressão linear, onde a saída é contínua e pode assumir qualquer valor real, a regressão logística é usada quando a variável de saída é categórica e, particularmente, quando existem apenas duas categorias possíveis.

Por que “Logística”?

O nome “logística” provém da função logística, utilizada para modelar a probabilidade da variável de saída pertencer a uma das duas categorias.

Essa função transforma um intervalo de valores de entrada, que varia de menos infinito a mais infinito, para uma saída que varia entre 0 e 1 – um intervalo que é interpretável como uma probabilidade.

Como Funciona?

A ideia central da regressão logística é encontrar a linha (ou plano em múltiplas dimensões) que melhor separa as duas classes de saída.

Esta “linha de decisão” é determinada usando os dados de entrada (as variáveis independentes) e observando como eles se relacionam com a saída desejada.

Uma vez que o modelo é treinado, ele pode estimar a probabilidade da variável dependente cair em uma das duas categorias.

Se essa probabilidade for maior que um limiar (geralmente 0,5), o modelo prediz que a saída pertence à categoria 1; caso contrário, pertence à categoria 0.

O que é Pseudo R²?

Quando falamos de regressão linear, um dos indicadores mais reconhecidos da qualidade do ajuste do modelo é o R², ou coeficiente de determinação.

Este valor quantifica o quanto da variação na variável dependente é explicado pelo modelo. Contudo, na regressão logística, devido à sua natureza probabilística, o tradicional R² não é aplicável.

Surge então a necessidade de uma métrica alternativa: o Pseudo R².

O Pseudo R² é uma tentativa de replicar a ideia do R² para a regressão logística. Ele fornece uma noção da proporção da variabilidade na resposta que é explicada pelo modelo.

Importante ressaltar que existem diversas formas de calcular o Pseudo R² (como Cox & Snell e Nagelkerke)

Detalhando o Pseudo R²:

Pseudo R² de Cox & Snell: Baseia-se na log-verossimilhança máxima para o modelo completo. Ele nunca alcança o valor máximo de 1, o que pode ser considerado uma desvantagem.

Pseudo R² de Nagelkerke: É uma versão ajustada do Cox & Snell, escalonada para ter um intervalo máximo de 0 a 1.

Pseudo R² de McFadden: É talvez o mais conhecido. Calcula-se como a razão entre a log-verossimilhança do modelo nulo (sem preditores) e a log-verossimilhança do modelo proposto. Valores próximos a 0 indicam que o modelo não melhora a previsão em comparação com o modelo nulo.

Pseudo R² de Tjur: Pode ser o mais desconhecido dentre os “pseudo R²”, o Tjur é calculado como o valor absoluto da diferença entre o valor médio previsto para todos os casos com zero e o valor médio previsto para todos os casos com um.

Valores próximos a um indicam clara separação entre os valores previstos para casos com zeros e casos com uns. Ao contrário dos outros índices pseudo R2, o R2 de Tjur não é relativo ao modelo nulo.

Embora muitos pesquisadores optem por pseudo R²s mais tradicionais, como McFadden ou Nagelkerke, Tjur’s R² oferece uma interpretação direta: representa a diferença média nas probabilidades previstas entre as duas categorias.

Afinal, em um modelo de regressão logística bem ajustado, gostaríamos que as probabilidades previstas para a categoria 1 fossem significativamente diferentes das da categoria 0. Tjur’s R² captura essa diferença de forma direta e compreensível.

O pseudo R² de Tjur já faz parte dos resultados da regressão logística quando executada por meio do software JASP que utilizamos na Academy.

Como interpretar o Pseudo R²?

Não é R²: Enquanto em regressões lineares um R² de 0,8 ou 0,9 é frequentemente visto como excelente, na regressão logística, um Pseudo R² nessas faixas pode ser muito raro.

Não existe um valor “ótimo” ou absoluto: Para a interpretação do Pseudo R² pode-se adotar uma perspectiva de que valores próximos de zero indicam pouca diferença entre o modelo básico (sem variáveis independentes) e o modelo calculado.

Por outro lado, valores mais próximos de um denotam uma maior discrepância entre o modelo base e o sugerido pelo estudo.

Em termos claros, um pseudo R² de zero mostra que as variáveis escolhidas não trazem clareza adicional à variação da variável alvo.

Enquanto um pseudo R² de 1 insinua que essas variáveis traçam com precisão a flutuação de Y. Vale ressaltar que é apropriado ser mais flexível ao avaliar o modelo logístico em comparação ao linear quando se trata da variância explicada pelo R².

Vale dizer o pesquisador deve analisar o modelo de forma global, por exemplo, checar a tabela de classificação (classification table). Essa saída é interessante pois fornece uma medida da capacidade preditiva do modelo.

Para saber mais sobre a regressão logística, veja esse nosso outro post que te ensina, de modo prático, como executar uma regressão logística utilizando um software gratuito de análise de dados.

Esperamos que este post tenha ajudado você a entender melhor esses conceitos e como aplicá-los na prática.

Aproveite e inscreva-se no canal e aprimore suas habilidades em análise de dados!

Gostou desse conteúdo? Precisa aprender Análise de dados? Faça parte da Psicometria Online Academy: a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Conteúdo

Mais lidos

Glossário de Análise Fatorial Exploratória

Como lidar com os pressupostos da Análise de Variância (ANOVA)?

Covariância e correlação

Diferenças entre Modelos Lineares e Modelos Lineares Generalizados (GLMs)

Postados recentemente

Glossário de Análise Fatorial Exploratória

Como lidar com os pressupostos da Análise de Variância (ANOVA)?

Covariância e correlação

Diferenças entre Modelos Lineares e Modelos Lineares Generalizados (GLMs)

Alex França

Posts sugeridos

Como lidar com os pressupostos da Análise de Variância (ANOVA)?

Nesse post, iremos te ensinar a lidar, de modo metodologicamente adequado com os pressupostos da análise de variância (ANOVA), quando eles não são acatados. O…

psicometriaonline

abr 6, 2024

Covariância e correlação

Se você é estudante, professor ou pesquisador você está no lugar certo. Hoje, vamos mergulhar em um conceito fundamental: covariância e correlação. Na análise de…

Alex França

fev 18, 2024

Diferenças entre Modelos Lineares e Modelos Lineares Generalizados (GLMs)

Em análise de dados, Modelos Lineares (LMs) e Modelos Lineares Generalizados (GLMs) são duas técnicas fundamentais que desempenham papéis cruciais na modelagem e interpretação de…

Alex França

fev 11, 2024

Cadastre-se para ser notificado com o link das aulas ao vivo:

Módulo 4: Redes neurais artificiais

• Introdução a Deep Learning

• Avaliando sistemas de Deep Learning

• Redes Neurais feitas (sem programação) no SPSS

• Aula bônus: O futuro da IA na Sociedade

• Aula bônus: Dois Estudos de Caso 

Módulo 3: Interpretar e reportar resultados

• Gerar, interpretar e reportar resultados em Machine Learning

Módulo 2: Criando o seu sistema

• Selecionando algoritmos e métodos 
• Práticas de Machine Learning (Sem programação): Decision Tree (JASP), Linear Discriminant Classification (JASP) e Plataforma ORANGE
• Aula Bônus: Avaliação Psicológica e Machine Learning
• Aula Bônus: Livros e Cursos recomendados  
• Aula Bônus: Entrevista com Cientista de Dados focado na área da Saúde

Módulo 1: O que é Machine Learning

• O que é Machine Learning?
• Como a máquina aprende?
• Machine Learning para Psicometria e Pesquisa Quantitativa (pesquisas comentadas)
• Tipos de Machine Learning (Supervisionado e Não-supervisionado)
• Práticas de Machine Learning (Sem programação): JASP e SPSS
Aula Bônus: Filosofia da Inteligência Artificial
• Aula Bônus: Entrevista com Cientista de Dados graduado em Psicologia
• Aula bônus: Estudo de Caso sobre Redução Dimensional 

Preencha abaixo para
participar gratuitamente

Fique tranquilo, não utilizaremos suas informações de contato para enviar qualquer tipo de SPAM. Os dados coletados são tratados nos termos da Lei Geral de Proteção de Dados e você pode se descadastrar da nossa lista de contatos a qualquer momento.