O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Home » Blog » O que é a distância de Cook?

Compartilhe nas Redes Sociais

O que é a distância de Cook?

A distância de Cook é uma medida estatística essencial em modelos de regressão. Em síntese, ela indica o quanto uma única observação influencia as estimativas dos coeficientes do modelo.

Em outras palavras, se um único caso tiver um impacto desproporcional sobre o resultado da regressão, a distância de Cook irá sinalizar isso. Portanto, essa métrica ajuda a identificar pontos que podem distorcer as conclusões da análise.

Além disso, seu uso é especialmente importante quando queremos garantir que nossas estimativas sejam robustas e representativas do conjunto de dados como um todo.

Exemplo prático de distância de Cook na regressão

A fim de ilustrar o que é a distância de Cook, usaremos um exemplo. Imagine que queremos prever o bem-estar no trabalho com base na distância (em km) entre casa e trabalho.

Em nosso banco de dados, todas as pessoas moram a pelo menos 10 km do trabalho, exceto uma: ela mora a 500 m da empresa e apresenta um baixo nível de bem-estar (Figura 1, ID = 10).

banco de dados para ilustrar o conceito de distância de Cook. — *Figura 1. Banco de dados com um caso influente (ID = 10).*

Nesse cenário, essa observação pode influenciar substancialmente o modelo de regressão. Desse modo, as estimativas gerais podem se tornar menos confiáveis.

Em nosso exemplo, obtivemos um modelo de regressão linear simples não significativo, F(1, 8) = 3,36, p = 0,11, R² = 0,30, R² ajustado = 0,21, com os coeficientes b₀ = 3,08, t = 2,85, p = 0,02, e b₁ = 0,14, t = 1,83, p = 0,10. Note, contudo, que, embora o slope seja positivo (b₁ = 0,14), esse resultado parece ser guiado pelo ID = 10, que é um valor influente no banco de dados (Figura 2).

diagrama de dispersão com reta de regressão. — *Figura 2. Diagrama de dispersão com linha de melhor ajuste da regressão linear. Ponto amarelo representa ID = 10, isto é, o caso influente no banco de dados.*

Aqui entra a utilidade da distância de Cook, uma vez que ele calcula a diferença entre os resultados do modelo com e sem essa observação. Assim, conseguimos avaliar, quantitativamente, o quanto esse caso específico distorce a análise. Quando realizamos os cálculos das distâncias de Cook, o valor do ID = 10 se destaca, com um valor de D = 12,59 (Figura 3).

dados com distâncias de Cook. — *Figura 3. Banco de dados com as respectivas distâncias de Cook para cada observação.*

Quando a distância de Cook indica alerta?

A regra prática mais comum estabelece que, se a distância de Cook for maior que 1, o ponto é potencialmente influente e merece atenção. Por exemplo, a Figura 4 ilustra como a reta de regressão do modelo anterior muda quando removemos o ID = 10 dos dados. Em outras palavras, ID = 10 é altamente influente.

scatterplot com linha de regressão. — *Figura 4. Diagrama de dispersão com linha de melhor ajuste da regressão linear após remoção de ID = 10.*

Agora, mesmo com um caso a menos, o modelo de regressão linear simples foi estatisticamente significativo, F(1, 7) = 239,43, p < 0,001, R² = 0,99, R² ajustado = 0,97, com os coeficientes b₀ = 8,49, t = 40,62, p < 0,001, e b₁ = –0,22, t = –15,47, p < 0,001.

Entretanto, antes de excluir observações com alto valor de distância de Cook, é fundamental analisar suas causas. Por exemplo, erros de digitação ou registros claramente incorretos justificam a remoção.

Por outro lado, se o dado estiver correto, ele pode representar um caso legítimo — e até relevante — dentro do fenômeno estudado. Conforme destacaram Bollen e Jackman (1985), essas observações atípicas podem, em certos contextos, ser as mais informativas.

Conclusão

Como você viu, a distância de Cook é uma ferramenta poderosa para identificar observações influentes. Ainda assim, seu uso exige cuidado e interpretação criteriosa.

Quer aprofundar seus conhecimentos sobre regressão, base fundamental para entender esse conceito? Então explore nossos artigos e domine a técnica por completo.

Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Bollen, K. A., & Jackman, R. W. (1985). Regression diagnostics: An expository treatment of outliers and influential cases. Sociological Methods & Research, 13(4), 510–542. https://doi.org/10.1177/0049124185013004004

Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5^th ed.). Sage.

Como citar este post

Damásio, B. (2025, 16 de junho). O que é a distância de Cook? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-a-distancia-de-cook/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post