A distância de Cook é uma medida que informa o quanto um único caso é capaz de influenciar a estimativa em um modelo de regressão.
Vamos supor que queremos estimar o bem-estar com o trabalho, através da distância entre a casa e o trabalho. Em nossa amostra, todos as pessoas estão há pelo menos 10Km do trabalho, com níveis variados de bem-estar. Mas uma pessoa mora ao lado do local de trabalho e tem altos índices de bem-estar.
Como esta pessoa tem medidas muito distante das demais, o modelo da regressão pode estar sendo influenciado por ela.
De maneira formal, a distância de Cook mede a diferença entre um modelo de regressão com determinada observação e um modelo sem aquela observação. Ele faz isso para todas as observações e nos informa, portanto, o quanto cada caso influencia a estimativa do modelo.
Qual o ponto de corte?
Nós podemos usar a distância de Cook para retirar estas variáveis influentes da nossa análise. Uma maneira simples de fazer isso é retirar os casos com distância de Cook maiores do 1.
No entanto, devemos ter cuidado com a ideia de retirar casos influentes. Retirá-los é justificável quando há erros de digitação, gerando um caso com valores claramente errados, por exemplo.
Mas nos casos em que a medição foi correta, devemos ter mais razões para retirar casos influentes. Se não há indicativo de erro, estas observações podem ser parte importante do fenômeno medido, e até as mais importantes.
Agora que você entende a distância de Cook, que tal ler os artigos sobre regressão, que são a base de sua aplicação?