O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

O que são outliers e como detectá-los?

Marcos Lima

ago 18, 2025

Neste post, explicaremos o que são outliers. Primeiramente, abordaremos sua definição e mostraremos como identificá-los visual e estatisticamente. Em seguida, discutiremos as diferenças entre outliers, pontos de alavancagem e valores influentes. Por fim, destacaremos os riscos que outliers trazem às análises e apresentaremos estratégias para lidar com essas observações.

O que são outliers?

Você provavelmente já ouviu expressões como “Fulano é um ponto fora da curva” ou “No último sábado, a quantidade de vendas foi um ponto fora da curva“. No dia a dia, essa metáfora descreve pessoas, situações ou acontecimentos exepcionais, ou seja, que fogem do padrão.

Na estatística, a lógica é semelhante. Um outlier — ou observação atípica — corresponde a um valor extremo em uma variável ou a um padrão que se distancia fortemente dos demais. Em geral, comparamos cada caso à média. Um caso que se afasta substancialmente da média provavelmente é um outlier.

Mas de onde vêm os outliers? Esses valores podem surgir de várias formas, a saber, erros de coleta, variações naturais ou fenômenos raros. Por exemplo, um erro de digitação pode transformar a resposta “5” em “55”. Por outro lado, em tarefas cognitivas, alguns participantes podem responder muito mais devagar que a maioria, tornando-se outliers no tempo de reação.

Embora muitos associem outliers a erros, isso nem sempre se aplica. Em muitos casos, eles refletem realidades válidas, mas incomuns. Portanto, identificá-los não significa removê-los automaticamente.

Exemplo dos impactos de outliers

A Figura 1 apresenta o tempo de estudo de seis estudantes na semana anterior a uma prova. Cinco deles estudaram entre 4 e 6 horas, mas um dedicou impressionantes 25 horas de estudo antes da prova.

ilustração do conceito de outliers.
Figura 1. Exemplo de um conjunto de dados e seu impacto sobre a média.

Sem o outlier, a média foi de 5,20 horas. No entanto, com ele, a média subiu para 8,50 horas. Ou seja, apenas uma observação deslocou a estimativa em 3,20 pontos, sugerindo um padrão de estudo mais elevado do que realmente ocorreu na maioria dos casos.

Esse efeito não se limita à média. A Figura 2 mostra como outliers impactam o erro associado à estimativa. O eixo y apresenta a soma dos quadrados dos resíduos (SSR), medida que avalia o quão bem a média descreve os dados (quanto menor o SSR, melhor o ajuste). O eixo x representa diferentes valores hipotéticos de média. A relação entre variáveis é côncava, indicando que um único valor de média minimiza a SSR.

outliers e erro das estimativas dos parâmetros.
Figura 2. Erro associado às estimativas dos parâmetros em dados com e sem outliers. Intersecções de linhas pontilhadas de mesma cor indicam valores de médias que minimizam os erros.

Sem o outlier, o SSR foi de 2,80, indicando que a média de 5,20 horas representa adequadamente os dados. Já com o outlier, o SSR saltou para 329,50, revelando que a média de 8,50 horas não descreve bem o conjunto de dados.

Esse exemplo mostra como um único valor extremo pode distorcer não apenas a média, mas também a precisão das estimativas estatísticas. Por isso, reconhecer e lidar com outliers é essencial em qualquer análise.

banner da NAOPARE.

Inspeção gráfica de outliers

Histogramas e boxplots

A visualização de dados é uma das formas mais intuitivas de detectar outliers, pois gráficos revelam padrões e desvios que passariam despercebidos por métodos puramente numéricos.

Por exemplo, na Figura 3, observamos a renda de mil respondentes hipotéticos. No histograma (painel esquerdo), uma barra vermelha se afasta substancialmente das demais, sinalizando, portanto, uma observação atípica de alguém com renda de R$ 10.000,00. Essa única observação aumenta a média (M = R$ 3.096,80, DP = 826,46) em relação ao cálculo sem ela (M = R$ 3.027,07, DP = 445,89).

outliers em histograma e em boxplot.
Figura 3. Exemplos de histograma e de boxplot para detecção de outlier univariado. Barra e ponto vermelhos indicam outliers.

O boxplot, no painel direito, também destaca esse outlier em vermelho. Por padrão, boxplots marcam como pontos as observações além de 1,5 vezes a amplitude interquartílica (IQR), isto é, a distância entre o primeiro e o terceiro quartis.

Saiba mais: Como criar e interpretar um boxplot no SPSS?

banner do post sobre boxplot, com outliers na imagem.

Diagramas de dispersão

Diagramas de dispersão (scatterplots) ajudam a detectar outliers bivariados, que se destacam não pelo valor extremo em uma variável, mas pela combinação atípica em duas variáveis.

Para ilustrar essa ideia, pense em alguém usando vestido de noiva, chuteiras, chapéu de cowboy e pochete ao mesmo tempo. Cada peça de vestuário, isoladamente, não é atípica, mas a combinação é. Essa metáfora resume o conceito de outlier bivariado e multivariado.

No caso da detecção bivariada (isto é, quando uma observação é atípica considerando-se duas variáveis simultaneamente), podemos inspecioná-la visualmente por meio do diagrama de dispersão. A Figura 4 ilustra essa ideia, onde plotamos cada observação com base em suas coordenadas no plano cartesiano nas variáveis X e Y.

outliers em scatterplot.
Figura 4. Exemplo de diagrama de dispersão para a detecção de outliers bivariados.

Em gráficos de dispersão, os outliers aparecem como pontos distantes da nuvem principal de dados. Esses gráficos são úteis para outliers bivariados e revelam desvios em relações entre variáveis. Mais adiante, retomaremos essa forma de representação visual.

Critérios de detecção de outliers

A inspeção visual é útil, mas pode ser insuficiente. Por isso, estatísticos usam critérios formais para identificar outliers com rigor (para uma lista abrangente de critérios, recomendamos Aguinis et al., 2013).

Um dos métodos mais conhecidos é baseado na amplitude interquartílica (IQR). Nele, consideramos outliers os valores que estão abaixo de Q1 – (1,5 × IQR) ou acima de Q3 + (1,5 × IQR). Essa técnica é eficaz para distribuições simétricas e sem caudas longas.

Outro critério comum é o uso da média e do desvio-padrão, baseando-se na lógica do escore z. Nesse caso, valores que ultrapassam 2,5 desvios-padrões da média (ou, às vezes, 4 desvios-padrões) são tratados como outliers (Hair et al., 2009). Experimentos cuja variável dependente envolve tempos de reação geralmente adota algum critério de detecção (e de exclusão) desse tipo.

Para dados multivariados (i.e., considerando-se três ou mais variáveis simultaneamente), aplicam-se métodos como a distância de Mahalanobis, que leva em conta a correlação entre as variáveis. Além disso, algoritmos de machine learning, como o DBSCAN, identificam outliers com base em densidade local de dados.

Cada critério tem vantagens e limitações. Por isso, a escolha depende do tipo de dado, da distribuição e do objetivo da análise.

Qual é a diferença entre outliers, pontos de alavancagem e valores influentes?

Embora relacionados, os conceitos de outliers, pontos de alavancagem e valores influentes não são sinônimos. Diferenciá-los é crucial para análises estatísticas corretas.

Outliers

Outliers são valores atípicos em uma ou mais variáveis. Eles nem sempre comprometem o modelo, mas podem fazê-lo. Na Figura 5, destacamos em vermelho um outlier bivariado. Seus valores individuais em X e Y são plausíveis, mas a combinação é atípica.

outliers e scatterplot.
Figura 5. Ilustração do conceito de outlier.

Na mesma figura, duas retas de regressão foram traçadas: uma com o outlier e outra sem ele. As linhas são praticamente idênticas, indicando, portanto, que o outlier não influenciou os resultados.

Pontos de alavancagem

Pontos de alavancagem (em inglês, leverage) são observações distantes das demais nas variáveis independentes. Desse modo, eles estão para além da amplitude tipicamente incluída na previsão do modelo de regressão. Eles podem ou não alterar os resultados do modelo.

A Figura 6 ilustra um ponto de alavancagem. Estendendo a reta de regressão até ele, vemos que o valor previsto em Y fica próximo ao observado, de modo que sua presença não afeta o modelo.

leverage e scatterplot.
Figura 6. Ilustração do conceito de ponto de alavancagem (leverage).

Valores influentes

Um valor influente é uma observação que altera substancialmente o modelo de regressão. Ele pode modificar coeficientes (intercepto e slopes), coeficiente de determinação ou significância estatística. Em outras palavras, valores influentes modificam os resultados de um modelo a depender de sua presença ou ausência no modelo.

Na Figura 7, mostramos esse efeito. A reta do modelo muda consideravelmente quando incluímos o valor influente. Os coeficientes também variam: sem ele, intercepto = 3,62 e inclinação = 0,73; com ele, intercepto = 11,33 e inclinação = 0,58.

valor influente e scatterplot.
Figura 7. Ilustração do conceito de valor influente.

Podemos usar técnicas específicas a fim de detectar valores influentes, como a distância de Cook, o DFFITS e o DFBETAS. Detalharemos cada uma dessas medidas em posts futuros.

Por que devemos nos preocupar com outliers?

Outliers podem distorcer análises, afetando medidas descritivas e a confiabilidade dos testes estatísticos. Eles influenciam fortemente modelos preditivos. Em uma regressão linear simples, por exemplo, um único ponto influente pode enviesar toda a reta de ajuste.

Em testes de hipóteses, outliers aumentam a variabilidade e reduzem o poder estatístico. Como consequência, até mesmo amostras grandes podem levar a conclusões enganosas.

Portanto, identificar e compreender outliers nos ajuda na tomada decisões mais bem fundamentadas, com vistas a produzirmos inferências confiáveis.

O que fazer com os outliers?

Antes de tudo, investigue a origem dos outliers. Eles podem ser fruto de erro de digitação (e.g., um valor “5” erroneamente digitado como “55”), falha de mensuração ou consequência de um fenômeno real. Cada caso exige uma abordagem diferente.

Se o outlier for um erro claro, a melhor prática é corrigi-lo ou excluí-lo. No entanto, se ele for válido, vale considerar transformações nos dados, como logaritmos ou winsorização, para reduzir seu impacto.

Outra opção é utilizar modelos robustos, como, por exemplo, a regressão robusta ou os métodos baseados em quantis. Essas abordagens são menos sensíveis a valores extremos.

Em certos contextos, pode-se ainda optar por analisar os dados com e sem a remoção dos outliers. Desse modo, avaliaríamos em que medida os resultados foram ou não sensíveis às decisões analíticas que tomamos no curso das análises de dados.

Conclusão

Gostou desse conteúdo? Então aproveite e se inscreva em nosso canal do YouTube para ficar por dentro de nossas novidades!

Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Aguinis, H., Gottfredson, R. K., & Joo. H. (2013). Best-practice recommendations for defining, identifying, and handling outliers. Organizational Research Methods, 16(2), 270–301. https://doi.org/10.1177/1094428112470848

Ahmed, S. (n.d.). Unusual observations: Outlier, leverage, and influential points. The Open Educator [website]. https://www.theopeneducator.com/doe/Regression/outlier-leverage-influential-points

Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.

Hair, J. F., Jr., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). Análise multivariada de dados (6ª ed.). Artmed.

Como citar este post

Lima, M. (2025, 18 de agosto). O que são outliers e como detectá-los? Blog Psicometria Online. https://blog.psicometriaonline.com.br/o-que-sao-outliers-e-como-detecta-los

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

0 0 Votos
Classificação do artigo
Inscrever-se
Notificar de
guest

0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários

Posts sugeridos

O que significa soma dos quadrados, em estatística?

O que é modelo linear geral?

O que é o tamanho de efeito em linguagem comum (common language effect size)?

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é correlação de Spearman?

Postados recentemente

O que são efeitos principais e efeitos de interação?

Regularização: o personal trainer da Machine Learning

Quais são as diferenças entre os delineamentos intrassujeitos e entressujeitos?

Efeito teto e efeito chão: o que são e por que eles importam?

Deseja se tornar completamente independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias