--- title: "O que são outliers e como detectá-los?" url: https://www.blog.psicometriaonline.com.br/o-que-sao-outliers-e-como-detecta-los canonical: https://www.blog.psicometriaonline.com.br/o-que-sao-outliers-e-como-detecta-los language: pt-BR published: 2025-08-18T18:48:27.000Z updated: 2026-03-30T13:49:09.035Z modified: 2026-03-30T13:49:09.035Z author: "Marcos Lima" categories: ["Análises bi e multivariadas"] tags: ["pressupostos estatísticos"] description: "Descubra o que são outliers, como identificá-los e o que fazer com eles em análises estatísticas. Veja também exemplos gráficos de outliers." source: Blog Psicometria Online --- # O que são outliers e como detectá-los? > Neste post, explicaremos o que são outliers. Primeiramente, abordaremos sua definição e mostraremos como identificá-los visual e estatisticamente. Em seguida, discutiremos as diferenças entre outliers, pontos de alavancagem e valores influentes. Por fim, destacaremos os riscos que outliers trazem às... Neste post, explicaremos o que são *outliers*. Primeiramente, abordaremos sua definição e mostraremos como identificá-los visual e estatisticamente. Em seguida, discutiremos as diferenças entre *outliers*, pontos de alavancagem e valores influentes. Por fim, destacaremos os riscos que *outliers* trazem às análises e apresentaremos estratégias para lidar com essas observações. ## O que são *outliers*? Você provavelmente já ouviu expressões como “Fulano é um *ponto fora da curva*” ou “No último sábado, a quantidade de vendas foi um *ponto fora da curva*“. No dia a dia, essa metáfora descreve pessoas, situações ou acontecimentos exepcionais, ou seja, que fogem do padrão. Na estatística, a lógica é semelhante. Um *outlier* — ou observação atípica — corresponde a um valor extremo em uma variável ou a um padrão que se distancia fortemente dos demais. Em geral, comparamos cada caso à média. Um caso que se afasta substancialmente da média provavelmente é um *outlier*. Mas de onde vêm os *outliers*? Esses valores podem surgir de várias formas, a saber, erros de coleta, variações naturais ou fenômenos raros. Por exemplo, um erro de digitação pode transformar a resposta “5” em “55”. Por outro lado, em tarefas cognitivas, alguns participantes podem responder muito mais devagar que a maioria, tornando-se *outliers* no tempo de reação. Embora muitos associem *outliers* a erros, isso nem sempre se aplica. Em muitos casos, eles refletem realidades válidas, mas incomuns. Portanto, identificá-los não significa removê-los automaticamente. ## Exemplo dos impactos de *outliers* A Figura 1 apresenta o tempo de estudo de seis estudantes na semana anterior a uma prova. Cinco deles estudaram entre 4 e 6 horas, mas um dedicou impressionantes 25 horas de estudo antes da prova. ![ilustração do conceito de outliers. ](/uploads/2025-08_media-com-e-sem-outlier.jpg) *Figura 1. Exemplo de um conjunto de dados e seu impacto sobre a média.* Sem o *outlier*, a [média](/medidas-de-tendencia-central-media-mediana-e-moda) foi de 5,20 horas. No entanto, com ele, a média subiu para 8,50 horas. Ou seja, apenas uma observação deslocou a estimativa em 3,20 pontos, sugerindo um padrão de estudo mais elevado do que realmente ocorreu na maioria dos casos. Esse efeito não se limita à média. A Figura 2 mostra como *outliers* impactam o erro associado à estimativa. O eixo *y* apresenta a soma dos quadrados dos resíduos (*SSR*), medida que avalia o quão bem a média descreve os dados (quanto menor o *SSR*, melhor o ajuste). O eixo *x* representa diferentes valores hipotéticos de média. A relação entre variáveis é côncava, indicando que um único valor de média minimiza a *SSR*. ![outliers e erro das estimativas dos parâmetros.](/uploads/2025-08_media-outlier-SSR.jpg) *Figura 2. Erro associado às estimativas dos parâmetros em dados com e sem outliers. Intersecções de linhas pontilhadas de mesma cor indicam valores de médias que minimizam os erros.* Sem o *outlier*, o *SSR* foi de 2,80, indicando que a média de 5,20 horas representa adequadamente os dados. Já com o *outlier*, o *SSR* saltou para 329,50, revelando que a média de 8,50 horas não descreve bem o conjunto de dados. Esse exemplo mostra como um único valor extremo pode distorcer não apenas a média, mas também a precisão das estimativas estatísticas. Por isso, reconhecer e lidar com *outliers* é essencial em qualquer análise. ## Inspeção gráfica de *outliers* ### Histogramas e *boxplots* A [visualização de dados](/como-escolher-o-grafico-certo-para-seus-dados) é uma das formas mais intuitivas de detectar *outliers*, pois gráficos revelam padrões e desvios que passariam despercebidos por métodos puramente numéricos. Por exemplo, na Figura 3, observamos a renda de mil respondentes hipotéticos. No histograma (painel esquerdo), uma barra vermelha se afasta substancialmente das demais, sinalizando, portanto, uma observação atípica de alguém com renda de R$ 10.000,00. Essa única observação aumenta a média (*M* = R$ 3.096,80, *DP* = 826,46) em relação ao cálculo sem ela (*M* = R$ 3.027,07, *DP* = 445,89). ![outliers em histograma e em boxplot.](/uploads/2025-08_outlier-univariado.jpg) *Figura 3. Exemplos de histograma e de boxplot para detecção de outlier univariado. Barra e ponto vermelhos indicam outliers.* O *boxplot*, no painel direito, também destaca esse *outlier* em vermelho. Por padrão, *boxplots* marcam como pontos as observações além de 1,5 vezes a amplitude interquartílica (IQR), isto é, a distância entre o primeiro e o terceiro quartis. **Saiba mais:** [**Como criar e interpretar um boxplot no SPSS?**](/boxplot-como-criar-no-spss-e-como-interpretar) ![banner do post sobre boxplot, com outliers na imagem.](/uploads/2022-02_boxplot-exemplo-0.jpg) ### Diagramas de dispersão Diagramas de dispersão (*scatterplots*) ajudam a detectar *outliers* bivariados, que se destacam não pelo valor extremo em uma variável, mas pela combinação atípica em duas variáveis. Para ilustrar essa ideia, pense em alguém usando vestido de noiva, chuteiras, chapéu de cowboy e pochete ao mesmo tempo. Cada peça de vestuário, isoladamente, não é atípica, mas a combinação é. Essa metáfora resume o conceito de *outlier* bivariado e multivariado. No caso da detecção bivariada (isto é, quando uma observação é atípica considerando-se duas variáveis simultaneamente), podemos inspecioná-la visualmente por meio do diagrama de dispersão. A Figura 4 ilustra essa ideia, onde plotamos cada observação com base em suas coordenadas no plano cartesiano nas variáveis X e Y. ![outliers em scatterplot.](/uploads/2025-08_scatterplot-com-outlier.jpg) *Figura 4. Exemplo de diagrama de dispersão para a detecção de outliers bivariados.* Em gráficos de dispersão, os *outliers* aparecem como pontos distantes da nuvem principal de dados. Esses gráficos são úteis para *outliers* bivariados e revelam desvios em relações entre variáveis. Mais adiante, retomaremos essa forma de representação visual. ## Critérios de detecção de *outliers* A inspeção visual é útil, mas pode ser insuficiente. Por isso, estatísticos usam critérios formais para identificar *outliers* com rigor (para uma lista abrangente de critérios, recomendamos Aguinis et al., 2013). Um dos métodos mais conhecidos é baseado na amplitude interquartílica (IQR). Nele, consideramos *outliers* os valores que estão abaixo de Q1 – (1,5 × IQR) ou acima de Q3 + (1,5 × IQR). Essa técnica é eficaz para distribuições simétricas e sem caudas longas. Outro critério comum é o uso da média e do desvio-padrão, baseando-se na lógica do [escore *z*](/como-calcular-o-escore-z-no-spss). Nesse caso, valores que ultrapassam 2,5 desvios-padrões da média (ou, às vezes, 4 desvios-padrões) são tratados como *outliers* (Hair et al., 2009). Experimentos cuja [variável dependente](/o-que-sao-variaveis-independentes-e-dependentes) envolve tempos de reação geralmente adota algum critério de detecção (e de exclusão) desse tipo. Para dados multivariados (i.e., considerando-se três ou mais variáveis simultaneamente), aplicam-se métodos como a distância de Mahalanobis, que leva em conta a correlação entre as variáveis. Além disso, algoritmos de [*machine learning*](/o-que-e-machine-learning), como o DBSCAN, identificam *outliers* com base em densidade local de dados. Cada critério tem vantagens e limitações. Por isso, a escolha depende do tipo de dado, da distribuição e do objetivo da análise. ## Qual é a diferença entre *outliers*, pontos de alavancagem e valores influentes? Embora relacionados, os conceitos de *outliers*, pontos de alavancagem e valores influentes não são sinônimos. Diferenciá-los é crucial para análises estatísticas corretas. ### *Outliers* *Outliers* são valores atípicos em uma ou mais variáveis. Eles nem sempre comprometem o modelo, mas podem fazê-lo. Na Figura 5, destacamos em vermelho um *outlier* bivariado. Seus valores individuais em X e Y são plausíveis, mas a combinação é atípica. ![outliers e scatterplot.](/uploads/2025-08_regressao-com-e-sem-outlier.jpg) *Figura 5. Ilustração do conceito de outlier.* Na mesma figura, duas retas de regressão foram traçadas: uma com o *outlier* e outra sem ele. As linhas são praticamente idênticas, indicando, portanto, que o *outlier* não influenciou os resultados. ### Pontos de alavancagem Pontos de alavancagem (em inglês, *leverage*) são observações distantes das demais nas variáveis independentes. Desse modo, eles estão para além da amplitude tipicamente incluída na previsão do modelo de regressão. Eles podem ou não alterar os resultados do modelo. A Figura 6 ilustra um ponto de alavancagem. Estendendo a reta de regressão até ele, vemos que o valor previsto em Y fica próximo ao observado, de modo que sua presença não afeta o modelo. ![leverage e scatterplot.](/uploads/2025-08_regressao-com-e-sem-ponto-de-alavancagem.jpg) *Figura 6. Ilustração do conceito de ponto de alavancagem (leverage).* ### Valores influentes Um valor influente é uma observação que altera substancialmente o modelo de regressão. Ele pode modificar coeficientes (intercepto e *slopes*), coeficiente de determinação ou significância estatística. Em outras palavras, valores influentes modificam os resultados de um modelo a depender de sua presença ou ausência no modelo. Na Figura 7, mostramos esse efeito. A reta do modelo muda consideravelmente quando incluímos o valor influente. Os coeficientes também variam: sem ele, intercepto = 3,62 e inclinação = 0,73; com ele, intercepto = 11,33 e inclinação = 0,58. ![valor influente e scatterplot.](/uploads/2025-08_regressao-com-e-sem-valor-influente.jpg) *Figura 7. Ilustração do conceito de valor influente.* Podemos usar técnicas específicas a fim de detectar valores influentes, como a [distância de Cook](/o-que-e-a-distancia-de-cook), o DFFITS e o DFBETAS. Detalharemos cada uma dessas medidas em posts futuros. ## Por que devemos nos preocupar com *outliers*? *Outliers* podem distorcer análises, afetando medidas descritivas e a confiabilidade dos testes estatísticos. Eles influenciam fortemente modelos preditivos. Em uma regressão linear simples, por exemplo, um único ponto influente pode enviesar toda a reta de ajuste. Em testes de hipóteses, *outliers* aumentam a variabilidade e reduzem o [poder estatístico](/qual-a-importancia-do-poder-estatistico). Como consequência, até mesmo amostras grandes podem levar a conclusões enganosas. Portanto, identificar e compreender *outliers* nos ajuda na tomada decisões mais bem fundamentadas, com vistas a produzirmos inferências confiáveis. ## O que fazer com os *outliers*? Antes de tudo, investigue a origem dos *outliers*. Eles podem ser fruto de erro de digitação (e.g., um valor “5” erroneamente digitado como “55”), falha de mensuração ou consequência de um fenômeno real. Cada caso exige uma abordagem diferente. Se o *outlier* for um erro claro, a melhor prática é corrigi-lo ou excluí-lo. No entanto, se ele for válido, vale considerar transformações nos dados, como logaritmos ou winsorização, para reduzir seu impacto. Outra opção é utilizar modelos robustos, como, por exemplo, a regressão robusta ou os métodos baseados em quantis. Essas abordagens são menos sensíveis a valores extremos. Em certos contextos, pode-se ainda optar por analisar os dados com e sem a remoção dos *outliers*. Desse modo, avaliaríamos em que medida os resultados foram ou não sensíveis às decisões analíticas que tomamos no curso das análises de dados. ## Referências Aguinis, H., Gottfredson, R. K., & Joo. H. (2013). Best-practice recommendations for defining, identifying, and handling outliers. *Organizational Research Methods*, *16*(2), 270–301. https://doi.org/10.1177/1094428112470848 Ahmed, S. (n.d.). Unusual observations: Outlier, leverage, and influential points. *The Open Educator* \[website\]. https://www.theopeneducator.com/doe/Regression/outlier-leverage-influential-points Field, A. (2017). *Discovering statistics using IBM SPSS Statistics* (5th ed.). Sage. Hair, J. F., Jr., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). *Análise multivariada de dados* (6ª ed.). Artmed. ## Como citar este post > **Como citar este artigo:** Lima, M. (2025, 18 de agosto). O que são outliers e como detectá-los? *Blog Psicometria Online*. https://www.blog.psicometriaonline.com.br/o-que-sao-outliers-e-como-detecta-los