--- title: "Quais são as diferenças entre underfitting e overfitting?" url: https://www.blog.psicometriaonline.com.br/quais-sao-as-diferencas-entre-underfitting-e-overfitting canonical: https://www.blog.psicometriaonline.com.br/quais-sao-as-diferencas-entre-underfitting-e-overfitting language: pt-BR published: 2025-11-03T12:00:00.000Z updated: 2026-03-30T13:49:03.184Z modified: 2026-03-30T13:49:03.184Z author: "Marcos Lima" categories: ["Inteligência artificial"] tags: ["machine learning"] description: "Entenda as diferenças entre underfitting e overfitting e descubra como equilibrar simplicidade e complexidade em modelos preditivos." source: Blog Psicometria Online --- # Quais são as diferenças entre underfitting e overfitting? > Neste post, iremos diferenciar underfitting e overfitting, dois conceitos fundamentais para quem trabalha com psicometria, análise quantitativa de dados e machine learning. Introdução Imagine que você está tentando ensinar uma criança a diferenciar cães e gatos a partir de fotos (Figura 1). S... Neste post, iremos diferenciar *underfitting* e *overfitting*, dois conceitos fundamentais para quem trabalha com psicometria, análise quantitativa de dados e *machine learning*. ## Introdução Imagine que você está tentando ensinar uma criança a diferenciar cães e gatos a partir de fotos (Figura 1). Se durante a aprendizagem, ela confunde bastante as duas espécies, isso é *underfitting*. Por outro lado, se ela aprende a diferenciar cães de gatos com base em fotos de poodles, shih tzus e lhasa apsos, mas, posteriormente, falha em classificar labradores e buldogues como cães, isso é *overfitting*. ![metáfora para os conceitos de underfitting e overfitting.](/uploads/2025-11_caes-e-gatos-aprendizagem-1.jpg) *Figura 1. Exemplo da aprendizagem dos conceitos de cães e gatos.* A metáfora anterior é útil para entendermos os conceitos de *underfitting* e *overfitting*, que serão mais bem detalhados nas próximas seções. A ideia fundamental é a seguinte: quando estamos ensinando uma criança a diferenciar cães e gatos, queremos não somente que ela se saia bem no treino, mas também que seja capaz de generalizar essa aprendizagem para exemplares não vistos durante o treino. Em *machine learning*, modelos de [aprendizagem supervisionada](/aprendizagem-supervisionada-e-nao-supervisionada) ensinam algoritmos a predizer os valores de uma variável critério contínua (problemas de regressão) ou a classificar exemplares em uma variável critério categórica (problemas de classificação). Contudo, nossa meta é que o algoritmo se saia bem tanto durante o treinamento quanto posteriormente, com novos exemplares. Tendo essas ideias preliminares em mente, detalharemos, em seguida, os conceitos de *underfitting* e *overfitting*. **Saiba mais:** [**O que é *machine learning*?**](/o-que-e-machine-learning) ![banner do post sobre machine learning.](/uploads/2024-11_o-que-e-machine-learning.jpg) ## O que é *underfitting*? O *underfitting* (*subajuste*) ocorre quando o modelo *aprende de menos*. Em outras palavras, ele é tão simples que não consegue capturar os padrões essenciais dos dados. Na metáfora introduzida anteriormente, a criança que confunde cães e gatos representa *underfitting* porque ela não aprendeu características suficientes para ser capaz de discriminar as duas categorias. Eis um segundo exemplo: uma estudante de biologia está aprendendo a diferenciar jacarés de crocodilos, mas vem cometendo muitos erros, pois foi incapaz de identificar as características distintivas que permitem diferenciar exemplares das duas espécies. Na análise quantitativa de dados, o *underfitting* acontece quando usamos modelos muito simples, isto é, que contêm poucas variáveis preditoras, quando o modelo não foi treinado o suficiente ou quando há um número insuficiente de iterações no treinamento. Consequentemente, o modelo não captura os padrões presentes nos dados. Por exemplo, considere a Figura 1, onde ajustamos um modelo de [regressão linear](/o-que-e-regressao-linear) relacionando variáveis que, claramente, possuem uma relação curvilinear. O resultado é um ajuste pobre, isto é, que não captura bem a relação entre variáveis. ![ilustração do conceito de underfitting.](/uploads/2025-10_underfitting-e-overfitting-2.jpg) *Figura 1. Exemplo de subajuste (underfitting).* ## O que é *overfitting*? Enquanto o *underfitting* peca pela simplicidade, o *overfitting* (*sobreajuste*) exagera na complexidade. Aqui, o modelo aprende demais, incluindo ruído e características idiossincráticas dos dados. No exemplo de cães e gatos, a criança aprendeu detalhes específicos demais de alguns tipos de cães (poodles, shih tzus e lhasa apsos), mas falhou em generalizar o conceito para labradores e buldogues. Ou seja, a criança memorizou exemplos específicos, o que garantiu um bom desempenho inicial, mas isso impediu que ela abstraísse os padrões gerais necessários para reconhecer novos cães. Eis um segundo exemplo: Daniel viajou a um país estrangeiro, pegou um táxi e recebeu um golpe do taxista. Agora, ele acredita que todos os taxistas são ladrões. Embora essa conclusão possa ser correta para o taxista que ele contratou, a supergeneralização provavelmente falha em descrever adequadamente a realidade. Na análise quantitativa de dados, o *overfitting* acontece quando usamos modelos muito complexos, isto é, com variáveis preditoras em excesso, ou quando treinamos o modelo por tempo demais, ajustando-se até ao ruído dos dados. Consequentemente, o modelo captura características irrelevantes dos dados. Por exemplo, usando os mesmos dados da Figura 1, ajustamos uma regressão polinomial de grau 10 (Figura 2), que capturou a relação curvilinear presente nos dados. No entanto, embora o poder preditivo desse modelo seja elevado nos dados da Figura 2, ele provavelmente terá baixa capacidade de generalização para outros conjuntos de dados. ![ilustração do conceito de overfitting.](/uploads/2025-10_underfitting-e-overfitting-3.jpg) *Figura 2. Exemplo de sobreajuste (overfitting).* ## Quais são os riscos de *underfitting* e *overfitting*? Apesar de opostos, *underfitting* e *overfitting* compartilham um mesmo desafio na modelagem quantitativa de dados: como fazer com que algoritmos aprendam de forma equilibrada? O *underfitting* leva a **baixa precisão**. Modelos muito simples ignoram informações relevantes e produzem interpretações superficiais. Como resultado, as decisões baseadas neles tendem a ser pobres e até equivocadas. Por outro lado, o *overfitting* gera **falsas certezas**. O modelo parece excelente à primeira vista, mas falha ao lidar com novos dados. Na prática, isso significa decisões baseadas em artefatos estatísticos, algo perigoso em quaisquer áreas do conhecimento. Em ambos os casos, perde-se o principal objetivo de um bom modelo: compreender padrões reais e fazer previsões confiáveis com um modelo parcimonioso, que explica o máximo de variabilidade da variável critério com o mínimo de parâmetros possível. Por exemplo, a Figura 3 apresenta um modelo parcimonioso, baseado em uma regressão cúbica, que captura a relação curvilinear entre variáveis sem ajustar o ruído presente nos dados. Em outras palavras, ele evita os extremos do *underfitting* e do *overfitting*. ![meio termo (ótimo) entre underfitting e overfitting.](/uploads/2025-10_underfitting-e-overfitting-4.jpg) *Figura 3. Meio termo (ótimo) entre underfitting e overfitting.* ## Como diagnosticar *underfitting* e *overfitting*? Nos exemplos anteriores, para fins didáticos, ajustamos modelos em todos os dados. Contudo, as boas práticas de *machine learning* recomendam que os dados sejam divididos em diferentes subconjuntos, a saber, *dados de treino* e *dados de teste* (Figura 4). ![](/uploads/2025-11_underfitting-e-overfitting-5.jpg) *Figura 4. Exemplo do particionamento de dados em dados de treino e dados de teste.* Os *dados de treino* são usados para treinar nosso modelo, de modo que ele aprenda os valores dos parâmetros que minimizem o erro de predição. Por outro lado, os *dados de teste* são usados para avaliar em que medida a qualidade do ajuste se generaliza para dados não utilizados no treino do modelo. Em geral, temos evidências de *underfitting* quando o modelo tem baixo desempenho tanto nos dados de treino quanto nos dados de teste. Isso indica que ele não está aprendendo adequadamente. Por outro lado, o principal sintoma de *overfitting* consiste em um modelo que tem ótimo desempenho no treino, mas um desempenho ruim no teste, revelando que aprendeu “demais”. Em ambos os casos, o desempenho do modelo é quantificado por métricas apropriadas, como o erro absoluto médio (*mean absolute error*, MAE) e o [coeficiente de determinação](/entenda-o-que-e-o-coeficiente-de-determinacao-na-regressao-linear) (*R*2), entre outras. ## Como evitar *underfitting* e *overfitting*? Evitar *underfitting* e *overfitting* requer equilíbrio entre aprendizado e generalização. Para evitar o *underfitting*, podemos aumentar a complexidade do modelo (e.g., inserindo termos polinomiais ou produtos entre variáveis), incluir variáveis relevantes (i.e., baseadas em teorias) e ajustar adequadamente os hiperparâmetros do algoritmo. Resumidamente, *hiperparâmetros* são configurações modificáveis que controlam o processo de aprendizado do modelo. Quando mal ajustados, o algoritmo pode aprender de menos. Por exemplo, uma taxa de aprendizagem (α) muito baixa faz com que o modelo atualize os parâmetros lentamente e não capture os padrões dos dados, resultando em *underfitting*. Nesses casos, aumentar moderadamente α ou o número de iterações permite que o modelo se ajuste melhor aos dados sem perder a capacidade de generalização. Para reduzir o *overfitting*, as alternativas incluem usar validação cruzada, aumentar o conjunto de dados utilizado para treino do modelo e aplicar técnicas de regularização (e.g., LASSO, Ridge, ElasticNet). Essencialmente, técnicas de regularização penalizam o modelo pelo excesso de parâmetros, reduzindo (ou zerando) os coeficientes de alguns preditores. No LASSO, por exemplo, a penalização tende a zerar coeficientes, enquanto no Ridge ela apenas os reduz. ## Conclusão A Psicometria Online conta com a formação em [**Inteligência Artificial Aplicada a Pesquisas Científicas**](https://academy-po.psicometriaonline.com.br/?utm_source=blog&utm_medium=organico&utm_campaign=&utm_term=&utm_content=post/), que incluem conteúdos, como, por exemplo, algoritmos de aprendizagem supervisionada e não supervisionada, *probabilistic graphical models*, redes neurais e técnicas de processamento de linguagem natural. Se você quer aprender sobre esses conteúdos, então faça parte da nossa formação! ## Referências Dwyer, D. B., Falkai, P., & Koutsouleris, N. (2018). Machine learning approaches for clinical psychology and psychiatry. *Annual Review of Psychology*, *14*, 91–118. https://doi.org/10.1146/annurev-clinpsy-032816-045037 Géron, A. (2019). *Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems* (2nd ed.). O’Reilly. Müller, A. C., & Guido, S. (2017). *Introduction to machine learning with Python: A guide for data scientists*. O’Reilly. Starmer, J. (2022). *The StatQuest illustrated guide to machine learning!!!* www.statquest.org ## Como citar este post > **Como citar este artigo:** Lima, M. (2025, 3 de novembro). Quais são as diferenças entre underfitting e overfitting? *Blog Psicometria Online*. https://www.blog.psicometriaonline.com.br/quais-sao-as-diferencas-entre-underfitting-e-overfitting