Neste post, iremos diferenciar underfitting e overfitting, dois conceitos fundamentais para quem trabalha com psicometria, análise quantitativa de dados e machine learning.
Introdução
Imagine que você está tentando ensinar uma criança a diferenciar cães e gatos a partir de fotos (Figura 1). Se durante a aprendizagem, ela confunde bastante as duas espécies, isso é underfitting. Por outro lado, se ela aprende a diferenciar cães de gatos com base em fotos de poodles, shih tzus e lhasa apsos, mas, posteriormente, falha em classificar labradores e buldogues como cães, isso é overfitting.

A metáfora anterior é útil para entendermos os conceitos de underfitting e overfitting, que serão mais bem detalhados nas próximas seções. A ideia fundamental é a seguinte: quando estamos ensinando uma criança a diferenciar cães e gatos, queremos não somente que ela se saia bem no treino, mas também que seja capaz de generalizar essa aprendizagem para exemplares não vistos durante o treino.
Em machine learning, modelos de aprendizagem supervisionada ensinam algoritmos a predizer os valores de uma variável critério contínua (problemas de regressão) ou a classificar exemplares em uma variável critério categórica (problemas de classificação). Contudo, nossa meta é que o algoritmo se saia bem tanto durante o treinamento quanto posteriormente, com novos exemplares.
Tendo essas ideias preliminares em mente, detalharemos, em seguida, os conceitos de underfitting e overfitting.
Saiba mais: O que é machine learning?

O que é underfitting?
O underfitting (subajuste) ocorre quando o modelo aprende de menos. Em outras palavras, ele é tão simples que não consegue capturar os padrões essenciais dos dados. Na metáfora introduzida anteriormente, a criança que confunde cães e gatos representa underfitting porque ela não aprendeu características suficientes para ser capaz de discriminar as duas categorias.
Eis um segundo exemplo: uma estudante de biologia está aprendendo a diferenciar jacarés de crocodilos, mas vem cometendo muitos erros, pois foi incapaz de identificar as características distintivas que permitem diferenciar exemplares das duas espécies.
Na análise quantitativa de dados, o underfitting acontece quando usamos modelos muito simples, isto é, que contêm poucas variáveis preditoras, quando o modelo não foi treinado o suficiente ou quando há um número insuficiente de iterações no treinamento. Consequentemente, o modelo não captura os padrões presentes nos dados.
Por exemplo, considere a Figura 1, onde ajustamos um modelo de regressão linear relacionando variáveis que, claramente, possuem uma relação curvilinear. O resultado é um ajuste pobre, isto é, que não captura bem a relação entre variáveis.

O que é overfitting?
Enquanto o underfitting peca pela simplicidade, o overfitting (sobreajuste) exagera na complexidade. Aqui, o modelo aprende demais, incluindo ruído e características idiossincráticas dos dados.
No exemplo de cães e gatos, a criança aprendeu detalhes específicos demais de alguns tipos de cães (poodles, shih tzus e lhasa apsos), mas falhou em generalizar o conceito para labradores e buldogues. Ou seja, a criança memorizou exemplos específicos, o que garantiu um bom desempenho inicial, mas isso impediu que ela abstraísse os padrões gerais necessários para reconhecer novos cães.
Eis um segundo exemplo: Daniel viajou a um país estrangeiro, pegou um táxi e recebeu um golpe do taxista. Agora, ele acredita que todos os taxistas são ladrões. Embora essa conclusão possa ser correta para o taxista que ele contratou, a supergeneralização provavelmente falha em descrever adequadamente a realidade.
Na análise quantitativa de dados, o overfitting acontece quando usamos modelos muito complexos, isto é, com variáveis preditoras em excesso, ou quando treinamos o modelo por tempo demais, ajustando-se até ao ruído dos dados. Consequentemente, o modelo captura características irrelevantes dos dados.
Por exemplo, usando os mesmos dados da Figura 1, ajustamos uma regressão polinomial de grau 10 (Figura 2), que capturou a relação curvilinear presente nos dados. No entanto, embora o poder preditivo desse modelo seja elevado nos dados da Figura 2, ele provavelmente terá baixa capacidade de generalização para outros conjuntos de dados.

Quais são os riscos de underfitting e overfitting?
Apesar de opostos, underfitting e overfitting compartilham um mesmo desafio na modelagem quantitativa de dados: como fazer com que algoritmos aprendam de forma equilibrada?
O underfitting leva a baixa precisão. Modelos muito simples ignoram informações relevantes e produzem interpretações superficiais. Como resultado, as decisões baseadas neles tendem a ser pobres e até equivocadas.
Por outro lado, o overfitting gera falsas certezas. O modelo parece excelente à primeira vista, mas falha ao lidar com novos dados. Na prática, isso significa decisões baseadas em artefatos estatísticos, algo perigoso em quaisquer áreas do conhecimento.
Em ambos os casos, perde-se o principal objetivo de um bom modelo: compreender padrões reais e fazer previsões confiáveis com um modelo parcimonioso, que explica o máximo de variabilidade da variável critério com o mínimo de parâmetros possível.
Por exemplo, a Figura 3 apresenta um modelo parcimonioso, baseado em uma regressão cúbica, que captura a relação curvilinear entre variáveis sem ajustar o ruído presente nos dados. Em outras palavras, ele evita os extremos do underfitting e do overfitting.

Como diagnosticar underfitting e overfitting?
Nos exemplos anteriores, para fins didáticos, ajustamos modelos em todos os dados. Contudo, as boas práticas de machine learning recomendam que os dados sejam divididos em diferentes subconjuntos, a saber, dados de treino e dados de teste (Figura 4).

Os dados de treino são usados para treinar nosso modelo, de modo que ele aprenda os valores dos parâmetros que minimizem o erro de predição. Por outro lado, os dados de teste são usados para avaliar em que medida a qualidade do ajuste se generaliza para dados não utilizados no treino do modelo.
Em geral, temos evidências de underfitting quando o modelo tem baixo desempenho tanto nos dados de treino quanto nos dados de teste. Isso indica que ele não está aprendendo adequadamente. Por outro lado, o principal sintoma de overfitting consiste em um modelo que tem ótimo desempenho no treino, mas um desempenho ruim no teste, revelando que aprendeu “demais”.
Em ambos os casos, o desempenho do modelo é quantificado por métricas apropriadas, como o erro absoluto médio (mean absolute error, MAE) e o coeficiente de determinação (R2), entre outras.
Como evitar underfitting e overfitting?
Evitar underfitting e overfitting requer equilíbrio entre aprendizado e generalização. Para evitar o underfitting, podemos aumentar a complexidade do modelo (e.g., inserindo termos polinomiais ou produtos entre variáveis), incluir variáveis relevantes (i.e., baseadas em teorias) e ajustar adequadamente os hiperparâmetros do algoritmo.
Resumidamente, hiperparâmetros são configurações modificáveis que controlam o processo de aprendizado do modelo. Quando mal ajustados, o algoritmo pode aprender de menos. Por exemplo, uma taxa de aprendizagem (α) muito baixa faz com que o modelo atualize os parâmetros lentamente e não capture os padrões dos dados, resultando em underfitting. Nesses casos, aumentar moderadamente α ou o número de iterações permite que o modelo se ajuste melhor aos dados sem perder a capacidade de generalização.
Para reduzir o overfitting, as alternativas incluem usar validação cruzada, aumentar o conjunto de dados utilizado para treino do modelo e aplicar técnicas de regularização (e.g., LASSO, Ridge, ElasticNet).
Essencialmente, técnicas de regularização penalizam o modelo pelo excesso de parâmetros, reduzindo (ou zerando) os coeficientes de alguns preditores. No LASSO, por exemplo, a penalização tende a zerar coeficientes, enquanto no Ridge ela apenas os reduz.
Conclusão
A Psicometria Online conta com a formação em Inteligência Artificial Aplicada a Pesquisas Científicas, que incluem conteúdos, como, por exemplo, algoritmos de aprendizagem supervisionada e não supervisionada, probabilistic graphical models, redes neurais e técnicas de processamento de linguagem natural.
Se você quer aprender sobre esses conteúdos, então faça parte da nossa formação!

Referências
Dwyer, D. B., Falkai, P., & Koutsouleris, N. (2018). Machine learning approaches for clinical psychology and psychiatry. Annual Review of Psychology, 14, 91–118. https://doi.org/10.1146/annurev-clinpsy-032816-045037
Géron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems (2nd ed.). O’Reilly.
Müller, A. C., & Guido, S. (2017). Introduction to machine learning with Python: A guide for data scientists. O’Reilly.
Starmer, J. (2022). The StatQuest illustrated guide to machine learning!!! www.statquest.org
Como citar este post
Lima, M. (2025, 3 de novembro). Quais são as diferenças entre underfitting e overfitting? Blog Psicometria Online. https://blog.psicometriaonline.com.br/quais-sao-as-diferencas-entre-underfitting-e-overfitting
