O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

Nem simples demais (underfitting), nem complicado demais (overfitting): o caminho para um modelo bem ajustado

Alessandro Reis

fev 18, 2026

Imagine que você está aprendendo a tocar violão. No começo, você toca tudo de forma simplificada, com poucos acordes e ritmo básico. A música sai pobre e sem nuance. Depois de algum tempo, por outro lado, você começa a enfeitar demais, coloca variações excessivas e improvisa onde não deveria. Como resultado, erra justamente as partes essenciais.

Em um caso, falta complexidade. No outro, sobra complexidade e sua música soa até difícil de ouvir. Em machine learning, esses dois extremos recebem nomes técnicos: underfitting e overfitting. Portanto, compreender essa distinção é fundamental para construir modelos bem ajustados.

Modelagem, representação e ajuste do modelo aos dados

Em termos formais, um modelo é uma função matemática que tenta capturar padrões nos dados para representar o que está acontecendo e, além disso, realizar predições acuradas. Durante o treinamento, o algoritmo ajusta seus parâmetros para minimizar uma função objetivo, isto é, uma medida formal de erro.

No entanto, minimizar o erro nos dados de treino não garante bom desempenho no mundo real. Em outras palavras, um modelo pode parecer excelente com um conjunto de dados, mas falhar completamente em novas amostras. É justamente aqui que surge a distinção entre underfitting e overfitting — e, consequentemente, a busca por um modelo bem ajustado.

Underfitting: a falha em obter um modelo bem ajustado

Suponha que você dispõe de um conjunto de dados e, com o ferramental estatístico apropriado, ajuste um modelo de regressão linear para representá-lo (Figura 1).

modelo com underfitting: a falha em obter um modelo bem ajustado.
Figura 1. Ilustração do underfitting.

O underfitting, ou seja, o subajuste, ocorre quando o modelo é simples demais para capturar a estrutura real dos dados. Nesse caso, ele apresenta alto erro tanto no conjunto de treino quanto no conjunto de teste. Tecnicamente, dizemos que o modelo tem alto viés (bias), isto é, faz suposições rígidas sobre o formato dos dados.

Por exemplo, na Figura 1, podemos intuir que um segmento de reta dificilmente representa bem dados curvilineares. Assim, o modelo erra porque nunca teve capacidade suficiente para aprender o padrão subjacente (Hastie et al., 2021).

Overfitting: um modelo bem ajustado demais para ser verdade

Agora, suponha que, para os mesmos dados anteriores, nós ajustamos um modelo polinomial de grau 10, ou seja, um modelo com muitos coeficientes adicionais e, consequentemente, mais flexível para ajustar diferentes conjuntos de dados (Figura 2).

modelo com overfitting: bem ajustado demais para ser verdade.
Figura 2. Ilustração de overfitting.

O overfitting, ou o sobreajuste, ocorre quando o modelo se ajusta excessivamente aos dados de treino. Nesse cenário, ele captura não apenas o padrão real, mas também o ruído específico daquela amostra (Figura 2). Como resultado, o erro no treino fica muito baixo, enquanto o erro no teste aumenta.

Nessa situação, o modelo apresenta alta variância, isto é, grande sensibilidade a pequenas variações nos dados. É como memorizar as respostas exatas de uma prova antiga e, ainda assim, falhar quando as perguntas mudam levemente.

Géron (2023) enfatiza que modelos muito flexíveis, como redes neurais profundas ou árvores muito complexas, são particularmente suscetíveis a esse problema. Portanto, embora a flexibilidade aumente a capacidade de ajuste, ela também eleva o risco de afastar-se de um modelo bem ajustado.

O dilema viés-variância e o caminho para um modelo bem ajustado

A relação entre underfitting e overfitting é descrita pelo chamado dilema viés-variância (bias-variance trade-off). O viés mede o quanto o modelo simplifica demais a realidade. Já a variância mede o quanto ele reage demais às flutuações da amostra.

De modo geral, modelos simples tendem a apresentar alto viés e baixa variância. Em contraste, modelos muito complexos costumam ter baixo viés e alta variância. Assim, o objetivo não é eliminar completamente um dos dois, mas encontrar um equilíbrio estrutural (Murphy, 2023).

Em machine learning, você precisa que seu modelo apresente um bom ajuste, e isso depende diretamente desse trade-off. Um modelo bem ajustado não “decora as respostas da prova”. Pelo contrário, ele generaliza adequadamente quando é exposto a novas bases de dados.

A Figura 3 indica que um modelo bem ajustado (painel central) está no meio termo entre os modelos que introduzimos anteriormente, isto é, nem simples demais (underfitting), nem complicado demais (overfitting).

modelo bem ajustado contrastado com modelos com underfitting e overfitting.
Figura 3. Ajuste de três modelos aos dados, representando ajuste ruim (subajuste/underfitting), bom ajuste (modelo parcimonioso) e ajuste bom demais (sobreajuste/overfitting).

A Figura 3 ilustra como a busca de um bom modelo de machine learning é a busca do caminho do meio, evitando dois extremos.

Um exemplo ajuda. Suponha um modelo de regressão para prever preço de imóveis. Se ele usa apenas uma variável, como metragem, provavelmente apresentará underfitting, pois outros fatores também são preditores do preço de imóveis.

Por outro lado, se o modelo usa dezenas de variáveis altamente correlacionadas, interações e termos polinomiais de grau elevado, ele pode ajustar perfeitamente os dados de treino, mas falhar em novas amostras, caracterizando overfitting. O algoritmo é o mesmo. O que muda é a complexidade da hipótese escolhida.

Estratégias para alcançar um modelo bem ajustado

Existem estratégias práticas para lidar com ambos os problemas. Para reduzir underfitting, por exemplo, você pode aumentar a capacidade do modelo, adicionando variáveis, camadas ou interações.

Por outro lado, para reduzir overfitting, recomenda-se utilizar técnicas como regularização, validação cruzada, early stopping e aumento de dados. A regularização adiciona uma penalidade à função objetivo e, assim, desencoraja soluções excessivamente complexas. Já a validação cruzada permite estimar o desempenho fora da amostra antes de finalizar o modelo.

Além disso, grande parte das discussões públicas sobre “modelos poderosos” ignora que complexidade é uma faca de dois gumes. Afinal, se todo modelo fosse infinitamente flexível e treinado até erro zero no treino, a maioria das soluções práticas seria inútil fora do laboratório.

Para concluir, underfitting e overfitting não são falhas morais do modelo. Pelo contrário, são extremos naturais de um espectro. Modelar bem significa encontrar o ponto em que o modelo aprende o suficiente para generalizar, mas não tanto a ponto de se iludir.

banner da Formação em Inteligência Artificial da Psicometria Online.

Referências

Géron, A. (2023). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow (3rd ed.). O’Reilly.

Hastie, T., Tibshirani, R., & Friedman, J. (2021). The elements of statistical learning (2nd ed.). Springer.

Murphy, K. P. (2023). Probabilistic machine learning: An introduction. MIT Press.bridge: MIT Press, 2023.

Como citar este post

Reis, A. (2026, 18 de fevereiro). Nem simples demais (underfitting), nem complicado demais (overfitting): o caminho para um modelo bem ajustado. Blog Psicometria Online. https://blog.psicometriaonline.com.br/o-caminho-para-um-modelo-bem-ajustado

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

0 0 Votos
Classificação do artigo
Inscrever-se
Notificar de
guest

0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários

Posts sugeridos

AFE não é horóscopo: o fim do “olhômetro” na Análise Fatorial

O que é o dilema viés-variância?

Qual a diferença entre parâmetros e hiperparâmetros?

Conteúdo

Mais lidos

Análise de moderação: como identificar potenciais variáveis moderadoras?

Modelagem por equações estruturais no R: conceitos e aplicações

O que são variáveis ​​independentes e dependentes?

O que é correlação de Pearson?

Postados recentemente

Qual é a diferença entre explicação e predição?

O que é o teste de esfericidade de Bartlett?

AFE não é horóscopo: o fim do “olhômetro” na Análise Fatorial

O que é o teste de Wald-Wolfowitz?

Deseja se tornar completamente autônomo e independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias