Neste post, falaremos sobre o dilema viés-variância, um importante conceito de machine learning que, cada vez mais, tem ganhado relevância em pesquisas científicas, à medida que a estatística aplicada e o machine learning se aproximam.
Primeiramente, apresentamos os conceitos de viés e variância no contexto de modelos preditivos. Em seguida, discutimos como a tensão entre esses dois componentes dá origem ao dilema viés-variância, incluindo sua relação com o erro de predição esperado.
Depois, utilizamos exemplos gráficos e a metáfora dos alvos de dardos para tornar o conceito mais intuitivo, estabelecendo também uma analogia com fidedignidade e validade em psicometria. Por fim, discutimos estratégias práticas para lidar com esse dilema na construção de modelos estatísticos e de machine learning.
O que é viés?
Antes de falarmos do dilema, vamos entender suas partes constituintes. Para esse fim, assuma que queremos predizer uma variável de interesse usando um modelo de machine learning. Além disso, queremos ter bom desempenho preditivo não apenas nos dados de treino, mas também em dados de teste, que não foram usados para treinar o modelo.
Nesse contexto, o viés (bias) representa a tendência de um modelo produzir estimativas consistentemente deslocadas em uma direção específica. Em outras palavras, ele diz respeito ao erro sistemático de um modelo. Por exemplo, se ajustamos um modelo linear para dados quando, na verdade, deveríamos usar um modelo quadrático, podemos superestimar as predições para boa parte das observações.
Modelos com alto viés costumam ser muito simples. Por exemplo, imagine usar uma regressão linear simples para prever a relação entre idade e risco de uma doença, quando essa relação é, na verdade, não linear. O modelo não consegue capturar a complexidade do fenômeno — e isso gera underfitting (Figura 1).

Em síntese, modelos com alto viés cometem erros mesmo em dados de treino, porque partem de suposições muito rígidas.
O que é variância?
Em seguida, abordaremos a variância (variance), do dilema viés-variância. No entanto, é importante enfatizar que, no presente contexto, esse conceito não se refere à estatística de dispersão dos dados, mas sim à variabilidade do modelo entre amostras.
Mais precisamente, no contexto de machine learning, a variância representa o quanto os parâmetros ajustados do modelo tendem a se desviar de sua tendência central em diferentes conjuntos de dados. Em outras palavras, ela está relacionada à sensibilidade do modelo às variações nos dados de treino.
Modelos com alta variância tendem a ser excessivamente complexos, o que resulta em um ajuste elevado do modelo aos dados — incluindo o ruído nele presente. Assim, funcionam muito bem no treino, mas não se saem bem em novos dados.
Isso ocorre, por exemplo, ao ajustar uma regressão polinomial de grau muito alto. O modelo segue os pontos com precisão extrema, mas perde a capacidade de generalização. Esse é o clássico overfitting (Figura 2).

Portanto, modelos com alta variância são complexos demais e produzem resultados instáveis entre diferentes amostras.
Afinal, qual é o dilema entre viés e variância?
Aqui está o ponto-chave do dilema viés-variância (bias-variance tradeoff): quando tentamos reduzir o viés, geralmente aumentamos a variância — e vice-versa.
Modelos simples têm baixo risco de overfitting, mas podem sofrer de subajuste (alto viés). Já modelos complexos capturam detalhes demais e se tornam instáveis (alta variância; Figura 3).

A arte está em encontrar o ponto de equilíbrio. Técnicas como validação cruzada (cross-validation) ajudam a identificar esse ponto, testando o modelo em diferentes subconjuntos dos dados.
O dilema viés-variância e o erro de predição esperado
O dilema viés-variância pode ser entendido a partir do erro de predição esperado. Em termos simples, esse erro pode ser decomposto em três componentes: viés2, variância e erro irredutível (Figura 4). Na decomposição do erro de predição esperado, o viés aparece ao quadrado porque o erro é medido em termos quadráticos, isto é, como erro quadrático médio.

O viés representa o quanto o modelo médio estimado se afasta do verdadeiro modelo populacional. Portanto, ele reflete erros sistemáticos que surgem de suposições excessivamente simplificadoras. Ele tende a aumentar conforme a complexidade do modelo diminui, elevando o risco de underfitting.
A variância, por outro lado, indica o quanto os modelos estimados variam de uma amostra para outra. Assim, modelos muito flexíveis tendem a reagir fortemente a pequenas flutuações nos dados. Ela tende a aumentar conforme a complexidade do modelo aumenta, elevando o risco de overfitting.
Já o erro irredutível corresponde ao ruído inerente ao fenômeno estudado (ou, na linguagem da psicometria, devido a erros de mensuração). Como resultado, nenhum modelo — ou instrumento de medida — consegue eliminá-lo completamente.
Portanto, à medida que aumentamos a complexidade do modelo, o viés tende a diminuir, enquanto a variância tende a aumentar. É justamente essa tensão que define o dilema viés-variância.

O dilema viés-variância e a metáfora dos alvos de dardos
Para tornar o dilema viés-variância mais intuitivo, é comum utilizarmos a metáfora dos alvos de dardos, como ilustrado na Figura 5. Nela, cada tiro representa uma estimativa produzida por um modelo, enquanto o centro do alvo representa a “verdade” populacional.

De forma geral, quando os tiros ficam muito espalhados, dizemos que há alta variância (as estimativas variam bastante entre conjuntos de dados). Por outro lado, quando os tiros se concentram longe do centro, observamos alto viés (as estimativas se afastam sistematicamente da verdade). Assim, essa metáfora ajuda a visualizar dois tipos distintos de erro.
Viés, variância, fidedignidade e validade: uma analogia útil
Curiosamente, a metáfora dos alvos de dardos também é usada na psicometria, a fim de diferenciar os conceitos de fidedignidade e validade. Por esse motivo, traçaremos uma analogia direta entre esses pares de conceitos.
A variância se assemelha a problemas de fidedignidade, enquanto viés se assemelha a problemas de validade. Afinal, instrumentos pouco fidedignos produzem medidas instáveis, ao passo que instrumentos pouco válidos geram medidas sistematicamente deslocadas do construto verdadeiro.
No entanto, essa analogia não é perfeita e merece duas ressalvas importantes. Primeiramente, viés e variância são definidos em relação ao erro de predição, isto é, à diferença entre valores previstos e valores observados. Já em psicometria, fidedignidade e validade dizem respeito à relação entre os valores observados e o valor verdadeiro do traço latente.
Em segundo lugar, na literatura de psicometria, fidedignidade e validade são conceitos antagônicos. Pelo contrário, a fidedignidade é uma condição necessária, embora não suficiente, para a validade. Por outro lado, em machine learning, viés e variância frequentemente entram em tensão: reduzir o viés pode aumentar a variância, e vice-versa.
Feitas essas duas ressalvas, embora os conceitos operem em níveis distintos, a comparação é pedagogicamente útil. A Tabela 1 resume essas correspondências, com relação à metáfora dos alvos dos dardos.
| Dardos | Machine learning | Psicometria |
| Centro do alvo | Verdade populacional | Traço latente (escore) verdadeiro |
| Média dos tiros | Valor esperado do estimador | Média dos escores observados |
| Dispersão dos tiros | Variância | Erro aleatório (se alto, baixa fidedignidade) |
| Distância do centro | Viés | Erro sistemático (se alto, baixa validade) |
Em síntese, a metáfora dos alvos não substitui definições formais, mas facilita a compreensão do dilema viés-variância, especialmente para leitores já familiarizados com os conceitos de fidedignidade e validade.
Como lidar com o dilema viés-variância?
Lidar com o dilema viés-variância é uma tarefa essencial em qualquer análise preditiva. Afinal, a meta não é apenas ajustar bem os dados que já temos, mas construir modelos capazes de generalizar — ou seja, prever bem dados que ainda não vimos.
A primeira estratégia para enfrentar esse dilema é avaliar o desempenho do modelo fora da amostra. Técnicas como a validação cruzada (e.g., k-fold cross-validation) fornecem estimativas mais realistas do erro de generalização. Elas ajudam a perceber se estamos caindo em overfitting (alta variância) ou underfitting (alto viés).
Além disso, ferramentas como regularização (e.g., Ridge ou Lasso) são especialmente úteis. Elas impõem uma penalidade sobre a complexidade do modelo, ajudando a evitar que ele se torne excessivamente sensível aos dados de treino.
Outra decisão importante envolve o próprio tipo de modelo. Às vezes, uma regressão simples bem escolhida funciona melhor do que um algoritmo sofisticado com muitos parâmetros. O segredo está em encontrar o ponto de equilíbrio — onde o modelo é complexo o suficiente para capturar padrões reais, mas simples o bastante para manter a estabilidade.
Por fim, é essencial lembrar que não existe um modelo ideal universal. O equilíbrio entre viés e variância depende do contexto, do tamanho da amostra, da qualidade dos dados e dos objetivos da análise.
Portanto, entender e saber gerenciar o dilema viés-variância é o que separa modelos frágeis de modelos robustos. Ele não apenas melhora a qualidade das previsões, como também guia decisões estatísticas mais conscientes.

Referências
de Rooij, M., & Weeda, W. (2020). Cross-validation: A method every psychologist should know. Advances in Methods and Practices in Psychological Science, 3(2), 248–263. https://doi.org/doi.org/10.1177/25152459198984
Yarkoni, T., & Westfall, J. (2017). Choosing prediction over explanation in psychology: Lessons from machine learning. Perspectives on Psychological Science, 12(6), 1100–1122. https://doi.org/10.1177/1745691617693393
Como citar
Lima, M. (2026, 20 de fevereiro). O que é o dilema viés-variância? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-o-dilema-vies-variancia
