O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

Validação cruzada: sem isso, você não faz ciência de dados

Alessandro Reis

nov 26, 2025

Imagine que você está ensinando alguém a dirigir. Se você avaliar essa pessoa apenas no trajeto da própria rua, ela parecerá ótima. Concorda que avaliar apenas dessa forma não parece muito confiável? Ok, mas então como seria uma avaliação mais rica?

Por isso, quando você coloca o carro em outra vizinhança — com ladeiras, avenidas e mais trânsito —, a avaliação se torna muito mais reveladora. Além disso, você percebe rapidamente se a pessoa aprendeu a dirigir de fato ou se apenas memorizou o caminho de casa.

A validação cruzada funciona exatamente assim. Ela testa o modelo em múltiplas “ruas”, de várias formas diferentes, a fim de avaliar se ele realmente aprendeu a generalizar ou se apenas decorou o treino.

O que é validação cruzada? Uma definição técnica

Dizemos que um modelo estatístico é generalizável quando ele, após ser treinado em um conjunto de observações, também apresenta bom desempenho em um novo conjunto de dados que não participou do treino.

Mas como podemos examinar o quão generalizáveis nossos modelos são? Uma das técnicas mais bem difundidas para essa finalidade é a validação cruzada, ou cross-validation, que divide os dados em compartimentos (folds). Em cada rodada, o modelo treina em alguns compartimentos e, em seguida, testa nos demais.

Depois disso, combinamos as métricas obtidas nas diferentes rodadas de treino e teste, produzindo uma estimativa mais estável e, sobretudo, mais honesta do desempenho real do modelo.

Portanto, quando você deseja validar conclusões de machine learning, a validação cruzada se torna a estratégia metodológica mais adequada.

Por exemplo, suponha que você está fazendo uma regressão com uma base de dados contendo 1.000 casos. Para validar o modelo gerado você utiliza uma 4-fold cross-validation. Em outras palavras, o dataset é dividido em quatro compartimentos de 250 casos cada, alocados aleatoriamente.

Primeiramente, o modelo treina em três compartimentos (dados de treino). Em seguida, ele testa no compartimento restante (dados de teste). Em seguida, você repete o processo mais três vezes, garantindo que todos os blocos sejam utilizados tanto para treino quanto para teste (Figura 1).

ilustração do k-fold cross-validation, método de validação cruzada.
Figura 1. Representação esquemática de um 4-fold cross-validation.

Finalmente, calcula-se a média das métricas e o desvio-padrão. Dessa forma, você obtém uma noção clara do desempenho médio e da variabilidade, identificando quão sensível o modelo é ao conjunto de dados como um todo.

Por que a validação cruzada é tão importante?

a. A validação cruzada evita ilusões estatísticas

Uma única repartição treino-teste, por si só, pode gerar resultados enganosos. Frequentemente, o modelo parece ótimo apenas porque “deu sorte” no particionamento. Desse modo, ao repartirmos o modelo em compartimentos múltiplos, temos a possibilidade de examinar se os resultados se generalizam para diferentes particionamentos dos dados.

b. A validação cruzada revela estabilidade e generalização

Com múltiplos compartimentos, você testa o modelo em cenários variados. Consequentemente, se ele apresenta bom desempenho em todos, então as chances de generalizar aumentam substancialmente.

c. A validação cruzada detecta overfitting

Se o modelo é excelente em algumas partições, mas péssimo em outras, isso mostra instabilidade estrutural — um sinal claro de overfitting.

Em síntese, o overfitting é o superajuste indesejado, ou seja, quando o modelo “decora” o treino e até parece excelente, mas falha ao generalizar para novos dados.

d. A validação cruzada permite comparar modelos de forma justa

Usar a mesma estrutura de compartimentos para todos os modelos elimina vieses acidentais na comparação. Se os modelos fossem carros, seria como colocar todos para serem dirigidos nas mesmas ruas, ou seja, os modelos estão competindo entre si sob as mesmas condições de comparação.

banner da formação em Inteligência Artificial da Psicometria Online.

Quais são os principais tipos de validação cruzada?

Existem múltiplos tipos de validação cruzada. Sendo assim, antes de escolher o método ideal, vale conhecer os principais tipos de validação cruzada e entender em quais cenários cada um funciona melhor.

1. k-fold cross-validation (padrão-ouro)

Divide o conjunto de dados em k partes (ou folds). Em cada rodada, um compartimento distinto serve como teste, e os outros k – 1 são usados para treino. Repete-se esse processo k vezes (reveja a Figura 1), e os resultados são combinados. É o método mais utilizado em ciência de dados.

A principal vantagem do k-fold cross-validation é que ele mantém um bom equilíbrio entre viés e variância (bias-variance tradeoff), além de aproveitar os dados de forma eficiente. Por essas razões, seu uso é especialmente recomendado para datasets médios e grandes.

2. Stratified k-fold

O stratified k-fold é uma variação do k-fold tradicional que, além disso, organiza os dados de modo que cada fold preserve a proporção original das classes (daí o termo estratificado). Essa estratégia garante que a distribuição das categorias se mantenha estável em todas as partições, evitando distorções na avaliação do modelo.

Sendo assim, o método é útil para problemas de classificação com classes desbalanceadas. Por exemplo, em uma situação em que queremos predizer diferentes tipos de câncer, mas alguns tipos têm prevalência baixa, o stratified k-fold se mostra particularmente útil.

3. Leave-one-out

O leave-one-out (“deixe um de fora”) é um caso extremo do k-fold, em que k = n, ou seja, o número de compartimentos corresponde ao número de observações no dataset. Isso implica que cada observação serve como dado de teste uma única vez.

Suas vantagens envolvem o fato de que o método aproveita quase todos os dados para treino, fornecendo estimativas pouco enviesadas. Em contrapartida, é um método computacionalmente caro. Por exemplo, se o dataset contém milhões de casos, ele também repetirá ciclos de treino e teste milhões de vezes. Na maioria das aplicações, esse número de repetições se torna proibitivo.

Sendo assim, seu uso ótimo ocorre com datasets muito pequenos, isto é, aqueles com poucas centenas ou até poucas dezenas de casos na base de dados.

4. Time-series cross-validation

Para dados temporais, não embaralhamos os dados. Ao invés disso, usamos janelas deslizantes. Essas janelas representam blocos consecutivos de tempo que avançam passo a passo: a cada rodada, o modelo treina usando um período inicial e, logo depois, é testado no período imediatamente seguinte.

Assim, a validação respeita a ordem temporal e evita vazamento de informação do futuro para o passado. É um método ideal para dados envolvendo séries temporais, previsões, sensores e finanças.

5. Nested cross-validation

O nested cross-validation (validação cruzada aninhada) utiliza dois ciclos encadeados de validação cruzada que funcionam de maneira complementar. Primeiramente, o ciclo interno busca os melhores hiperparâmetros ao testar diversas combinações de tuning. Em seguida, o ciclo externo avalia o desempenho final do modelo já ajustado, garantindo que a métrica refletirá apenas sua capacidade real de generalização e não o ganho artificial provocado pelo tuning.

Ele pode ser usado em pesquisas rigorosas, especialmente quando o processo de ajuste de hiperparâmetros (tuning) pode inflar artificialmente a performance do modelo e, desse modo, comprometer a credibilidade dos resultados.

Como escolher o tipo mais adequado de validação cruzada para sua pesquisa?

A Tabela 1 resume, de maneira prática, qual tipo de validação cruzada funciona melhor em diferentes cenários.

SituaçãoTipo recomendadoExplicação detalhada
Classificação com desbalanceamentoStratified k-foldMantém a proporção das classes em todos os folds, evitando que o modelo treine ou teste em conjuntos distorcidos. Garante métricas mais estáveis e avaliações mais fiéis em cenários com classes raras
Dataset pequeno (menos de 200 casos)Leave-one-out ou k-fold com k altoLeave-one-out aproveita praticamente todos os dados para treino e testa caso a caso, reduzindo viés. Alternativamente, usar k alto (como 10-fold) evita perda de informação e gera estimativas menos voláteis
Dataset grande (milhares de casos)5-fold ou 10-foldConjuntos grandes têm variabilidade suficiente, então folds mais amplos são eficientes e rápidos. 5-fold é mais econômico; 10-fold é mais estável quando há leve heterogeneidade nos dados
Séries temporaisTime-series cross-validationNão embaralha os dados: respeita a ordem temporal. Usa janelas deslizantes (expanding ou rolling). Essencial para evitar vazamento de informação do futuro para o passado
Avaliação acadêmica rigorosaNested cross-validationSepara a etapa de tuning (CV interno) da etapa de avaliação (CV externo). Impede inflar artificialmente a performance. É o padrão-ouro em teses e artigos de alto rigor metodológico
Comparação entre modelosMesma estrutura de foldsTodos os modelos devem ser avaliados com os mesmos splits para garantir comparação justa. Muda o algoritmo, não a divisão dos dados. Evita vantagens acidentais e torna a análise replicável.
Tabela 1. Resumo dos principais tipos de validação cruzada. CV = cross-validation (validação cruzada).

Como reportar a validação cruzada em artigos acadêmicos?

Para garantir transparência metodológica, você deve relatar elementos fundamentais de sua validação cruzada, conforme resume a Tabela 2.

Elemento a reportarO que deve ser ditoExemplo
Tipo de validação cruzadaInforme o método usado e a estrutura dos folds“Utilizou-se validação cruzada estratificada em 5 folds…”
Métricas médias e desvio-padrãoApresente desempenho médio e variabilidade“Acurácia = 0,82 ± 0,03; F1 = 0,79 ± 0,04.”
Justificativa da escolhaExplique por que esse tipo de validação cruzada foi selecionado“Optou-se por stratified k-fold devido ao desbalanceamento das classes.”
Procedimento de tuningDetalhe como os hiperparâmetros foram escolhidos“Hiperparâmetros selecionados via grid search em nested cross-validation.”
Descrição do pipelineRelate, em ordem cronológica, cada etapa da análisePré-processamento, métricas, valores ausentes, tratamento de outliers, etc.
LimitaçõesDiscuta fragilidades, vieses e instabilidades potenciaisIndique em quais cenários os folds podem favorecer ou prejudicar o modelo
Tabela 2. Quais elementos relatar em uma validação cruzada.

Um exemplo de relato de validação cruzada

O trecho em itálico a seguir fornece um exemplo ilustrativo de relato de validação cruzada:

A validação cruzada empregada na tese foi a stratified k-fold com 5 folds, adequada para preservar a proporção das classes no treino e no teste. As métricas foram apresentadas como médias e desvios-padrão (Acurácia = 0,82 ± 0,03; F1 = 0,79 ± 0,04), fornecendo uma estimativa estável de generalização.

Os hiperparâmetros foram ajustados via grid search em nested CV, explorando combinações de profundidade máxima, taxa de aprendizado e número de árvores, com seleção baseada no melhor F1 médio.

O pipeline seguiu ordem lógica: limpeza dos dados, imputação multivariada, padronização, definição das métricas, tuning externo e avaliação final.

As limitações incluíram possível sensibilidade do modelo a folds com menor variabilidade interna e o risco de leve sobreajuste em classes raras, aspectos discutidos como parte da transparência metodológica.

Lembre-se que fazer validação cruzada é como testar um motorista em múltiplas rotas: você só confia em alguém que dirige bem em ambientes variados. No machine learning, é ela que separa resultados robustos de ilusões de desempenho. Relatar esse processo com clareza — tipo, número de folds, métricas, tuning e limitações — é o que transforma seu modelo em ciência, não em aposta.

banner da formação em IA.

Referência

Dwyer, D. B., Falkai, P., & Koutsouleris, N. (2018). Machine learning approaches for clinical psychology and psychiatry. Annual Review of Psychology, 14, 91–118. https://doi.org/10.1146/annurev-clinpsy-032816-045037

Como citar este post

Vieira, A. (2025, 26 de novembro). Validação cruzada: Sem isso, você não faz ciência de dados. Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/validacao-cruzada-sem-isso-voce-nao-faz-ciencia-de-dados

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

0 0 Votos
Classificação do artigo
Inscrever-se
Notificar de
guest

0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários

Posts sugeridos

Regularização: o personal trainer da Machine Learning

O que são Graph Neural Networks?

O algoritmo k-means clustering

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é correlação de Spearman?

Postados recentemente

O que são efeitos principais e efeitos de interação?

Regularização: o personal trainer da Machine Learning

Quais são as diferenças entre os delineamentos intrassujeitos e entressujeitos?

Efeito teto e efeito chão: o que são e por que eles importam?

Deseja se tornar completamente independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias