--- title: "Antes do algoritmo: por que a preparação de dados decide o sucesso do seu machine learning" url: https://www.blog.psicometriaonline.com.br/antes-do-algoritmo-por-que-a-preparacao-de-dados-decide-o-sucesso-do-seu-machine-learning canonical: https://www.blog.psicometriaonline.com.br/antes-do-algoritmo-por-que-a-preparacao-de-dados-decide-o-sucesso-do-seu-machine-learning language: pt-BR published: 2026-04-02T15:35:58.408Z updated: 2026-04-02T15:35:58.697Z modified: 2026-04-02T15:35:58.697Z author: "Alessandro Reis" categories: ["Inteligência artificial"] tags: ["machine learning"] description: "Saiba quais são as principais etapas de preparação de dados antes de implementar seu algoritmo de machine learning." source: Blog Psicometria Online --- # Antes do algoritmo: por que a preparação de dados decide o sucesso do seu machine learning Quando alguém começa a estudar *Machine Learning*, é comum pensar logo nos algoritmos: regressão, árvore de decisão, [random forest](https://www.blog.psicometriaonline.com.br/o-que-e-random-forest), [redes neurais](https://www.blog.psicometriaonline.com.br/entenda-as-redes-neurais-artificiais). Mas, na prática, o maior erro costuma acontecer **antes** disso: usar a base de dados “do jeito que veio”. E quase nunca ela vem pronta. Muito pelo contrário, até. Na vida real, bases de dados têm **campos vazios, valores inconsistentes, escalas incompatíveis, erros de digitação, duplicatas** e até variáveis que parecem úteis, mas só confundem o modelo. Por isso, antes de “treinar uma IA”, o primeiro passo é fazer uma pergunta muito menos glamourosa e muito mais importante: “*Esses dados estão realmente prontos para serem usados?*” ## O que é preparação de dados? Às vezes chamada de pré-processamento, higienização, ou *feature preprocessing*, dentre outros sinônimos, a preparação de dados é o conjunto de etapas usadas para deixar a base mais legível para fins de análise e até inspeção humana, bem como coerente e adequada para modelagem. Pense assim: um modelo de machine learning não “entende o mundo”. Ele só enxerga os números e categorias que você entrega a ele. Se esses dados estiverem bagunçados, incompletos ou distorcidos, o modelo aprende padrões ruins ou aprende o padrão errado. É o famoso princípio de ciência de dados: *garbage in, garbage out*; ou “(se) entra lixo, sai lixo”. ## Limpeza de dados: corrigindo o básico A primeira etapa costuma ser a **limpeza**. Aqui entram problemas como: - registros duplicados; - datas em formatos diferentes; - categorias escritas de várias formas (“Masculino”, “masc”, “M”); - valores impossíveis (idade = 250, temperatura = -999); - colunas com tipos errados (número salvo como texto). Essa etapa parece simples, mas é decisiva. Às vezes, o modelo “vai bem” apenas porque aprendeu uma **sujeira do banco**, e não um padrão real. Exemplo simples: Imagine uma base de clientes em que a variável “cidade” aparece assim: - Santarém - santarem - Santarem - STRM Para um ser humano, isso é quase a mesma coisa. Para o modelo, podem parecer **quatro cidades diferentes**. ## Missing values: o que fazer com dados faltantes? Um dos problemas mais comuns é a presença de missing values — ou seja, [valores ausentes](https://www.blog.psicometriaonline.com.br/o-que-sao-dados-faltantes). Exemplos: - paciente sem exame laboratorial registrado; - aluno que não respondeu uma pergunta do questionário; - sensor que falhou em determinado horário; - cliente que não informou renda. Muita gente tenta resolver isso de forma automática, preenchendo tudo com zero ou apagando linhas inteiras. Só que isso pode ser um erro sério, porque “faltando” também pode significar algo. Nem sempre um dado está ausente por acaso. Às vezes, o próprio fato de um valor estar faltando **já contém informação**. Por exemplo: - um exame não solicitado pode indicar que o médico não suspeitava de certa condição; - uma pergunta não respondida em um survey pode ter relação com constrangimento, desinteresse ou dificuldade de compreensão; - uma variável financeira ausente pode indicar informalidade ou baixa organização documental. Ou seja: **o vazio também pode falar**. ## Como tratar missing values? Não existe uma única resposta correta. Depende do tipo de problema e do algoritmo selecionado, para começo de conversa. Algumas estratégias comuns: ### Remover linhas ou colunas Pode fazer sentido quando há **poucos faltantes** ou quando a variável está quase toda vazia. **Risco**: você pode perder informação importante ou introduzir viés. ### Preencher com média, mediana ou moda É uma solução simples e bastante usada. - média: útil quando a distribuição é equilibrada; - mediana: melhor quando há outliers; - moda: usada para variáveis categóricas. **Risco**: pode “alisar” demais a base e esconder variações reais. ### Imputação mais sofisticada Em vez de usar um valor fixo, é possível **estimar** o valor faltante com base em outras variáveis, usando métodos como: - KNN imputation; - MICE; - modelos específicos de imputação. Essas abordagens costumam ser mais realistas, mas exigem mais cuidado. ### Normalização e padronização: colocando tudo na mesma régua Outro problema clássico: variáveis em **escalas muito diferentes**. Imagine um modelo com estas duas colunas: - idade: varia de 18 a 80 - renda anual: varia de 12.000 a 250.000 Sem tratamento, a renda pode “pesar” muito mais que a idade simplesmente porque seus números são maiores — e não porque ela seja realmente mais importante. É aí que entram técnicas como: ### Normalização Reescala os valores para um intervalo fixo, como **0 a 1**. Útil quando você quer comparar variáveis em escalas muito distintas. ### Padronização Transforma a variável para que ela tenha **média 0 e desvio padrão 1**. É muito usada em algoritmos sensíveis à escala, como: - regressão logística; - SVM; - KNN; - redes neurais. **Mas atenção:** Nem todo modelo precisa disso. Árvores de decisão e random forests, por exemplo, costumam ser **menos sensíveis à escala**. Então, novamente, o tratamento depende do tipo de dado **e** do tipo de modelo. ## Outliers: erro ou informação valiosa? Outliers são valores muito distantes do padrão geral. Exemplo: - quase todos os salários estão entre R$ 1.500 e R$ 12.000; - aparece um valor de R$ 980.000. Isso pode ser: 1. **erro de digitação;** 2. **caso raro, mas real;** 3. **uma observação importante que o modelo precisa conhecer.** Aqui mora uma armadilha: remover outliers “automaticamente” pode melhorar a aparência estatística da base, mas piorar sua utilidade real. Em fraude, falha industrial, medicina ou crédito, por exemplo, o “caso estranho” pode ser justamente **o caso mais importante**. ## Qual é a ordem certa para preparar os dados? Não existe receita universal, mas um fluxo bastante razoável costuma ser: 1. entender o problema e a origem da base; 2. inspecionar tipos, formatos e inconsistências; 3. avaliar missing values; 4. tratar outliers e erros evidentes; 5. codificar categorias, se necessário; 6. normalizar/padronizar, se o modelo exigir; 7. só então treinar modelos. A ideia principal é esta: **não se prepara dados por hábito; prepara-se por necessidade**. ## Conclusão Machine learning não começa no algoritmo. Ele começa na pergunta: **“Que tipo de dado eu tenho em mãos?”** Às vezes, o melhor ganho de desempenho não vem de trocar um modelo simples por um sofisticado. Vem de algo muito menos chamativo mas muito mais poderoso: **entender, limpar e preparar bem a base antes de modelar**. Em outras palavras: **antes de ensinar a máquina, é preciso organizar a realidade que você vai mostrar a ela**. > **Como citar este artigo:** Reis, A. (2026, 2 de abril). Antes do algoritmo: Por que a preparação de dados decide o sucesso do seu machine learning. *Blog Psicometria Online*. https://www.blog.psicometriaonline.com.br/antes-do-algoritmo-por-que-a-preparacao-de-dados-decide-o-sucesso-do-seu-machine-learning