--- title: "O que são dados faltantes?" url: https://www.blog.psicometriaonline.com.br/o-que-sao-dados-faltantes canonical: https://www.blog.psicometriaonline.com.br/o-que-sao-dados-faltantes language: pt-BR published: 2025-05-05T13:56:15.000Z updated: 2026-03-30T13:49:13.821Z modified: 2026-03-30T13:49:13.821Z author: "Marcos Lima" categories: ["Geral"] tags: ["manipulação do banco de dados"] description: "Dados faltantes (missing data) se referem à ausência de valores medidos ou registrados em certas variáveis para alguns casos da amostra." source: Blog Psicometria Online --- # O que são dados faltantes? > Neste post, falaremos sobre dados faltantes. Primeiramente, explicaremos o que são dados faltantes, por que eles acontecem em pesquisas científicas e por que devemos nos importar com eles. Em seguida, descreveremos os principais tipos de dados faltantes, com exemplos práticos. Nós então discutiremos... Neste post, falaremos sobre dados faltantes. Primeiramente, explicaremos o que são dados faltantes, por que eles acontecem em pesquisas científicas e por que devemos nos importar com eles. Em seguida, descreveremos os principais tipos de dados faltantes, com exemplos práticos. Nós então discutiremos as consequências do tratamento inadequado desses dados. Por fim, apresentaremos estratégias modernas para lidar com dados faltantes, como imputação múltipla e maximização da expectativa. ## Entendendo o que são dados faltantes Em termos simples, **dados faltantes** (também chamados de **dados** ou **valores ausentes**, ou ***missing data***) consistem em valores de uma variável que não são registrados em uma pesquisa (Figura 1). Em outras palavras, temos dados faltantes quando as informações que esperávamos obter de um participante simplesmente não estão disponíveis. ![representação esquemática de dados faltantes.](/uploads/2022-12_dados-ausentes-ilustracao-banco-de-dados.jpg) *Figura 1. Representação de banco de dados com valores ausentes (representadas por células vazias na cor azul-clara).* Esse fenômeno é comum em estudos nas ciências humanas e sociais, principalmente quando os participantes se recusam a responder certas perguntas ou abandonam a pesquisa antes do fim. Por exemplo, imagine um estudo sobre saúde mental no qual alguns participantes preferem não responder questões sobre uso de substâncias. Consideramos tais omissões como respostas ausentes — e precisamos tratá-las cuidadosamente, a fim de não comprometermos as inferências de nossa pesquisa. ## Por que surgem dados faltantes? Existem muitas razões para o surgimento de dados faltantes. Em seguida, listamos algumas das mais comuns: - **Recusa do participante:** questões sensíveis, como renda ou comportamento sexual, podem gerar desconforto e levar à não resposta. - **Distração ou cansaço:** o participante pula uma questão sem perceber ou abandona a pesquisa por fadiga. - **Problemas técnicos:** falhas no sistema de coleta, como um erro no formulário on-line. - **Desistência do estudo:** participantes que não retornam em etapas subsequentes de pesquisas longitudinais. Esses cenários mostram que os dados faltantes podem ter causas variadas — e compreender essas causas é o primeiro passo para tratá-los adequadamente. ## Por que se importar com dados faltantes? Devemos nos importar com dados faltantes porque eles podem revelar aspectos cruciais de um fenômeno. Às vezes, o que não foi observado conta mais do que o que está presente. Um exemplo marcante da Segunda Guerra Mundial ilustra bem essa ideia. Na época, os militares dos EUA queriam reforçar a blindagem de seus aviões. Analisaram os pontos danificados nos que retornavam das missões — fuselagem e asas eram as áreas mais atingidas. Pareciam, portanto, as que mais precisavam de proteção. Mas o matemático Abraham Wald (Figura 2) pensou diferente. ![abraham wald matemático.](/uploads/2022-12_abraham-wald.jpg) *Figura 2. Abraham Wald. Recuperado da Wikipédia (https://commons.wikimedia.org/wiki/File:Abraham\_Wald.jpg*)*. Licenciado sob a Creative Commons Attribution-Share Alike 2.0 Germany license.* Wald percebeu que os valores ausentes eram os próprios aviões que não retornavam. Ou seja, os danos críticos — especialmente nos motores — simplesmente não apareciam na amostra, pois os aviões atingidos nessas partes caíam antes de voltar. Assim, ele concluiu que os militares deveriam reforçar a blindagem onde **não havia marcas** de tiro visíveis nos aviões que voltavam (Figura 3). ![viés de sobrevivência abraham wald.](/uploads/2022-12_vies-de-sobrevivencia.jpg) *Figura 3. Dados faltantes e viés de sobrevivência. Recuperado da Wikipédia (https://commons.wikimedia.org/wiki/File:Survivorship-bias.svg). Licenciado sob a Creative Commons Attribution-Share Alike 4.0 International license.* Essa inversão de lógica — olhar para o que está ausente, e não apenas para o que está presente — nos mostra por que compreender os dados faltantes é tão essencial. Ignorá-los pode nos levar a tomar decisões erradas, como proteger o que já sobrevive bem, enquanto deixamos vulneráveis os pontos realmente frágeis. ## Tipos de dados faltantes Donald Rubin, em 1987, classificou os dados faltantes em três categorias principais (Figura 4). ![representação esquemática dos três tipos de dados faltantes.](/uploads/2022-12_tipos-de-dados-faltantes.jpg) *Figura 4. Tipos de dados faltantes.* Em seguida, explicamos cada uma delas com exemplos para facilitar a compreensão. Embora a terminologia por ele introduzida seja pouco intuitiva, ela se baseia no grau de aleatoriedade das perdas, com base no papel da variável no modelo estatístico — quer como variável preditora (*X*) ou como variável de resultado (*Y*). ### Dados faltantes completamente ao acaso (MCAR) Os dados faltantes completamente ao acaso (*missing completely at random*, MCAR) ocorrem quando a ausência das informações não tem relação com qualquer variável do estudo, observada ou não observada (Figura 5). ![exemplo de dados faltantes completamente ao acaso (MCAR).](/uploads/2022-12_dados-faltantes-mcar.jpg) *Figura 5. Representação esquemática de dados faltantes completamente ao acaso. Os pontos azuis representam dados que foram perdidos na coleta de dados. As linhas de regressão indicam os valores previstos de Y com base nos valores de X, considerando um cenário com dados completos (linha pontilhada azul) ou um cenário em que apenas parte dos dados foram observados (linha preta).* Por exemplo, um participante esquece de responder a uma pergunta qualquer sobre sua rotina semanal. Essa ausência não está relacionada à idade, escolaridade ou qualquer outro fator. Nesse caso, a exclusão dos dados tende a não enviesar os resultados (Figura 5), pois os dados ausentes são, de fato, aleatórios. No entanto, se a quantidade de dados ausentes for grande, isso acarretará em perda de [poder estatístico](/qual-a-importancia-do-poder-estatistico). ### Dados faltantes ao acaso (MAR) Os dados faltantes ao acaso (*missing at random*, MAR) ocorrem quando a ausência está relacionada a variáveis observadas, mas não ao valor faltante em si (Figura 6). Em outras palavras, o valor ausente é independente da variável de resultado, mas não da variável preditora. ![exemplo de dados faltantes ao acaso (MAR).](/uploads/2022-12_dados-faltantes-mar.jpg) *Figura 6. Representação esquemática de dados faltantes ao acaso. Os pontos azuis representam dados que foram perdidos na coleta de dados. As linhas de regressão indicam os valores previstos de Y com base nos valores de X, considerando um cenário com dados completos (linha pontilhada azul) ou um cenário em que apenas parte dos dados foram observados (linha preta).* Por exemplo, em uma pesquisa com a população geral, participantes mais velhos podem não responder à pergunta “qual era o padrão de compras dos seus pais?”, justamente por não se lembrarem dessa informação. Desse modo, a ausência está ligada à idade (uma possível variável preditora), não à resposta ao item em si (uma possível variável de resultado). Embora menos ideal que o MCAR, é possível trabalhar com dados MAR usando técnicas apropriadas de imputação. Contudo, a mesma ressalva sobre poder estatístico também vale para dados MAR. ### Dados faltantes não aleatórios (MNAR) Os dados faltantes não aleatórios (*missing not at random*, MNAR) surgem quando a probabilidade de ausência está diretamente relacionada ao próprio valor que falta (Figura 7). Em outras palavras, o valor ausente depende da própria variável de resultado cujo valor está ausente. ![exemplo de dados faltantes não aleatórios (MNAR).](/uploads/2022-12_dados-faltantes-mnar.jpg) *Figura 7. Representação esquemática de dados faltantes não aleatórios. Os pontos azuis representam dados que foram perdidos na coleta de dados. As linhas de regressão indicam os valores previstos de Y com base nos valores de X, considerando um cenário com dados completos (linha pontilhada azul) ou um cenário em que apenas parte dos dados foram observados (linha preta).* Por exemplo, em uma pesquisa sobre autoestima, alguns participantes podem evitar responder perguntas sobre imagem corporal. Se a recusa ocorrer justamente porque essas pessoas se sentem desconfortáveis com o próprio corpo, teremos um caso de dados MNAR — ou seja, o que está faltando está diretamente ligado ao motivo da ausência de resposta. Dos três tipos de dados ausentes, esse é o caso mais delicado. A própria ausência carrega significado psicológico ou teórico e, portanto, pode distorcer os resultados se ignorada. **Saiba mais:** [**Dados faltantes (missing): O que são e quais os tipos?**](https://www.youtube.com/watch?v=7gaAxjtQr1I) ## Quais são as consequências de se ignorar dados faltantes? Historicamente, era comum excluir participantes com qualquer valor ausente, em um processo chamado *listwise deletion*. No entanto, essa abordagem tem sérios problemas: - **Redução do tamanho amostral**, o que diminui o poder estatístico dos testes. - **Aumento da margem de erro** e do [intervalo de confiança](/o-que-e-intervalo-de-confianca). - **Dificuldade de comparação** entre análises que usam subconjuntos diferentes da amostra. Por exemplo, imagine que nossa amostra de 500 participantes respondeu a 20 itens. No entanto, o número de respondentes por item variou de 387 a 432, com apenas 127 respondentes tendo preenchido todos os itens da pesquisa. Se considerarmos apenas os participantes com dados completos (*listwise deletion*), nossa amostra final consistirá em apenas 31,75% da amostra inicial. Além disso, se os dados não forem MCAR, essa exclusão pode introduzir vieses e comprometer a [generalizabilidade](/o-que-e-validade-externa) dos resultados. ## Como lidar com dados faltantes? Nos últimos anos, os pesquisadores passaram a usar técnicas mais sofisticadas para tratar valores ausentes, evitando a simples exclusão de casos. Uma das primeiras soluções foi a **imputação por valor médio**, onde substituímos o valor ausente pela média daquela variável. No entanto, essa técnica **reduz artificialmente a variabilidade dos dados**, afetando o desvio-padrão e comprimindo [correlação](/o-que-e-correlacao) da variável com medidas externas. Por isso, não recomendamos sua utilização. Em seguida, apresentamos duas técnicas mais adequadas para lidar com dados faltantes. ### Maximização da expectativa A técnica de **maximização da expectativa** (*expected maximization*, EM) consiste em estimar os valores ausentes com base na média e na covariância das variáveis observadas. O processo se repete diversas vezes até que os resultados se estabilizem e não apresentem mais diferenças estatisticamente significativas entre as iterações. Embora eficaz, essa técnica depende de pressupostos fortes sobre a distribuição dos dados, e nem sempre é a melhor escolha. ### Imputação múltipla A técnica da **imputação múltipla** (*multiple imputation*) é considerada o padrão-ouro no tratamento de dados faltantes. Ela cria múltiplos bancos de dados completos, nos quais os valores ausentes são preenchidos com estimativas plausíveis. A partir desses conjuntos, o pesquisador calcula médias, desvios e intervalos de confiança considerando a variabilidade entre as imputações. Isso oferece **maior precisão e menor viés**, principalmente quando os dados são MAR. **Veja também:** [**Análise de dados faltantes (missing) no SPSS – Definições e melhores práticas**](https://www.youtube.com/watch?v=qvVEG074iro) ## Conclusão Esperamos que o conteúdo tenha ficado claro e que você tenha compreendido a importância de se atentar para a natureza dos dados faltantes em suas próprias pesquisas. Se você precisa aprender análise de dados, então faça parte da [**Psicometria Online Academy**](https://academy-po.psicometriaonline.com.br/?utm_source=blog&utm_medium=organico&utm_campaign=&utm_term=&utm_content=post), a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura [**aqui**](https://academy-po.psicometriaonline.com.br/?utm_source=blog&utm_medium=organico&utm_campaign=&utm_term=&utm_content=post) e nunca mais passe trabalho sozinho(a). ## Referências Austin, P. C., White, I. R., Lee, D. S., & van Buuren, S. (2021). Missing data in clinical research: A tutorial on multiple imputation. *Canadian Journal of Cardiology*, *37*, 1322–1331. https://doi.org/10.1016/j.cjca.2020.11.010 Ellenberg, J. (2015). *O poder do pensamento matemático: A ciência de como não estar errado*. Zahar. Hair, J. F., Jr., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). *Análise multivariada de dados* (6ª ed.). Artmed. Rubin, D. B. (1987). *Multiple imputation for nonresponse in surveys*. John Wiley & Sons. ## Como citar este post > **Como citar este artigo:** Lima, M. (2025, 5 de maio). O que são dados faltantes? *Blog Psicometria Online*. https://www.blog.psicometriaonline.com.br/o-que-sao-dados-faltantes