O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

O que são dados faltantes?

Marcos Lima

maio 5, 2025

Neste post, falaremos sobre dados faltantes. Primeiramente, explicaremos o que são dados faltantes, por que eles acontecem em pesquisas científicas e por que devemos nos importar com eles. Em seguida, descreveremos os principais tipos de dados faltantes, com exemplos práticos. Nós então discutiremos as consequências do tratamento inadequado desses dados. Por fim, apresentaremos estratégias modernas para lidar com dados faltantes, como imputação múltipla e maximização da expectativa.

Entendendo o que são dados faltantes

Em termos simples, dados faltantes (também chamados de dados ou valores ausentes, ou missing data) consistem em valores de uma variável que não são registrados em uma pesquisa (Figura 1). Em outras palavras, temos dados faltantes quando as informações que esperávamos obter de um participante simplesmente não estão disponíveis.

representação esquemática de dados faltantes.
Figura 1. Representação de banco de dados com valores ausentes (representadas por células vazias na cor azul-clara).

Esse fenômeno é comum em estudos nas ciências humanas e sociais, principalmente quando os participantes se recusam a responder certas perguntas ou abandonam a pesquisa antes do fim.

Por exemplo, imagine um estudo sobre saúde mental no qual alguns participantes preferem não responder questões sobre uso de substâncias. Consideramos tais omissões como respostas ausentes — e precisamos tratá-las cuidadosamente, a fim de não comprometermos as inferências de nossa pesquisa.

Por que surgem dados faltantes?

Existem muitas razões para o surgimento de dados faltantes. Em seguida, listamos algumas das mais comuns:

  • Recusa do participante: questões sensíveis, como renda ou comportamento sexual, podem gerar desconforto e levar à não resposta.
  • Distração ou cansaço: o participante pula uma questão sem perceber ou abandona a pesquisa por fadiga.
  • Problemas técnicos: falhas no sistema de coleta, como um erro no formulário on-line.
  • Desistência do estudo: participantes que não retornam em etapas subsequentes de pesquisas longitudinais.

Esses cenários mostram que os dados faltantes podem ter causas variadas — e compreender essas causas é o primeiro passo para tratá-los adequadamente.

banner da NAOPARE.

Por que se importar com dados faltantes?

Devemos nos importar com dados faltantes porque eles podem revelar aspectos cruciais de um fenômeno. Às vezes, o que não foi observado conta mais do que o que está presente. Um exemplo marcante da Segunda Guerra Mundial ilustra bem essa ideia.

Na época, os militares dos EUA queriam reforçar a blindagem de seus aviões. Analisaram os pontos danificados nos que retornavam das missões — fuselagem e asas eram as áreas mais atingidas. Pareciam, portanto, as que mais precisavam de proteção. Mas o matemático Abraham Wald (Figura 2) pensou diferente.

abraham wald matemático.
Figura 2. Abraham Wald. Recuperado da Wikipédia (https://commons.wikimedia.org/wiki/File:Abraham_Wald.jpg). Licenciado sob a Creative Commons Attribution-Share Alike 2.0 Germany license.

Wald percebeu que os valores ausentes eram os próprios aviões que não retornavam. Ou seja, os danos críticos — especialmente nos motores — simplesmente não apareciam na amostra, pois os aviões atingidos nessas partes caíam antes de voltar. Assim, ele concluiu que os militares deveriam reforçar a blindagem onde não havia marcas de tiro visíveis nos aviões que voltavam (Figura 3).

viés de sobrevivência abraham wald.
Figura 3. Dados faltantes e viés de sobrevivência. Recuperado da Wikipédia (https://commons.wikimedia.org/wiki/File:Survivorship-bias.svg). Licenciado sob a Creative Commons Attribution-Share Alike 4.0 International license.

Essa inversão de lógica — olhar para o que está ausente, e não apenas para o que está presente — nos mostra por que compreender os dados faltantes é tão essencial. Ignorá-los pode nos levar a tomar decisões erradas, como proteger o que já sobrevive bem, enquanto deixamos vulneráveis os pontos realmente frágeis.

Tipos de dados faltantes

Donald Rubin, em 1987, classificou os dados faltantes em três categorias principais (Figura 4).

representação esquemática dos três tipos de dados faltantes.
Figura 4. Tipos de dados faltantes.

Em seguida, explicamos cada uma delas com exemplos para facilitar a compreensão. Embora a terminologia por ele introduzida seja pouco intuitiva, ela se baseia no grau de aleatoriedade das perdas, com base no papel da variável no modelo estatístico — quer como variável preditora (X) ou como variável de resultado (Y).

Dados faltantes completamente ao acaso (MCAR)

Os dados faltantes completamente ao acaso (missing completely at random, MCAR) ocorrem quando a ausência das informações não tem relação com qualquer variável do estudo, observada ou não observada (Figura 5).

exemplo de dados faltantes completamente ao acaso (MCAR).
Figura 5. Representação esquemática de dados faltantes completamente ao acaso. Os pontos azuis representam dados que foram perdidos na coleta de dados. As linhas de regressão indicam os valores previstos de Y com base nos valores de X, considerando um cenário com dados completos (linha pontilhada azul) ou um cenário em que apenas parte dos dados foram observados (linha preta).

Por exemplo, um participante esquece de responder a uma pergunta qualquer sobre sua rotina semanal. Essa ausência não está relacionada à idade, escolaridade ou qualquer outro fator.

Nesse caso, a exclusão dos dados tende a não enviesar os resultados (Figura 5), pois os dados ausentes são, de fato, aleatórios. No entanto, se a quantidade de dados ausentes for grande, isso acarretará em perda de poder estatístico.

Dados faltantes ao acaso (MAR)

Os dados faltantes ao acaso (missing at random, MAR) ocorrem quando a ausência está relacionada a variáveis observadas, mas não ao valor faltante em si (Figura 6). Em outras palavras, o valor ausente é independente da variável de resultado, mas não da variável preditora.

exemplo de dados faltantes ao acaso (MAR).
Figura 6. Representação esquemática de dados faltantes ao acaso. Os pontos azuis representam dados que foram perdidos na coleta de dados. As linhas de regressão indicam os valores previstos de Y com base nos valores de X, considerando um cenário com dados completos (linha pontilhada azul) ou um cenário em que apenas parte dos dados foram observados (linha preta).

Por exemplo, em uma pesquisa com a população geral, participantes mais velhos podem não responder à pergunta “qual era o padrão de compras dos seus pais?”, justamente por não se lembrarem dessa informação. Desse modo, a ausência está ligada à idade (uma possível variável preditora), não à resposta ao item em si (uma possível variável de resultado).

Embora menos ideal que o MCAR, é possível trabalhar com dados MAR usando técnicas apropriadas de imputação. Contudo, a mesma ressalva sobre poder estatístico também vale para dados MAR.

Dados faltantes não aleatórios (MNAR)

Os dados faltantes não aleatórios (missing not at random, MNAR) surgem quando a probabilidade de ausência está diretamente relacionada ao próprio valor que falta (Figura 7). Em outras palavras, o valor ausente depende da própria variável de resultado cujo valor está ausente.

exemplo de dados faltantes não aleatórios (MNAR).
Figura 7. Representação esquemática de dados faltantes não aleatórios. Os pontos azuis representam dados que foram perdidos na coleta de dados. As linhas de regressão indicam os valores previstos de Y com base nos valores de X, considerando um cenário com dados completos (linha pontilhada azul) ou um cenário em que apenas parte dos dados foram observados (linha preta).

Por exemplo, em uma pesquisa sobre autoestima, alguns participantes podem evitar responder perguntas sobre imagem corporal. Se a recusa ocorrer justamente porque essas pessoas se sentem desconfortáveis com o próprio corpo, teremos um caso de dados MNAR — ou seja, o que está faltando está diretamente ligado ao motivo da ausência de resposta.

Dos três tipos de dados ausentes, esse é o caso mais delicado. A própria ausência carrega significado psicológico ou teórico e, portanto, pode distorcer os resultados se ignorada.

Saiba mais: Dados faltantes (missing): O que são e quais os tipos?

Quais são as consequências de se ignorar dados faltantes?

Historicamente, era comum excluir participantes com qualquer valor ausente, em um processo chamado listwise deletion. No entanto, essa abordagem tem sérios problemas:

  • Redução do tamanho amostral, o que diminui o poder estatístico dos testes.
  • Aumento da margem de erro e do intervalo de confiança.
  • Dificuldade de comparação entre análises que usam subconjuntos diferentes da amostra.

Por exemplo, imagine que nossa amostra de 500 participantes responderam a 20 itens. No entanto, o número de respondentes por item variou de 387 a 432, com apenas 127 respondentes tendo preenchido todos os itens da pesquisa. Se considerarmos apenas os participantes com dados completos (listwise deletion), nossa amostra final consistirá em apenas 31,75% da amostra inicial.

Além disso, se os dados não forem MCAR, essa exclusão pode introduzir vieses e comprometer a generalizabilidade dos resultados.

Como lidar com dados faltantes?

Nos últimos anos, os pesquisadores passaram a usar técnicas mais sofisticadas para tratar valores ausentes, evitando a simples exclusão de casos.

Uma das primeiras soluções foi a imputação por valor médio, onde substituímos o valor ausente pela média daquela variável. No entanto, essa técnica reduz artificialmente a variabilidade dos dados, afetando o desvio-padrão e comprimindo correlação da variável com medidas externas. Por isso, não recomendamos sua utilização.

Em seguida, apresentamos duas técnicas mais adequadas para lidar com dados faltantes.

Maximização da expectativa

A técnica de maximização da expectativa (expected maximization, EM) consiste em estimar os valores ausentes com base na média e na covariância das variáveis observadas. O processo se repete diversas vezes até que os resultados se estabilizem e não apresentem mais diferenças estatisticamente significativas entre as iterações.

Embora eficaz, essa técnica depende de pressupostos fortes sobre a distribuição dos dados, e nem sempre é a melhor escolha.

Imputação múltipla

A técnica da imputação múltipla (multiple imputation) é considerada o padrão-ouro no tratamento de dados faltantes. Ela cria múltiplos bancos de dados completos, nos quais os valores ausentes são preenchidos com estimativas plausíveis.

A partir desses conjuntos, o pesquisador calcula médias, desvios e intervalos de confiança considerando a variabilidade entre as imputações. Isso oferece maior precisão e menor viés, principalmente quando os dados são MAR.

Veja também: Análise de dados faltantes (missing) no SPSS – Definições e melhores práticas

Conclusão

Esperamos que o conteúdo tenha ficado claro e que você tenha compreendido a importância de se atentar para a natureza dos dados faltantes em suas próprias pesquisas.

Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Austin, P. C., White, I. R., Lee, D. S., & van Buuren, S. (2021). Missing data in clinical research: A tutorial on multiple imputation. Canadian Journal of Cardiology, 37, 1322–1331. https://doi.org/10.1016/j.cjca.2020.11.010

Ellenberg, J. (2015). O poder do pensamento matemático: A ciência de como não estar errado. Zahar.

Hair, J. F., Jr., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). Análise multivariada de dados (6ª ed.). Artmed.

Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. John Wiley & Sons.

Como citar este post

Lima, M. (2025, 5 de maio). O que são dados faltantes? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-sao-dados-faltantes/

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

Diferenças entre modelos lineares e modelos lineares generalizados (GLMs)

Você precisa conhecer o FACTOR

Compreendendo a aquiescência

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é correlação de Spearman?

Postados recentemente

Diferenças entre modelos lineares e modelos lineares generalizados (GLMs)

Como calcular o alfa de Cronbach e o ômega de McDonald no JASP?

Diagnóstico de multicolinearidade

Você precisa conhecer o FACTOR

Deseja se tornar completamente independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias