A independência das observações é um dos pressupostos mais importantes em estatística. Ela aparece em muitos testes estatísticos clássicos, mas, infelizmente, também é um dos pressupostos mais frequentemente ignorados.
Neste post, vamos explicar o que significa independência das observações, trazendo exemplos intuitivos e situações típicas em que esse pressuposto é violado. Em seguida, veremos por que a violação compromete análises estatísticas e, por fim, discutiremos alternativas quando a independência não é atendida.
Uma intuição do conceito de independência das observações
Imagine que um pesquisador entreviste pessoas em um shopping para saber, em uma escala de 0 (odeio) a 10 (amo), o quanto elas gostam de gatos. O objetivo é comparar homens e mulheres nesse gosto.
Em um dado momento, o pesquisador abordou Sarah, que respondeu à pesquisa. Alguns minutos depois, foi a vez de Sérgio ser abordado e participar.
Primeiramente, vamos assumir que Sarah e Sérgio não se conhecem. Nesta situação, conhecer a resposta de Sarah não nos auxilia a prever a resposta de Sérgio:

Onde X se refere à resposta de cada participante. Traduzindo a igualdade anterior: a probabilidade de Sérgio dar uma determinada resposta não muda quando sabemos a resposta dada por Sarah.
Agora, vamos assumir que Sarah e Sérgio sejam um casal. Isto é, Sarah foi abordada pelo pesquisador após sair de uma loja e, algum tempo depois, Sérgio, que tinha ido a outra loja, também foi abordado pelo pesquisador. Neste novo cenário, conhecer a resposta de Sarah provavelmente nos ajuda a prever a resposta de Sérgio:

Ou seja, a probabilidade condicional de Sérgio dar uma determinada resposta, dado que sabemos o que Sarah respondeu, difere da probabilidade não condicional de Sérgio dar uma determinada resposta.
Como Sarah e Sérgio formam um casal, e casais compartilham valores, ambiente e estilo de vida, é provável que eles tenham visões parecidas no que se refere ao gosto por gatos.
Em síntese, esse exemplo ilustra que independência significa justamente ausência de influência entre as respostas de diferentes participantes.

Qual é a definição de independência das observações?
Pesquisadores definem o pressuposto de independência das observações de maneiras distintas (cf. Howell, 2013, p. 329). Uma definição prática é a de que os escores não se correlacionam entre si dentro do banco de dados (Brown, 2021). Assim, saber o quanto Sarah gosta de gatos não deve ser informativo da resposta de Sérgio ou de qualquer outro membro da amostra.
É importante destacar que estamos falando de independência das observações, não de independência das variáveis (Kenny & Judd, 1986). Ou seja, aqui não importa se variáveis como idade e renda se correlacionam; o que importa é que, se amostramos observações dependentes, saber a renda de uma delas pode nos informar sobre a renda da outra — isto é, há dependência das observações numa mesma variável.
Outra definição, mais técnica, envolve os resíduos (ei) do modelo estatístico: eles devem ser independentes entre si (Hoffman & Rovine, 2007).
Por exemplo, se medirmos a pressão arterial de indivíduos independentes, os erros de predição tenderão a se distribuir de forma aleatória. No entanto, se medirmos a pressão arterial de casais, os resíduos estarão correlacionados, violando a independência — pois casais compartilham ambientes, alimentação e estilos de vida similares, o que provavelmente afeta seus indicadores de saúde.
Em resumo, no pressuposto de independência das observações, cada linha do banco de dados deve acrescentar informação nova, sem duplicar ou refletir indevidamente outra.

Em quais casos o pressuposto de independência das observações é violado?
A independência das observações pode ser violada de diferentes formas. Em seguida, descreveremos três formas especialmente comuns:
Violação da independência das observações devido a variáveis de agrupamento
Quando os participantes fazem parte de grupos, dizemos que temos dados aninhados (nested data). Por exemplo, alunos dentro da mesma sala de aula ou pacientes atendidos no mesmo hospital tendem a ser mais semelhantes entre si do que em relação a indivíduos de outros grupos. Isso viola o pressuposto de independência das observações.
No caso mais extremo, cada “grupo” pode ser simplesmente uma díade, isto é, com apenas dois membros. Por exemplo, casais, irmãos ou mãe e filho já formam um agrupamento suficiente para gerar dependência. Existem técnicas analíticas específicas para lidar com a dependência oriunda de dados diádicos (e.g., Kenny et al., 2006).
Além disso, até o próprio procedimento de coleta pode criar dependência. Por exemplo, imagine que participantes vejam juntos um vídeo triste como parte de um estudo. Se, durante a exibição, alguém rir em voz alta, essa reação junto ao grupo pode afetar as respostas emocionais de todos os demais, reduzindo a independência das observações.
Violação da independência das observações devido a variáveis temporais
As observações também podem assumir dependência temporal. Por exemplo, em estudos longitudinais, examinamos os mesmos participantes em diferentes momentos. Como é natural, a resposta de hoje tende a se parecer com a de amanhã.
Por exemplo, em um estudo de intervenção linguística, um aluno avaliado antes da intervenção, imediatamente após, e meses depois terá medidas que se correlacionam. Afinal, trata-se da mesma pessoa sendo acompanhada ao longo do tempo.
A proximidade temporal da coleta de dados pode gerar dependência até mesmo entre participantes distintos. Suponha que neurocientistas usem os mesmos eletrodos para estimular áreas cerebrais de participantes testados sequencialmente. O desgaste do equipamento no tempo pode tornar os resultados dos primeiros voluntários diferentes dos últimos, criando correlação artificial.

Violação da independência das observações devido a variáveis espaciais
Participantes que moram em regiões próximas compartilham fatores ambientais, culturais e socioeconômicos. Assim, suas respostas podem ser mais semelhantes do que as de pessoas de bairros distantes.
É por isso que áreas como a econometria espacial e a estatística geográfica modelam explicitamente essa dependência. Por exemplo, moradores de um mesmo bairro podem relatar níveis de estresse semelhantes devido ao mesmo nível de poluição sonora (e.g., pela proximidade do bairro ao aeroporto local).
De modo análogo, em neurociência, regiões vizinhas do cérebro frequentemente apresentam sinais elétricos correlacionados. Se os pesquisadores não modelarem essa dependência espacial, eles podem chegar a conclusões enganosas sobre as bases neurais da cognição.

Por que a independência das observações é importante?
Retomemos o exemplo da preferência por gatos. Suponha que, em média, homens e mulheres não diferem nesse gosto. Se o pesquisador amostrar apenas indivíduos independentes, o teste t de Welch manterá sua taxa nominal de erro do Tipo I (i.e., com α = 0,05, a taxa ficará próxima de 5%).
Agora imagine que, por engano, o pesquisador tenha incluído casais na amostra (como Sarah e Sérgio). Para explorar esse cenário, realizamos uma simulação: em uma amostra de 100 participantes, variamos o percentual de casais (20%, 40%, 60% e 80%) amostrados por acidente. Em cada condição, repetimos o procedimento 100 mil vezes, aplicando o teste t de Welch e registrando o percentual de resultados significativos.
Os resultados mostraram que a taxa de erro do Tipo I declinou conforme aumentava o percentual de casos dependentes na amostra. Quando 80% da amostra era formada por casais, essa taxa caiu para apenas 1,22%.

Embora pareça bom reduzir falsos positivos, isso tem como custo o aumento da probabilidade de cometer um erro do Tipo II, ou seja, de não detectar diferenças reais quando elas existirem.
Mas por que isso acontece? Para enterdermos o motivo, vejamos a fórmula do teste t de Welch:

Em síntese, a fórmula do teste t consiste na diferença entre médias independentes dividida por uma estimativa do erro-padrão das diferenças independentes. A fórmula não contém um termo de covariância entre observações. Ou seja, ela assume que cada caso é independente e, portanto, que não há sobreposição de informação. Quando essa suposição falha empiricamente, estatísticas de teste, intervalos de confiança e erros-padrões são distorcidos.
Vale ressaltar que esse problema não é exclusivo do teste t. Ele também afeta a análise de variância (ANOVA), regressões lineares e praticamente todos os métodos estatísticos clássicos.
O que fazer em casos de violação do pressuposto de independência das observações?
Quando violamos o pressuposto de independência das observações, não basta aplicarmos testes tradicionais como se nada tivesse ocorrido. Existem alternativas mais adequadas.
Modelos multiníveis são indicados para dados hierárquicos, como estudantes aninhados em diferentes classes ou pacientes aninhados em diferentes hospitais. Eles ajustam os cálculos de variância considerando a estrutura hierárquica.
Para dados longitudinais, modelos de efeitos mistos e modelos autorregressivos são soluções frequentes, pois capturam a dependência temporal entre medidas repetidas.
Além disso, ajustes robustos de erro-padrão podem, em alguns contextos, corrigir parcialmente a subestimação dos erros, embora não resolvam a dependência em si.
Por fim, vale ressaltar que, em muitas situações, a dependência entre observações não é um problema a ser corrigido, mas justamente o objeto de estudo.
Por exemplo, a psicologia social investiga sob quais circunstâncias os grupos funcionam de maneiras que não podem ser explicadas apenas pela soma ou média dos membros. Nesses casos, a não independência deixa de ser um pressuposto estatístico, e torna-se o próprio tema de interesse dos pesquisadores (Kenny & Judd, 1986).
Conclusão
Gostou desse conteúdo? Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências
Brown, V. A. (2021). An introduction to linear mixed-effects modeling in R. Advances in Psychological Science, 4(1), 1–19. https://doi.org/10.1177/2515245920960351
Hoffman, L., & Rovine, M. J. (2007). Multilevel models for the experimental psychologist: Foundations and illustrative examples. Behavior Research Methods, 39(1), 101–117. https://doi.org/10.3758/BF03192848
Howell, D. C. (2013). Statistical methods for psychology (8th ed.). Wadsworth Cengage Learning.
Kenny, D. A., Kashy, D. A., & Cook, W. L. (2006). Dyadic data analysis. The Guilford Guess.
Kenny, D. A., & Judd, C. M. (1986). Consequences of violating the independence assumption in analysis of variance. Psychological Bulletin, 99(3), 422–431. https://doi.org/10.1037/0033-2909.99.3.422
Tabachnick, B. G., & Fidell, L. S. (2007). Experimental designs using ANOVA. Duxbury.
Como citar este post
Lima, M. (2025, 29 de setembro). O que é o pressuposto de independência das observações? Blog Psicometria Online. https://blog.psicometriaonline.com.br/o-que-e-o-pressuposto-de-independencia-das-observacoes
