--- title: "O que é p-hacking na pesquisa científica?" url: https://www.blog.psicometriaonline.com.br/o-que-e-p-hacking canonical: https://www.blog.psicometriaonline.com.br/o-que-e-p-hacking language: pt-BR published: 2025-08-04T18:48:39.000Z updated: 2026-03-30T13:49:09.937Z modified: 2026-03-30T13:49:09.937Z author: "Marcos Lima" categories: ["Metodologia científica"] tags: ["metaciência"] description: "Descubra o que é p-hacking, exemplos dessa prática na pesquisa científica, suas causas, consequências e estratégias eficazes para evitá-la." source: Blog Psicometria Online --- # O que é p-hacking na pesquisa científica? > Neste post, falaremos sobre o p-hacking, uma prática que compromete a credibilidade dos resultados científicos. Primeiramente, explicaremos brevemente como funciona o processo científico. Em seguida, definiremos o que é p-hacking e daremos exemplos dessa prática. Depois, discutiremos suas causas e c... Neste post, falaremos sobre o ***p-hacking****,* uma prática que compromete a credibilidade dos resultados científicos. Primeiramente, explicaremos brevemente como funciona o processo científico. Em seguida, definiremos o que é *p-hacking* e daremos exemplos dessa prática. Depois, discutiremos suas causas e consequências. Por fim, apresentaremos estratégias para combater esse problema. ## Como o processo científico funciona? Em geral, o processo científico começa com uma pergunta ou hipótese. Pesquisadores então coletam dados, geralmente com o objetivo de testar essa hipótese. Para isso, utilizam diferentes procedimentos estatísticos, como o teste de significância hipótese nula (NHST). No NHST, pesquisadores calculam uma estatística do teste e seu [valor *p*](/o-que-e-valor-de-p) associado. O valor *p* indica a probabilidade de se observar um resultado pelo menos tão extremo quanto o obtido, assumindo que a hipótese nula seja verdadeira. Se esse valor for menor que um limite pré-definido, chamado de nível de significância ou alfa (geralmente, α = 0,05), então os cientistas decidem rejeitar a hipótese nula. Ao rejeitar hipóteses nulas, cientistas geralmente afirmam obter suporte para os efeitos de um tratamento (e.g., psicoterapia ou intervenção educacional), para as diferenças entre grupos naturais (e.g., canhotos vs. destros) ou para a associação entre variáveis (e.g., relação entre traços de personalidade e níveis de depressão). Vale ressaltar que, em tese, o mérito de um estudo não deveria ser avaliado a partir dos resultados obtidos, mas sim pela relevância da pergunta de pesquisa e pela adequação do delineamento escolhido para respondê-la. Em outras palavras, ao investigar a natureza, aprendemos tanto ao confirmar quanto ao não encontrar evidências de um fenômeno. Contudo, na prática, não é assim que as coisas funcionam. Infelizmente, a pressão para publicar resultados significativos — o famoso “*publish or perish*” — pode levar a práticas questionáveis de pesquisa. Uma delas é o ***p-hacking***, tema central deste post. ## O que é *p-hacking*? > *If you torture the data long enough, it will confess to anything \[Se você torturar os dados o suficiente, ele acabará confessando qualquer coisa\].* > > —Ronald Harry Coase, economista. O termo ***p-hacking*** vem da junção de: - ***p*** → refere-se ao valor *p*, a métrica usada para determinar o quão surpreendentes são os dados que observamos, considerando-se a hipótese nula verdadeira. - ***hacking*** → remete à ideia de *mexer*, *manipular* ou *forçar* algo para obter um resultado desejado. Desse modo, o ***p-hacking*** se refere ao uso de estratégias analíticas que aumentam artificialmente a probabilidade de obtermos um resultado estatisticamente significativo. Em outras palavras, consiste em uma forma de manipulação estatística, mesmo sem intenção deliberada de fraude. Essas práticas incluem testar várias combinações de variáveis, coletar mais dados após uma análise inicial inconclusiva, ou remover dados que “atrapalham” o resultado. Tudo isso com o objetivo — implícito ou explícito — de alcançar um *p* abaixo de 0,05. Embora algumas dessas decisões pareçam inofensivas, tomadas em conjunto, elas distorcem os resultados. Como consequência, elas aumentam a probabilidade de falsos positivos (i.e., **erros do Tipo I**) — ou seja, de concluir que há um efeito quando, na verdade, não há. ## Exemplos de como o *p-hacking* acontece O *p-hacking* pode se manifestar de diversas formas. Em seguida, apresentaremos três exemplos comuns (mas não exaustivos), acompanhados de simulações para mostrar como essas práticas inflacionam o erro do Tipo I. Antes de mais nada, vamos introduzir nosso exemplo. Suponha que nossa hipótese seja de que há diferenças mnemônicas entre canhotos e destros. Para testá-la, aplicamos duas tarefas em 100 participantes (50 canhotos e 50 destros), a saber, uma de memória verbal (recordar uma lista de palavras) e outra de memória espacial (recordar direções em um labirinto virtual). Para fins didáticos, assumiremos algumas coisas: - Originalmente, planejamos testar nossa hipótese considerando a soma dos acertos nas duas tarefas como nossa [variável dependente](/o-que-sao-variaveis-independentes-e-dependentes). - Nossa hipótese pode ser testada por meio de [teste *t* para amostras independentes](/teste-t-para-amostras-independentes) (aqui usaremos a versão de Welch, que não assume homogeneidade de variâncias). - Há uma [correlação](/o-que-e-correlacao-de-pearson) forte e positiva nos desempenhos das duas tarefas de memória (*r* ≈ 0,50). - A hipótese nula é verdadeira, isto é, **não há** diferenças de memória entre canhotos e destros. - O nível de significância adotado nas análises é de 0,05. Sendo assim, podemos nos perguntar: se conduzíssemos 100 mil estudos independentes, como seria a distribuição de valores *p*s (derivados dos testes *t*s) ao longo dos diferentes estudos? A Figura 1 apresenta a resposta. ![distribuição de valores ps quando a hipótese nula é verdadeira.](/uploads/2025-08_distribuicao-de-valores-ps-1.jpg) *Figura 1. Distribuição de valores ps no cenário em que não há p-hacking. A barra vermelha representa resultados estatisticamente significativos.* Em síntese, se a hipótese nula for verdadeira e não houver *p-hacking*, a distribuição de valores *p*s será aproximadamente uniforme. Em outras palavras, na ausência de vieses nas análises de dados, valores *p*s em diferentes faixas de mesmo comprimento são equiprováveis. Mais importante, aproximadamente 5% deles serão menores que 0,05 — ou seja, 5% das análises resultarão em erros do Tipo I. ### Cenário 1: *p-hacking* com múltiplas variáveis dependentes Anteriormente, apresentamos o cenário sem *p-hacking*. Em seguida, engajaremo-nos em pensamentos contrafactuais, isto é, em experimentos mentais que questionam “o que aconteceria se?”. O objetivo é avaliarmos como a distribuição de valores *p*s muda quando adotamos práticas questionáveis de pesquisa. No Cenário 1, imagine que adotamos a seguinte abordagem. Primeiramente, comparamos canhotos e destros no teste de memória verbal. Se o resultado do teste *t* foi estatisticamente significativo, ele foi reportado em nossas análises. Em contrapartida, caso o teste não tenha atingido significância estatística, comparamos os grupos no teste de memória espacial. Se o resultado foi estatisticamente significativo, reportamos esse resultado. Por fim, se as duas primeiras análises produziram resultados não significativos, calculamos a soma das duas variáveis dependentes — isto é, só então nos engajamos em nosso plano inicial — e comparamos os grupos nessa nova variável. Note, portanto, que agora temos três chances de obter um resultado significativo, pois podemos conduzir até três testes estatísticos. A Figura 2 apresenta a distribuição de valores *p*s quando temos essas três variáveis dependentes. Note que agora a nossa distribuição não é mais uniforme. Ao contrário, valores *p*s menores que 0,05 são muito mais prováveis. ![distribuição de valores ps quando a hipótese nula é verdadeira, mas cometemos p-hacking, cenário 1.](/uploads/2025-08_distribuicao-de-valores-ps-2.jpg) *Figura 2. Distribuição de valores ps quando consideramos até três testes de hipóteses em cada estudo.* *A barra vermelha representa resultados estatisticamente significativos. VDs = variáveis dependentes.* Dito de outro modo, ao nos engajarmos em testes múltiplos, a probabilidade de erro do Tipo I aumenta. ### Cenário 2: *p-hacking* coletando mais dados após uma análise inconclusiva Em seguida, considere que nosso percurso analítico foi outro. De início, seguimos parcialmente o nosso planejamento inicial: somamos os desempenhos nos dois testes de memória e rodamos um teste *t* tomando a soma dos acertos como variável dependente. Caso o resultado do teste tenha sido significativo, reportamos esse resultado. No entanto, quando observamos um resultado não significativo, desviamos de nosso plano original: coletamos dados com mais 20 participantes por grupo. Em seguida, quando nossa amostra aumentou de 100 para 140 participantes (i.e., de *n* = 50 por grupo para *n* = 70 por grupo), realizamos um novo teste *t*. Esse processo de “*data peeking*” distorce a distribuição de valores *p*s, pois cada nova análise aumenta a chance de erro. Mesmo que não haja má-fé, essa prática eleva substancialmente a taxa de falsos positivos. Isso é ilustrado na Figura 3, que mostra que, mais uma vez, a distribuição de valores *p*s se afasta de uma distribuição uniforme, em decorrência da coleta adicional de dados após um resultado não significativo. ![distribuição de valores ps quando a hipótese nula é verdadeira, mas cometemos p-hacking, cenário 2.](/uploads/2025-08_distribuicao-de-valores-ps-3.jpg) *Figura 3. Distribuição de valores ps quando coletamos mais dados após um resultado não significativo.* *A barra vermelha representa resultados estatisticamente significativos.* ### Cenário 3: *p-hacking* removendo *outliers* para forçar significância Por fim, considere o Cenário 3, onde removemos os dados atípicos após obtermos um teste *t* não significativo inicial — tomando a soma dos desempenhos nas duas tarefas como variável dependente. Aqui, definimos dados atípicos como escores que se desviam dois devios-padrões acima ou abaixo da média grupal. Ao excluir essas observações, repetimos nossa análise. Note que aqui a prática questionável de pesquisa não consiste no ato de excluir os *outliers* em si. Pelo contrário, essa é uma prática legítima, desde que planejada e justificada **antes de olharmos para os dados**. O problema, no presente contexto, consiste em excluir *outliers* condicional à observação de resultados inicialmente não significativos. Apesar de, às vezes, haver justificativa para remover *outliers*, fazê-lo com base no resultado é problemático. Afinal, isso introduz viés e compromete a validade da inferência estatística. A Figura 4 ilustra, mais uma vez, como essa prática — uma forma de *p-hacking* — aumenta substancialmente a probabilidade de erro do Tipo I. ![distribuição de valores ps quando a hipótese nula é verdadeira, mas cometemos p-hacking, cenário 3.](/uploads/2025-08_distribuicao-de-valores-ps-4.jpg) *Figura 4. Distribuição de valores ps quando removemos outliers após um resultado não significativo.* *A barra vermelha representa resultados estatisticamente significativos.* ### Resumo Nas seções anteriores, avaliamos as distribuições de valores *p*s quando seguimos o nosso plano de análise original em comparação com três cenários em que analisamos os dados de formas adicionais, depois de não encontrarmos resultados significativos. Se adotamos um nível de significância de 0,05, esperamos obter aproximadamente 5% de resultados estatisticamente significativos (i.e., erros do Tipo I), se a hipótese nula for verdadeira. O quanto o *p-hacking* inflaciona esse valor esperado? A Figura 5 ilustra isso. ![p-hacking e probabilidade de erro do Tipo I.](/uploads/2025-08_taxa-de-erro-do-tipo-i.jpg) *Figura 5. Percentual de resultados significativos em cada cenário, correspondente à proporção das áreas em vermelho mostradas nas Figuras 1 a 4. VDs = variáveis dependentes.* Com base na Figura 5, concluímos que diferentes formas de *p-hacking* inflacionam de 2,46 a 6,46 pontos percentuais a taxa de erro do Tipo I, em comparação ao valor nominal de 5% que estabelecemos em nosso delineamento. Aqui consideramos apenas práticas questionáveis de pesquisa individuais. Infelizmente, os cenários podem ser ainda mais graves quando combinamos diferentes práticas questionáveis de pesquisa — por exemplo, coletar dados adicionais, depois aplicar diferentes critérios de remoção de *outliers* e diferentes esquemas de combinação de variáveis dependentes. ## Exemplos de *p-hacking* quando um efeito existe Anteriormente, consideramos o que acontece com a distribuição de valores *p*s quando a hipótese nula é verdadeira. Entretanto, assumindo-se que canhotos têm memória superior a destros, com qual frequência esperaríamos rejeitar uma hipótese nula genuinamente falsa? Para avaliar esse efeito, repetimos as simulações dos cenários anteriores, mas agora considerando que existe um efeito da lateralidade sobre a memória. A Figura 6 ilustra os diferentes cenários. No painel superior esquerdo, temos a análise que segue nosso planejamento, isto é, um teste *t* comparando grupos na soma das duas tarefas de memória. ![p-hacking quando um efeito existe.](/uploads/2025-08_distribuicao-de-valores-ps-figura-combinada.jpg) *Figura 6. Distribuição de valores ps quando a hipótese nula é falsa e não nos engajamos em p-hacking (painel superior esquerdo) ou nos engajamos em diferentes formas de p-hacking (demais painéis).* *As barras vermelhas representam resultados estatisticamente significativos. VDs = variáveis dependentes.* Embora haja uma clara assimetria na distribuição — assimetria essa determinada pelo nosso [**poder estatístico**](/qual-a-importancia-do-poder-estatistico) —, a assimetria se torna ainda maior quando nos engajamos em práticas questionáveis de pesquisa. Em outras palavras, o *p-hacking* infla artificialmente o poder estatístico do estudo. Isso fica ainda mais evidente na Figura 7. Ela indica o percentual de resultados significativos por cenário. No caso sem *p-hacking*, nosso poder estatístico foi de apenas 40,89% — indicando que, dado o tamanho de efeito que definimos em nossa simulação, menos da metade dos estudos deveria ser capaz de detectar diferenças entre destros e canhotos. ![p-hacking e poder estatístico.](/uploads/2025-08_poder-estatistico.jpg) *Figura 7. Percentual de resultados significativos por cenário, isto é, percentual que as áreas em vermelho dos diferentes painéis da Figura 6 representam do todo. VDs = variáveis dependentes.* Contudo, quando nos engajamos em diferentes formas de *p-hacking*, o percentual de resultados estatisticamente significativos aumenta entre 8,55 e 16,76 pontos percentuais. Resumidamente, o *p-hacking* é uma prática questionável de pesquisa mesmo quando a hipótese nula é falsa. ## Quais são as possíveis causas do *p-hacking*? Várias razões contribuem para o *p-hacking*. Uma das principais é a pressão por publicações com resultados significativos. Sabidamente, a literatura científica é vítima de **viés de publicação**, o achado de que manuscritos que relatam *p* < 0,05 têm mais chances de serem aceitos para publicação por revistas científicas do que manuscritos que relatam *p* > 0,05. Além disso, muitos pesquisadores não recebem formação sólida em estatística. Isso os torna mais vulneráveis a decisões analíticas questionáveis, mesmo sem intenção maliciosa. Por exemplo, considere o painel esquerdo da Figura 8, onde o pesquisador obteve uma diferença não significativa no desempenho na tarefa de memória entre canhotos e destros. ![efeitos da remoção de outliers em um conjunto de dados.](/uploads/2025-08_boxplots-remocao-outliers-com-t-1.jpg) *Figura 8. Ilustração de como uma decisão não maliciosa, mas oriunda da falta de formação sólida em estatística, pode levar ao p-hacking.* No entanto, suponha que um pesquisador avalie de boa-fé que os pontos vermelhos — *outliers* — deveriam ser excluídos. Note que como os *outliers* estão predominantemente em extremos distintos das distribuições de cada grupo, excluí-los aumenta as diferenças entre as médias grupais. A consequência disso é a diferença estatisticamente significativa no painel direito da Figura 8 — devido ao nosso já conhecido *p-hacking*. Também relacionado à causa anterior, a falta de transparência nos métodos e a flexibilidade analítica também favorecem o *p-hacking*. Por exemplo, quando há muitas decisões possíveis até o cálculo estatístico propriamente dito, aumenta a tentação — ou o risco — de seguir o caminho que leva ao *p* desejado. ## Quais são as consequências do *p-hacking*? O principal efeito do *p-hacking* é a inflação da taxa de erro do Tipo I. Ou seja, há mais falsos positivos do que o esperado. Isso significa que muitos resultados publicados podem ser enganosos. Como consequência, replicações falham com frequência, e a confiança na ciência diminui. Além disso, recursos são desperdiçados ao seguir pistas falsas baseadas em achados “positivos” que, na verdade, surgiram do acaso. Por fim, o *p-hacking* distorce a literatura científica. Com ele, parece haver consenso onde não há. Isso prejudica decisões baseadas em evidências, tanto na ciência quanto na prática. **Veja também:** [**HARKing: formulando hipóteses após conhecer os resultados**](/o-que-e-harking) ![banner do post sobre HARKing.](/uploads/2024-08_o-que-e-harking.jpg) ## Como combater o *p-hacking*? Felizmente, há estratégias eficazes para combater a prevalência do *p-hacking*. Uma delas é o **pré-registro**: documentar hipóteses, métodos e análises **antes** de iniciar a coleta de dados. Isso reduz a flexibilidade analítica, pois pesquisadores precisam aderir ao protocolo analítico documentado no pré-registro, que fica publicamente disponibilizado em repositórios como o [Open Science Framework](https://osf.io/). Outra abordagem é a ciência aberta. Compartilhar códigos, dados e decisões aumenta a transparência e permite que outros avaliem a robustez das conclusões. Além disso, também é importante valorizar resultados nulos. Uma das maneiras de fazer isso é mudando as práticas modais em pesquisa, incentivando mais publicações reportando a ausência de efeito, que também é informativa para cientistas e tomadores de decisão. Assim, reduz-se o incentivo a práticas como o *p-hacking*, uma vez que a reputação dos pesquisadores deixa de ser mensurada pela quantidade de resultados estatisticamente significativos que eles encontram. ## Referências John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. *Psychological Science*, *23*(5), 524–532. https://doi.org/10.1177/0956797611430953 Rosenthal, R. (1979). The “file drawer problem” and tolerance for null results. *Psychological Bulletin*, *86*(3), 638–641. https://doi.org/10.1037/0033-2909.86.3.638 Shrout, P. E., & Rodgers, J. L. (2018). Psychology, science, and knowledge construction: Broadening perspectives from the replication crisis. *Annual Review of Psychology*, *69*, 487–510. https://doi.org/10.1146/annurev-psych-122216-011845 Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allow presenting anything as significant. *Psychological Science*, *22*(11), 1359–1366. https://doi.org/10.1177/0956797611417632 Simonsohn, U., Nelson, L. D., & Simmons, J. P. (2014). *P*\-curve: A key to the file-drawer. *Journal of Experimental Psychology: General*, *143*(2), 534–547. https://doi.org/10.1037/a0033242 ## Como citar este post > **Como citar este artigo:** Lima, M. (2025, 4 de agosto). O que é p-hacking na pesquisa científica? *Blog Psicometria Online*. https://www.blog.psicometriaonline.com.br/o-que-e-p-hacking