--- title: "Dicotomizar variáveis ou não dicotomizar, eis a questão!" url: https://www.blog.psicometriaonline.com.br/dicotomizar-variaveis-ou-nao-dicotomizar canonical: https://www.blog.psicometriaonline.com.br/dicotomizar-variaveis-ou-nao-dicotomizar language: pt-BR published: 2025-01-08T11:00:00.000Z updated: 2026-03-30T01:16:10.154Z modified: 2026-03-30T01:16:10.154Z author: "Marcos Lima" categories: ["Instrumentos de autorrelato"] tags: ["teoria da medida"] description: "Dicotomizar variáveis é converter variáveis contínuas em dicotômicas, dividindo a amostra em um ponto de suas escalas de mensuração." source: Blog Psicometria Online --- # Dicotomizar variáveis ou não dicotomizar, eis a questão! > Neste post, discutiremos a prática de dicotomizar variáveis contínuas em análises de dados. Primeiramente, vamos definir o que é a dicotomização, com exemplos para ilustrar essa ideia. Em seguida, abordaremos os impactos dessa decisão. Por fim, exploraremos casos em que dicotomizar pode ser uma boa... Neste post, discutiremos a prática de dicotomizar variáveis contínuas em análises de dados. Primeiramente, vamos definir o que é a dicotomização, com exemplos para ilustrar essa ideia. Em seguida, abordaremos os impactos dessa decisão. Por fim, exploraremos casos em que dicotomizar pode ser uma boa escolha. Desse modo, esperamos que esse conteúdo te ajude a tomar decisões mais informadas sobre essa prática em suas análises. ## Dicotomizar variáveis contínuas: definição e exemplos Transformar variáveis contínuas em variáveis categóricas faz parte de nossa experiência cotidiana. Por exemplo, a Organização Mundial da Saúde divide as pessoas em sete grupos, com base no índice de massa corporal (IMC), tal como indica a Tabela 1. Resultado Situação Abaixo de 17 Muito abaixo do peso Entre 17 e 18,49 Abaixo do peso Entre 18,50 e 24,99 Peso normal Entre 25 e 29,99 Acima do peso Entre 30 e 34,99 Obesidade I Entre 35 e 39,99 Obesidade II (severa) Acima de 40 Obesidade III (mórbida) *Tabela 1. Discretização do IMC em sete categorias. Fonte: Wikipédia.* Outro exemplo cotidiano é a divisão – informal e legal – que fazemos das pessoas em menores e em maiores de idade. **Discretizar variáveis** consiste em transformar variáveis contínuas, como IMC ou idade, em variáveis categóricas. Por outro lado, **dicotomizar variáveis** é um caso especial de discretização, em que a nova variável possui apenas duas categorias, como no exemplo da maioridade. Neste post, para fins de simplificação, vamos nos concentrar na dicotomização de variáveis. No entanto, os problemas da dicotomização também se aplicam à discretização em três ou mais categorias. Na dicotomização, um ponto de corte define a categoria de cada observação. Por exemplo, para maioridade penal, usa-se o ponto de corte legal de 18 anos completos. Outro critério de dicotomização é o normativo, onde adotamos um valor estabelecido em estudos prévios como ponto de corte. Por exemplo, estudos de acurácia diagnóstica estabelecem que um escore de 20 pontos tem o melhor balanço entre [sensibilidade e especificidade](/qual-e-a-diferenca-entre-sensibilidade-e-especificidade) para discriminar indivíduos com e sem depressão clínica. Desse modo, esse valor é usado para dicotomizar os participantes em um novo estudo. Por fim, os quantis amostrais se baseiam em estatísticas da própria amostra. Por exemplo, os participantes podem ser dicotomizados em função da [mediana](/medidas-de-tendencia-central-media-mediana-e-moda) dos escores de teste de atenção, o que é conhecido como ***median-split***. Nesse caso, poderíamos nos referir nominalmente aos grupos como baixa e alta atenção. ## Exemplo de dicotomização de variáveis A Figura 1 ilustra a dicotomização baseada na mediana. Por exemplo, a distribuição da Figura 1 pode representar o continuum de um traço de personalidade observado na população, aqui genericamente denominado de traço X. ![representação da prática de dicotomizar variáveis.](/uploads/2024-10_dicotomizacao-ilustracao-sem-letras.jpg) *Figura 1. Ilustração de dicotomização de variável contínua. Linha pontilhada indica ponto de corte para dicotomização.* A linha vertical representa a dicotomização pela mediana, onde observações com escores à esquerda da linha vertical são designados ao Grupo Baixo Traço X, enquanto observações com escores à direita são designados ao Grupo Alto Traço X. Após a a dicotomização dessa variável, pesquisadores podem realizar um [teste *t* para grupos independentes](/teste-t-para-amostras-independentes), investigando se os escores em uma [variável dependente](/o-que-sao-variaveis-independentes-e-dependentes) diferem em função da variável X dicotomizada. Além disso, alguns pesquisadores podem optar por inserir a variável X dicotomizada em modelos de [regressão múltipla](/o-que-e-regressao-linear-multipla), como um fator ou covariante em modelos de [análise de covariância](/o-que-e-covariancia) ou, em casos em que uma variável Y também é dicotomizada, analisar a associação entre X e Y dicotomizadas por meio de [teste qui-quadrado de independência](/qui-quadrado-teste-de-independencia). ## Quais são os custos de dicotomizar variáveis? ### Perda de informação Um dos principais custos da dicotomização é a perda de informação. Quando uma variável contínua se torna dicotômica, elimina-se a variabilidade presente nos dados. Por exemplo, na Figura 2, as observações B e C, próximas à mediana, tinham escores mais parecidos entre si que os escores das observações A e B, ou mesmo que os escores das observações C e D. Contudo, a dicotomização trata A e B como casos equivalentes (Grupo Baixo Traço X), bem como os casos C e D (Grupo Alto Traço X), eliminando assim a informação sobre a gradação entre as observações. ![representação da prática de dicotomizar variáveis e a perda de informação.](/uploads/2024-10_dicotomizacao-ilustracao.jpg) *Figura 2. Ilustração da perda de informação após dicotomização de variável contínua. Letras A, B, C e D representam quatro casos ao longo do continuum da variável, enquanto linha pontilhada indica ponto de corte para dicotomização.* ### Atenuação de efeitos A perda de informação se traduz na atenuação de efeitos. Por exemplo, assuma que coletamos dados de 100 participantes em duas variáveis contínuas X e Y, observando uma correlação positiva entre elas, *r* = 0,30, *p* = 0,006. Se dicotomizarmos a variável X pela mediana, a [correlação ponto-bisserial](/o-que-e-correlacao-ponto-bisserial) entre as variáveis será de *rpb* = 0,19, *p* = 0,08. A Figura 3 ilustra essa atenuação dos efeitos após a dicotomização. ![diminuição da correlação entre variáveis após dicotomizar uma delas.](/uploads/2024-10_efeito-da-dicotomizacao.jpg) *Figura 3. Relação bivariada entre X e Y, com X contínuo (painel esquerdo) ou dicotomizado pela mediana (painel direito). Retas vermelhas representam linhas de melhor ajuste.* Em síntese, a dicotomização leva à perda de informação e, consequentemente, a efeitos atenuados. Cohen (1983) indica que a correlação populacional *r* será atenuada para 0,798*r*, quando uma das variáveis é dicotomizada, enquanto a atenuação será de 0,637*r*, se dicotomizarmos ambas as variáveis. Consequentemente, se elevarmos o valor obtido ao quadrado, a variância explicada também será atenuada. ### Perda de poder estatístico Além disso, outro custo da dicotomização é a perda de poder estatístico. Por exemplo, o [G\*Power](/como-fazer-o-calculo-de-tamanho-amostral-no-gpower) indica que, se a correlação entre duas variáveis é de 0,30, e queremos detectá-la com um poder de 0,80, a um nível de significância de 0,05, precisaremos recrutar pelo menos 84 participantes (Figura 4). ![cálculo de tamanho amostral no G*Power. ](/uploads/2024-10_tamanho-amostral-correlacao.jpg) *Figura 4. Screenshot do G\*Power, mostrando o tamanho amostral mínimo para ter 0,80 de poder para detectar uma correlação de 0,30, a um nível de significância de 0,05.* No entanto, se dicotomizarmos a variável X pela mediana, então o valor de *r* se modificará por um fator de 0,798*r*, sendo agora de *r* = 0,2394. Consequentemente, o tamanho amostral de 84, que teria 80% de poder para detectar um efeito de *r* = 0,30, terá agora um poder reduzido para 57,7% para detectar um efeito de *r* = 0,2394. Para manter o poder nominal de 80%, considerando X dicotomizada pela mediana, a amostra teria que aumentar de 84 para 134 casos, isto é, um aumento de 59% no tamanho amostral necessário. ### Perda de comparabilidade entre estudos Por fim, quando o ponto de corte para a dicotomização se baseia em estatísticas amostrais, isso faz com que os grupos só tenham sentido em relação à amostra. Por exemplo, a Figura 5 ilustra a dicotomização da variável contínua X, tal como realizada em duas amostras distintas. ![especificidade das categorias quando a dicotomização é amostra-específica.](/uploads/2024-10_dicotomizacao-e-perda-de-comparabilidade.jpg) *Figura 5. Ilustração da perda de comparabilidade entre estudos decorrentes de dicotomização baseada em quantis da própria amostra, isto é, baseada na mediana.* Na Figura 5, a Amostra 2 obtém escores em média mais elevados do que a Amostra 1. Desse modo, a dicotomização baseada na mediana resultaria em grupos nominais “baixo” e “alto” que fariam sentido apenas em relação ao outro grupo da própria amostra. Vamos assumir que observamos uma correlação significativa entre a variável X dicotomizada e uma variável Y na Amostra 1, mas não na Amostra 2. Entretanto, se tivermos apenas os escores na variável X dicotomizada, não é possível identificar se os diferentes resultados se devem a definições distintas do que consiste “baixo” e “alto”, em termos do traço X. ## Quando dicotomizar variáveis é recomendado? Embora a dicotomização tenha desvantagens, há situações em que ela pode ser útil. Vamos explorar dois contextos principais: a dicotomização de variáveis de contagem com alta assimetria e a abordagem de grupos extremos. ### Dicotomizar variáveis de contagem com elevada assimetria Variáveis de contagem, como “número de cigarros fumados por dia”, podem ter elevada [assimetria](/assimetria-e-curtose-um-guia-completo). Por exemplo, muitos respondentes podem responder “zero”, pois não fumam, enquanto uma menor quantidade de pessoas que fuma intensamente estimará um elevado número de cigarros consumidos por dia. Esse tipo de cenário indica a existência de dois grupos de pessoas quanto aos hábitos de fumo: fumantes e não fumantes. Nesse contexto, a dicotomização pode ser útil. No entanto, a dicotomização resultará em perda de informação no grupo de fumantes, sobretudo se ele for heterogêneo. Desse modo, se essa informação granular for relevante para a pesquisa, é necessário que se lance mão de outras técnicas analíticas, ao invés da dicotomização. ### A abordagem de grupos extremos A **abordagem de grupos extremos** é um procedimento de amostragem em que os participantes são selecionados para a pesquisa propriamente dita com base nos escores de uma ou mais medidas de triagem. Por exemplo, voluntários acessam um link e realizam uma tarefa de memória de trabalho. Com base nessas informações, os pesquisadores selecionam participantes dos extremos (e.g., quartis 1 e 4) da distribuição de escores da tarefa de memória de trabalho. A Figura 6 ilustra essa ideia. ![representação esquemática da abordagem de grupos extremos.](/uploads/2024-10_abordagem-baseada-em-grupos-extremos-exemplo.jpg) *Figura 6. Ilustração da amostragem usando a abordagem de grupos extremos.* A dicotomização **após** a coleta de dados, também conhecida como **subagrupamento *post hoc***, é comumente contraindicada por metodólogos, tal como descrito ao longo deste post. Por outro lado, na **abordagem de grupos extremos**, a dicotomização é usada como critério de amostragem, de modo que toda a informação obtida na coleta de dados é utilizada. Sendo assim, essa abordagem possui vantagens, entre as quais listamos algumas: 1. **Custo-eficiência:** amostrar participantes dos extremos de uma variável contínua requer uma amostra menor que amostrar participantes de todo o continuum da distribuição; 2. **Poder estatístico:** dado um tamanho amostral fixo, o poder estatístico aumenta com o tamanho amostral, com a correlação populacional entre *X* e *Y* e com a extremidade da amostragem de grupos extremos – em outras palavras, amostragem usando decis fornece mais poder estatístico que amostragem usando quartis que, por sua vez, fornece mais poder que amostragem usando tercis; 3. **Tamanhos de efeito:** quando analisamos grupos extremos, os [tamanhos de efeito](/o-que-e-tamanho-de-efeito) padronizados (e.g., [*d* de Cohen](/d-de-cohen)) são inflacionados, o que está relacionado ao aumento do poder estatístico do item anterior. Contudo, é importante frisar que a abordagem de grupos extremos é útil para investigar a presença de um efeito linear na população, mas não para estimar sua magnitude. ## Referências Cohen, J. (1983). The cost of dichotomization. *Applied Psychological Measurement*, *7*, 249–253. https://doi.org/10.1177/014662168300700301 MacCallum, R. C., Zhang, S., Preacher, K. J., & Rucker, D. D. (2002). On the practice of dichotomization of quantitative variables. *Psychological Methods*, *7*(1), 19–40. https://doi.org/10.1037//1082-989X.7.1.19 Preacher, K. J., Rucker, D. D., MacCallum, R. C., & Nicewander, W. A. (2015). Use of the extreme groups approach: A critical reexamination and new recomnendations. *Psychological Methods*, *10*(2), 178–190. https://doi.org/10.1037/1082-989X.10.2.178 ## Como citar este post > **Como citar este artigo:** Lima, M. (2025, 8 de janeiro). Dicotomizar variáveis ou não dicotomizar, eis a questão! *Blog Psicometria Online*. https://www.blog.psicometriaonline.com.br/dicotomizar-variaveis-ou-nao-dicotomizar