--- title: "O que são variáveis dummy?" url: https://www.blog.psicometriaonline.com.br/o-que-sao-variaveis-dummy canonical: https://www.blog.psicometriaonline.com.br/o-que-sao-variaveis-dummy language: pt-BR published: 2025-10-16T12:00:00.000Z updated: 2026-03-30T13:49:04.526Z modified: 2026-03-30T13:49:04.526Z author: "Marcos Lima" categories: ["Análises bi e multivariadas"] tags: ["regressão"] description: "Aprenda o que são variáveis dummy, como criá-las, interpretá-las e evitar erros comuns em modelos de regressão." source: Blog Psicometria Online --- # O que são variáveis dummy? > Se você já estudou regressão, provavelmente já ouviu falar em variáveis dummy. Mas, afinal, o que exatamente elas representam? O objetivo deste post é oferecer uma introdução clara, prática e completa sobre o tema, mostrando como criar, interpretar e evitar um erro comum ao utilizá-las. Primeiram... Se você já estudou regressão, provavelmente já ouviu falar em **variáveis *dummy***. Mas, afinal, o que exatamente elas representam? O objetivo deste post é oferecer uma introdução clara, prática e completa sobre o tema, mostrando como criar, interpretar e evitar um erro comum ao utilizá-las. Primeiramente, revisaremos brevemente a regressão linear múltipla. Em seguida, explicaremos por que variáveis categóricas precisam ser transformadas em *dummies* e como isso afeta o modelo. Por fim, discutiremos como interpretar corretamente seus coeficientes e evitar multicolinearidade. ## O que é regressão linear múltipla? Antes de falar sobre variáveis *dummy*, precisamos recordar o que é uma [regressão linear múltipla](/o-que-e-regressao-linear-multipla). Essa técnica busca modelar a relação entre uma variável dependente contínua (*Y*) e duas ou mais variáveis independentes (*X*1, X2, …, *Xk*). Por exemplo, imagine que queremos prever a autoestima (*Y*) dos participantes a partir da idade (*X*1, contínua) e da participação em psicoterapia (*X*2, categórica dicotômica: 0 = não participa, 1 = participa). O modelo pode ser expresso pela seguinte equação: ![equação da regressão linear múltipla.](/uploads/2025-10_regressao-linear-multipla-sem-dummy.jpg) Onde *b*0​ é o intercepto do modelo, *b*1​ representa o efeito da idade (controlando os efeitos da participação em psicoterapia), enquanto *b*2​ corresponde ao efeito da participação em psicoterapia (controlando os efeitos da idade). Assim, a regressão múltipla nos permite isolar e quantificar o efeito de cada variável sobre *Y*. Contudo, quando a variável é categórica com mais de duas categorias, surge a necessidade de a recodificarmos em variáveis *dummy*. ## É possível usar variáveis politômicas na regressão? Anteriormente, apresentamos um modelo de regressão linear múltipla com uma variável preditora contínua (idade) e uma variável preditora dicotômica (participação em psicoterapia). No entanto, você pode se perguntar se é possível inserir variáveis politômicas em modelos de regressão. Variáveis *politômicas* (ou *multicategóricas*) — são variáveis qualitativas com três ou mais categorias, como estilo de apego (ansioso, evitativo, seguro; Figura 1) e região de residência (Centro-Oeste, Nordeste, Norte, Sudeste, Sul). Embora os *softwares* possam codificá-las numericamente (e.g., 0 = ansioso, 1 = evitativo, 2 = seguro), essa representação é incorreta. Isso porque o modelo trataria a variável como quantitativa, assumindo uma hierarquia inexistente entre as categorias. Por essa razão, precisamos converter variáveis politômicas em variáveis *dummy* antes de incluí-las em nossos modelos de regressão. Assim, conseguimos estimar o impacto de pertencer a determinado grupo em relação a uma categoria de referência. ![](/uploads/2025-10_estilos-de-apego-casal.jpg) *Figura 1. Estilos de apego consistem em um exemplo de variável politômica.* ## O que são variáveis *dummy*? As **variáveis *dummy*** são variáveis artificiais que representam categorias de uma variável qualitativa em indicadores numéricos. Também conhecida como *variável de codificação*, uma variável *dummy* expressa a presença (1) ou a ausência (0) de uma categoria ou atributo específico. Por exemplo, se temos o estilo de apego com três categorias, criamos duas variáveis *dummy*: - *D*1 = 1 se o participante é *ansioso*, 0 caso contrário. - *D*2 = 1 se o participante é *evitativo*, 0 caso contrário. De maneira geral, para representarmos uma variável politômica com *m* categorias, precisamos criar *m* – 1 variáveis *dummy*. Uma das categorias funcionará como categoria de referência, recebendo 0 em todas as *dummies*. Em nosso exemplo, o grupo *seguro* é a categoria de referência — a categoria contra a qual as demais são comparadas. Matematicamente, estamos criando uma *matriz de delineamento* (Figura 2), onde cada linha corresponde a um participante e cada coluna a uma categoria (na primeira coluna, inserimos 1s, para representar o termo multiplicativo *μ* do intercepto). Assim, o modelo interpreta essas *dummies* como preditoras dicotômicas do modelo. ![](/uploads/2025-10_matriz-de-delineamento-sem-multicolinearidade.jpg) *Figura 2. Conversão da variável estilo de apego em duas variáveis dummy (categoria de referência: seguro). A coluna μ recebe 1s, como termo multiplicativo do intercepto.* ## Quando usar variáveis *dummy*? Devemos utilizar variáveis *dummy* sempre que quisermos incluir uma variável categórica em um modelo de regressão. Na prática, uma variável dicotômica já está em formato *dummy*, enquanto variáveis politômicas precisam ser transformadas para *dummies*. Por exemplo, imagine uma pesquisa que compara abordagens terapêuticas: cognitivo-comportamental, psicodinâmica, humanista e de aceitação e compromisso (ACT). Para testar diferenças médias de eficácia entre esses grupos, é indispensável o uso de três variáveis *dummy*, pois nossa variável categórica possui quatro níveis. Mesmo que o *software* crie essas variáveis automaticamente, compreender esse processo é fundamental. Isso porque a escolha da categoria de referência influencia diretamente a interpretação dos coeficientes. ## Como criar variáveis *dummy*? Criar variáveis *dummy* é simples. Considere que temos os seguintes dados (Tabela 1). ID Estilo de apego Autoestima 1 Ansioso 22 2 Ansioso 27 3 Evitativo 29 4 Evitativo 28 5 Seguro 33 6 Seguro 34 *Tabela 1. Banco de dados simples.* Primeiramente, conte o número de categorias (*m*) e subtraia 1. Esse resultado indica quantas *dummies* você precisará criar. Como temos três categorias, o cálculo é 3 – 1 = 2; portanto, precisaremos de duas *dummies*, que chamaremos de *D*1 e *D*2 (Tabela 2). ID Estilo de apego Autoestima *D*1 *D*2 1 Ansioso 22 2 Ansioso 27 3 Evitativo 29 4 Evitativo 28 5 Seguro 33 6 Seguro 34 *Tabela 2. Banco de dados com colunas das variáveis dummy.* Em seguida, escolha a categoria de referência — isto é, aquela que receberá 0s em todas as *dummies*. Ela servirá de base de comparação. Na Tabela 3, selecionamos o apego seguro como a categoria de referência. ID Estilo de apego Autoestima *D*1 *D*2 1 Ansioso 22 2 Ansioso 27 3 Evitativo 29 4 Evitativo 28 5 Seguro 33 0 0 6 Seguro 34 0 0 *Tabela 3. Banco de dados com valores preenchidos da categoria de referência.* Depois, preencha os valores das demais categorias. Para a *dummy* *D*1, atribua 1 aos participantes com apego ansioso e 0 aos demais. Já para a *dummy* *D*2, atribua 1 aos participantes com apego evitativo e 0 aos demais (Tabela 4). ID Estilo de apego Autoestima *D*1 *D*2 1 Ansioso 22 1 0 2 Ansioso 27 1 0 3 Evitativo 29 0 1 4 Evitativo 28 0 1 5 Seguro 33 0 0 6 Seguro 34 0 0 *Tabela 4. Banco de dados totalmente preenchido.* ## Como evitar multicolinearidade com variáveis *dummy*? Um erro comum é criar uma *dummy* para cada categoria — isto é, *m* *dummies*, ao invés de *m* – 1. Isso gera [*multicolinearidade*](/o-que-e-multicolinearidade) *perfeita*, também chamada de *armadilha da variável fictícia*. Por exemplo, se criássemos três *dummies* para os estilos de apego, chegaríamos à Tabela 5. ID Estilo de apego Autoestima *D*1 *D*2 *D*3 1 Ansioso 22 1 0 0 2 Ansioso 27 1 0 0 3 Evitativo 29 0 1 0 4 Evitativo 28 0 1 0 5 Seguro 33 0 0 1 6 Seguro 34 0 0 1 *Tabela 5. Banco de dados incorretamente preenchido com variável dummy D3.* Eis o nosso modelo de regressão: ![modelo de regressão com multicolinearidade perfeita.](/uploads/2025-10_regressao-linear-modelo-com-multicolinearidade-1.jpg) Na equação anterior, marcamos em azul as informações contidas em nossa nova matriz de delineamento (Figura 3), enquanto os coeficientes que pretendemos estimar foram marcados na cor vermelha. ![matriz do delineamento com multicolinearidade perfeita.](/uploads/2025-10_matriz-de-delineamento-com-multicolinearidade.jpg) *Figura 3. Matriz de delineamento com acréscimo da dummy D3.* Embora pareça que temos o mesmo número de incógnitas (4 coeficientes *b*s) e de informações (4 colunas na matriz **X**), isso não é verdadeiro. O problema é que uma das *dummies* é combinação linear perfeita das outras. Mais especificamente: ![](/uploads/2025-10_demonstrando-multicolinearidade-com-m-variaveis-dummies.jpg) Retorne à Tabela 5 para checar que todas as linhas da coluna *D*3 podem ser calculadas pela fórmula anterior. O problema é que, no processo de estimação dos coeficientes, os *softwares* usam uma técnica de álgebra matricial chamada *inversão de matriz*. No entanto, quando uma das colunas (ou linhas) da matriz é linearmente dependente das demais, a matriz se torna singular, isto é, não invertível. Como resultado, o modelo de regressão não consegue estimar todos os coeficientes de forma única — ou produz estimativas instáveis. Para evitar o problema, basta excluir uma categoria e deixá-la como referência. Assim, o modelo estima efeitos relativos e mantém a estabilidade da regressão. ## Como interpretar os efeitos de variáveis *dummy*? A Tabela 6 apresenta as estatísticas descritivas de autoestima para cada estilo de apego. Estilo de apego Autoestima, *M* (*DP*) Ansioso 24,50 (3,54) Evitativo 28,50 (0,71) Seguro 33,50 (0,71) *Tabela 6. Estatísticas descritivas de autoestima por estilo de apego.* Como veremos a seguir, interpretar variáveis *dummy* significa compreender diferenças médias na [variável dependente](/o-que-sao-variaveis-independentes-e-dependentes) entre grupos. Para entendermos essa lógica, vamos revisitar nosso modelo de regressão com duas *dummies*: ![modelo de regressão com variáveis dummy.](/uploads/2025-10_modelo-de-regressao-com-variaveis-dummy.jpg) Lembrando, *D*1 e *D*2 modelam os efeitos dos apegos ansioso e evitativo, respectivamente, em relação ao apego seguro. Em nosso exemplo, assumiremos ***b*0 = 33,50**, ***b*1 \= –9** e ***b*2 = –5**. ### O intercepto Antes de mais nada, vejamos o que acontece quando o participante é da categoria de referência (apego seguro). Em tais casos, os valores nas duas *dummies* são iguais a 0 (Tabela 4), de modo que a equação do modelo se reduz ao intercepto: ![equação do modelo de regressão com variáveis dummy, intercepto.](/uploads/2025-10_demonstrando-multicolinearidade-com-m-variaveis-dummies-3.jpg) Lembre-se que *b*0 = 33,50, que é exatamente a autoestima média do grupo apego seguro (Tabela 6). Desse modo, ***b*0 expressa a média prevista de autoestima para participantes com apego seguro**. ### O coeficiente da primeira variável *dummy* Agora, vejamos o coeficiente *b*1\. Para sabermos o significado deste coeficiente, precisamos atribuir *D*1 = 1 e *D*2 = 0. Segundo a Tabela 4, participantes do grupo ansioso é que recebem esse esquema de codificação. Inserindo esses valores na equação do modelo, temos: ![equação do modelo de regressão com variáveis dummy, b1.](/uploads/2025-10_demonstrando-multicolinearidade-com-m-variaveis-dummies-4.jpg) Como vimos anteriormente, *b*0 representa a autoestima média dos participantes com apego seguro. Desse modo, ***b*1 expressa a diferença média em autoestima entre participantes com apego ansioso e com apego seguro**. Dado que *b*1 = –9, temos que *Yi* = 33,50 – 9 = 24,50, a autoestima média dos participantes com apego ansioso (veja a Tabela 6). ### O coeficiente da segunda variável *dummy* Por fim, identificamos o coeficiente *b*2 atribuindo *D*1 = 0 e *D*2 = 1 — o esquema de codificação dos participantes do grupo evitativo (Tabela 4). Inserindo esses valores na equação do modelo, temos: ![equação do modelo de regressão com variáveis dummy, b2.](/uploads/2025-10_demonstrando-multicolinearidade-com-m-variaveis-dummies-5.jpg) Lembre-se que *b*0 é a autoestima média dos participantes com apego seguro. Desse modo, ***b*2 expressa a diferença média em autoestima entre participantes com apego evitativo e com apego seguro**. Dado que *b*2 = –5, temos que *Yi* = 33,50 – 5 = 28,50, a autoestima média dos participantes com apego evitativo (veja a Tabela 6). ### Comentários finais Em síntese, o intercepto *b*0​ representa a média esperada de autoestima do grupo de referência (apego seguro), e cada coeficiente ajusta essa média conforme o grupo comparativo daquela variável *dummy*. No exemplo anterior, não consideramos outras variáveis. No entanto, a lógica da interpretação se estende a tais modelos. Por exemplo, se também inseríssemos idade e participação em psicoterapia em nosso modelo, precisaríamos apenas qualificar nossa interpretação com a expressão “controlando os efeitos da idade e da participação em psicoterapia”. Além disso, é importante destacar que nosso tratamento sobre variáveis *dummy* se focou na regressão linear. No entanto, isso foi feito apenas como um recurso didático. A transformação de variáveis politômica em *dummies* se estende para outros tipos de regressão, como [logística](/o-que-e-regressao-logistica), [de Poisson](/o-que-e-regressao-de-poisson) e binomial negativa, para citar alguns exemplos. ## Referências Field, A. (2017). *Discovering statistics using IBM SPSS Statistics* (5th ed.). Sage. ## Como citar este post > **Como citar este artigo:** Lima, M. (2025, 16 de outubro). O que são variáveis dummy? *Blog Psicometria Online*. https://www.blog.psicometriaonline.com.br/o-que-sao-variaveis-dummy