Se você já estudou regressão, provavelmente já ouviu falar em variáveis dummy. Mas, afinal, o que exatamente elas representam? O objetivo deste post é oferecer uma introdução clara, prática e completa sobre o tema, mostrando como criar, interpretar e evitar um erro comum ao utilizá-las.
Primeiramente, revisaremos brevemente a regressão linear múltipla. Em seguida, explicaremos por que variáveis categóricas precisam ser transformadas em dummies e como isso afeta o modelo. Por fim, discutiremos como interpretar corretamente seus coeficientes e evitar multicolinearidade.
O que é regressão linear múltipla?
Antes de falar sobre variáveis dummy, precisamos recordar o que é uma regressão linear múltipla. Essa técnica busca modelar a relação entre uma variável dependente contínua (Y) e duas ou mais variáveis independentes (X1, X2, …, Xk).
Por exemplo, imagine que queremos prever a autoestima (Y) dos participantes a partir da idade (X1, contínua) e da participação em psicoterapia (X2, categórica dicotômica: 0 = não participa, 1 = participa). O modelo pode ser expresso pela seguinte equação:

Onde b0 é o intercepto do modelo, b1 representa o efeito da idade (controlando os efeitos da participação em psicoterapia), enquanto b2 corresponde ao efeito da participação em psicoterapia (controlando os efeitos da idade).
Assim, a regressão múltipla nos permite isolar e quantificar o efeito de cada variável sobre Y. Contudo, quando a variável é categórica com mais de duas categorias, surge a necessidade de a recodificarmos em variáveis dummy.

É possível usar variáveis politômicas na regressão?
Anteriormente, apresentamos um modelo de regressão linear múltipla com uma variável preditora contínua (idade) e uma variável preditora dicotômica (participação em psicoterapia). No entanto, você pode se perguntar se é possível inserir variáveis politômicas em modelos de regressão.
Variáveis politômicas (ou multicategóricas) — são variáveis qualitativas com três ou mais categorias, como estilo de apego (ansioso, evitativo, seguro; Figura 1) e região de residência (Centro-Oeste, Nordeste, Norte, Sudeste, Sul).
Embora os softwares possam codificá-las numericamente (e.g., 0 = ansioso, 1 = evitativo, 2 = seguro), essa representação é incorreta. Isso porque o modelo trataria a variável como quantitativa, assumindo uma hierarquia inexistente entre as categorias.
Por essa razão, precisamos converter variáveis politômicas em variáveis dummy antes de incluí-las em nossos modelos de regressão. Assim, conseguimos estimar o impacto de pertencer a determinado grupo em relação a uma categoria de referência.

O que são variáveis dummy?
As variáveis dummy são variáveis artificiais que representam categorias de uma variável qualitativa em indicadores numéricos. Também conhecida como variável de codificação, uma variável dummy expressa a presença (1) ou a ausência (0) de uma categoria ou atributo específico.
Por exemplo, se temos o estilo de apego com três categorias, criamos duas variáveis dummy:
- D1 = 1 se o participante é ansioso, 0 caso contrário.
- D2 = 1 se o participante é evitativo, 0 caso contrário.
De maneira geral, para representarmos uma variável politômica com m categorias, precisamos criar m – 1 variáveis dummy. Uma das categorias funcionará como categoria de referência, recebendo 0 em todas as dummies.
Em nosso exemplo, o grupo seguro é a categoria de referência — a categoria contra a qual as demais são comparadas. Matematicamente, estamos criando uma matriz de delineamento (Figura 2), onde cada linha corresponde a um participante e cada coluna a uma categoria (na primeira coluna, inserimos 1s, para representar o termo multiplicativo μ do intercepto). Assim, o modelo interpreta essas dummies como preditoras dicotômicas do modelo.

Quando usar variáveis dummy?
Devemos utilizar variáveis dummy sempre que quisermos incluir uma variável categórica em um modelo de regressão. Na prática, uma variável dicotômica já está em formato dummy, enquanto variáveis politômicas precisam ser transformadas para dummies.
Por exemplo, imagine uma pesquisa que compara abordagens terapêuticas: cognitivo-comportamental, psicodinâmica, humanista e de aceitação e compromisso (ACT). Para testar diferenças médias de eficácia entre esses grupos, é indispensável o uso de três variáveis dummy, pois nossa variável categórica possui quatro níveis.
Mesmo que o software crie essas variáveis automaticamente, compreender esse processo é fundamental. Isso porque a escolha da categoria de referência influencia diretamente a interpretação dos coeficientes.
Como criar variáveis dummy?
Criar variáveis dummy é simples. Considere que temos os seguintes dados (Tabela 1).
| ID | Estilo de apego | Autoestima |
| 1 | Ansioso | 22 |
| 2 | Ansioso | 27 |
| 3 | Evitativo | 29 |
| 4 | Evitativo | 28 |
| 5 | Seguro | 33 |
| 6 | Seguro | 34 |
Primeiramente, conte o número de categorias (m) e subtraia 1. Esse resultado indica quantas dummies você precisará criar. Como temos três categorias, o cálculo é 3 – 1 = 2; portanto, precisaremos de duas dummies, que chamaremos de D1 e D2 (Tabela 2).
| ID | Estilo de apego | Autoestima | D1 | D2 |
| 1 | Ansioso | 22 | ||
| 2 | Ansioso | 27 | ||
| 3 | Evitativo | 29 | ||
| 4 | Evitativo | 28 | ||
| 5 | Seguro | 33 | ||
| 6 | Seguro | 34 |
Em seguida, escolha a categoria de referência — isto é, aquela que receberá 0s em todas as dummies. Ela servirá de base de comparação. Na Tabela 3, selecionamos o apego seguro como a categoria de referência.
| ID | Estilo de apego | Autoestima | D1 | D2 |
| 1 | Ansioso | 22 | ||
| 2 | Ansioso | 27 | ||
| 3 | Evitativo | 29 | ||
| 4 | Evitativo | 28 | ||
| 5 | Seguro | 33 | 0 | 0 |
| 6 | Seguro | 34 | 0 | 0 |
Depois, preencha os valores das demais categorias. Para a dummy D1, atribua 1 aos participantes com apego ansioso e 0 aos demais. Já para a dummy D2, atribua 1 aos participantes com apego evitativo e 0 aos demais (Tabela 4).
| ID | Estilo de apego | Autoestima | D1 | D2 |
| 1 | Ansioso | 22 | 1 | 0 |
| 2 | Ansioso | 27 | 1 | 0 |
| 3 | Evitativo | 29 | 0 | 1 |
| 4 | Evitativo | 28 | 0 | 1 |
| 5 | Seguro | 33 | 0 | 0 |
| 6 | Seguro | 34 | 0 | 0 |
Como evitar multicolinearidade com variáveis dummy?
Um erro comum é criar uma dummy para cada categoria — isto é, m dummies, ao invés de m – 1. Isso gera multicolinearidade perfeita, também chamada de armadilha da variável fictícia.
Por exemplo, se criássemos três dummies para os estilos de apego, chegaríamos à Tabela 5.
| ID | Estilo de apego | Autoestima | D1 | D2 | D3 |
| 1 | Ansioso | 22 | 1 | 0 | 0 |
| 2 | Ansioso | 27 | 1 | 0 | 0 |
| 3 | Evitativo | 29 | 0 | 1 | 0 |
| 4 | Evitativo | 28 | 0 | 1 | 0 |
| 5 | Seguro | 33 | 0 | 0 | 1 |
| 6 | Seguro | 34 | 0 | 0 | 1 |
Eis o nosso modelo de regressão:

Na equação anterior, marcamos em azul as informações contidas em nossa nova matriz de delineamento (Figura 3), enquanto os coeficientes que pretendemos estimar foram marcados na cor vermelha.

Embora pareça que temos o mesmo número de incógnitas (4 coeficientes bs) e de informações (4 colunas na matriz X), isso não é verdadeiro. O problema é que uma das dummies é combinação linear perfeita das outras. Mais especificamente:

Retorne à Tabela 5 para checar que todas as linhas da coluna D3 podem ser calculadas pela fórmula anterior.
O problema é que, no processo de estimação dos coeficientes, os softwares usam uma técnica de álgebra matricial chamada inversão de matriz. No entanto, quando uma das colunas (ou linhas) da matriz é linearmente dependente das demais, a matriz se torna singular, isto é, não invertível. Como resultado, o modelo de regressão não consegue estimar todos os coeficientes de forma única — ou produz estimativas instáveis.
Para evitar o problema, basta excluir uma categoria e deixá-la como referência. Assim, o modelo estima efeitos relativos e mantém a estabilidade da regressão.
Como interpretar os efeitos de variáveis dummy?
A Tabela 6 apresenta as estatísticas descritivas de autoestima para cada estilo de apego.
| Estilo de apego | Autoestima, M (DP) |
| Ansioso | 24,50 (3,54) |
| Evitativo | 28,50 (0,71) |
| Seguro | 33,50 (0,71) |
Como veremos a seguir, interpretar variáveis dummy significa compreender diferenças médias na variável dependente entre grupos. Para entendermos essa lógica, vamos revisitar nosso modelo de regressão com duas dummies:

Lembrando, D1 e D2 modelam os efeitos dos apegos ansioso e evitativo, respectivamente, em relação ao apego seguro. Em nosso exemplo, assumiremos b0 = 33,50, b1 = –9 e b2 = –5.
O intercepto
Antes de mais nada, vejamos o que acontece quando o participante é da categoria de referência (apego seguro). Em tais casos, os valores nas duas dummies são iguais a 0 (Tabela 4), de modo que a equação do modelo se reduz ao intercepto:

Lembre-se que b0 = 33,50, que é exatamente a autoestima média do grupo apego seguro (Tabela 6). Desse modo, b0 expressa a média prevista de autoestima para participantes com apego seguro.
O coeficiente da primeira variável dummy
Agora, vejamos o coeficiente b1. Para sabermos o significado deste coeficiente, precisamos atribuir D1 = 1 e D2 = 0. Segundo a Tabela 4, participantes do grupo ansioso é que recebem esse esquema de codificação. Inserindo esses valores na equação do modelo, temos:

Como vimos anteriormente, b0 representa a autoestima média dos participantes com apego seguro. Desse modo, b1 expressa a diferença média em autoestima entre participantes com apego ansioso e com apego seguro. Dado que b1 = –9, temos que Yi = 33,50 – 9 = 24,50, a autoestima média dos participantes com apego ansioso (veja a Tabela 6).
O coeficiente da segunda variável dummy
Por fim, identificamos o coeficiente b2 atribuindo D1 = 0 e D2 = 1 — o esquema de codificação dos participantes do grupo evitativo (Tabela 4). Inserindo esses valores na equação do modelo, temos:

Lembre-se que b0 é a autoestima média dos participantes com apego seguro. Desse modo, b2 expressa a diferença média em autoestima entre participantes com apego evitativo e com apego seguro. Dado que b2 = –5, temos que Yi = 33,50 – 5 = 28,50, a autoestima média dos participantes com apego evitativo (veja a Tabela 6).
Comentários finais
Em síntese, o intercepto b0 representa a média esperada de autoestima do grupo de referência (apego seguro), e cada coeficiente ajusta essa média conforme o grupo comparativo daquela variável dummy.
No exemplo anterior, não consideramos outras variáveis. No entanto, a lógica da interpretação se estende a tais modelos. Por exemplo, se também inseríssemos idade e participação em psicoterapia em nosso modelo, precisaríamos apenas qualificar nossa interpretação com a expressão “controlando os efeitos da idade e da participação em psicoterapia”.
Além disso, é importante destacar que nosso tratamento sobre variáveis dummy se focou na regressão linear. No entanto, isso foi feito apenas como um recurso didático. A transformação de variáveis politômica em dummies se estende para outros tipos de regressão, como logística, de Poisson e binomial negativa, para citar alguns exemplos.
Conclusão
Gostou desse conteúdo? Então aproveite e se inscreva em nosso canal do YouTube para ficar por dentro de nossas novidades!
Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Referências
Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.
Como citar este post
Lima, M. (2025, 16 de outubro). O que são variáveis dummy? Blog Psicometria Online. https://blog.psicometriaonline.com.br/o-que-sao-variaveis-dummy
