---
title: "O que são variáveis dummy?"
url: https://www.blog.psicometriaonline.com.br/o-que-sao-variaveis-dummy
canonical: https://www.blog.psicometriaonline.com.br/o-que-sao-variaveis-dummy
language: pt-BR
published: 2025-10-16T12:00:00.000Z
updated: 2026-03-30T13:49:04.526Z
modified: 2026-03-30T13:49:04.526Z
author: "Marcos Lima"
categories: ["Análises bi e multivariadas"]
tags: ["regressão"]
description: "Aprenda o que são variáveis dummy, como criá-las, interpretá-las e evitar erros comuns em modelos de regressão."
source: Blog Psicometria Online
---
# O que são variáveis dummy?

> Se você já estudou regressão, provavelmente já ouviu falar em variáveis dummy. Mas, afinal, o que exatamente elas representam? O objetivo deste post é oferecer uma introdução clara, prática e completa sobre o tema, mostrando como criar, interpretar e evitar um erro comum ao utilizá-las. Primeiram...

Se você já estudou regressão, provavelmente já ouviu falar em **variáveis *dummy***. Mas, afinal, o que exatamente elas representam? O objetivo deste post é oferecer uma introdução clara, prática e completa sobre o tema, mostrando como criar, interpretar e evitar um erro comum ao utilizá-las.

Primeiramente, revisaremos brevemente a regressão linear múltipla. Em seguida, explicaremos por que variáveis categóricas precisam ser transformadas em *dummies* e como isso afeta o modelo. Por fim, discutiremos como interpretar corretamente seus coeficientes e evitar multicolinearidade.

## O que é regressão linear múltipla?

Antes de falar sobre variáveis *dummy*, precisamos recordar o que é uma [regressão linear múltipla](/o-que-e-regressao-linear-multipla). Essa técnica busca modelar a relação entre uma variável dependente contínua (*Y*) e duas ou mais variáveis independentes (*X*1, X2, …, *Xk*).

Por exemplo, imagine que queremos prever a autoestima (*Y*) dos participantes a partir da idade (*X*1, contínua) e da participação em psicoterapia (*X*2, categórica dicotômica: 0 = não participa, 1 = participa). O modelo pode ser expresso pela seguinte equação:

![equação da regressão linear múltipla.](/uploads/2025-10_regressao-linear-multipla-sem-dummy.jpg)

Onde *b*0​ é o intercepto do modelo, *b*1​ representa o efeito da idade (controlando os efeitos da participação em psicoterapia), enquanto *b*2​ corresponde ao efeito da participação em psicoterapia (controlando os efeitos da idade).

Assim, a regressão múltipla nos permite isolar e quantificar o efeito de cada variável sobre *Y*. Contudo, quando a variável é categórica com mais de duas categorias, surge a necessidade de a recodificarmos em variáveis *dummy*.

## É possível usar variáveis politômicas na regressão?

Anteriormente, apresentamos um modelo de regressão linear múltipla com uma variável preditora contínua (idade) e uma variável preditora dicotômica (participação em psicoterapia). No entanto, você pode se perguntar se é possível inserir variáveis politômicas em modelos de regressão.

Variáveis *politômicas* (ou *multicategóricas*) — são variáveis qualitativas com três ou mais categorias, como estilo de apego (ansioso, evitativo, seguro; Figura 1) e região de residência (Centro-Oeste, Nordeste, Norte, Sudeste, Sul).

Embora os *softwares* possam codificá-las numericamente (e.g., 0 = ansioso, 1 = evitativo, 2 = seguro), essa representação é incorreta. Isso porque o modelo trataria a variável como quantitativa, assumindo uma hierarquia inexistente entre as categorias.

Por essa razão, precisamos converter variáveis politômicas em variáveis *dummy* antes de incluí-las em nossos modelos de regressão. Assim, conseguimos estimar o impacto de pertencer a determinado grupo em relação a uma categoria de referência.

![](/uploads/2025-10_estilos-de-apego-casal.jpg)

*Figura 1. Estilos de apego consistem em um exemplo de variável politômica.*

## O que são variáveis *dummy*?

As **variáveis *dummy*** são variáveis artificiais que representam categorias de uma variável qualitativa em indicadores numéricos. Também conhecida como *variável de codificação*, uma variável *dummy* expressa a presença (1) ou a ausência (0) de uma categoria ou atributo específico.

Por exemplo, se temos o estilo de apego com três categorias, criamos duas variáveis *dummy*:

-   *D*1 = 1 se o participante é *ansioso*, 0 caso contrário.
    
-   *D*2 = 1 se o participante é *evitativo*, 0 caso contrário.
    

De maneira geral, para representarmos uma variável politômica com *m* categorias, precisamos criar *m* – 1 variáveis *dummy*. Uma das categorias funcionará como categoria de referência, recebendo 0 em todas as *dummies*.

Em nosso exemplo, o grupo *seguro* é a categoria de referência — a categoria contra a qual as demais são comparadas. Matematicamente, estamos criando uma *matriz de delineamento* (Figura 2), onde cada linha corresponde a um participante e cada coluna a uma categoria (na primeira coluna, inserimos 1s, para representar o termo multiplicativo *μ* do intercepto). Assim, o modelo interpreta essas *dummies* como preditoras dicotômicas do modelo.

![](/uploads/2025-10_matriz-de-delineamento-sem-multicolinearidade.jpg)

*Figura 2. Conversão da variável estilo de apego em duas variáveis dummy (categoria de referência: seguro). A coluna μ recebe 1s, como termo multiplicativo do intercepto.*

## Quando usar variáveis *dummy*?

Devemos utilizar variáveis *dummy* sempre que quisermos incluir uma variável categórica em um modelo de regressão. Na prática, uma variável dicotômica já está em formato *dummy*, enquanto variáveis politômicas precisam ser transformadas para *dummies*.

Por exemplo, imagine uma pesquisa que compara abordagens terapêuticas: cognitivo-comportamental, psicodinâmica, humanista e de aceitação e compromisso (ACT). Para testar diferenças médias de eficácia entre esses grupos, é indispensável o uso de três variáveis *dummy*, pois nossa variável categórica possui quatro níveis.

Mesmo que o *software* crie essas variáveis automaticamente, compreender esse processo é fundamental. Isso porque a escolha da categoria de referência influencia diretamente a interpretação dos coeficientes.

## Como criar variáveis *dummy*?

Criar variáveis *dummy* é simples. Considere que temos os seguintes dados (Tabela 1).

ID

Estilo de apego

Autoestima

1

Ansioso

22

2

Ansioso

27

3

Evitativo

29

4

Evitativo

28

5

Seguro

33

6

Seguro

34

*Tabela 1. Banco de dados simples.*

Primeiramente, conte o número de categorias (*m*) e subtraia 1. Esse resultado indica quantas *dummies* você precisará criar. Como temos três categorias, o cálculo é 3 – 1 = 2; portanto, precisaremos de duas *dummies*, que chamaremos de *D*1 e *D*2 (Tabela 2).

ID

Estilo de apego

Autoestima

*D*1

*D*2

1

Ansioso

22

2

Ansioso

27

3

Evitativo

29

4

Evitativo

28

5

Seguro

33

6

Seguro

34

*Tabela 2. Banco de dados com colunas das variáveis dummy.*

Em seguida, escolha a categoria de referência — isto é, aquela que receberá 0s em todas as *dummies*. Ela servirá de base de comparação. Na Tabela 3, selecionamos o apego seguro como a categoria de referência.

ID

Estilo de apego

Autoestima

*D*1

*D*2

1

Ansioso

22

2

Ansioso

27

3

Evitativo

29

4

Evitativo

28

5

Seguro

33

0

0

6

Seguro

34

0

0

*Tabela 3. Banco de dados com valores preenchidos da categoria de referência.*

Depois, preencha os valores das demais categorias. Para a *dummy* *D*1, atribua 1 aos participantes com apego ansioso e 0 aos demais. Já para a *dummy* *D*2, atribua 1 aos participantes com apego evitativo e 0 aos demais (Tabela 4).

ID

Estilo de apego

Autoestima

*D*1

*D*2

1

Ansioso

22

1

0

2

Ansioso

27

1

0

3

Evitativo

29

0

1

4

Evitativo

28

0

1

5

Seguro

33

0

0

6

Seguro

34

0

0

*Tabela 4. Banco de dados totalmente preenchido.*

## Como evitar multicolinearidade com variáveis *dummy*?

Um erro comum é criar uma *dummy* para cada categoria — isto é, *m* *dummies*, ao invés de *m* – 1. Isso gera [*multicolinearidade*](/o-que-e-multicolinearidade) *perfeita*, também chamada de *armadilha da variável fictícia*.

Por exemplo, se criássemos três *dummies* para os estilos de apego, chegaríamos à Tabela 5.

ID

Estilo de apego

Autoestima

*D*1

*D*2

*D*3

1

Ansioso

22

1

0

0

2

Ansioso

27

1

0

0

3

Evitativo

29

0

1

0

4

Evitativo

28

0

1

0

5

Seguro

33

0

0

1

6

Seguro

34

0

0

1

*Tabela 5. Banco de dados incorretamente preenchido com variável dummy D3.*

Eis o nosso modelo de regressão:

![modelo de regressão com multicolinearidade perfeita.](/uploads/2025-10_regressao-linear-modelo-com-multicolinearidade-1.jpg)

Na equação anterior, marcamos em azul as informações contidas em nossa nova matriz de delineamento (Figura 3), enquanto os coeficientes que pretendemos estimar foram marcados na cor vermelha.

![matriz do delineamento com multicolinearidade perfeita.](/uploads/2025-10_matriz-de-delineamento-com-multicolinearidade.jpg)

*Figura 3. Matriz de delineamento com acréscimo da dummy D3.*

Embora pareça que temos o mesmo número de incógnitas (4 coeficientes *b*s) e de informações (4 colunas na matriz **X**), isso não é verdadeiro. O problema é que uma das *dummies* é combinação linear perfeita das outras. Mais especificamente:

![](/uploads/2025-10_demonstrando-multicolinearidade-com-m-variaveis-dummies.jpg)

Retorne à Tabela 5 para checar que todas as linhas da coluna *D*3 podem ser calculadas pela fórmula anterior.

O problema é que, no processo de estimação dos coeficientes, os *softwares* usam uma técnica de álgebra matricial chamada *inversão de matriz*. No entanto, quando uma das colunas (ou linhas) da matriz é linearmente dependente das demais, a matriz se torna singular, isto é, não invertível. Como resultado, o modelo de regressão não consegue estimar todos os coeficientes de forma única — ou produz estimativas instáveis.

Para evitar o problema, basta excluir uma categoria e deixá-la como referência. Assim, o modelo estima efeitos relativos e mantém a estabilidade da regressão.

## Como interpretar os efeitos de variáveis *dummy*?

A Tabela 6 apresenta as estatísticas descritivas de autoestima para cada estilo de apego.

Estilo de apego

Autoestima, *M* (*DP*)

Ansioso

24,50 (3,54)

Evitativo

28,50 (0,71)

Seguro

33,50 (0,71)

*Tabela 6. Estatísticas descritivas de autoestima por estilo de apego.*

Como veremos a seguir, interpretar variáveis *dummy* significa compreender diferenças médias na [variável dependente](/o-que-sao-variaveis-independentes-e-dependentes) entre grupos. Para entendermos essa lógica, vamos revisitar nosso modelo de regressão com duas *dummies*:

![modelo de regressão com variáveis dummy.](/uploads/2025-10_modelo-de-regressao-com-variaveis-dummy.jpg)

Lembrando, *D*1 e *D*2 modelam os efeitos dos apegos ansioso e evitativo, respectivamente, em relação ao apego seguro. Em nosso exemplo, assumiremos ***b*0 = 33,50**, ***b*1 \= –9** e ***b*2 = –5**.

### O intercepto

Antes de mais nada, vejamos o que acontece quando o participante é da categoria de referência (apego seguro). Em tais casos, os valores nas duas *dummies* são iguais a 0 (Tabela 4), de modo que a equação do modelo se reduz ao intercepto:

![equação do modelo de regressão com variáveis dummy, intercepto.](/uploads/2025-10_demonstrando-multicolinearidade-com-m-variaveis-dummies-3.jpg)

Lembre-se que *b*0 = 33,50, que é exatamente a autoestima média do grupo apego seguro (Tabela 6). Desse modo, ***b*0 expressa a média prevista de autoestima para participantes com apego seguro**.

### O coeficiente da primeira variável *dummy*

Agora, vejamos o coeficiente *b*1\. Para sabermos o significado deste coeficiente, precisamos atribuir *D*1 = 1 e *D*2 = 0. Segundo a Tabela 4, participantes do grupo ansioso é que recebem esse esquema de codificação. Inserindo esses valores na equação do modelo, temos:

![equação do modelo de regressão com variáveis dummy, b1.](/uploads/2025-10_demonstrando-multicolinearidade-com-m-variaveis-dummies-4.jpg)

Como vimos anteriormente, *b*0 representa a autoestima média dos participantes com apego seguro. Desse modo, ***b*1 expressa a diferença média em autoestima entre participantes com apego ansioso e com apego seguro**. Dado que *b*1 = –9, temos que *Yi* = 33,50 – 9 = 24,50, a autoestima média dos participantes com apego ansioso (veja a Tabela 6).

### O coeficiente da segunda variável *dummy*

Por fim, identificamos o coeficiente *b*2 atribuindo *D*1 = 0 e *D*2 = 1 — o esquema de codificação dos participantes do grupo evitativo (Tabela 4). Inserindo esses valores na equação do modelo, temos:

![equação do modelo de regressão com variáveis dummy, b2.](/uploads/2025-10_demonstrando-multicolinearidade-com-m-variaveis-dummies-5.jpg)

Lembre-se que *b*0 é a autoestima média dos participantes com apego seguro. Desse modo, ***b*2 expressa a diferença média em autoestima entre participantes com apego evitativo e com apego seguro**. Dado que *b*2 = –5, temos que *Yi* = 33,50 – 5 = 28,50, a autoestima média dos participantes com apego evitativo (veja a Tabela 6).

### Comentários finais

Em síntese, o intercepto *b*0​ representa a média esperada de autoestima do grupo de referência (apego seguro), e cada coeficiente ajusta essa média conforme o grupo comparativo daquela variável *dummy*.

No exemplo anterior, não consideramos outras variáveis. No entanto, a lógica da interpretação se estende a tais modelos. Por exemplo, se também inseríssemos idade e participação em psicoterapia em nosso modelo, precisaríamos apenas qualificar nossa interpretação com a expressão “controlando os efeitos da idade e da participação em psicoterapia”.

Além disso, é importante destacar que nosso tratamento sobre variáveis *dummy* se focou na regressão linear. No entanto, isso foi feito apenas como um recurso didático. A transformação de variáveis politômica em *dummies* se estende para outros tipos de regressão, como [logística](/o-que-e-regressao-logistica), [de Poisson](/o-que-e-regressao-de-poisson) e binomial negativa, para citar alguns exemplos.

## Referências

Field, A. (2017). *Discovering statistics using IBM SPSS Statistics* (5th ed.). Sage.

## Como citar este post

> **Como citar este artigo:** Lima, M. (2025, 16 de outubro). O que são variáveis dummy? *Blog Psicometria Online*. https://www.blog.psicometriaonline.com.br/o-que-sao-variaveis-dummy