O seu Blog de Psicometria

Tenha acesso à nossa enciclopédia virtual de conhecimento em Psicometria e Análise de Dados

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Compartilhe nas Redes Sociais

O que são variáveis dummy?

Marcos Lima

out 16, 2025

Se você já estudou regressão, provavelmente já ouviu falar em variáveis dummy. Mas, afinal, o que exatamente elas representam? O objetivo deste post é oferecer uma introdução clara, prática e completa sobre o tema, mostrando como criar, interpretar e evitar um erro comum ao utilizá-las.

Primeiramente, revisaremos brevemente a regressão linear múltipla. Em seguida, explicaremos por que variáveis categóricas precisam ser transformadas em dummies e como isso afeta o modelo. Por fim, discutiremos como interpretar corretamente seus coeficientes e evitar multicolinearidade.

O que é regressão linear múltipla?

Antes de falar sobre variáveis dummy, precisamos recordar o que é uma regressão linear múltipla. Essa técnica busca modelar a relação entre uma variável dependente contínua (Y) e duas ou mais variáveis independentes (X1, X2, …, Xk).

Por exemplo, imagine que queremos prever a autoestima (Y) dos participantes a partir da idade (X1, contínua) e da participação em psicoterapia (X2, categórica dicotômica: 0 = não participa, 1 = participa). O modelo pode ser expresso pela seguinte equação:

equação da regressão linear múltipla.

Onde b0​ é o intercepto do modelo, b1​ representa o efeito da idade (controlando os efeitos da participação em psicoterapia), enquanto b2​ corresponde ao efeito da participação em psicoterapia (controlando os efeitos da idade).

Assim, a regressão múltipla nos permite isolar e quantificar o efeito de cada variável sobre Y. Contudo, quando a variável é categórica com mais de duas categorias, surge a necessidade de a recodificarmos em variáveis dummy.

banner da NAOPARE.

É possível usar variáveis politômicas na regressão?

Anteriormente, apresentamos um modelo de regressão linear múltipla com uma variável preditora contínua (idade) e uma variável preditora dicotômica (participação em psicoterapia). No entanto, você pode se perguntar se é possível inserir variáveis politômicas em modelos de regressão.

Variáveis politômicas (ou multicategóricas) — são variáveis qualitativas com três ou mais categorias, como estilo de apego (ansioso, evitativo, seguro; Figura 1) e região de residência (Centro-Oeste, Nordeste, Norte, Sudeste, Sul).

Embora os softwares possam codificá-las numericamente (e.g., 0 = ansioso, 1 = evitativo, 2 = seguro), essa representação é incorreta. Isso porque o modelo trataria a variável como quantitativa, assumindo uma hierarquia inexistente entre as categorias.

Por essa razão, precisamos converter variáveis politômicas em variáveis dummy antes de incluí-las em nossos modelos de regressão. Assim, conseguimos estimar o impacto de pertencer a determinado grupo em relação a uma categoria de referência.

Figura 1. Estilos de apego consistem em um exemplo de variável politômica.

O que são variáveis dummy?

As variáveis dummy são variáveis artificiais que representam categorias de uma variável qualitativa em indicadores numéricos. Também conhecida como variável de codificação, uma variável dummy expressa a presença (1) ou a ausência (0) de uma categoria ou atributo específico.

Por exemplo, se temos o estilo de apego com três categorias, criamos duas variáveis dummy:

  • D1 = 1 se o participante é ansioso, 0 caso contrário.
  • D2 = 1 se o participante é evitativo, 0 caso contrário.

De maneira geral, para representarmos uma variável politômica com m categorias, precisamos criar m – 1 variáveis dummy. Uma das categorias funcionará como categoria de referência, recebendo 0 em todas as dummies.

Em nosso exemplo, o grupo seguro é a categoria de referência — a categoria contra a qual as demais são comparadas. Matematicamente, estamos criando uma matriz de delineamento (Figura 2), onde cada linha corresponde a um participante e cada coluna a uma categoria (na primeira coluna, inserimos 1s, para representar o termo multiplicativo μ do intercepto). Assim, o modelo interpreta essas dummies como preditoras dicotômicas do modelo.

Figura 2. Conversão da variável estilo de apego em duas variáveis dummy (categoria de referência: seguro). A coluna μ recebe 1s, como termo multiplicativo do intercepto.

Quando usar variáveis dummy?

Devemos utilizar variáveis dummy sempre que quisermos incluir uma variável categórica em um modelo de regressão. Na prática, uma variável dicotômica já está em formato dummy, enquanto variáveis politômicas precisam ser transformadas para dummies.

Por exemplo, imagine uma pesquisa que compara abordagens terapêuticas: cognitivo-comportamental, psicodinâmica, humanista e de aceitação e compromisso (ACT). Para testar diferenças médias de eficácia entre esses grupos, é indispensável o uso de três variáveis dummy, pois nossa variável categórica possui quatro níveis.

Mesmo que o software crie essas variáveis automaticamente, compreender esse processo é fundamental. Isso porque a escolha da categoria de referência influencia diretamente a interpretação dos coeficientes.

Como criar variáveis dummy?

Criar variáveis dummy é simples. Considere que temos os seguintes dados (Tabela 1).

IDEstilo de apegoAutoestima
1Ansioso22
2Ansioso27
3Evitativo29
4Evitativo28
5Seguro33
6Seguro34
Tabela 1. Banco de dados simples.

Primeiramente, conte o número de categorias (m) e subtraia 1. Esse resultado indica quantas dummies você precisará criar. Como temos três categorias, o cálculo é 3 – 1 = 2; portanto, precisaremos de duas dummies, que chamaremos de D1 e D2 (Tabela 2).

IDEstilo de apegoAutoestimaD1D2
1Ansioso22
2Ansioso27
3Evitativo29
4Evitativo28
5Seguro33
6Seguro34
Tabela 2. Banco de dados com colunas das variáveis dummy.

Em seguida, escolha a categoria de referência — isto é, aquela que receberá 0s em todas as dummies. Ela servirá de base de comparação. Na Tabela 3, selecionamos o apego seguro como a categoria de referência.

IDEstilo de apegoAutoestimaD1D2
1Ansioso22
2Ansioso27
3Evitativo29
4Evitativo28
5Seguro3300
6Seguro3400
Tabela 3. Banco de dados com valores preenchidos da categoria de referência.

Depois, preencha os valores das demais categorias. Para a dummy D1, atribua 1 aos participantes com apego ansioso e 0 aos demais. Já para a dummy D2, atribua 1 aos participantes com apego evitativo e 0 aos demais (Tabela 4).

IDEstilo de apegoAutoestimaD1D2
1Ansioso2210
2Ansioso2710
3Evitativo2901
4Evitativo2801
5Seguro3300
6Seguro3400
Tabela 4. Banco de dados totalmente preenchido.

Como evitar multicolinearidade com variáveis dummy?

Um erro comum é criar uma dummy para cada categoria — isto é, m dummies, ao invés de m – 1. Isso gera multicolinearidade perfeita, também chamada de armadilha da variável fictícia.

Por exemplo, se criássemos três dummies para os estilos de apego, chegaríamos à Tabela 5.

IDEstilo de apegoAutoestimaD1D2D3
1Ansioso22100
2Ansioso27100
3Evitativo29010
4Evitativo28010
5Seguro33001
6Seguro34001
Tabela 5. Banco de dados incorretamente preenchido com variável dummy D3.

Eis o nosso modelo de regressão:

modelo de regressão com multicolinearidade perfeita.

Na equação anterior, marcamos em azul as informações contidas em nossa nova matriz de delineamento (Figura 3), enquanto os coeficientes que pretendemos estimar foram marcados na cor vermelha.

matriz do delineamento com multicolinearidade perfeita.
Figura 3. Matriz de delineamento com acréscimo da dummy D3.

Embora pareça que temos o mesmo número de incógnitas (4 coeficientes bs) e de informações (4 colunas na matriz X), isso não é verdadeiro. O problema é que uma das dummies é combinação linear perfeita das outras. Mais especificamente:

Retorne à Tabela 5 para checar que todas as linhas da coluna D3 podem ser calculadas pela fórmula anterior.

O problema é que, no processo de estimação dos coeficientes, os softwares usam uma técnica de álgebra matricial chamada inversão de matriz. No entanto, quando uma das colunas (ou linhas) da matriz é linearmente dependente das demais, a matriz se torna singular, isto é, não invertível. Como resultado, o modelo de regressão não consegue estimar todos os coeficientes de forma única — ou produz estimativas instáveis.

Para evitar o problema, basta excluir uma categoria e deixá-la como referência. Assim, o modelo estima efeitos relativos e mantém a estabilidade da regressão.

Como interpretar os efeitos de variáveis dummy?

A Tabela 6 apresenta as estatísticas descritivas de autoestima para cada estilo de apego.

Estilo de apegoAutoestima, M (DP)
Ansioso24,50 (3,54)
Evitativo28,50 (0,71)
Seguro33,50 (0,71)
Tabela 6. Estatísticas descritivas de autoestima por estilo de apego.

Como veremos a seguir, interpretar variáveis dummy significa compreender diferenças médias na variável dependente entre grupos. Para entendermos essa lógica, vamos revisitar nosso modelo de regressão com duas dummies:

modelo de regressão com variáveis dummy.

Lembrando, D1 e D2 modelam os efeitos dos apegos ansioso e evitativo, respectivamente, em relação ao apego seguro. Em nosso exemplo, assumiremos b0 = 33,50, b1 = –9 e b2 = –5.

O intercepto

Antes de mais nada, vejamos o que acontece quando o participante é da categoria de referência (apego seguro). Em tais casos, os valores nas duas dummies são iguais a 0 (Tabela 4), de modo que a equação do modelo se reduz ao intercepto:

equação do modelo de regressão com variáveis dummy, intercepto.

Lembre-se que b0 = 33,50, que é exatamente a autoestima média do grupo apego seguro (Tabela 6). Desse modo, b0 expressa a média prevista de autoestima para participantes com apego seguro.

O coeficiente da primeira variável dummy

Agora, vejamos o coeficiente b1. Para sabermos o significado deste coeficiente, precisamos atribuir D1 = 1 e D2 = 0. Segundo a Tabela 4, participantes do grupo ansioso é que recebem esse esquema de codificação. Inserindo esses valores na equação do modelo, temos:

equação do modelo de regressão com variáveis dummy, b1.

Como vimos anteriormente, b0 representa a autoestima média dos participantes com apego seguro. Desse modo, b1 expressa a diferença média em autoestima entre participantes com apego ansioso e com apego seguro. Dado que b1 = –9, temos que Yi = 33,50 – 9 = 24,50, a autoestima média dos participantes com apego ansioso (veja a Tabela 6).

O coeficiente da segunda variável dummy

Por fim, identificamos o coeficiente b2 atribuindo D1 = 0 e D2 = 1 — o esquema de codificação dos participantes do grupo evitativo (Tabela 4). Inserindo esses valores na equação do modelo, temos:

equação do modelo de regressão com variáveis dummy, b2.

Lembre-se que b0 é a autoestima média dos participantes com apego seguro. Desse modo, b2 expressa a diferença média em autoestima entre participantes com apego evitativo e com apego seguro. Dado que b2 = –5, temos que Yi = 33,50 – 5 = 28,50, a autoestima média dos participantes com apego evitativo (veja a Tabela 6).

Comentários finais

Em síntese, o intercepto b0​ representa a média esperada de autoestima do grupo de referência (apego seguro), e cada coeficiente ajusta essa média conforme o grupo comparativo daquela variável dummy.

No exemplo anterior, não consideramos outras variáveis. No entanto, a lógica da interpretação se estende a tais modelos. Por exemplo, se também inseríssemos idade e participação em psicoterapia em nosso modelo, precisaríamos apenas qualificar nossa interpretação com a expressão “controlando os efeitos da idade e da participação em psicoterapia”.

Além disso, é importante destacar que nosso tratamento sobre variáveis dummy se focou na regressão linear. No entanto, isso foi feito apenas como um recurso didático. A transformação de variáveis politômica em dummies se estende para outros tipos de regressão, como logística, de Poisson e binomial negativa, para citar alguns exemplos.

Conclusão

Gostou desse conteúdo? Então aproveite e se inscreva em nosso canal do YouTube para ficar por dentro de nossas novidades!

Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).

Referências

Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.

Como citar este post

Lima, M. (2025, 16 de outubro). O que são variáveis dummy? Blog Psicometria Online. https://blog.psicometriaonline.com.br/o-que-sao-variaveis-dummy

Bruno Figueiredo Damásio

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da Sociedade Brasileira de Psicologia (SBP) e Editor-Associado da Spanish Journal of Psychology, na sub-seção Psicometria e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 5000 citações, nas melhores revistas nacionais e internacionais.

Em 2020, saí da UFRJ para montar a minha formação, a Psicometria Online Academy.

Meu foco é que você se torne um(a) pesquisador(a) de excelência. Clique aqui para conhecer a Academy.

Compartilhe sua opinião sobre este post

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts sugeridos

O que significa soma dos quadrados, em estatística?

O que é modelo linear geral?

O que é o tamanho de efeito em linguagem comum (common language effect size)?

Conteúdo

Mais lidos

O que é correlação de Pearson?

Teste t de Student

O que é o teste de Shapiro-Wilk?

O que é correlação de Spearman?

Postados recentemente

O que significa soma dos quadrados, em estatística?

Como inverter itens no SPSS?

O algoritmo k-means clustering

Tudo que você precisa saber sobre inversão de itens de instrumentos de autorrelato

Deseja se tornar completamente independente na análise dos seus dados?

Junte-se a mais de 22.300 membros e receba conteúdos exclusivos e com prioridade

Categorias