--- title: "O que são modelos lineares generalizados?" url: https://www.blog.psicometriaonline.com.br/o-que-sao-modelos-lineares-generalizados canonical: https://www.blog.psicometriaonline.com.br/o-que-sao-modelos-lineares-generalizados language: pt-BR published: 2025-11-24T12:00:00.000Z updated: 2026-03-30T13:49:01.841Z modified: 2026-03-30T13:49:01.841Z author: "Marcos Lima" categories: ["Modelos lineares generalizados"] tags: ["regressão"] description: "Introdução clara aos modelos lineares generalizados, explicando seus componentes, pressupostos e aplicações práticas em diversas áreas." source: Blog Psicometria Online --- # O que são modelos lineares generalizados? > Os modelos lineares generalizados (GLMs) são uma das ferramentas mais versáteis da estatística moderna. Eles permitem analisar dados que não seguem uma distribuição normal — como contagens, proporções ou tempos de resposta — mantendo a lógica interpretável dos modelos lineares gerais. Neste post,... Os **modelos lineares generalizados (GLMs)** são uma das ferramentas mais versáteis da estatística moderna. Eles permitem analisar dados que não seguem uma distribuição normal — como contagens, proporções ou tempos de resposta — mantendo a lógica interpretável dos modelos lineares gerais. Neste post, você entenderá o que são os modelos lineares generalizados, quais são seus três componentes principais, como especificá-los corretamente, e em quais situações eles devem ser aplicados. ## O que são e para que servem os modelos lineares generalizados? Os **modelos lineares generalizados** estendem a [regressão linear](/o-que-e-regressao-linear) tradicional, permitindo modelar variáveis dependentes que não são contínuas nem normalmente distribuídas. Assim, eles tornam possível estudar fenômenos expressos em contagens (e.g., número de filhos), proporções (e.g., taxa de acertos) ou tempos (e.g., tempo de reação). Os GLMs unificam várias técnicas conhecidas, como a regressão logística, a regressão de Poisson e o modelo gama, em uma estrutura conceitual única. Essa unificação amplia as possibilidades de aplicação em áreas como psicologia, biologia e ciências sociais. A Figura 1 ilustra como a relação entre média e variância muda conforme a distribuição dos dados. Por exemplo, na distribuição normal, a variância é um parâmetro independente da média; na Poisson, ela cresce linearmente com a média; na binomial, assume formato parabólico; e na gama, aumenta de forma quadrática. ![distribuições de probabilidade e homocedasticidade.](/uploads/2025-11_media-e-variancia-relacionamentos.jpg) *Figura 1. Relação entre média e variância em diferentes distribuições de probabilidade.* Essa diferença é justamente o que motiva o uso dos modelos lineares generalizados. Enquanto a regressão linear tradicional pressupõe variância constante ([homocedasticidade](/como-verificar-a-homogeneidade-de-variancia-na-regressao-linear)), os GLMs permitem que a variância varie em função da média, respeitando as propriedades de cada distribuição. Essa flexibilidade permite que o pesquisador escolha a distribuição que melhor descreve os dados, sem perder a estrutura interpretável de um [modelo linear geral](https://blog-academy.replit.app/o-que-e-modelo-linear-geral). ## Quais são os três componentes dos modelos lineares generalizados? Todo modelo linear generalizado possui três componentes fundamentais: o preditor linear, a função de ligação e a estrutura de erro. Juntos, esses componentes definem como as [variáveis independentes](/o-que-sao-variaveis-independentes-e-dependentes) se conectam à variável dependente e como modelamos a variabilidade dos dados. Graças a essa estrutura, os GLMs conseguem representar fenômenos muito distintos de forma coerente e comparável. Em seguida, detalharemos cada um dos componentes dos GLMs. ### O preditor linear O **preditor linear** representa a combinação linear das variáveis independentes, isto é: ![o preditor linear.](/uploads/2025-11_preditor-linear-formula.jpg) Nessa equação, os *X*s representam as variáveis independentes e os *b*s representam os coeficientes (pesos) do modelo. Em outras palavras, o preditor linear é a soma ponderada das variáveis indepedentes. Dizemos que esse é o *componente sistemático* do GLM, pois sua fórmula indica como os valores previstos variam sistematicamente em função dos valores das variáveis independentes do modelo. Por exemplo, imagine um modelo com duas variáveis independentes, sendo uma delas contínua (*X*1) e outra dicotômica (*X*2). Se *b*0 = 0, *b*1 = 2 e *b*2 = 4, o modelo é representado pela Figura 2, que mostra o efeito aditivo de cada preditor sobre *η*. ![exemplo de modelo linear generalizado com função de ligação identidade.](/uploads/2025-11_preditor-linear-01.jpg) *Figura 2. Modelo de regressão linear com duas variáveis independentes.* Entretanto, é possível incluir termos de interação, representando efeitos multiplicativos (i.e., [moderadores](/analise-de-moderacao-como-identificar-potenciais-variaveis-moderadoras)) entre variáveis. A Figura 3 mostra esse cenário, no qual incluímos o termo *b*3 = 1,5. ![exemplo de modelo linear generalizado com função de ligação identidade e termo de interação.](/uploads/2025-11_preditor-linear-02.jpg) *Figura 3. Modelo de regressão linear com duas variáveis independentes e um termo de interação.* A representação da Figura 3 indica um efeito de interação, ou seja, a relação entre *X*1 e *η* é mais forte quando *X*2 = 1 (a inclinação pontilhada cinza é mais íngreme) do que quando *X*2 = 0 (a inclinação tracejada preta é mais plana). Assim como na regressão linear, cada coeficiente *bi* expressa o efeito de uma variável independente sobre a dependente. No entanto, nos GLMs, a média da variável dependente não necessariamente será igual a *η* — a relação entre *Y* e *η* será mediada pela função de ligação. ### A função de ligação O leitor atento perceberá que, nas Figuras 2 e 3, não plotamos *Y* no eixo das ordenadas, mas, sim, *η*, o preditor linear. No GLM, a **função de ligação**, *g*(⋅), conecta a média da variável dependente (*Y*), expressa por *μ*, e seu preditor linear (*η*). De forma geral: ![função de ligação genérica.](/uploads/2025-11_funcao-de-ligacao-1.jpg) Ou seja, *g*(⋅) transforma o valor esperado de *Y* para que o modelo mantenha sua linearidade. Na regressão linear tradicional, a função de ligação é a *identidade*: ![modelos lineares generalizados e a função de ligação identidade.](/uploads/2025-11_funcao-de-ligacao-2.jpg) Ou seja, nela, o preditor linear mapeia diretamente a média esperada da variável dependente, sem a necessidade de transformações adicionais em *η*. Por outro lado, na função de ligação é a *logit*, relacionamos *η* ao log das chances de um evento ocorrer: ![modelos lineares generalizados e a função de ligação logit.](/uploads/2025-11_funcao-de-ligacao-3.jpg) Já a função *log* associa *η* ao logaritmo natural da média esperada de *Y*: ![modelos lineares generalizados e a função de ligação log.](/uploads/2025-11_funcao-de-ligacao-4.jpg) A Figura 4 ilustra essas funções de ligação. ![diferentes funções de ligação dos modelos lineares generalizados.](/uploads/2025-11_funcao-de-ligacao-graficos.jpg) *Figura 4. Ilustração das principais funções de ligação dos modelos lineares generalizados.* Suas inversas (Figura 5) fazem a operação contrária, isto é, permitem converter o preditor linear *η* novamente em valores esperados de *Y*. ![diferentes inversas das funções de ligação dos modelos lineares generalizados.](/uploads/2025-11_inversa-da-funcao-de-ligacao-graficos.jpg) Figura 5. *Ilustração das inversas das funções de ligação da Figura 4.* Por exemplo, se, para uma dada observação, o preditor linear for *η* = 0, podemos mapear qual é o valor previsto em *Y* para esse caso aplicando a inversa da função de ligação apropriada. Os valores previstos de *Y* serão 0, 0,50 e 1, respectivamente, se aplicarmos as inversas das funções identidade, logit e log. Em síntese, a função de ligação é essencial porque transforma um problema potencialmente não linear em um modelo linearmente estimável, o que nos permite aplicar métodos familiares de estimação, mantendo a coerência matemática do modelo. ### A estrutura de erro A **estrutura de erro** especifica a distribuição de probabilidade da variável dependente *Y*. Esse é o *componente aleatório* do modelo, pois estamos assumindo que os valores observados são variáveis aleatórias de um modelo probabilístico. Nos GLMs, a variável dependente deve pertencer à família exponencial de distribuições, que inclui a normal, a binomial, a Poisson e a gama. Cada uma delas define uma relação específica entre média e variância. Por exemplo, enquanto a distribuição normal assume variância constante, a Poisson apresenta variância igual à média, e a gama, variância proporcional ao quadrado da média (Figura 1). Portanto, a escolha correta da estrutura de erro é crucial para representar adequadamente o comportamento dos dados e garantir estimativas válidas. ## Como especificar o modelo linear generalizado? A fim de especificar corretamente um modelo linear generalizado, o pesquisador deve responder a três perguntas fundamentais. Primeiramente, *qual é a distribuição de probabilidade adequada aos dados?* Ao responder essa pergunta, estamos definindo qual é a distribuição que mais bem modela o fenômeno de nosso interesse. Em segundo lugar, *quais variáveis independentes devem ser incluídas do modelo?* Ao responder essa pergunta, estamos definindo o preditor linear do modelo, isto é, quais variáveis que serão combinadas de maneira aditiva para estimar o valor de *η*. Por fim, *qual é a função de ligação apropriada?* Ao responder essa pergunta, estamos definindo como a média da variável dependente se relaciona com o preditor linear. Essas decisões, tomadas em conjunto, estruturam o modelo linear generalizado de forma coerente com o fenômeno estudado. ## Exemplos de modelos lineares generalizados Os **modelos lineares generalizados** aparecem em diversos contextos aplicados. Por exemplo, um pesquisador pode usar uma regressão logística para prever se um aluno será aprovado (sim/não) com base em suas horas de estudo e seus níveis de interesse no conteúdo da disciplina. Já em contextos demográficos, pode-se tentar modelar o número de gols em uma partida de futebol ao longo do tempo por meio da regressão de Poisson. Além disso, na psicometria, a distribuição gama pode ser útil para estimar o tempo de resposta em testes cognitivos, já que essa variável é positiva e assimétrica. De maneira similar, a distribuição binomial fundamenta [modelos logísticos de Teoria de Resposta ao Item](/o-que-e-teoria-de-resposta-ao-item-tri-e-quais-os-principais-modelos). Outra aplicação inclui o uso da distribuição multinomial para modelar a relação entre processos cognitivos latentes e desempenhos em tarefas experimentais, por meio dos chamados *modelos de processamento multinomial em árvore* (*multinomial processing tree models*). Assim, os GLMs permitem que o pesquisador adapte o modelo ao tipo de dado, sem abandonar o raciocínio linear. Sendo assim, graças a essa flexibilidade, os GLMs se tornaram uma ponte entre os modelos clássicos e as técnicas mais avançadas de modelagem estatística. ## Quais são os pressupostos dos modelos lineares generalizados? Embora os modelos lineares generalizados sejam mais flexíveis que os modelos lineares tradicionais, eles ainda dependem de alguns pressupostos. Primeiramente, as observações devem ser independentes entre si. Segundo, a distribuição escolhida precisa pertencer à família exponencial. Além disso, a função de ligação deve ser adequada ao tipo de variável resposta, e o preditor linear deve ser corretamente especificado. Note que os GLMs *não assumem* uma relação linear entre a variável dependente e as variáveis ​​independentes, mas, sim, que há uma uma relação linear entre a resposta transformada em termos da função de ligação e as variáveis ​​independentes. Por exemplo, na [regressão logística](/o-que-e-regressao-logistica), assume-se linearidade entre os preditores e o logit da variável dependente, não entre os preditores e *Y* diretamente. Embora o modelo não exija homocedasticidade ou normalidade dos resíduos, é fundamental que a relação entre média e variância seja modelada corretamente (veja novamente a Figura 1). Portanto, compreender esses pressupostos evita interpretações equivocadas e aumenta a validade dos resultados obtidos. ## Quando usar os modelos lineares generalizados? De modo geral, os modelos lineares generalizados são usados quando os dados não atendem às premissas da regressão linear clássica. Por exemplo, se a variável resposta representa contagens, proporções ou tempos de reação, os GLMs oferecem uma alternativa natural e mais precisa. Além disso, quando a variância dos dados varia com a média, como ocorre nas distribuições Poisson e gama, esses modelos capturam essa heterogeneidade de forma explícita. Assim, eles permitem análises mais realistas e interpretações estatisticamente consistentes. Em resumo, eles representam uma ponte conceitual entre modelos lineares simples e técnicas mais avançadas, como os **modelos lineares mistos generalizados**, que incorporam efeitos aleatórios — isto é, variações associadas a grupos, contextos ou indivíduos que não podem ser explicadas apenas pelas variáveis fixas do modelo. ## Referências Coxe, S., West, S. G., & Aiken, L. S. (2013). Generalized linear models. In T. D. Little (Ed.), *The Oxford handbook of quantitative methods – Volume 2: Statistical analysis* (pp. 26–51). Oxford University Press. Crawley, M. J. (2013). *The R book* (2nd ed.). John Wiley & Sons, Ltd. Gomes, C. F. A., & Buratto, L. G. (2020). Modelagem multinomial aplicada à pesquisa em psicologia. *Psicologia em Pesquisa*, *14*(3), 44–65. https://doi.org/10.34019/1982-1247.2020.v14.29542 Nelder, J. A., & Wedderburn, R. W. M. (1972). Generalized linear models. *Journal of the Royal Statistical Society Series A*, *135*(3), 370–384. https://doi.org/10.2307/2344614 ## Como citar este post > **Como citar este artigo:** Lima, M. (2025, 24 de novembro). O que são modelos lineares generalizados? *Blog Psicometria Online*. https://www.blog.psicometriaonline.com.br/o-que-sao-modelos-lineares-generalizados