Neste post, explicaremos o que é o modelo linear geral, destacando suas características, exemplos práticos, pressupostos e alternativas.
O que é um modelo estatístico?
Para começar, pense em um mapa, como o mapa político do Brasil (Figura 1). Um mapa não mostra tudo o que existe no território — ele simplifica, seleciona e destaca o que é essencial.

Da mesma forma, um modelo estatístico é um “mapa” da realidade, ou seja, ele consiste em uma representação que descreve como variáveis se relacionam.
Por exemplo, imagine o preço de uma corrida de táxi. Há uma tarifa fixa e um valor por quilômetro rodado. Essa relação simples já é um modelo: o preço depende da distância. Suponha que, em sua cidade, a tarifa fixa seja de R$ 5,00 e o valor por quilômetro seja R$ 7,00. Essa relação pode ser expressa pelo seguinte modelo:

Essa equação representa um modelo simples: a variável dependente (preço da corrida) depende linearmente da variável independente (distância). O subscrito i indica que esses valores variarão corrida a corrida — para cada corrida, uma distância e, consequentemente, um preço.
Evidentemente, na vida real, outros fatores também influenciam o preço da corrida — como o horário, o clima ou o tipo de carro —, e o modelo tenta resumir tudo isso da melhor maneira possível. No entanto, erros são inevitáveis. Por isso, ele pode ser incorporado em nosso modelo:

Genericamente, podemos expressar a relação entre diferentes variáveis por meio da seguinte equação:

Ou seja, o valor previsto em uma variável de interesse é função de um dado modelo estatístico somado a uma certa quantidade de erro.
Assim, modelar significa buscar uma equação que explique o que observamos, sem perder de vista que toda previsão é passível de erros.

O que é o modelo linear geral?
O modelo linear geral (general linear model) é uma forma de estruturar e de entender as relações entre variáveis. Em termos simples, ele descreve como uma variável depende de outras.
Podemos pensar nele como uma “receita estatística” (Figura 2). Em outras palavras, no modelo linear geral, nós combinamos diferentes ingredientes (as variáveis independentes) em certas proporções (os coeficientes) para prever um resultado (a variável dependente). O tempero final é o erro, ou seja, aquela parte imprevisível de nosso fenômeno que o modelo estatístico não consegue capturar.

Por exemplo, podemos usar essa estrutura analítica para prever notas de estudantes a partir do tempo de estudo e da qualidade do ensino. Esse mesmo modelo serve, com pequenas adaptações, para comparar médias entre grupos (como no teste t) ou para analisar efeitos de diferentes condições experimentais (como na análise de variância, ANOVA).
Em resumo, o modelo linear geral é uma estrutura unificadora. Ele mostra que várias técnicas que parecem distintas compartilham a mesma base lógica e matemática.
Principais características do modelo linear geral
O modelo linear geral tem algumas propriedades fundamentais. Primeiramente, ele pode combinar múltiplas variáveis ao mesmo tempo, permitindo analisar situações complexas. Isso acontece, por exemplo, na regressão múltipla, nas ANOVAs fatoriais e na análise de covariância.
Outra característica importante é sua flexibilidade, ou seja, o modelo permite misturar variáveis contínuas (como idade) e categóricas (como religião), além de incluir interações — por exemplo, se o efeito da quantidade de prática sobre o desempenho depende da dificuldade da tarefa.
Além disso, ele particiona a variância, isto é, divide a variação total do fenômeno em partes: uma explicada pelas variáveis do modelo e outra que permanece como erro. Esse raciocínio ajuda a entender o quanto cada fator realmente contribui para o resultado.
Nesse particionamento de variâncias, as técnicas inclusas no modelo linear geral buscam (a) maximizar a soma dos quadrados do modelo, (b) minimizar a soma dos quadrados dos resíduos e (c) maximizar a razão entre variância explicada e variância total (e.g., eta ao quadrado, coeficiente de determinação).
Por esse motivo, o modelo linear geral usa o método dos mínimos quadrados para encontrar as melhores estimativas dos coeficientes do modelo. Quando os pressupostos do modelo são atendidos, essas estimativas são as mais eficientes (i.e., de menor variância) entre os estimadores lineares não tendenciosos.
Algumas técnicas estatísticas como modelo linear geral
Embora muitos de nós não estejamos familiarizados com a expressão modelo linear geral, nós estamos fazendo uso de suas técnicas mesmo sem saber. A fim de ilustrar essa ideia, exemplificaremos como três técnicas estatísticas tradicionais fazem parte dessa estrutura analítica.
Regressão linear como modelo linear geral
A regressão linear é o exemplo mais conhecido do modelo linear geral. Nela, tentamos prever uma variável dependente contínua (como desempenho, renda ou satisfação) a partir de uma ou mais variáveis independentes.
Por exemplo, ao estudar o impacto de horas de treinamento e experiência prévia na produtividade, podemos estimar o quanto cada fator influencia o resultado. Além disso, a regressão nos permite testar se cada efeito é estatisticamente significativo.
Assim, embora a regressão pareça um método específico, também podemos entendê-la como uma aplicação direta do modelo linear geral. Por isso, compreender esse modelo ajuda a enxergar a regressão como parte de um sistema mais amplo.
Saiba mais: O que é regressão linear?

Teste t como modelo linear geral
O teste t também faz parte do modelo linear geral, ainda que nem sempre o apresentemos assim. Por exemplo, suponha que seja nosso objetivo saber se crianças nascidas prematuras e a termo diferem em seu vocabulário receptivo aos 18 meses.
A maneira clássica de responder a essa pergunta é por meio de um teste t para grupos independentes. De modo equivalente, podemos ajustar uma regressão simples, com vocabulário como variável dependente e tipo de nascimento como variável independente, com a seguinte codificação dummy: 0 = crianças nascidas prematuras e 1 = crianças nascidas a termo.
Nesse caso, teremos:

Note que, se tipo de nascimento = 0, a equação anterior se reduz a b0. Logo, b0 representa o vocabulário receptivo previsto para crianças nascidas prematuras. Por outro lado, se tipo de nascimento = 1, a equação anterior se reduz a b0 + b1. Combinando as duas equações, temos:

Logo, b1 representa a diferença entre as médias de vocabulário das crianças nascidas a termo e das nascidas prematuras. E como testamos a significância do coeficiente b1? Simples: dividindo-o por uma estimativa de seu erro-padrão, que gera uma estatística t e um valor p associado — os mesmos que seriam obtidos no teste t tradicional.
Em síntese, pensar no teste t como uma regressão linear nos mostra que o teste t nada mais é do que um caso especial do modelo linear geral, com uma variável dummy representando o grupo. Em outras palavras, quando comparamos médias, estamos aplicando o mesmo raciocínio da regressão.
ANOVA como modelo linear geral
Da mesma forma, a ANOVA — usada para comparar três ou mais grupos — também se encaixa no modelo linear geral.
Podemos, por exemplo, investigar se diferentes métodos de ensino geram notas médias diferentes. Nesse caso, cada grupo (ou método) é representado por uma variável indicadora dentro do modelo. Assim, a ANOVA é apenas uma regressão com várias dummies.
Perceba como tudo se conecta: regressão, teste t e ANOVA são variações do mesmo modelo linear geral. Essa visão integrada facilita o aprendizado e evita a fragmentação entre técnicas que, na essência, são idênticas.
Veja também: O que é análise de variância (ANOVA)?

Quais são os pressupostos do modelo linear geral?
Embora o modelo linear geral seja amplamente utilizado, ele possui pressupostos. Se não atendidos ou ignorados, os resultados das análises podem ser comprometidos.
Primeiramente, ele assume linearidade na relação entre variáveis. No entanto, existem situações onde o efeito é claramente não linear. Por exemplo, se queremos prever um desfecho binário (tem câncer: sim vs. não) a partir de uma variável contínua (e.g., tamanho de um tecido detectado em um exame), o modelo não capturará adequadamente o comportamento dos dados.
Além disso, o modelo exige normalidade dos resíduos e homocedasticidade, ou seja, variância constante dos erros. Em outras palavras, assumimos que os resíduos estão normalmente distribuídos ao redor de zero, com a mesma dispersão para quaisquer valores das variáveis preditoras. Quando essas condições não são atendidas, as estimativas podem se tornar enviesadas.
Por exemplo, ao modelar o número de acidentes de trânsito em diferentes regiões, que são dados de contagem, o modelo linear geral tende a falhar porque não lida bem com distribuições assimétricas ou com dispersão variável.
Por fim, o modelo linear geral também pressupõe independência das observações. No entanto, muitas vezes nossas observações estão aninhadas em unidades hierarquicamente superiores — por exemplo, estudantes das mesmas salas de aula, com salas de aula pertencentes às mesmas escolas.
Quando os dados possuem observações dependentes, as estimativas dos erros-padrões se tornam enviesadas. Para tais casos, precisamos usar modelos estatísticos que explicitamente levem em consideração a dependência presente em nossos dados.
Quais alternativas existem ao modelo linear geral?
Quando nossos dados não atendem aos pressupostos do modelo linear geral, é possível recorrer a alternativas mais flexíveis.
Uma opção são os modelos lineares generalizados. Em síntese, eles ampliam a estrutura do modelo linear geral, permitindo diferentes distribuições de erros e diferentes tipos de variáveis dependentes (e.g., binárias e de contagem).
Por exemplo, utilizamos a regressão logística para prever probabilidade de doença (com erros com distribuição binomial) e a regressão de Poisson para modelar número de chamadas em call centers durante a primeira hora do expediente (com erros com distribuição de Poisson).
Outra alternativa são os modelos lineares mistos. Eles incluem efeitos aleatórios que capturam dependências entre observações hierarquicamente estruturadas, como alunos em turmas ou pacientes em hospitais. Esses modelos ajustam erros-padrão e permitem conclusões mais confiáveis em dados correlacionados.
Uma terceira possibilidade são as estimativas de equações generalizadas, que estendem o modelo linear geral para lidar com observações correlacionadas, como medidas repetidas em um mesmo participante ao longo do tempo ou de diferentes condições.
Conclusão
Gostou deste conteúdo? Então aproveite e também se inscreva em nosso canal do YouTube para ficar por dentro de nossas novidades.
Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Referências
Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.
Thompson, B. (2013). Overview of traditional/classical statistical approaches. In T. D. Little (Ed.), The Oxford handbook of quantitative methods – Volume 2: Statistical analysis (pp. 7–25). Oxford University Press.
Como citar este post
Lima, M. (2025, 7 de novembro). O que é o modelo linear geral? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-o-modelo-linear-geral
