A separação completa na regressão logística é um problema clássico, porém frequentemente mal compreendido. Embora apareça com frequência em aplicações reais, muitos usuários só percebem o problema quando o modelo não converge ou produz coeficientes absurdos.
Neste post, portanto, explico o que é separação completa, por que ela ocorre e como lidar com ela. Além disso, uso exemplos visuais simples para tornar o conceito intuitivo.
O básico da regressão logística
A regressão logística é um modelo estatístico usado para estimar a probabilidade de um desfecho binário. Em outras palavras, o objetivo é modelar variáveis do tipo sim/não, aprovado/reprovado ou presente/ausente.
Mais especificamente, o modelo relaciona uma ou mais variáveis preditoras a uma probabilidade por meio de uma função logística, que tem formato sigmoide (em S). Assim, conforme o preditor aumenta, a probabilidade do evento ocorrer também aumenta, mas de forma não linear.
Por exemplo, considere que avaliamos um conjunto de motoristas em um teste psicomotor. Mais importante, esses motoristas consumiram álcool antes desse exame (Figura 1).

Na Figura 1, o eixo horizontal representa a concentração de álcool no sangue, enquanto o eixo vertical mostra a aprovação (0) ou reprovação (1) no teste psicomotor. A escolha dos valores 0 e 1 aos desfechos aprovado e reprovado é arbitrária, mas, aqui, serve bem aos propósitos do texto.
Nesse exemplo, podemos examinar se — e, em caso positivo, como — a probabilidade de reprovação varia em função da concentração de álcool no sangue. A Figura 2 mostra o resultado do modelo. Note que substituímos o resultado determinístico, no eixo vertical, por valores probabilísticos.

Nesse cenário, à medida que o teor alcoólico cresce, a probabilidade de reprovação aumenta gradualmente. Em outras palavras, o álcool causa prejuízos no desempenho na tarefa.
Na Figura 2, a linha pontilhada vertical indica o limiar de decisão, isto é, a fronteira que determinará se um caso será classificado como reprovado (concentração de álcool ≥ limiar) ou como aprovado (concentração de álcool < limiar).
Esse exemplo será reutilizado ao longo do texto. Portanto, ele servirá como fio condutor para entender a separação completa.

O que é separação completa?
A separação completa ocorre quando uma variável preditora — ou uma combinação linear (η) de variáveis preditoras — consegue separar perfeitamente os dois grupos do desfecho. Em termos práticos, existe um ponto de corte k tal que:
- Se η < k, todos os indivíduos pertencem a um grupo.
- Se η > k, todos pertencem ao outro.
Em seguida, nós retomaremos o exemplo anterior, mas com outro conjunto de dados, que ilustra a separação completa (Figura 3).

Três pontos merecem destaque na Figura 3. Primeiramente, existe uma região (aproximadamente entre 0,04 e 0,08 g/dL) em que não há observações, o que, no presente exemplo, caracteriza visualmente a separação completa. Em segundo lugar, a linha pontilhada vertical indica o limiar k que permite classificar com 100% de acurácia os aprovados e reprovados.
O terceiro destaque da Figura 3 é mais sutil: existem diferentes ks que poderiam igualmente bem separar completamente aprovados e reprovados. A consequência disso é sutil, porém crucial. Como mostra a Figura 4, múltiplas curvas sigmoides diferentes ajustam os dados igualmente bem. Cada uma separa perfeitamente os grupos, apesar de possuir inclinações e interceptos distintos.

Ou seja, o problema da separação completa não é falta de ajuste, mas excesso de soluções possíveis.
O que é separação quase-completa?
Entretanto, é importante contrastar a separação completa com um caso semelhante, porém conceitualmente distinto: a separação incompleta. Na separação incompleta (ou quase-completa), embora a probabilidade varie com o preditor — ou com uma combinação linear de preditores —, ainda existe sobreposição entre os grupos.
Em termos práticos, na separação quase-completa, existe uma variável preditora — ou uma combinação linear (η) de variáveis preditoras — e um ponto de corte k tal que:
- Se η ≤ k, todos os indivíduos pertencem a um grupo.
- Se η ≥ k, todos pertencem ao outro.
O detalhe crucial — e muitas vezes ignorado — é o sinal de igualdade. A Figura 5 ilustra a consequência disso: alguns poucos casos caem exatamente no limiar se decisão k.

Embora aqui a separação não seja completa, coletivamente, os dois tipos de separação podem acarretar problemas em modelos de regressão logística.
Causas e consequências da separação completa
Diferentes fatores influenciam a emergência das separações completa e quase-completa. Algumas possíveis causas incluem : (1) um número elevado de variáveis preditoras; (2) alguma preditoras categóricas podem ter poucas observações em determinadas categorias; e (3) presença de multicolinearidade entre preditoras.
Além disso, a separação completa pode ocorrer por características do delineamento de pesquisa. Por exemplo, isso aconteceria se o pesquisador coletasse dados apenas em extremos da variável, tal como ilustramos em nossos exemplos (Figuras 3 e 4). Como resultado, o modelo nunca “vê” observações intermediárias.
As consequências das separações completa e quase-completa são sérias. Primeiramente, alguns coeficientes da regressão logística podem tender a números muito grandes (positivos ou negativos). Além disso, os erros-padrões também explodem.
Por exemplo, o slope do modelo da Figura 2 foi o seguinte: b = 98,45, EP = 13,78, Z(1) = 51,06, p < 0,001. Contraste esses valores com o slope do modelo da Figura 3, onde há separação completa: b = 833,14, EP = 89.265,42, Z(1) = 0, p = 0,99. Nesse caso, o coeficiente e seu erro-padrão não são confiáveis.
Por fim, o algoritmo de estimação dos coeficientes pode não convergir ou retornar avisos numéricos. Portanto, embora o ajuste pareça “perfeito”, a inferência estatística se torna inviável. Em outras palavras, a separação completa e a separação quase-completa enganam: elas parecem boas, mas destroem a interpretação.
Como lidar com a separação completa?
Felizmente, existem estratégias eficazes para lidar com a separação completa. A primeira, e mais simples, é excluir preditores problemáticos. No entanto, por trás da simplicidade, essa abordagem pode ser problemática, pois podemos excluir variáveis genuinamente relevantes na predição de nosso desfecho de interesse.
Outra solução é combinar categorias de preditores. Por exemplo, suponha que um preditor contínuo tenha “buracos” em uma faixa de valores, tal como ocorre nos dados da Figura 3. Uma solução é combinar valores menores que 0,04 g/dL como “baixo teor alcoólico” e valores acima de 0,08 g/dL como “alto teor alcoólico”.
No entanto, essa abordagem também não é livre de problemas. Em síntese, há custos associados à dicotomização (ou discretização, em geral) de variáveis contínuas, incluindo a perda de poder estatístico, menor sensibilidade e perda de informação.
Métodos mais elegantes envolvem o uso de técnicas de regularização, como Ridge, LASSO e ElasticNet, que ajudam a estabilizar os coeficientes. Esses métodos penalizam ou encolhem alguns coeficientes, permitindo assim que os coeficientes, erros-padrões e os testes estatísticos se tornem úteis.
Por fim, é fundamental diagnosticar a separação antes de interpretar os resultados. Diagnósticos de multicolinearidade, tabelas de contingências e gráficos simples, como os apresentados neste post, frequentemente revelam o problema de forma imediata.

Referências
Clark, R. G., Blanchard, W., Hui, F. K. C., Tian, R., & Woods, H. (2023). Dealing with complete separation and quasi-complete separation in logistic regression for linguistic data. Research Methods in Applied Linguistics, 2, Article 100044. https://doi.org/10.1016/j.rmal.2023.100044
Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.
Hosmer, D. W., Jr., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3rd ed.). John Wiley & Sons, Inc.
Como citar este post
Lima, M. (2026, 30 de janeiro). O que é separação completa na regressão logística? Blog Psicometria Online. https://blog.psicometriaonline.com.br/o-que-e-separacao-completa-na-regressao-logistica
