Quem já rodou uma Análise Fatorial Exploratória (AFE) sabe que o problema não é apenas calcular cargas fatoriais. O verdadeiro desafio começa antes: decidir quantos fatores extrair. Essa decisão é fundamental, pois ela molda toda a interpretação posterior. Extrair fatores demais pode criar dimensões artificiais. Por outro lado, extrair de menos pode fundir construtos distintos em um único bloco estatístico.
Há critérios tradicionais para isso, como, por exemplo, o critério de Kaiser, o scree plot e a análise paralela. No entanto, eles frequentemente discordam entre si. Em muitos bancos de dados, cada método aponta para um número diferente de fatores a extrair. Assim, o pesquisador se vê diante de um impasse metodológico: afinal, em qual regra confiar?
É justamente nesse ponto que o Machine Learning começa a mudar o jogo.
A proposta inovadora para a AFE: treinar um modelo para “aprender” dimensionalidade
Goretzko e Bühner (2020) propuseram uma abordagem ousada: em vez de aplicar um único critério estatístico, treinar um modelo de Machine Learning para reconhecer o número correto de fatores a partir de milhares de cenários simulados.
Para isso, eles simularam quase meio milhão de bancos de dados com diferentes estruturas fatoriais — variando tamanho amostral, número de variáveis por fator, magnitude das cargas, correlação entre fatores e presença de cargas cruzadas.
Em seguida, de cada matriz de correlação extraíram 181 características, incluindo autovalores, medidas de desigualdade como Gini e Kolm, média das correlações entre itens e indicadores derivados do modelo fatorial.
Essas informações alimentaram algoritmos como Random Forest e XGBoost. Entre eles, o destaque foi o XGBoost, que apresentou desempenho superior aos critérios tradicionais e, após ajuste de hiperparâmetros, atingiu 99,3% de acurácia fora da amostra (Goretzko & Bühner, 2020).

Como o XGBoost decide o número de fatores na AFE?
O XGBoost funciona por boosting: ele constrói, de forma sequencial, várias árvores de decisão simples, e cada uma tenta corrigir os erros da anterior. Ao combinar centenas dessas árvores, o modelo consegue capturar interações complexas e relações não lineares entre variáveis.
No contexto da AFE, isso significa que o modelo não depende apenas de um único indicador, como o primeiro autovalor. Em vez disso, ele aprende padrões estruturais globais da matriz de correlação.
Além disso, o algoritmo considera simultaneamente múltiplos sinais estatísticos e suas interações. Assim, em vez de aplicar uma regra fixa, ele internaliza regularidades observadas em milhares de exemplos simulados.
Consequentemente, o XGBoost consegue identificar situações em que métodos tradicionais tendem a falhar, como quando as cargas fatoriais são fracas ou quando há correlações mais complexas entre fatores.
AFE com dados ordinais: a extensão do modelo
Uma crítica possível à proposta de Goretzko e Bühner (2020) era de que o modelo inicial foi treinado com dados normalmente distribuídos. Contudo, grande parte das pesquisas psicológicas utiliza escalas ordinais, como Likert.
Posteriormente, Goretzko e Bühner (2022) abordaram essa lacuna ao adaptar o treinamento do modelo para dados ordinais. O resultado foi consistente: o modelo treinado com simulações ordinais manteve desempenho superior aos métodos clássicos. Assim, os achados reforçam que a abordagem não depende exclusivamente de pressupostos de normalidade e pode ser adaptada à realidade empírica.
O que isso muda na prática?
A inovação central não está apenas na alta acurácia. Está, sobretudo, na integração de múltiplos critérios de forma não linear. Enquanto métodos tradicionais analisam aspectos isolados da matriz de correlação, o Machine Learning aprende padrões combinados de dezenas de indicadores simultaneamente.
Para o pesquisador, isso significa menos arbitrariedade e maior consistência na decisão sobre dimensionalidade. Além disso, modelos como o XGBoost podem fornecer probabilidades associadas a cada solução fatorial, oferecendo uma medida implícita de incerteza.
Limitações e cautelas
Ainda assim, nenhuma solução é mágica. O desempenho do modelo depende da qualidade e da abrangência das simulações usadas no treinamento. Portanto, se os dados reais apresentarem estruturas muito diferentes das consideradas no treinamento, a precisão pode diminuir. Além disso, trata-se de um modelo menos transparente do que critérios derivados diretamente da teoria estatística. Por isso, sua adoção deve ser cuidadosa e crítica.
Três posturas possíveis diante da inovação na AFE
Diante dessa inovação, três caminhos se apresentam. A postura conservadora mantém a centralidade dos métodos tradicionais. Já a postura inovadora adota modelos treinados como critério principal de retenção. Por fim, a postura híbrida utiliza o Machine Learning como ferramenta complementar de apoio à decisão.
No momento, a abordagem híbrida parece a mais prudente. Ainda assim, o avanço é claro: a decisão sobre o número de fatores deixa de ser apenas uma aplicação de regras isoladas e passa a ser uma inferência baseada em padrões aprendidos em larga escala.

Referências
Goretzko, D., & Bühner, M. (2020). One model to rule them all? Using machine learning algorithms to determine the number of factors in exploratory factor analysis. Psychological Methods, 25(6), 776–786. https://doi.org/10.1037/met0000262
Goretzko, D., & Bühner, M. (2022). Factor retention using machine learning with ordinal data. Applied Psychological Measurement, 46(5), 406–421. https://doi.org/10.1177/01466216221089345
Como citar este post
Reis, A. (2026, 25 de fevereiro). AFE não é horóscopo: o fim do “olhômetro” na Análise Fatorial. Blog Psicometria Online. https://blog.psicometriaonline.com.br/afe-nao-e-horoscopo-o-fim-do-olhometro-na-analise-fatorial
