Neste post, vamos explorar o conceito de soma dos quadrados, uma medida fundamental na estatística e na modelagem preditiva. Nosso objetivo é explicar, de forma clara e visual, o que ela representa, como é calculada e quais são suas aplicações em diferentes contextos.
O que é a soma dos quadrados?
A soma dos quadrados é uma medida não padronizada que quantifica a variabilidade de um conjunto de dados. Em outras palavras, ela mostra o quanto os valores observados se afastam da média ou das previsões de um modelo estatístico.
Técnicas como regressão linear e análise de variância (ANOVA) utilizam as somas dos quadrados a fim de particionar a variabilidade total em componentes explicados e não explicados. Assim, conseguimos identificar quanto da variação observada é devida ao modelo e quanto é apenas ruído aleatório.
Por exemplo, suponha que mensuramos a abertura à experiência e a criatividade de seis adolescentes. Queremos saber se a abertura prediz os níveis de criatividade. A Figura 1 ilustra esses dados em um diagrama de dispersão.

Em seguida, veremos as três somas dos quadrados fundamentais: total, dos resíduos e do modelo.
A soma dos quadrados total (SQT)
A princípio, imagine que não temos qualquer informação sobre a abertura à experiência. Sendo assim, qual seria o melhor palpite para o nível de criatividade de cada adolescente?
Naturalmente, nosso melhor palpite seria a média de criatividade dos adolescentes. Portanto, a média funciona como um modelo simples e inicial, ilustrado na Figura 2.

Duas observações são fundamentais na Figura 2. Primeiramente, estimamos o mesmo valor de criatividade para todos os adolescentes, isto é, temos um modelo estereotipado — indicado pela linha horizontal laranja, na Figura 2.
Em segundo lugar, as linhas pontilhadas vermelhas representam o quanto erramos em cada estimativa: quanto mais distante o ponto está da reta laranja, maior é o nosso erro de estimativa.
Desse modo, a soma dos quadrados total (SQT) representa a variabilidade total na variável dependente (i.e., a criatividade). Matematicamente, a soma dos quadrados total mede os desvios (quadráticos) de cada valor em relação à média geral:

Onde yi se refere à criatividade do adolescente i e Y-barra representa a média geral de criatividade. Visualmente, podemos pensar na SQT como a soma das distâncias de todos os pontos em relação à reta laranja (i.e., as linhas pontilhadas vermelhas) da Figura 2.
A soma dos quadrados dos resíduos (SQR)
Contudo, estimar o mesmo valor para todos é uma aproximação pobre. Idealmente, queremos prever a criatividade com base em informações conhecidas, como a abertura à experiência.
É exatamente isso que a regressão linear faz. Por meio dela, estimamos um valor de criatividade (ŷi) para cada adolescente, com base em seu nível de abertura à experiência:

A equação anterior é a equação da reta de regressão linear simples, e o modelo, aplicado aos nossos dados, é ilustrado pela reta azul da Figura 3.

Agora, o modelo não é mais uniforme, isto é, ele gera previsões diferentes conforme o nível de abertura. As novas linhas vermelhas pontilhadas representam os erros do modelo, isto é, as distâncias entre os valores observados (yi) e os valores previstos (ŷi).
Desse modo, a soma dos quadrados dos resíduos (SQR) representa a variabilidade não explicada, ou seja, o erro em nosso modelo. Matematicamente, a soma dos quadrados total mede os desvios (quadráticos) de cada valor previsto (ŷi) em relação ao valor observado (yi) de criatividade:

Em síntese, quanto menor for a SQR, melhor o ajuste. Quando SQR = 0, o modelo prevê perfeitamente todos os valores.
A soma dos quadrados do modelo (SQM)
O quanto o modelo de regressão melhora a predição dos níveis de criatividade dos adolescentes, em relação ao modelo baseado na média? Essa estimativa é ilustrada pelas linhas pontilhadas verdes da Figura 4.

A soma dos quadrados do modelo (SQM) representa quanto da variabilidade total na variável dependente o nosso modelo explica. Em outras palavras, ela mostra quanto o modelo de regressão melhora a previsão em relação ao modelo da média.
Matematicamente, a soma dos quadrados do modelo mede a distância (quadrática) de cada valor de criatividade previsto pelo modelo de regressão (ŷi) em relação ao valor previsto pelo modelo da média (Y-barra):

Visualmente, podemos pensar na SQM como a soma das distâncias das linhas pontilhadas verdes da Figura 4.
Portanto, quanto maior é a SQM, mais o modelo explica da variação total. Em síntese, a SQM representa a parte da variabilidade capturada pelo modelo, enquanto a SQR reflete o erro.
Como essas somas se relacionam?
As três somas estão ligadas pela relação SQT = SQM + SQR. Isso significa que a variabilidade total é igual à soma da variabilidade explicada e da não explicada. Quando SQR = 0, o modelo explica toda a variabilidade, e SQM = SQT.
A partir desses valores, calculamos o coeficiente de determinação (R2), que indica a proporção da variabilidade explicada pelo modelo:

Além disso, como a soma dos quadrados é uma medida bruta, podemos padronizá-la dividindo-a pelos graus de liberdade correspondentes, obtendo os quadrados médios (QM). Essa padronização é essencial para calcularmos a estatística F, usada para comparar modelos.
Por exemplo, veja a Tabela 1, que contém os dados do exemplo sobre abertura à experiência e criatividade.
| Estatística | Soma dos quadrados (SQ) | Graus de liberdade (gl) | Média dos quadrados (MQ) |
| Total | 102,23 | 5 | 20,45 |
| Resíduos | 31,23 | 4 | 7,81 |
| Modelo | 71,00 | 1 | 71,00 |
Com esses valores, temos R2 = 71 / 102,23 = 0,695, indicando, portanto, que o modelo explica cerca de 70% da variação na criatividade.
Por fim, para testar se o modelo é estatisticamente melhor que o modelo da média, usamos a estatística F:

Em nosso exemplo, F = 71 / 7,81 = 9,09, associada a p = 0,04. Logo, rejeitamos a hipótese nula e concluímos que o modelo de regressão é significativamente superior a usar a média como preditora.
Por que a soma dos quadrados é importante?
Anteriormente, vimos o significado conceitual das diferentes somas dos quadrados, bem como eles podem ser usados para calcular índices importantes em estatística inferencial. De fato, a soma dos quadrados aparece em diversas aplicações estatísticas:
- Na ANOVA, essas somas separam a variação entre grupos da variação dentro dos grupos.
- Na regressão linear, elas contribuem para estimar o quanto o modelo explica de variabilidade na variável dependente.
- No cálculo do F, elas permitem testar se o modelo tem poder explicativo significativo.
- Em machine learning, elas servem de base para métricas como o erro quadrático médio.
Portanto, compreender as somas dos quadrados é entender o coração da análise de variância e o raciocínio por trás do ajuste de modelos.
Conclusão
Gostou desse conteúdo? Então aproveite e se inscreva em nosso canal do YouTube para ficar por dentro de nossas novidades!
Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Referência
Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.
Como citar este post
Lima, M. (2025, 17 de novembro). O que significa soma dos quadrados, em estatística? Blog Psicometria Online. https://blog.psicometriaonline.com.br/o-que-significa-soma-dos-quadrados-em-estatistica
