Em pesquisas quantitativas, representações gráficas podem ser úteis para sumarizar uma grande quantidade de informações acerca das características de nossos dados. Sendo assim, o objetivo deste post é te ensinar a criar e a interpretar boxplots no SPSS. Primeiramente, introduziremos o boxplot e os principais elementos que ele contém. Em seguida, apresentaremos um tutorial passo a passo no SPSS.
O que é um boxplot?
O boxplot é um gráfico que representa várias informações de nossos dados, incluindo medidas de tendência central, de dispersão e de assimetria da distribuição de variáveis quantitativas. A Figura 1 apresenta um exemplo de boxplots agrupados, que mostram as distribuições de contas totais em um restaurante em quatro dias distintos da semana.
Em português, o boxplot também é conhecido como diagrama de caixas ou, ainda, como diagrama de caixas e bigodes (do inglês, box-and-whisker plot). No entanto, é comum que pesquisadores também se refiram a esse gráfico pela sua nomenclatura no original em inglês. Por isso, ao longo do post, usaremos o termo boxplot para nos referirmos a essa representação gráfica.
Anatomia de um boxplot
A Figura 2 apresenta um boxplot na orientação horizontal, pois ela nos permitirá comparar o boxplot ao histograma.
O boxplot ilustra 50% dos escores por meio de uma caixa, preenchida em azul real na Figura 2. O limite inferior da caixa representa o Quartil 1 (Q1), que separa 25% dos escores abaixo dele e 75% acima. Por outro lado, o limite superior da caixa corresponde ao Quartil 3 (Q3), que divide 75% dos escores abaixo dele e 25% acima.
Desse modo, a amplitude da caixa é calculada como Quartil 3 – Quartil 1, conhecida como amplitude interquartílica (IQR). Essa estatística mede a variabilidade dos dados, fornecendo uma medida do grau de dispersão da metade mais central dos dados. Além disso, se a mediana (ou Quartil 2, Q2) estiver equidistante dos quartis 1 e 3, temos alguma evidência de simetria na distribuição dos dados.
Os bigodes inferior e superior do boxplot representam estimativas do último valor que não é extremo. Existem diferentes métodos para calcular os valores dos bigodes, mas uma abordagem comum é a seguinte:
Por exemplo, na Figura 2, Q1= 41, Q3= 60,56 e IQR = 19,56. Portanto:
No entanto, se os valores dos bigodes estiverem indisponíveis no banco de dados, o bigode inferior será o primeiro valor maior que 11,65, e o bigode superior, o primeiro valor menor que 89,90. Se os comprimentos dos bigodes forem semelhantes, isso indicará mais evidências de simetria na distribuição dos dados.
Por fim, o boxplot representa valores extremos, ou outliers, usando círculos (ou outro símbolo), que indicam valores mais extremos que os bigodes inferior e superior do boxplot.
Comparação entre boxplots e histogramas
O histograma é outra representação útil para visualizar as distribuições dos dados. Em seguida, compararemos boxplots aos histogramas dos mesmos dados.
Boxplot e histograma de dados com distribuição simétrica
Primeiramente, consideraremos dados com distribuição simétrica. A Figura 3 reapresenta o boxplot da Figura 2, mas sem as anotações.
Agora, compare o boxplot (Figura 3) com o histograma dos mesmos dados (Figura 4). O histograma indica que os dados podem ser aproximados por uma distribuição normal, com poucos casos extremos.
No boxplot, isso se reflete na mediana mais ou menos equidistante dos limites inferior e superior da caixa, em bigodes de tamanhos semelhantes e, por fim, em um número equivalente de outliers nos dois extremos. Como o exemplo se baseia em 1.000 observações, três ou quatro outliers por extremo da distribuição é compreensível e aceitável.
Boxplot e histograma de dados com distribuição assimétrica
Em seguida, consideraremos dados com forte assimetria positiva, isto é, com a cauda da distribuição mais longa à direita. Isso é o que acontece, por exemplo, com a variável renda, onde a maioria da população tem rendimentos menores, enquanto a minoria recebe centenas de milhares ou até mesmo milhões de reais por mês.
O boxplot da Figura 5 sugere dados assimétricos. Três informações gráficas apoiam essa interpretação. Primeiramente, a mediana está mais próxima do limite inferior que do limite superior da caixa, indicando alguma assimetria nos dados.
Além disso, os bigodes também são assimétricos, com o bigode superior muito mais longo que o inferior, o que sugere dados mais dispersos em escores mais elevados. Por fim, os valores extremos, em grande quantidade e concentrados em apenas um dos extremos dos escores, indica forte assimetria positiva na distribuição.
A Figura 6 apresenta o histograma desses mesmos dados. Como você pode ver a seguir, a distribuição de fato possui assimetria positiva, com a maioria dos dados tendo escores baixos, mas uma minoria fortemente dispersa da maior concentração de escores.
Para finalizar, a habilidade de imaginar a distribuição subjacente ao boxplot requer tempo e treino. Contudo, não desanime! Conforme você adquirir o hábito de praticar a visualização e a interpretação de boxplots, você também passará a ser capaz de interpretá-los com maior segurança.
Como criar boxplots no SPSS?
Boxplots são úteis quando você quer explorar a distribuição de uma variável contínua. Por exemplo, você pode querer avaliar as notas de 2.000 participantes em um vestibular.
Primeiramente, introduziremos nosso banco de dados. A Figura 7 apresenta o banco de dados no SPSS, que contém apenas duas variáveis. A coluna Cursinho representa respondentes que fizeram (Sim) ou não (Não) cursinho pré-vestibular, enquanto a coluna Nota representa as notas dos respondentes no vestibular.
Criando um boxplot em 1-D no SPSS
Primeiramente, siga o caminho Gráficos > Construtor de Gráfico (Figura 8).
Em seguida, na aba Galeria do canto inferior esquerdo, vá em Boxplot e marque a opção Boxplot em 1-D (terceiro ícone). Na parte superior esquerda da janela, arraste a variável Nota para o rótulo do eixo y. Por fim, clique em OK (Figura 9).
Apresentamos o gráfico gerado pelo SPSS na Figura 10. O boxplot indica uma ligeira assimetria negativa, isto é, bigode inferior mais longo que o superior, e parte inferior da caixa (de Q1 até a mediana) maior que a parte superior (da medida até Q3).
Além disso, parece haver um outlier no banco de dados, indicado pelo círculo com o número 263. Se quisermos checar o participante outlier, basta irmos ao banco de dados e consultarmos a linha 263, que será exatamente a observação que o SPSS detectou como valor extremo.
Criando um boxplot agrupado no SPSS
Frequentemente, queremos investigar distribuições não para a amostra geral, mas sim ao nível dos grupos. Em seguida, mostraremos como criar boxplots agrupados.
Primeiramente, siga o caminho Gráficos > Caixas de diálogo legadas > Boxplot (Figura 11).
Uma janela de diálogo abrirá a seguir. Marque as opções Simples e Resumos para grupos de casos e clique em Definir (Figura 12).
Em seguida, coloque a variável Nota em Variável e a variável Cursinho em Eixo de categoria. Se você tiver uma variável de identificação no banco de dados, você poderá inseri-la em Rotular casos por, que o SPSS usará essa variável para sinalizar outliers. Caso contrário, o SPSS usará a própria linha do banco de dados para essa sinalização. Por fim, clique em OK (Figura 13).
A Figura 14 apresenta boxplots agrupados, indicando que as duas distribuições são aproximadamente simétricas. Desse modo, a assimetria da Figura 10 provavelmente foi decorrente de termos colapsado duas populações em um único grupo.
Além disso, observamos que quem faz cursinho pré-vestibular tem notas mais altas e mais homogêneas no vestibular, quando comparado a quem não faz cursinho. A maior variabilidade no desempenho de quem não faz cursinho sugere hipóteses interessantes. Por exemplo, podemos especular que níveis de motivação e uso de estratégias autorreguladas de aprendizagem são possíveis moderadores da nota no vestibular.
Por fim, embora o SPSS identifique alguns outliers em cada grupo, a quantidade (n = 14) parece compatível com o tamanho amostral (N = 2.000). Além disso, é possível realizar posteriormente análises de sensibilidade para verificar se os resultados inferenciais permanecem consistentes com e sem os outliers.
Conclusão
Neste post, você aprendeu o que é e quais são os principais elementos de um boxplot. Além disso, por meio de dois exemplos, você aprendeu a construir e a interpretar boxplots criados no SPSS. Gostou desse conteúdo? Então aproveite e se inscreva em nosso canal do YouTube para ficar por dentro de nossas novidades!
Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Referência
Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.
Como citar este post
Lima, M. (2024, 11 de dezembro). Como criar e interpretar um boxplot no SPSS? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/boxplot-como-criar-no-spss-e-como-interpretar/