Como testar a normalidade da amostra? Neste post, realizaremos e interpretaremos os resultados de dois testes apropriados para esse fim, a saber, os testes de Kolmogorov-Smirnov e e de Shapiro-Wilk. Em nosso tutorial, usaremos o software estatístico SPSS. Contudo, caso tenha interesse em saber mais sobre o teste de Shapiro-Wilk e como executá-lo no JASP, veja nossos posts sobre esse tema.
Por que testar a normalidade dos dados?
Os testes de Kolmogorov-Smirnov e de Shapiro-Wilk são utilizados para testar a normalidade da amostra, isto é, para avaliar se uma amostra segue uma distribuição normal.
A distribuição normal é uma distribuição de probabilidade comumente usada em ciências para modelar fenômenos naturais. Nessa distribuição, os valores têm um pico no centro, espalhando-se simetricamente ao redor desse ponto. Como resultado, os dados tendem a apresentar um formato de sino (veja a Figura 1).
Você pode se perguntar: “Por que eu deveria me preocupar com a normalidade dos meus dados?”. A resposta a essa pergunta é que muitos testes estatísticos assumem que a distribuição dos dados é normal. Em outras palavras, o bom funcionamento desses testes, em termos de controle da taxa de erro do Tipo I e de poder estatístico, depende de o pressuposto ser acatado nos dados.
Considere, por exemplo, as três variáveis da Figura 2. Em uma regressão linear, se os resíduos tivessem uma distribuição similar aos dados do painel esquerdo, não nos preocuparíamos com o viés de nosso modelo, pois a regressão assume resíduos normalmente distribuídos.
No entanto, se os resíduos se distribuíssem tal como os dados dos painéis central ou direito da Figura 2, isso colocaria em questão a confiabilidade dos parâmetros de nosso modelo.
Em síntese, é bem comum precisarmos avaliar nossos dados têm distribuição aproximadamente normal. Todavia, se isso não puder ser assumido, devemos usar técnicas estatísticas robustas à violação de normalidade, realizar transformações das variáveis de interesse ou mesmo optar pelo uso de técnicas estatísticas não paramétricas.
Como o teste de Kolmogorov-Smirnov funciona?
O teste de Kolmogorov-Smirnov, também conhecido como teste K-S, busca avaliar a distância entre a distribuição empiricamente observada (i.e., os dados coletados) e uma distribuição de referência.
Por exemplo, a Figura 3 apresenta as funções de distribuições acumuladas dos dados apresentados anteriormente (linha azul) e de distribuições normais com médias e desvios-padrões iguais aos dos dados (linha vermelha).
Conceitualmente, o teste de Kolmogorov-Smirnov compara se os dados observados se ajustam à distribuição de referência. Em outras palavras, quanto mais próxima cada linha azul for da linha vermelha correspondente, mais provável é que os dados tenham aderência à distribuição de referência (em nosso caso, a distribuição normal).
A hipótese nula do teste é de que os dados não diferem da distribuição de referência. Por outro lado, a hipótese alternativa afirma que os dados diferem da distribuição de referência. Portanto, se queremos apoiar o pressuposto de normalidade de uma variável, precisamos que o valor de p seja maior que o nível de significância estabelecido (comumente, 0,05).
O que é correção de Lilliefors?
O teste de Kolmogorov-Smirnov é confiável quando estamos comparando nossos dados com uma distribuição normal conhecida, isto é, uma em que conhecemos os parâmetros populacionais. Por exemplo, se coletássemos escores de inteligência, poderíamos testar se nossos dados diferem de uma distribuição normal de referência, cuja média populacional é 100 e o desvio-padrão, 15.
Infelizmente, contudo, nós comumente desconhecemos os parâmetros da distribuição de referência. Em tais casos, o teste de Kolmogorov-Smirnov utiliza a média e o desvio-padrão dos próprios dados como estimativas dos parâmetros populacionais. A consequência disso é uma perda de poder estatístico – pois estamos artificialmente “ajudando” o teste a acertar duas informações sobre a distribuição de referência.
Desse modo, para solucionar esse problema, fazemos uma modificação na estatística do teste de Kolmogorov-Smirnov, conhecida como correção de Lilliefors. Essa correção não impacta na estatística obtida, mas modifica o valor crítico associado ao teste. Em outras palavras, a correção de Lilliefors ajusta a distribuição crítica contra a qual a estatística do teste será comparada, melhorando assim o poder estatístico do teste.
A interpretação do teste de Kolmogorov-Smirnov com a correção de Lilliefors é semelhante ao teste sem a correção, mas produz resultados mais confiáveis quando os parâmetros da distribuição de referência são desconhecidos.
Qual é a diferença entre os testes de Kolmogorov-Smirnov e de Shapiro-Wilk?
O teste de Kolmogorov-Smirnov pode ser usado para avaliar se nossos dados se conformam a qualquer distribuição de referência conhecida (e.g., normal, exponencial). Por outro lado, o teste de Shapiro-Wilk testa especificamente se os dados diferem de uma distribuição normal. Em outras palavras, não podemos usar este último teste para comparar os dados com outras distribuições.
Feita essa ressalva, o teste de Shapiro-Wilk funciona de maneira semelhante, tendo a hipótese nula de que as duas distribuições (empírica e normal) são iguais. Por sua vez, a hipótese alternativa é de que as distribuições não são iguais. Portanto, para considerarmos a distribuição como normal, também esperamos que p > 0,05.
Quando devo testar a normalidade dos dados com os testes de Kolmogorov-Smirnov ou de Shapiro-Wilk?
Embora o poder de ambos os testes se mostre baixo em amostras pequenas, estudos de simulação indicam que o teste de Shapiro-Wilk é superior ao teste de Kolmogorov-Smirnov em diversos tamanhos amostrais.
No entanto, se o interesse do pesquisador for comparar os dados com uma distribuição conhecida que não seja a distribuição normal, ele deverá necessariamente utilizar o teste de Kolmogorov-Smirnov.
Como testar a normalidade das distribuições no SPSS?
Neste tutorial, usaremos as três variáveis apresentadas nas Figuras 2 e 3. Como vimos na Figura 2, apenas a distribuição no painel esquerdo parece se aproximar de uma distribuição normal.
Assim que os dados já estiverem abertos, você pode solicitar os testes de normalidade no SPSS selecionando o caminho Analisar > Estatísticas descritivas > Explorar (Figura 4).
Em seguida, insira as variáveis que você quer testar a normalidade em Lista dependente e clique em Gráficos (Figura 5, painel esquerdo). Na nova janela que abrirá, certifique-se de marcar a opção Gráficos de normalidade com testes (Figura 5, painel direito). Clique em Continuar e, em seguida, em OK.
Após clicar em OK, o SPSS gerará os resultados das análises solicitadas.
Como interpretar as saídas dos testes de normalidade?
Tabela de estatísticas descritivas
O SPSS produzirá uma tabela de estatísticas descritivas similar àquela ilustrada na Figura 6. Por questões de espaço, a Figura 6 apresenta apenas a seção das estatísticas para a distribuição de qui-quadrado (para fins de ilustração), embora o SPSS gere estatísticas para as duas demais variáveis.
A tabela de estatísticas descritivas contém informações relevantes sobre as variáveis, tais como medidas de tendência central (e.g., média, mediana) e de dispersão (e.g., desvio-padrão, variância).
Uma estatística que você talvez não conheça é a média aparada de 5%. Para obter esse valor, o SPSS ordena as observações da menor para a maior, e exclui os 5% menores valores, bem como os 5% maiores. Após essa exclusão, ele calcula a nova média amostral.
Diferenças substanciais entre as médias original e aparada podem indicar que valores extremos estão exercendo forte influência sobre a média original da amostra. É exatamente o que acontece na distribuição de qui-quadrado (Moriginal = 0,97, Maparada 5% = 0,74).
Além disso, os valores de assimetria e de curtose (Kurtosis) também são fornecidos como parte desta saída, trazendo informações sobre esses índices de simetria dos dados. Note que os valores são bem elevados nas duas estatísticas, indicando forte assimetria e curtose dos dados.
Saiba mais: Assimetria e curtose: um guia completo
Tabela com os testes de normalidade
A Figura 7 apresenta os resultados dos testes de normalidade gerados pelo SPSS.
Na Figura 7, as saídas do SPSS foram ligeiramente editadas, visando identificar os significados dos nomes das diferentes colunas apresentadas.
Tradicionalmente, o SPSS se refere à estatística dos testes simplesmente como Estatística. Referimo-nos às estatísticas dos testes de Kolmogorov-Smirnov e de Shapiro-Wilk pelas letras D e W, respectivamente. O valor de p é expresso no SPSS como Sig. Por fim, o termo df é a abreviação de degrees of freedom (graus de liberdade, em português).
Em seguida, interpretaremos os resultados dos testes da Figura 7 para as três distribuições:
- Distribuição normal (painel esquerdo da Figura 2): os testes de Kolmogorov-Smirnov, D(300) = 0,03, p = 0,20, e de Shapiro-Wilk, W(300) = 0,99, p = 0,31, indicaram que os dados não diferem de uma distribuição normal;
Distribuição qui-quadrado (painel central da Figura 2): os testes de Kolmogorov-Smirnov, D(300) = 0,27, p < 0,001, e de Shapiro-Wilk, W(300) = 0,60, p < 0,001, indicaram que os dados se afastam significativamente de uma distribuição normal;
Distribuição uniforme (painel direito da Figura 2): os testes de Kolmogorov-Smirnov, D(300) = 0,08, p < 0,001, e de Shapiro-Wilk, W(300) = 0,94, p < 0,001, também indicaram que os dados se afastam significativamente de uma distribuição normal.
Em síntese, os dois testes indicaram que o pressuposto de normalidade foi violado nas distribuições qui-quadrado e uniforme, mas não na distribuição normal.
Os testes citados neste tutorial têm um problema em comum. Se a amostra for muito grande, eles tendem a rejeitar a hipótese nula, mesmo quando há apenas pequenos (e inconsequentes) desvios dos dados à distribuição normal. Portanto, para amostras grandes, devemos usar outros métodos além destes para avaliar a distribuição, como a análise de gráficos Q-Q.
Conclusão
Neste post, ensinamos você a realizar e a interpretar os testes de Kolmogorov-Smirnov e de Shapiro-Wilk, técnicas úteis para testar a normalidade da amostra. Por meio de três exemplos de distribuições, mostramos como interpretar os resultados dos testes conduzidos no SPSS.
Gostou desse conteúdo? Se você precisa aprender análise de dados, então faça parte da Psicometria Online Academy, a maior formação de pesquisadores quantitativos da América Latina. Conheça toda nossa estrutura aqui e nunca mais passe trabalho sozinho(a).
Referência
Field, A. (2017). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.
Como citar este post
Lima, M. (2021, 8 de julho). Como testar a normalidade da amostra com os testes de Kolmogorov-Smirnov e de Shapiro-Wilk? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/como-testar-a-normalidade-da-amostra-com-kolmogorov-smirnov-e-shapiro-wilk/