Teste de Hipóteses - Parte 2
Importação
import statsmodels.stats as sm
from statsmodels.stats.weightstats import ztest
import scipy.stats as ss
import pandas as pd
import numpy as np
import warnings
from statsmodels.sandbox.stats.multicomp import tukeyhsd
from statsmodels.stats.weightstats import ttest_ind
'ignore')
warnings.filterwarnings(from scipy.stats import chisquare
from scipy.stats import chi2_contingency
Inferência sobre Três ou mais Populações
Teste de Levene
Teste de Levene é usado para testar se k amostras foram coletadas de populações que possuem mesma variância. As hipóteses do teste são:
\(H_0: \sigma_1^2 = \sigma_2^2 = \dots = \sigma_k^2\)
\(H_1: \exists \, i, j \ , \text{tal que} \, \sigma_i^2 \neq \sigma_j^2\)
Ou seja, igualdade entre as variâncias populacionais contra a alternativa de que nem todas as variâncias são iguais. Ele é o teste mais robusto contra falta de normalidade dos dados e sua estatística de teste segue com uma distribuição F sob \(H_{0}\):
\(L = \frac{(N - k)}{(k - 1)} \cdot \frac{\sum_{i=1}^{k} n_i (\bar{Z}_i - \bar{Z})^2}{\sum_{i=1}^{k} \sum_{j=1}^{n_i} (Z_{ij} - \bar{Z}_i)^2}\)
em que
\(Z_{ij} = |X_{ij} - \text{Medida Central do Grupo } i|\)
é o desvio absoluto dos \(X_{ij}\) em relação à média de cada grupo. Já
\(\bar{Z}_i = \frac{\sum_{j=1}^{n_i} Z_{ij}}{n_i}\)
é a média dos \(Z_{i,j}\) no grupo i. E
\(\bar{Z} = \frac{\sum_{i=1}^k \sum_{j=1}^{n_i} Z_{ij}}{N}\)
é a média geral dos \(Z_{i,j}\)
O p-valor é calculado da forma:
\(\text{p-valor} = P(F_{(k-1, N-k)} \geq W)\)
Para aplicarmos o teste de Levene, utilizamos a função levene
da biblioteca Scipy, cujos argumentos de entrada são:
sample1
,sample2
, … : amostras observadas.center
: há três opções: “mean”, “median” ou “trimmed”. Para o caso da população seguir uma normal, utilize “mean”.
Para mais informações clique aqui para acessar a documentação da função.
Como a maioria das funções, essa retorna o valor da estatística de teste e o p-valor.
Para aplicação do teste utilizaremos o banco de dados de uma amostra aleatória simples de avaliações de filmes do site Rotten Tomatoes. Vamos supor que os dados são provenientes de distribuições normais.
= pd.read_csv('Movie-Ratings.csv')
df df.head()
Film | Genre | Rotten Tomatoes Ratings % | Audience Ratings % | Budget (million $) | Year of release | |
---|---|---|---|---|---|---|
0 | (500) Days of Summer | Comedy | 87 | 81 | 8 | 2009 |
1 | 10,000 B.C. | Adventure | 9 | 44 | 105 | 2008 |
2 | 12 Rounds | Action | 30 | 52 | 20 | 2009 |
3 | 127 Hours | Adventure | 93 | 84 | 18 | 2010 |
4 | 17 Again | Comedy | 55 | 70 | 20 | 2009 |
Exemplo
Deseja-se saber se a variabilidade das notas dos críticos do site Rotten Tomatoes são iguais
nos filmes dos gêneros Comédia, Ação, Aventura e Drama, ao nível de significância de 5%
.
\(H_0: \sigma_{\text{Comédia}}^2 = \sigma_{\text{Ação}}^2 = \sigma_{\text{Aventura}}^2 = \sigma_{\text{Drama}}^2\)
\(H_1: \exists \, i, j \ , \text{tais que} \ , \sigma_i^2 \neq \sigma_j^2, \, \text{com } i, j \in \{\text{Comédia, Ação, Aventura, Drama}\}\)
= df[df["Genre"] == 'Action'], df[df["Genre"] == 'Adventure'], df[df["Genre"] == "Comedy"], df_comedia['Rotten Tomatoes Ratings %'], center="mean") df_acao, df_adventure, df_comedia, df_drama
Como p-valor=0.16 é maior que o nível de significância proposto, não rejeitamos a hipótese nula, ou seja, há evidências de que as variâncias das avaliações dos filmes dos gêneros Comédia, Ação, Drama e Aventura são iguais.
Teste One-Way ANOVA
A One-Way ANOVA é usada para testar diferenças entre médias de pelo menos três populações, uma vez que a comparação entre dois grupos pode ser obtida através do teste t. Assim como no caso do teste t, o modelo da ANOVA exige que as populações possuam distribuição Normal e, além disso, as variâncias devem ser iguais. Considere que são extraídas amostras aleatórias simples de tamanhos \(n_{1},n_{2},\\ldots,n{k}\) dessas populações. A hipótese de interesse é
\(H_0: \mu_1 = \mu_2 = \dots = \mu_k\)
\(H_1: \exists \, i, j \, \text{tais que} \, \mu_i \neq \mu_j, \, \text{com } i, j \in \{1, 2, \dots, k\}\)
A estatística de teste é dada por:
\(F = \frac{\text{QM\_entre}}{\text{QM\_dentro}}\)
onde
\(\text{QM\_entre} = \frac{\text{SQ\_entre}}{k - 1}\)
e
\(\text{QM\_dentro} = \frac{\text{SQ\_dentro}}{N - k}\)
O p-valor é calculado da forma:
\(\text{p-valor} = P(F_{(k-1, N-k)} \geq F)\)
Para aplicarmos o teste One Way ANOVA utilizamos a função f_oneway
da biblioteca Scipy, cujos argumentos de entrada são apenas:
sample1
,sample2
, … : amostras observadas.
Para mais informações clique aqui para acessar a documentação da função.
Vamos exemplificar a utilização do teste com o banco de dados de avaliações de filmes.
Exemplo
Deseja-se verificar se as médias dos avaliações do site Rotten Tomatoes são iguais
para os filmes de Ação, Comédia, Drama e Aventura, utilizando um nível de significância de 5%
.
\(H_0: \mu_{\text{Ação}} = \mu_{\text{Comédia}} = \mu_{\text{Drama}} = \mu_{\text{Aventura}}\)
\(H_1: \exists \, i, j \, \text{tais que} \, \mu_i \neq \mu_j, \, \text{com } i, j \in \{\text{Ação, Comédia, Drama, Aventura}\}\)
Primeiro passo a ser realizado é verificar se as variâncias são iguais, aplicando o Teste de Levene. Logo, através da aplicação no exemplo anterior, temos que as variâncias são consideradas iguais. Agora realizaremos o teste de ANOVA.
'Rotten Tomatoes Ratings %'],df_adventure['Rotten Tomatoes Ratings %'],df_drama['Rotten Tomatoes Ratings %'], df_comedia['Rotten Tomatoes Ratings %']) ss.f_oneway(df_acao[
Como p-valor é menor que o nível de significância proposto, rejeitamos a hipótese nula, ou seja, pelo menos uma das médias é considerada diferente. Para saber quais médias são diferentes, realize um teste de comparações múltiplas.
Teste de Shapiro-Wilk
Utiliza-se o teste de Shapiro-Wilk para verificar se uma amostra é proveniente de uma população com distribuição normal. O teste avalia (ou verifica) as seguintes hipóteses:
\(H_{0}\) : Os dados são provenientes de uma distribuição Normal
vs
\(H_{1}\) : os dados não são provenientes de uma distribuição Normal.
Para realizar o teste de Shapiro-Wilk utilizamos a função shapiro
da biblioteca Scipy, cujo único argumento de entrada é:
- x : a amostra observada.
Para mais informações clique aqui para acessar a documentação da função.
Exemplo
Deseja-se saber se as avaliações da audiência constada no site Rotten Tomatoes para os filmes de Aventura são provenientes de uma distribuição normal
, utilizando um nível de significância de 5%
.
'Audience Ratings %']) ss.shapiro(df_adventure[
Como p-valor=0.14 é maior que o nível de significância proposto, não rejeitamos a hipótese nula, ou seja, podemos afirmar que a amostra é proveniente de uma população com distribuição normal.
Teste de Kolmogorov–Smirnov
O teste Kolmogorov–Smirnov é um teste não paramétrico sobre a igualdade de distribuições de probabilidade contínuas e unidimensionais que pode ser usado para comparar uma amostra com uma distribuição de probabilidade de referência ou duas amostras uma com a outra. Dado isso, podemos ter as seguintes hipóteses:
\(H_{0}\) : os dados seguem uma certa distribuição
vs
\(H_{1}\) : os dados não seguem uma certa distribuição
Ou
\(H_{0}\) : as duas amostras seguem a mesma distribuição
vs
\(H_{1}\) : as duas amostram não seguem a mesma distribuição
Para realizar o teste de Kolmogorov-Smirnov para uma amostra utilizamos a função kstest
da biblioteca Scipy, cujos argumentos de entrada são:
rvs
: a amostra observada.cdf
: o nome da distribuição: “norm”,”expon”, …args
: parâmetros da distribuição.
Para mais informações sobre essa função clique aqui.
Para realizar o teste de Kolmogorov-Smirnov para duas amostras utilizamos a função ks_2sample
da biblioteca Scipy, cujos argumentos principais são:
- data1: primeira amostra observada.
- data2: segunda amostra observada.
E sobre essa função, clique aqui.
Agora vamos aplicá-las em alguns exemplos.
Exemplo 1
Deseja-se verificar se as avaliações da audiência constada no site Rotten Tomatoes para os filmes de Terror são provenientes de uma distribuição normal, utilizando um nível de significância de 5%.
\(H_{0}\): os dados seguem uma distribuição normal
vs
\(H_{1}\): os dados não seguem uma distribuição normal
= df[df["Genre"] == 'Horror']
df_horror df_horror.head()
Film | Genre | Rotten Tomatoes Ratings % | Audience Ratings % | Budget (million $) | Year of release | |
---|---|---|---|---|---|---|
7 | 30 Days of Night | Horror | 50 | 57 | 32 | 2007 |
12 | A Nightmare on Elm Street | Horror | 13 | 40 | 35 | 2010 |
20 | Alien vs. Predator -- Requiem | Horror | 14 | 37 | 40 | 2007 |
28 | Apollo 18 | Horror | 23 | 31 | 5 | 2011 |
59 | Case 39 | Horror | 23 | 42 | 26 | 2009 |
'Audience Ratings %'], "norm", args=[np.mean(df_horror['Audience Ratings %']),np.std(df_horror['Audience Ratings %'])]) ss.kstest(df_horror[
Como p-valor = 0.99 é maior que o nível de significância proposto, não rejeitamos a hipótese nula, ou seja, há evidências de que os dados são provenientes de uma normal.
Exemplo 2
Deseja-se verificar se as avaliações da audiência constadas no site Rotten Tomatoes para os filmes de Terror possuem a mesma distribuição do que as avaliações da audiência para os filmes de Ação, utilizando um nível de significância de 5%
.
\(H_{0}\): os dados seguem a mesma distribuição.
vs
\(H_{1}\): os dados não seguem a mesma distribuição.
Como p-valor=0.004 é menor que o nível de significância proposto, rejeitamos a hipótese nula, ou seja, as avaliações da audiência para os filmes de Terror e Ação não seguem a mesma distribuição.
Análise sobre Dados Categóricos
Teste de Aderência
O teste de Aderência busca avaliar o comportamento, em uma população, de uma variável categórica que pode assumir k valores. Sejam \(p_{1}, p_{2}, p_{3},…, p_{k}\), respectivamente, as proporções populacionais das categorias \(1, 2, 3, …, K\), teremos as seguintes hipóteses:
\(H_0: p_1 = p_{1,A}, \, p_2 = p_{2,A}, \, p_3 = p_{3,A}, \dots, p_k = p_{k,A}\)
\(H_1: \exists \, i \ , \text{tal que} \, p_i \neq p_{i,A}, \, \text{com } i \in \{1, 2, 3, \dots, k\}\)
Sob \(H_{0}\):
\(\chi^2 = \displaystyle\sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}\)
Onde:
- \(O_{i}\): é o número de vezes que a categoria \(i\) é observada na amostra
- \(E_{i}\): valor esperado; obtido pela multiplicação do tamanho da amostra com \(p_{i}\)
E o p-valor é calculado da seguinte forma:
Para o teste de Aderência usaremos a função chisquare
da biblioteca Scipy, cujos argumentos de entrada são
f_obs
: amostra observadaf_exp
: valores esperados, sob \(H_{0}\)
Para mais informações sobre a função clique aqui para acessar sua documentação.
Exemplo
Deseja-se verificar se a proporção de filmes de Aventura, Romance e Suspense avaliados são, respectivamente, 0.26
, 0.29
, 0.45
, ao nível de significância de 5%
.
\(H_{0} : p_{1} = 0.26 \\ , \\ p_{2} = 0.29 \\ , \\ p_{3} = 0.45\)
vs
\(H\\_{1} : p\\_{i} \neq p\\_{i,A} , \\\), para pelo menos um \(i \\ , \\ i = 1, 2, 3\)
Obtendo os valores observados:
= df.Genre.value_counts()
tabela_freq tabela_freq
Aplicando a função:
= [tabela_freq[5], tabela_freq[6], tabela_freq[4]]
obs = sum(obs)
total_obs
= obs, f_exp = [0.26*total_obs, 0.29*total_obs, 0.45*total_obs]) chisquare(f_obs
Como p-valor=0.25 é maior que o nível de significância proposto, não rejeitamos a hipótese nula, ou seja, podemos afirmar que a proporção de filmes de Aventura, Romance e Suspense avaliados são respectivamente de 0.26,0.29 e 0.45.
Teste de Homogeneidade
Esse caso é similar ao teste de Aderência, com a diferença de que agora será avaliado o comportamento, em C populações independentes, de uma variável categórica que pode assumir L valores.
Para este teste, teremos as seguintes hipóteses:
\(H_{0} : p_{1, 1} = p_{1, 2} = … = p_{1, C} \\ ; \\ p_{2, 1} = p_{2, 2} = … = p_{2, C} \\ ; \\ \\ … \\ \\ ; \\ p_{L, 1} = p_{L, 2} = … = p_{L, C}\)
\(H_1: \exists \, i, j \ , \text{tais que} \, p_{i,j} \neq p_{i,A}, \, \text{com } i \in \{1, 2, \dots, L\}, \, j \in \{1, 2, \dots, C\}\)
Para \(H_0\) temos que:
\(\chi^2 = \displaystyle\sum_{i=1}^r \displaystyle\sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)
Onde:
- \(O_{ij} :\) número de vezes que na amostra da população \(i\) a categoria \(j\) é observada.
- \(E_{ij} :\) valor esperado na população e na categoria \(j\)
E o p-valor é calculado da seguinte forma:
Para o teste de Homogeneidade usaremos a função chi2_contingency
da biblioteca Scipy, cujo argumento de entrada é
observed
: tabela de contingência
Exemplo
Com o intuito de saber a eficacia da quimioterapia para dois diferentes tipos de câncer, um médico selecionou de maneira aleatória 100 pacientes com o câncer do Tipo I e 100 com o Tipo II, e dispôs os resultados na tabela abaixo. Verifique se existe relação entre a eficacia da quimioterapia e o tipo de câncer, ao nível de significância de 5%
.
Reação | |||
---|---|---|---|
Câncer | Pouca | Média | Alta |
Tipo I | 51 | 33 | 16 |
Tipo II | 58 | 29 | 13 |
= np.array([51, 33, 16, 58, 29, 13]).reshape(2,3)
tabela_cancer tabela_cancer
chi2_contingency(tabela_cancer)
Como p-valor = 0.6011 é maior que o nível de significância, não rejeitamos a hipótese nula. Ou seja, há evidências de que o efeito da quimioterapia é igual para os dois tipos de câncer observados.
Teste de Independência
Agora considere que cada indivíduo da amostra será classificado conforme duas variáveis qualitativas. Em comparação ao teste de Homogeneidade, e simplificando o entendimento, ao invés de L populações, teremos uma população que pode ser classificada de L formas diferentes.
Para este teste teremos as seguintes hipóteses:
\(H_{0} : p_{i, j} = p_{i,\cdot}\cdot p_{\cdot,j}\), para todo \(i = 1, …, L\) e \(j = 1, …, C\)
\(H_1: \exists \, i, j \ , \text{tais que} \, p_{i,j} \neq p_{i,\cdot} \cdot p_{\cdot,j}, \, \text{com } i \in \{1, \dots, L\}, \, j \in \{1, \dots, C\}\)
Onde \(p_{i,j}\) é a probabilidade do indivíduo ser classificado como \(i\) e \(j\) simultaneamente e \(p_{i,\cdot}\) e \(p_{\cdot,j}\) as probabilidades dos indivíduos serem classificados como \(i\) ou \(j\) de forma separada, respectivamente.
sob \(H_0\) temos que:
\(\chi^2 = \displaystyle\sum_{i=1}^r \displaystyle\sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\)
E o p-valor é calculado da seguinte forma:
Todo desenvolvimento do cálculo será igual ao teste de Homogeneidade, mas a interpretação do problema será diferente, assim como as hipóteses.
Exemplo
Agora, o médico gostaria de avaliar se a reação à quimioterapia independe do tipo de câncer do paciente. Para tanto, foram selecionados 180 pacientes que fazem tratamento de câncer com quimioterapia e suas informações foram dispostas na tabela abaixo. Verifique se “Tipo de câncer” e “Eficacia da quimioterapia” são variáveis independentes, ao nível de significância de 5%
.
Reação | |||
---|---|---|---|
Câncer | Pouca | Média | Alta |
Tipo III | 38 | 32 | 30 |
Tipo IV | 26 | 38 | 16 |
= np.array([38, 32, 30, 26, 38, 16]).reshape(2,3)
tabela_cancer tabela_cancer
chi2_contingency(tabela_cancer)
Como p-valor = 0.0879 é maior que o nível de significância, não rejeitamos a hipótese nula. Ou seja, há evidências de que “Tipo de câncer” e “Eficacia da quimioterapia” são variáveis independentes.
Referências
- Casella, G. e Berger, R. L. Inferência estatística. Cengage Learning, 2010.
- Pauli Virtanen, Ralf Gommers, Travis E. Oliphant, Matt Haberland, Tyler Reddy, David Cournapeau, Evgeni Burovski, Pearu Peterson, Warren Weckesser, Jonathan Bright, Stéfan J. van der Walt, Matthew Brett, Joshua Wilson, K. Jarrod Millman, Nikolay Mayorov, Andrew R. J. Nelson, Eric Jones, Robert Kern, Eric Larson, CJ Carey, İlhan Polat, Yu Feng, Eric W. Moore, Jake VanderPlas, Denis Laxalde, Josef Perktold, Robert Cimrman, Ian Henriksen, E.A. Quintero, Charles R Harris, Anne M. Archibald, Antônio H. Ribeiro, Fabian Pedregosa, Paul van Mulbregt, and SciPy 1.0 Contributors. (2020) SciPy 1.0: Fundamental Algorithms for Scientific Computing in Python. Nature Methods, in press.
- Seabold, Skipper, and Josef Perktold. “statsmodels: Econometric and statistical modeling with python.” Proceedings of the 9th Python in Science Conference, 2010.
- Stéfan van der Walt, S. Chris Colbert and Gaël Varoquaux. The NumPy Array: A Structure for Efficient Numerical Computation, Computing in Science & Engineering, 2011.
- John D. Hunter. Matplotlib: A 2D Graphics Environment, Computing in Science & Engineering, 2007.
- Wes McKinney. Data Structures for Statistical Computing in Python, Proceedings of the 9th Python in Science Conference, 2010.
- Velarde, L. G. C. CAVALIERE, Y. F. Apostila Inferência Estatística. Departamento de Estatística. Universidade Federal Fluminense
- FARIAS, A. M. L. Apostila de Estatística II. Departamento de Estatística. 2017. Universidade Federal Fluminense.