7 Teste de Hipóteses - Parte 2

Importação

import statsmodels.stats as sm
from statsmodels.stats.weightstats import ztest
import scipy.stats as ss
import pandas as pd
import numpy as np
import warnings
from statsmodels.sandbox.stats.multicomp import tukeyhsd
from statsmodels.stats.weightstats import ttest_ind
warnings.filterwarnings('ignore')
from scipy.stats import chisquare
from scipy.stats import chi2_contingency

Inferência sobre Três ou mais Populações

Teste de Levene

Teste de Levene é usado para testar se k amostras foram coletadas de populações que possuem mesma variância. As hipóteses do teste são:

$H_0: \sigma_1^2 = \sigma_2^2 = \dots = \sigma_k^2$

$H_1: \exists \, i, j \ , \text{tal que} \, \sigma_i^2 \neq \sigma_j^2$

Ou seja, igualdade entre as variâncias populacionais contra a alternativa de que nem todas as variâncias são iguais. Ele é o teste mais robusto contra falta de normalidade dos dados e sua estatística de teste segue com uma distribuição F sob $H_{0}$:

$L = \frac{(N - k)}{(k - 1)} \cdot \frac{\sum_{i=1}^{k} n_i (\bar{Z}_i - \bar{Z})^2}{\sum_{i=1}^{k} \sum_{j=1}^{n_i} (Z_{ij} - \bar{Z}_i)^2}$

em que

$Z_{ij} = |X_{ij} - \text{Medida Central do Grupo } i|$

é o desvio absoluto dos $X_{ij}$ em relação à média de cada grupo. Já

$\bar{Z}_i = \frac{\sum_{j=1}^{n_i} Z_{ij}}{n_i}$

é a média dos $Z_{i,j}$ no grupo i. E

$\bar{Z} = \frac{\sum_{i=1}^k \sum_{j=1}^{n_i} Z_{ij}}{N}$

é a média geral dos $Z_{i,j}$

O p-valor é calculado da forma:

$\text{p-valor} = P(F_{(k-1, N-k)} \geq W)$

Para aplicarmos o teste de Levene, utilizamos a função levene da biblioteca Scipy, cujos argumentos de entrada são:

sample1, sample2, … : amostras observadas.
center: há três opções: “mean”, “median” ou “trimmed”. Para o caso da população seguir uma normal, utilize “mean”.

Para mais informações clique aqui para acessar a documentação da função.

Como a maioria das funções, essa retorna o valor da estatística de teste e o p-valor.

Para aplicação do teste utilizaremos o banco de dados de uma amostra aleatória simples de avaliações de filmes do site Rotten Tomatoes. Vamos supor que os dados são provenientes de distribuições normais.

df = pd.read_csv('Movie-Ratings.csv')
df.head()

	Film	Genre	Rotten Tomatoes Ratings %	Audience Ratings %	Budget (million $)	Year of release
0	(500) Days of Summer	Comedy	87	81	8	2009
1	10,000 B.C.	Adventure	9	44	105	2008
2	12 Rounds	Action	30	52	20	2009
3	127 Hours	Adventure	93	84	18	2010
4	17 Again	Comedy	55	70	20	2009

Exemplo

Deseja-se saber se a variabilidade das notas dos críticos do site Rotten Tomatoes são iguais nos filmes dos gêneros Comédia, Ação, Aventura e Drama, ao nível de significância de 5%.

$H_0: \sigma_{\text{Comédia}}^2 = \sigma_{\text{Ação}}^2 = \sigma_{\text{Aventura}}^2 = \sigma_{\text{Drama}}^2$

$H_1: \exists \, i, j \ , \text{tais que} \ , \sigma_i^2 \neq \sigma_j^2, \, \text{com } i, j \in \{\text{Comédia, Ação, Aventura, Drama}\}$

df_acao, df_adventure, df_comedia, df_drama = df[df["Genre"] == 'Action'], df[df["Genre"] == 'Adventure'], df[df["Genre"] == "Comedy"], df_comedia['Rotten Tomatoes Ratings %'], center="mean")

LeveneResult(statistic=1.6923208903592077, pvalue=0.16786851919967521)

Como p-valor=0.16 é maior que o nível de significância proposto, não rejeitamos a hipótese nula, ou seja, há evidências de que as variâncias das avaliações dos filmes dos gêneros Comédia, Ação, Drama e Aventura são iguais.

Teste One-Way ANOVA

A One-Way ANOVA é usada para testar diferenças entre médias de pelo menos três populações, uma vez que a comparação entre dois grupos pode ser obtida através do teste t. Assim como no caso do teste t, o modelo da ANOVA exige que as populações possuam distribuição Normal e, além disso, as variâncias devem ser iguais. Considere que são extraídas amostras aleatórias simples de tamanhos $n_{1},n_{2},\\ldots,n{k}$ dessas populações. A hipótese de interesse é

$H_0: \mu_1 = \mu_2 = \dots = \mu_k$

$H_1: \exists \, i, j \, \text{tais que} \, \mu_i \neq \mu_j, \, \text{com } i, j \in \{1, 2, \dots, k\}$

A estatística de teste é dada por:

$F = \frac{\text{QM\_entre}}{\text{QM\_dentro}}$

onde

$\text{QM\_entre} = \frac{\text{SQ\_entre}}{k - 1}$

$\text{QM\_dentro} = \frac{\text{SQ\_dentro}}{N - k}$

O p-valor é calculado da forma:

$\text{p-valor} = P(F_{(k-1, N-k)} \geq F)$

Para aplicarmos o teste One Way ANOVA utilizamos a função f_oneway da biblioteca Scipy, cujos argumentos de entrada são apenas:

sample1, sample2, … : amostras observadas.

Para mais informações clique aqui para acessar a documentação da função.

Vamos exemplificar a utilização do teste com o banco de dados de avaliações de filmes.

Exemplo

Deseja-se verificar se as médias dos avaliações do site Rotten Tomatoes são iguais para os filmes de Ação, Comédia, Drama e Aventura, utilizando um nível de significância de 5%.

$H_0: \mu_{\text{Ação}} = \mu_{\text{Comédia}} = \mu_{\text{Drama}} = \mu_{\text{Aventura}}$

$H_1: \exists \, i, j \, \text{tais que} \, \mu_i \neq \mu_j, \, \text{com } i, j \in \{\text{Ação, Comédia, Drama, Aventura}\}$

Primeiro passo a ser realizado é verificar se as variâncias são iguais, aplicando o Teste de Levene. Logo, através da aplicação no exemplo anterior, temos que as variâncias são consideradas iguais. Agora realizaremos o teste de ANOVA.

ss.f_oneway(df_acao['Rotten Tomatoes Ratings %'],df_adventure['Rotten Tomatoes Ratings %'],df_drama['Rotten Tomatoes Ratings %'], df_comedia['Rotten Tomatoes Ratings %'])

F_onewayResult(statistic=6.039948218319176, pvalue=0.0004869684243719264)

Como p-valor é menor que o nível de significância proposto, rejeitamos a hipótese nula, ou seja, pelo menos uma das médias é considerada diferente. Para saber quais médias são diferentes, realize um teste de comparações múltiplas.

Teste de Shapiro-Wilk

Utiliza-se o teste de Shapiro-Wilk para verificar se uma amostra é proveniente de uma população com distribuição normal. O teste avalia (ou verifica) as seguintes hipóteses:

$H_{0}$ : Os dados são provenientes de uma distribuição Normal

$H_{1}$ : os dados não são provenientes de uma distribuição Normal.

Para realizar o teste de Shapiro-Wilk utilizamos a função shapiro da biblioteca Scipy, cujo único argumento de entrada é:

x : a amostra observada.

Para mais informações clique aqui para acessar a documentação da função.

Exemplo

Deseja-se saber se as avaliações da audiência constada no site Rotten Tomatoes para os filmes de Aventura são provenientes de uma distribuição normal, utilizando um nível de significância de 5%.

ss.shapiro(df_adventure['Audience Ratings %'])

(0.9456037282943726, 0.14058126509189606)

Como p-valor=0.14 é maior que o nível de significância proposto, não rejeitamos a hipótese nula, ou seja, podemos afirmar que a amostra é proveniente de uma população com distribuição normal.

Teste de Kolmogorov–Smirnov

O teste Kolmogorov–Smirnov é um teste não paramétrico sobre a igualdade de distribuições de probabilidade contínuas e unidimensionais que pode ser usado para comparar uma amostra com uma distribuição de probabilidade de referência ou duas amostras uma com a outra. Dado isso, podemos ter as seguintes hipóteses:

$H_{0}$ : os dados seguem uma certa distribuição

$H_{1}$ : os dados não seguem uma certa distribuição

$H_{0}$ : as duas amostras seguem a mesma distribuição

$H_{1}$ : as duas amostram não seguem a mesma distribuição

Para realizar o teste de Kolmogorov-Smirnov para uma amostra utilizamos a função kstest da biblioteca Scipy, cujos argumentos de entrada são:

rvs: a amostra observada.
cdf: o nome da distribuição: “norm”,”expon”, …
args: parâmetros da distribuição.

Para mais informações sobre essa função clique aqui.

Para realizar o teste de Kolmogorov-Smirnov para duas amostras utilizamos a função ks_2sample da biblioteca Scipy, cujos argumentos principais são:

data1: primeira amostra observada.
data2: segunda amostra observada.

E sobre essa função, clique aqui.

Agora vamos aplicá-las em alguns exemplos.

Exemplo 1

Deseja-se verificar se as avaliações da audiência constada no site Rotten Tomatoes para os filmes de Terror são provenientes de uma distribuição normal, utilizando um nível de significância de 5%.

$H_{0}$: os dados seguem uma distribuição normal

$H_{1}$: os dados não seguem uma distribuição normal

df_horror = df[df["Genre"] == 'Horror']
df_horror.head()

	Film	Genre	Rotten Tomatoes Ratings %	Audience Ratings %	Budget (million $)	Year of release
7	30 Days of Night	Horror	50	57	32	2007
12	A Nightmare on Elm Street	Horror	13	40	35	2010
20	Alien vs. Predator -- Requiem	Horror	14	37	40	2007
28	Apollo 18	Horror	23	31	5	2011
59	Case 39	Horror	23	42	26	2009

ss.kstest(df_horror['Audience Ratings %'], "norm", args=[np.mean(df_horror['Audience Ratings %']),np.std(df_horror['Audience Ratings %'])])

KstestResult(statistic=0.05351444278807435, pvalue=0.9989829445848811)

Como p-valor = 0.99 é maior que o nível de significância proposto, não rejeitamos a hipótese nula, ou seja, há evidências de que os dados são provenientes de uma normal.

Exemplo 2

Deseja-se verificar se as avaliações da audiência constadas no site Rotten Tomatoes para os filmes de Terror possuem a mesma distribuição do que as avaliações da audiência para os filmes de Ação, utilizando um nível de significância de 5%.

$H_{0}$: os dados seguem a mesma distribuição.

$H_{1}$: os dados não seguem a mesma distribuição.

Como p-valor=0.004 é menor que o nível de significância proposto, rejeitamos a hipótese nula, ou seja, as avaliações da audiência para os filmes de Terror e Ação não seguem a mesma distribuição.

Análise sobre Dados Categóricos

Teste de Aderência

O teste de Aderência busca avaliar o comportamento, em uma população, de uma variável categórica que pode assumir k valores. Sejam $p_{1}, p_{2}, p_{3},…, p_{k}$, respectivamente, as proporções populacionais das categorias $1, 2, 3, …, K$, teremos as seguintes hipóteses:

$H_0: p_1 = p_{1,A}, \, p_2 = p_{2,A}, \, p_3 = p_{3,A}, \dots, p_k = p_{k,A}$

$H_1: \exists \, i \ , \text{tal que} \, p_i \neq p_{i,A}, \, \text{com } i \in \{1, 2, 3, \dots, k\}$

Sob $H_{0}$:

$\chi^2 = \displaystyle\sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}$

Onde:

$O_{i}$: é o número de vezes que a categoria $i$ é observada na amostra
$E_{i}$: valor esperado; obtido pela multiplicação do tamanho da amostra com $p_{i}$

E o p-valor é calculado da seguinte forma:

Para o teste de Aderência usaremos a função chisquare da biblioteca Scipy, cujos argumentos de entrada são

f_obs: amostra observada
f_exp: valores esperados, sob $H_{0}$

Para mais informações sobre a função clique aqui para acessar sua documentação.

Exemplo

Deseja-se verificar se a proporção de filmes de Aventura, Romance e Suspense avaliados são, respectivamente, 0.26, 0.29, 0.45, ao nível de significância de 5%.

$H_{0} : p_{1} = 0.26 \\ , \\ p_{2} = 0.29 \\ , \\ p_{3} = 0.45$

$H\\_{1} : p\\_{i} \neq p\\_{i,A} , \\$, para pelo menos um $i \\ , \\ i = 1, 2, 3$

Obtendo os valores observados:

tabela_freq = df.Genre.value_counts()
tabela_freq

Comedy 172 Action 154 Drama 101 Horror 49 Thriller 36 Adventure 29 Romance 21 Name: Genre, dtype: int64

Aplicando a função:

obs = [tabela_freq[5], tabela_freq[6], tabela_freq[4]]
total_obs = sum(obs)

chisquare(f_obs = obs, f_exp = [0.26*total_obs, 0.29*total_obs, 0.45*total_obs])

Power_divergenceResult(statistic=2.782616741718586, pvalue=0.24874963485619836)

Como p-valor=0.25 é maior que o nível de significância proposto, não rejeitamos a hipótese nula, ou seja, podemos afirmar que a proporção de filmes de Aventura, Romance e Suspense avaliados são respectivamente de 0.26,0.29 e 0.45.

Teste de Homogeneidade

Esse caso é similar ao teste de Aderência, com a diferença de que agora será avaliado o comportamento, em C populações independentes, de uma variável categórica que pode assumir L valores.

Para este teste, teremos as seguintes hipóteses:

$H_{0} : p_{1, 1} = p_{1, 2} = … = p_{1, C} \\ ; \\ p_{2, 1} = p_{2, 2} = … = p_{2, C} \\ ; \\ \\ … \\ \\ ; \\ p_{L, 1} = p_{L, 2} = … = p_{L, C}$

$H_1: \exists \, i, j \ , \text{tais que} \, p_{i,j} \neq p_{i,A}, \, \text{com } i \in \{1, 2, \dots, L\}, \, j \in \{1, 2, \dots, C\}$

Para $H_0$ temos que:

$\chi^2 = \displaystyle\sum_{i=1}^r \displaystyle\sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$

Onde:

$O_{ij} :$ número de vezes que na amostra da população $i$ a categoria $j$ é observada.
$E_{ij} :$ valor esperado na população e na categoria $j$

E o p-valor é calculado da seguinte forma:

Para o teste de Homogeneidade usaremos a função chi2_contingency da biblioteca Scipy, cujo argumento de entrada é

observed: tabela de contingência

Exemplo

Com o intuito de saber a eficacia da quimioterapia para dois diferentes tipos de câncer, um médico selecionou de maneira aleatória 100 pacientes com o câncer do Tipo I e 100 com o Tipo II, e dispôs os resultados na tabela abaixo. Verifique se existe relação entre a eficacia da quimioterapia e o tipo de câncer, ao nível de significância de 5%.

		Reação
Câncer	Pouca	Média	Alta
Tipo I	51	33	16
Tipo II	58	29	13

tabela_cancer = np.array([51, 33, 16, 58, 29, 13]).reshape(2,3)
tabela_cancer

array([[51, 33, 16],[58, 29, 13]])

chi2_contingency(tabela_cancer)

(1.0179506281189088, 0.6011112135514984, 2, array([[54.5, 31. , 14.5],[54.5, 31. , 14.5]]))

Como p-valor = 0.6011 é maior que o nível de significância, não rejeitamos a hipótese nula. Ou seja, há evidências de que o efeito da quimioterapia é igual para os dois tipos de câncer observados.

Teste de Independência

Agora considere que cada indivíduo da amostra será classificado conforme duas variáveis qualitativas. Em comparação ao teste de Homogeneidade, e simplificando o entendimento, ao invés de L populações, teremos uma população que pode ser classificada de L formas diferentes.

Para este teste teremos as seguintes hipóteses:

$H_{0} : p_{i, j} = p_{i,\cdot}\cdot p_{\cdot,j}$, para todo $i = 1, …, L$ e $j = 1, …, C$

$H_1: \exists \, i, j \ , \text{tais que} \, p_{i,j} \neq p_{i,\cdot} \cdot p_{\cdot,j}, \, \text{com } i \in \{1, \dots, L\}, \, j \in \{1, \dots, C\}$

Onde $p_{i,j}$ é a probabilidade do indivíduo ser classificado como $i$ e $j$ simultaneamente e $p_{i,\cdot}$ e $p_{\cdot,j}$ as probabilidades dos indivíduos serem classificados como $i$ ou $j$ de forma separada, respectivamente.

sob $H_0$ temos que:

$\chi^2 = \displaystyle\sum_{i=1}^r \displaystyle\sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$

E o p-valor é calculado da seguinte forma:

Todo desenvolvimento do cálculo será igual ao teste de Homogeneidade, mas a interpretação do problema será diferente, assim como as hipóteses.

Exemplo

Agora, o médico gostaria de avaliar se a reação à quimioterapia independe do tipo de câncer do paciente. Para tanto, foram selecionados 180 pacientes que fazem tratamento de câncer com quimioterapia e suas informações foram dispostas na tabela abaixo. Verifique se “Tipo de câncer” e “Eficacia da quimioterapia” são variáveis independentes, ao nível de significância de 5%.

		Reação
Câncer	Pouca	Média	Alta
Tipo III	38	32	30
Tipo IV	26	38	16

tabela_cancer = np.array([38, 32, 30, 26, 38, 16]).reshape(2,3)
tabela_cancer

array([[38, 32, 30],[26, 38, 16]])

chi2_contingency(tabela_cancer)

(4.862969720496892, 0.08790620719349594, 2, array([[35.55555556, 38.88888889, 25.55555556], [28.44444444, 31.11111111, 20.44444444]]))

Como p-valor = 0.0879 é maior que o nível de significância, não rejeitamos a hipótese nula. Ou seja, há evidências de que “Tipo de câncer” e “Eficacia da quimioterapia” são variáveis independentes.

Referências

Casella, G. e Berger, R. L. Inferência estatística. Cengage Learning, 2010.
Pauli Virtanen, Ralf Gommers, Travis E. Oliphant, Matt Haberland, Tyler Reddy, David Cournapeau, Evgeni Burovski, Pearu Peterson, Warren Weckesser, Jonathan Bright, Stéfan J. van der Walt, Matthew Brett, Joshua Wilson, K. Jarrod Millman, Nikolay Mayorov, Andrew R. J. Nelson, Eric Jones, Robert Kern, Eric Larson, CJ Carey, İlhan Polat, Yu Feng, Eric W. Moore, Jake VanderPlas, Denis Laxalde, Josef Perktold, Robert Cimrman, Ian Henriksen, E.A. Quintero, Charles R Harris, Anne M. Archibald, Antônio H. Ribeiro, Fabian Pedregosa, Paul van Mulbregt, and SciPy 1.0 Contributors. (2020) SciPy 1.0: Fundamental Algorithms for Scientific Computing in Python. Nature Methods, in press.
Seabold, Skipper, and Josef Perktold. “statsmodels: Econometric and statistical modeling with python.” Proceedings of the 9th Python in Science Conference, 2010.
Stéfan van der Walt, S. Chris Colbert and Gaël Varoquaux. The NumPy Array: A Structure for Efficient Numerical Computation, Computing in Science & Engineering, 2011.
John D. Hunter. Matplotlib: A 2D Graphics Environment, Computing in Science & Engineering, 2007.
Wes McKinney. Data Structures for Statistical Computing in Python, Proceedings of the 9th Python in Science Conference, 2010.
Velarde, L. G. C. CAVALIERE, Y. F. Apostila Inferência Estatística. Departamento de Estatística. Universidade Federal Fluminense
FARIAS, A. M. L. Apostila de Estatística II. Departamento de Estatística. 2017. Universidade Federal Fluminense.