departamento de informática em saúde universidade federal de são paulo – unifesp unifesp...
TRANSCRIPT
Departamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
MÉTODOS QUALITATIVOSMÉTODOS QUALITATIVOSESTATISTICA NÃO - PARAMÉTRICAESTATISTICA NÃO - PARAMÉTRICA
São Paulo, 01 novembro de 2007São Paulo, 01 novembro de 2007
Orientador: Prof. Dr. Daniel Sigulem
Ana Paula Nunes Peixoto
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 2
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
Sumário• Introdução• Métodos Não Paramétricos• O método Kolmogorov - Smirnov• Exemplo• Resolução• Conclusão• Bibliografia
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 3
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a distribuição subjacente aos dados.
Vantagens dos testes não paramétricos:
Se a dimensão da amostra e muito pequena, pode não haver alternativa senão o recurso a testes não paramétricos, a não ser que a distribuição exata da população seja conhecida.
Os testes não paramétricos requerem usualmente poucos pressupostos acerca dos dados e podem ser mais relevantes
para uma determinada situação.
Métodos Não Paramétricos
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 4
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
O Método Kolmogorov -Smirnov
O teste de Kolmogorov-Smirnov avalia se duas amostras tem distribuições
semelhantes, ou melhor dizendo, se foram extraídas de uma mesma população. Se
apresentarem grandes diferenças provavelmente estas não se devem ao acaso. É um teste que
detecta diferenças em relação à tendência central, dispersão e simetria.
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 5
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
Suponha que um pesquisador esteja interessado na confirmação
experimental da observação sociológica, de que os negros americanos
aparentam demonstrar uma hierarquia de preferências em relacão a
tonalidade de pele. Para comprovar o quanto sistemáticas são essas
preferências, o pesquisador tira uma fotografia de cada 1 entre 10
indivíduos negros. O fotógrafo revela essas fotografias e obtem 5
cópias de cada uma de modo que cada copia difira ligeiramente das
outras em tonalidade, podendo, pois ser classificadas em 5 tipos, desde
a mais clara ;
Filho, UD. Introdução à Bioestatística. 9ªed. São Paulo: Elsevier; 1999.
Exemplo do teste de K-S
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 6
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
Exemplo do teste de K-S
até a mais escura. Em cada caso a posição mais escura é atribuido o posto 1 e assim sucessivamente ate o posto 5 a mais clara. Pede-se então a cada individuo que escolha uma dentre as 5 cópias de sua propria foto. Se os individuos forem indiferentes em relacão a tonalidade da cor da pele, a escolha deverá recair igualmente sobre os cinco postos( com excessão é claro, de diferenças aleatórias).
Se, por outro lado, a cor tiver importancia, tal como supomos, entao os diversos individuos deverao consistentemente manifestar preferencia por um dos postos extremos.
1. Hipotese de Nulidade: Ho Não há diferencas no numero esperado de escolhas para cada um dos 5 postos, e quaisquer diferencas observadas serao simplesmente variacoes aleatorias da populacao retangular em que f1 = f2 =...... Fs. H1: as frequencias f1, f2, .....fs não são iguais.
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 7
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
Exemplo do teste de K-S
Prova estatística: Escolhe – se a prova K-S de uma amostra porque o pesquisador deseja comparar uma distribuicão observada de escores em escala ordinal, com uma distribuicão teórica.
Nível de Significância: Seja α = 0,01. N = número de indivíduos que se submeteram ao estudo 10.
Distribuição amostral: A Tabela de valores Críticos de D(1) apresenta vários valores críticos de D da distribuição amostral, juntamente com suas probabilidades associadas de ocorrência sob Ho.
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 8
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
Exemplo do teste de K-S
Região de rejeição: A região de rejeição consiste de todos os valores de D, calculados pela fórmula, tão grandes que a
probabilidade associada a sua ocorrência sob Ho seja ≤ α = 0,01.
Tabela: Preferências hipotéticas de 10 indivíduos negros em relacão a tonalidade de pele
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 9
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
Tabela 1 – Método K-S Posto da Foto Escolhida
(1 = Posto da mais escura)
1 2 3 4 5
f= número de indivíduos que escolheram o posto 0 1 0 5 4
Fo(x)= Distribuição Teórica acumulada das Escolhas, Segundo Ho 1\5 2\5 3\5 4\5 5\5
S10 (X) = Distribuição acumuladaobservada das escolhas 0\10 1\10 1\10 6\10 10\10
l Fo (X) - S10 (X) l 2\10 3\10 5\10 2\10 0
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 10
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
Exemplo do teste de K-STamanho da Amostra Nivel de Significancia para D= Maximo l Fo (X) - SN (X) l
(N) 0,20 0,15 0,10 0,05 0,01
1 0,900 0,925 0,950 0,975 0,995
2 0,684 0,726 0,776 0,842 0,929
3 0,565 0,597 0,642 0,708 0,828
4 0,494 0,525 0,564 0,624 0,733
5 0,446 0,474 0,510 0,565 0,669
6 0,410 0,436 0,470 0,521 0,618
7 0,381 0,405 0,438 0,486 0,577
8 0,358 0,381 0,411 0,457 0,543
9 0,339 0,360 0,388 0,432 0,514
10 0,322 0,342 0,368 0,410 0,490
11 0,307 0,326 0,352 0,391 0,468
12 0,295 0,313 0,338 0,375 0,450
13 0,284 0,302 0,325 0,361 0,433
14 0,274 0,292 0,314 0,349 0,418
15 0,266 0,283 0,304 0,338 0,404
16 0,258 0,274 0,295 0,328 0,392
17 0,250 0,266 0,286 0,318 0,381
18 0,244 0,259 0,278 0,309 0,371
19 0,237 0,252 0,272 0,301 0,363
20 0,231 0,246 0,264 0,294 0,356
25 0,210 0,220 0,240 0,270 0,320
30 0,190 0,200 0,220 0,240 0,290
35 0,180 0,190 0,210 0,230 0,270
Mais de 35 1,07/√N 1,14/√N 1,22/√N 1,36/√N 0,63/√N
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 11
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
K-S – O Processo
Especificar a função acumulada teórica, isto é, a distribuição acumulada Ho.
Dispor os escores observados em uma distribuição cumulativa, fazendo corresponder cada intervalo de SN(x) com o intervalo comparável de Fo(X).
Para cada posto da distribuição cumulativa, subtrair SN(x) de Fo (x).
Por meio da fórmula ( D = máximo ( Fo(X) – SN(X)) Mediante referência a Tabela, determinar a probabilidade bilateral associada a ocorrência, sob Ho, de valores tão grandes quanto o valor observado D. Se o valor p correspondente é igual, ou inferior, a α, rejeitar Ho.
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 12
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
K-S – O Processo
Observe-se que fo(X) e a distribuição acumulada teórica, sob Ho, onde Ho e a hipótese de que cada uma das 5 cópias tenha precisamente 1/5 das preferências. S10(X) e a distribuição acumulada das frequências observadas das escolhas dos 10 individuos. A linha inferior da tabela de preferências hipotéticas da o valor absoluto do desvio de cada valor amostral em relacao ao correspondente valor teórico. Assim, o primeiro desvio absoluto é2/10, que se obtém subtraindo 0 de 1/5.
A simples inspeção da linha inferior da tabela de preferencias hipotéticas, revela que o valor de D para esses dados é 5/10 = 0,500. E a Tabela de valores críticos indica que, para N=10, D ≥0,500 tem probabilidade associada, sob Ho, p >0,01. Como o p associado ao valor observado de D é menor do que α = 0,01, nossa decisão neste estudo será rejeitar Ho em favor de H1.
UNIFESPM
ET
OD
O K
OL
MO
GO
RO
V-S
MIR
NO
V
[email protected] Luís G.G. Silveira, Vladimir C. Pinto, Thiago M. Costa 13
UNIFESPDepartamento de Informática em SaúdeUniversidade Federal de São Paulo – UNIFESP
UNIFESP
Conclusão do Teste
Conclui-se que os indivíduos demonstram significativa preferência em relacão as tonalidades de cor.