comparação de sistemas usando amostragem de dados
DESCRIPTION
Comparação de Sistemas Usando Amostragem de Dados. por: Tiago A. E. Ferreira. Amostragem vs. População. População. Amostragem. Milhões de números. X 1 , X 2 , ..., X n. Média Desv. Pad. . Média X Desv. Pad. s. Objetivo: Determinar parâmetros a partir das estatisticas. - PowerPoint PPT PresentationTRANSCRIPT
Comparação de Sistemas Usando Amostragem de Dados
por:
Tiago A. E. Ferreira
Amostragem vs. População
Milhões de números
X1, X2, ..., Xn
AmostragemPopulação
Média
Desv. Pad.
Média X
Desv. Pad. s
Objetivo: Determinar parâmetros a partir das estatisticas
Intervalo de Confiança
• Em estatística, inferências (a partir de dados) não são definitivas inquestionáveis: devem ser sempre apresentadas com os intervalos de confiança associados
• Nós apenas medimos os fenômenos do mundo real em observações discretas e generalizamos as conclusões para todo o domínio
• Há sempre um erro ao processo de generalização
Intervalo de Confiança
• P(a b) = 1 - onde: :valor esperado do parâmetro (desconhecido)– (a,b):intervalo de confiança (variável aleatória) : nível de significância– 100(1 - ) nível de confiança– (1 - ) coeficiente de confiança
Métodos para se Determinar o Intervalo de Confiança.
• Quantis de k médias• Teorema Central do Limite (a partir de 1 média)
– Aproximação pela distribuição normal(n30)
– Aproximação pela distribuição t de Student(n<30)
Exemplo: Quantis de 100 Médias a 90% de Nível de Confiança-1
},,,{ 10021 yyy
• Tomam-se 100 amostras {x1 , x2,.., xn} de n exemplos
• Calculam-se as 100 médias • Colocam-se as 100 médias em ordem crescente
• Toma as [1+0,05(100-1)] e [1+(1-0,05)(100-1)]-ésimas médias como limites inferior e superior
},,,,,,,{ 1009695651 yyyyyy a b
Intervalo de Confiança – Distribuição Normal - N(0,1)
• Faz-se a transformação para a normal reduzida N(0,1)
ns
xXZ n
n
• Consulta-se na tabela o quantil z[1-/2] da normal reduzida
• Encontra o intervalo de confiança (a,b)
n
szxn
szxba )21()21( ,),(
Exemplo 1
Suponha uma certa distribuição de pontos que tenha:
x = 3.90
s = 0.95
n = 32
Queremos um intervalo de confiança sobre a média de 90%!
100(1-) = 90 = 0.1
Temos, Z[0.995] = 1.645, o que implica um intervalo de confiança
3295.0645.190.3,
3295.0645.190.317.4,62.3
3.62 3.90 4.17
Intervalo de Confiança – Estatística de t-Stundent
• Faz-se a transformação para a t de Student com graus de liberdade
)(
)1,0(~)(
2
Nt
• Consulta-se na tabela o quantil t[1-/2;] da t de Student
• Encontra o intervalo de confiança (a,b)
n
stxn
stxba nn )1;21()1;21( ,),(
Exemplo 2
Suponha a amostragem: {-0.04, -0.19, 0.14, -0.09, -0.14, 0.19, 0.04, 0.09}. Temos,
x = 0
s = 0.138
n = 8
Queremos um intervalo de confiança sobre a média de 90%!
100(1-) = 90 = 0.1
Temos, t[0.95;7] = 1.895, o que implica um intervalo de confiança
8138.0895.10,
8138.0895.100926.0,0926.0
-0.0926 0 0.0926
Teste de Média Zeromédias
0
Intervalos de Confiança que incluem o zero
Intervalos de Confiança que não incluem o zero
Exemplo 3
A diferença de tempo de processamento para duas diferentes implementações do mesmo algoritmo é dada pela amostragem:
{1.5, 2.6, -1.8, 1.3, -0.5, 1.7, 2.4}
n = 7; x = 1.03; s2 = 2.57 ; s = 1.60
Intervalo de Confiança de 99% : 100(1-) = 99, = 0.01, 1-/2 = 0.995
707.3
27.3,21.1605.003.17
60.103.1
6;995.0
6;995.06;995.0
t
tt
Procedimentos Estatísticos para Comparação de Dois Sistemas
• Observações Emparelhadas Se n experimentos são realizados sobre dois sistemas, e
existe uma relação um para um entre o i-ésimo teste do sistema A e o i-ésimo teste do sistema B, estas observações são ditas emparelhadas
• Observações Não EmparelhadasSe não existir uma correspondência entre as amostras dos sistemas A e B, as observações são ditas não em parelhadas.
Observações EmparelhadasSeis medidas similares foram aplicas a dois sistemas, e obtemos:
{(5.4, 19.1), (16.6, 3.5), (0.6, 3.4), (1.4, 2.5), (0.6, 3.6), (7.3, 1.7)}
Um Sistema é melhor do que o outro?
A diferença de rendimento constitui ma amostragem das seis observações: {-13.7, 13.1, -2.8, -1.1, -3.0, 5.6}
X = -0.32; s = 9.03; IC(90%) = -0.32 t0.95 (3.69), t0.95 = 2.015
IC(90%) = (-7.75, 7.11)
O intervalo de Confiança incluí o zero, desta forma os dois sistemas não são diferentes!
Observações Não Emparelhadas
É necessário realizar uma estimativa da variância e dos graus de liberdade:
Receita: Procedimento teste-t
1) Calcular as médias
b
a
n
iib
bb
n
iia
aa
xn
x
xn
x
1
1
1
1
Observações Não Emparelhadas
2) Calcular os Desvios Padrões:
21
2
1
2
21
2
1
2
1
1
b
bb
n
iib
b
a
aa
n
iia
a
n
xnx
s
n
xnx
s
b
a
Observações Não Emparelhadas
3) Calcula a diferença das médias:
ba xx
4) Calcular o desvio padrão da diferença das médias:
b
b
a
a
n
s
n
ss
22
Observações Não Emparelhadas
5) Calcular o número efetivo de graus de liberdade:
2
11
11 22
222
b
b
ba
a
a
b
b
a
a
ns
nns
n
ns
ns
Observações Não Emparelhadas
6) Calcule o intervalo de confiança para a diferença das médias:
stxx ba ;21
7) Se o intervalo de confiança incluir o zero, a diferença é não significativa em um nível de confiança de 100(1-)%. Se o intervalo de confiança não incluir o zero, então o sinal da diferença das médias indicará qual sistema é o melhor!
Exemplo – Observações não Emparelhadas
O tempo de processador requerido para executar uma tarefa foi medido em dois sistemas:
Sistema A: {5.36, 16.57, 0.62, 1.41, 0.64, 7.26}
Sistema B: {19.12, 3.52, 3.38, 2.50, 3.60, 1.74}
Sistema A:
Média xa = 5.31
Variância sa2 = 37.92
na = 6
Sistema B:
Média xb = 5.64
Variância sa2 = 44.11
nb = 6
Exemplo – Observações não Emparelhadas
Diferença das médias: xa – xb = -0.33
Desvio Padrão para diferença das médias: s =3.698
Número efetivo de graus de liberdade: = 11.921
t[0.95; 12] = 1.71
Intervalo de confiança = (-6.92, 6.26)
O intervalo de confiança inclui o zero! Assim sobre este nível de confiança os sistemas são iguais!
Teste Visual
1) Os CI’s não se sobrepõem, o sistema vermelho é melhor.
2) Os CI’s se sobrepõem e as médias estão dentro do CI do sistema oposto. Os sistemas são iguais!
3) Os CI’s se sobrepõem, mas as médias não estão dentro do CI do sistema oposto. É necessário o procedimento do teste-t!
Intervalo de Confiança Unilateral
Se desejarmos comparar uma grandeza x com um determinado valor, para sabermos, por exemplo, se ela é maior que este valor. Só necessitamos de um lado do intervalo de confiança. Assim, pode-se definir:
n
stxxoux
n
stx nn 1;11;1 ,,
Exemplo – IC Unilateral
O tempo de resposta a um estimulo foi medido para um sistema A e um sistema B.
Sistema No de medidas
Média Desv. Padrão
A 972 124.10 198.20
B 153 141.47 226.11
37.17 ba xx
Procedimento Teste-t:
s = 19.35 = 191.05 ( > 30) z0.90=1.28
IC = (-17.37, -17.37+1.28*19.35) = (-17.37, 7.402)
Intervalos de Confiança para Proporções
Estatística de Dados Categóricos – Probabilidades associada às Categorias. Tais probabilidade são chamadas de proporções!
Dado que n1 das n observação são do tipo 1, o IC para a proporção é dado por:
10,,
1 1
21
npsen
nponde
n
ppzp
Exemplo - ProporçõesUm experimento foi repetido 4 vezes em dois sistemas. O sistema A foi superior Ao sistema B em 26 repetições. O sistema A é superior com uma confiança de 99%?
P = 26/40 = 0.65; s = 0.075 ; z0.995 = 2.576
O que dá um IC = 0.62 (2.576)(0.075) = (0.46, 0.84)
Como o ponto 0.5 pertence ao IC não pode-se afirmar que o Sistema A é superior ao Sistema B com 99% de certeza!
Determinação do Tamanho das Amostras
•Tamanho da amostra para determinação da média:
Se queremos um precisão de r% e um IC de 100(1-)%2
100
1001
xr
zsn
rx
n
szx
•Tamanho da amostra para determinação de proporções:
Se queremos um precisão de r% e um IC de 100(1-)%
2
2 1,
1
r
ppzn
n
ppzprp
Determinação do Tamanho das Amostras
•Tamanho da amostra para IC’s que não se sobrepõem:
84340
006.01006.0960.1006.0
005.01005.0960.1005.0
,
006.01006.0960.1006.0
005.01005.0960.1005.0
22
2
2
n
nn
Assim
nBSistema
nASistema