introdução à análise de dados ii · estatísticas descritivas de proficiência, por horas de...
TRANSCRIPT
![Page 1: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/1.jpg)
Introdução à Análise de
Dados II
Clécio S. Ferreira
UFJF – Departamento de Estatística
2013
![Page 2: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/2.jpg)
Roteiro
1. Introdução
2. Relações entre variáveis
3. Regressão
4. Testes de Hipóteses
5. Introdução à Probabilidade
![Page 3: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/3.jpg)
Introdução
![Page 4: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/4.jpg)
Introdução
• Apresentação do professor
• Objetivo e ementa da disciplina
![Page 5: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/5.jpg)
Variáveis
- Qualquer característica associada a uma
população
- Classificação de variáveis:
Quantitativa
Qualitativa Nominal Sexo, cor dos olhos
Ordinal Classe social, grau de instrução
Contínua
Discreta
Peso, altura, salário
Número de filhos, nº de carros
![Page 6: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/6.jpg)
Análise Bivariada
![Page 7: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/7.jpg)
Duas variáveis Qualitativas
• Tabelas de Frequências cruzadas
• Gráficos de Barras
• Medidas de Associação
![Page 8: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/8.jpg)
Exemplo:
Quantas horas por semana você trabalha? * Você se considera: Crosstabulation
8208 4944 726 929 243 15050
54,5% 32,9% 4,8% 6,2% 1,6% 100,0%
67,2% 61,1% 59,1% 67,5% 58,3% 64,5%
1086 907 150 142 53 2338
46,4% 38,8% 6,4% 6,1% 2,3% 100,0%
8,9% 11,2% 12,2% 10,3% 12,7% 10,0%
1968 1450 221 214 76 3929
50,1% 36,9% 5,6% 5,4% 1,9% 100,0%
16,1% 17,9% 18,0% 15,6% 18,2% 16,8%
959 786 131 91 45 2012
47,7% 39,1% 6,5% 4,5% 2,2% 100,0%
7,8% 9,7% 10,7% 6,6% 10,8% 8,6%
12221 8087 1228 1376 417 23329
52,4% 34,7% 5,3% 5,9% 1,8% 100,0%
100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
Não trabalho
Menos de 20
horas por semana
Entre 20 e 44
horas por semana
Mais de 44 horas
por semana
Quantas
horas por
semana você
trabalha?
Total
Branco Pardo/Mulato Negro Amarelo Indígena
Você se considera:
Total
![Page 9: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/9.jpg)
Gráfico de Barras (1)
![Page 10: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/10.jpg)
Gráfico de Barras (2)
![Page 11: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/11.jpg)
Medidas de Associação para Variáveis
Nominais
• Qui-quadrado (estatística)
Positiva
problema: cresce com o tamanho da amostra;
𝑿𝟐 =
(𝑶𝒊𝒋 − 𝑬𝒊𝒋)𝟐
𝑬𝒊𝒋
𝒌
𝒋=𝟏
𝒓
𝒊=𝟏
,
𝑬𝒊𝒋 =𝒏𝒊.𝒏.𝒋
𝑵, 𝒏𝒊.: 𝒕𝒐𝒕𝒂𝒍 𝒅𝒂 𝒍𝒊𝒏𝒉𝒂 𝒊; 𝒏.𝒋: 𝒕𝒐𝒕𝒂𝒍 𝒅𝒂 𝒄𝒐𝒍𝒖𝒏𝒂 𝒋.
𝑶𝒊𝒋: 𝒇𝒓𝒆𝒒𝒖ê𝒏𝒄𝒊𝒂 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒂 𝒏𝒂 𝒄é𝒍𝒖𝒍𝒂 𝒊, 𝒋 (𝒍𝒊𝒏𝒉𝒂 𝒊; 𝒄𝒐𝒍𝒖𝒏𝒂 𝒋.
![Page 12: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/12.jpg)
Coeficiente de Contingência (CC)
• CC vai de 0 a 1, teoricamente (o que permite comparação
entre quaisquer associações).
• Medida mais geral de Associação.
• O coeficiente de contingência (CC) é outra forma de
corrigir o qui-quadrado.
• O problema com o CC é que seu valor máximo depende do
tamanho da tabela.
O valor máximo de CC para uma tabela 2 x 2 é 0.707. O valor
máximo de CC para uma tabela 4 x 4 é 0.87.
Recomenda-se usar Phi ou V de Cramér antes que CC.
![Page 13: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/13.jpg)
Coeficiente Phi
• Phi pode variar de 0 até +1.
• Ela é mais apropriada para tabelas de
contingência 2 x 2.
![Page 14: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/14.jpg)
V de Cramer
• Apropriado para tabelas maiores que 2 x 2,
corrige o qui-quadrado e varia de 0 to +1.
• Para tabelas 2 x 2, V de Cramér é igual a
Phi.
• Unicamente para variáveis NOMINAIS
L: num. min(linhas, colunas)
![Page 15: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/15.jpg)
Symmetric Measures
,072 ,000
,042 ,000
,072 ,000
23329
Phi
Cramer's V
Contingency Coef f icient
Nominal by
Nominal
N of Valid Cases
Value Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null
hypothesis.
b.
Exemplo: Horas de Trabalho versus Raça
Chi-Square Tests
120,740a 12 ,000
23329
Pearson Chi-Square
N of Valid Cases
Value df
Asy mp. Sig.
(2-sided)
0 cells (,0%) hav e expected count less than 5. The
minimum expected count is 35,96.
a.
![Page 16: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/16.jpg)
Medidas de Associação para variáveis
ordinais
• Ganho em relação às medidas nominais: Direção
de associação; relação mais forte, pois leva em
conta medida da variável (ORDINAL).
• MEDIDAS SIMÉTRICAS (baseadas em pares
concordantes e discordantes): não fazem distinção
entre variáveis dependentes e independentes
• MEDIDAS DIRECIONAIS (assume uma das
variáveis como dependente e vice-versa):
SOMER'S D (D de SOMER)
![Page 17: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/17.jpg)
Medidas Ordinais
• Correlação de Spearman
• Gamma
• Tau-c de Kendall
• Tau-b de Kendall (mais indicado)
![Page 18: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/18.jpg)
Outras medidas direcionais
• Coeficiente de Incerteza
• Lambda
• Tau de Goodman & Kruskal
![Page 19: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/19.jpg)
Exemplo: Escolaridade do Pai versus Horas de
Trabalho
Até que série seu pai estudou? * Quantas horas por semana você trabalha? Crosstabulation
933 275 456 310 1974
47,3% 13,9% 23,1% 15,7% 100,0%
6,8% 13,1% 12,9% 17,4% 9,4%
3164 796 1505 855 6320
50,1% 12,6% 23,8% 13,5% 100,0%
23,1% 37,9% 42,6% 48,0% 30,0%
2077 381 648 348 3454
60,1% 11,0% 18,8% 10,1% 100,0%
15,2% 18,1% 18,4% 19,5% 16,4%
3511 397 613 203 4724
74,3% 8,4% 13,0% 4,3% 100,0%
25,7% 18,9% 17,4% 11,4% 22,4%
3995 251 308 67 4621
86,5% 5,4% 6,7% 1,4% 100,0%
29,2% 12,0% 8,7% 3,8% 21,9%
13680 2100 3530 1783 21093
64,9% 10,0% 16,7% 8,5% 100,0%
100,0% 100,0% 100,0% 100,0% 100,0%
Nunca estudou
Ensino Fundamental
de 1ª a 4ª série
Ensino Fundamental
de 5ª a 8ª série
Ensino Médio
Faculdade (Ensino
Superior)
Até que série
seu pai
estudou?
Total
Não trabalho
Menos de
20 horas por
semana
Entre 20 e
44 horas por
semana
Mais de 44
horas por
semana
Quantas horas por semana v ocê trabalha?
Total
![Page 20: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/20.jpg)
Exemplo: Escolaridade do Pai versus
Horas de Trabalho
Directional Measures
-,264 ,005 -50,167 ,000
-,324 ,006 -50,167 ,000
-,223 ,004 -50,167 ,000
Sy mmetric
Até que série seu pai
estudou? Dependent
Quantas horas por
semana você
trabalha? Dependent
Somers' dOrdinal by Ordinal
Value
Asy mp.
Std. Errora
Approx. Tb
Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null hypothesis.b.
Symmetric Measures
,305 ,000
-,269 ,005 -50,167 ,000
-,231 ,005 -50,167 ,000
-,411 ,008 -50,167 ,000
-,314 ,006 -47,988 ,000c
-,307 ,006 -46,798 ,000c
21093
Contingency Coef f icientNominal by Nominal
Kendall's tau-b
Kendall's tau-c
Gamma
Spearman Correlation
Ordinal by Ordinal
Pearson's RInterv al by Interval
N of Valid Cases
Value
Asy mp.
Std. Errora
Approx. Tb
Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null hypothesis.b.
Based on normal approximation.c.
![Page 21: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/21.jpg)
Variável Quantitativa versus Qualitativa
• Gráficos: Box-plot, Histogramas e Ramo-e-
Folhas:
• Podem ser utilizados para comparações entre
diferentes grupos de dados
• Medidas resumo: Estatísticas descritivas
para cada categoria do grupo (médias,
medianas, desvios-padrão, etc.
![Page 22: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/22.jpg)
Box-plot de Proficiência, por Horas de
trabalho, 3ª EM, Matemática
![Page 23: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/23.jpg)
Histogramas de Proficiência, por Horas
de trabalho, 3ª EM, Matemática
![Page 24: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/24.jpg)
Estatísticas Descritivas de Proficiência,
por Horas de trabalho, 3ª EM, Matemática
Statistics
PROFIC
1915 142285 29750 55612 31993
0 0 0 0 0
247,2303 291,2813 262,2107 270,3457 268,2805
47,90209 60,59567 48,42710 46,36295 48,16771
393,85 471,39 451,70 433,99 431,39
207,2467 245,2012 223,7307 232,9810 231,7239
232,6931 283,8920 252,0079 269,3548 267,8545
282,3804 331,7499 294,3062 304,0934 299,2855
Valid
Missing
N
Mean
Std. Dev iation
Maximum
25
50
75
Percent iles
. Não trabalho
Menos de 20
horas por semana
Entre 20 e 44
horas por semana
Mais de 44 horas
por semana
Quantas horas por semana v ocê trabalha?
![Page 25: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/25.jpg)
Duas Variáveis Quantitativas
• Gráfico: Diagrama de Dispersão
• Gráfico de pares ordenados por elementos da
amostra (indivíduos)
• É a maneira mais simples de se estudar a relação
entre duas variáveis quantitativas
• Objetivo:
Ocorrência de tendências (lineares ou não)
Agrupamentos de uma ou mais variáveis
Mudanças de variabilidade de uma variável em relação à
outra
Ocorrência de valores atípicos (‘outliers’)
![Page 26: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/26.jpg)
Exemplo de Correlação (P)
![Page 27: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/27.jpg)
Exemplo de Correlação (N)
![Page 28: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/28.jpg)
Exemplo de Correlação (0)
![Page 29: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/29.jpg)
Exemplo
• Altura (cm) e peso (kg) de crianças até 1 ano
Altura Peso
52 2,95
50 3,15
62 4,58
63 6,50
55 3,50
72 9,50
75 10,13
69 8,57
65 7,10
64 5,60
66 6,90
61 4,50
57 4,30
67 7,89
50 55 60 65 70 75
34
56
78
91
0
Altura
Pe
so
![Page 30: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/30.jpg)
Peso e Altura
• Qual a relação entre o peso e a estatura das
pessoas?
• Percebem-se ‘clusters’ no conjunto de
dados?
• Há diferenças na variabilidade de uma
variável, considerados os valores da outra?
• Há valores atípicos?
![Page 31: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/31.jpg)
Relação entre consumo de proteínas e
natalidade
• Qual relação entre as variáveis?
Pais Consumo de Proteínas Coeficiente de Natalidade
Formosa 4,7 45,6
Malásia 7,5 39,7
Índia 8,7 33,0
Japão 9,7 27,0
Iuguslávia 11,2 25,9
Grécia 15,2 23,5
Itália 15,2 23,4
Bulgária 16,8 22,2
Alemanha 37,3 20,0
Irlanda 46,7 19,1
Dinamarca 56,1 18,3
Austrália 59,9 18,0
Estados Unidos 61,4 17,9
Suécia 62,6 15,0
![Page 32: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/32.jpg)
10 20 30 40 50 60
15
20
25
30
35
40
45
Consumo Proteínas vs Natalidade
Consumo diário de proteínas (g)
Co
eficie
nte
de
na
talid
ad
e
![Page 33: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/33.jpg)
Exemplo
• Interpretação?
![Page 34: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/34.jpg)
• Leituras gráficas
![Page 35: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/35.jpg)
Correlação
• Correlação Positiva:
Se ambas as variáveis crescem no mesmo sentido
• Correlação Negativa:
Se as variáveis crescem em sentidos opostos
• Correlação significativa indica apenas associação
linear entre as variáveis
NÃO INDICA RELAÇÃO DE CAUSALIDADE
![Page 36: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/36.jpg)
Coeficiente de Correlação
• Como quantificar a correlação entre as
variáveis?
Grau de associação
![Page 37: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/37.jpg)
Coeficiente de Correlação de Pearson
• O numerador mede o total da concentração
de pontos pelos quatro quadrantes
• Dá origem uma medida bastante usada
• (notem que n-1 se elimina)
YYXX
XY
n
i
i
n
i
i
n
i
ii
SS
S
yyn
xxn
yyxxn
r
1
2
1
2
1
)(1
1)(
1
1
))((1
1
![Page 38: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/38.jpg)
Notação
: i-ésimo valor observado da variável x
: i-ésimo valor observado da variável y
: média dos valores observados da
variável x (média amostral)
: média dos valores observados da
variável y (média amostral)
ix
x
iy
y
![Page 39: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/39.jpg)
Propriedades de r
• Mede a intensidade de relacionamento linear
• r é adimensional e – 1 ≤ r ≤ 1
r = 1 ou -1 correlação linear perfeita
r = 0 correlação linear nula
• O valor de r não é afetado pela escolha de x
ou y.
![Page 40: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/40.jpg)
Propriedades de r
• A conversão da escala de qualquer das
variáveis não altera o valor de r
• O valor de r não é alterado com a permutação
de valores de x e y.
![Page 41: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/41.jpg)
Diagramas de Dispersão (1)
![Page 42: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/42.jpg)
Diagramas de Dispersão (2)
![Page 43: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/43.jpg)
Diagramas de Dispersão (3)
![Page 44: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/44.jpg)
Existe uma relação de dependência NÃO –LINEAR
entre as variáveis.
X
X^
2
1050-5-10
100
80
60
40
20
0
r = 0,0
![Page 45: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/45.jpg)
Exemplo – Hábito de Fumar
• Dados sobre hábito de fumar entre homens e
mortalidade por câncer de pulmão, na Inglaterra:
Fonte: The Data and Story Library
http://lib.stat.cmu.edu/DASL/
Índice de mortalidade: razão da taxa de mortes sobre a
taxa global de mortes (por câncer de pulmão).
Índice de fumo: razão do número médio diário de
cigarros fumados sobre a média global de cigarros.
![Page 46: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/46.jpg)
Índice de fumo
Índ
ice
de
mo
rta
lida
de
14013012011010090807060
150
125
100
75
50
Hábito de Fumar vs. Câncer de Pulmão
Por grupo ocupacional
r = 0,716
• Percebe-se uma correlação positiva entre
as duas variáveis.
![Page 47: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/47.jpg)
Exemplo
• Relação entre taxa de metabolismo e massa
![Page 48: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/48.jpg)
• Evidências empíricas:
Associação linear e positiva
Associação mais forte entre a mulheres
6560555045403530
2000
1800
1600
1400
1200
1000
Massa (kg)
Ta
xa
Me
tab
olis
mo
(ca
l)
F
M
Sexo
r=0.87
rM=0.59
rF=0.88
![Page 49: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/49.jpg)
• Valores médios dos grupos
MTB > describe c3 c4;
SUBC> by c2;
SUBC> stdev;
SUBC> mean.
Descriptive Statistics: Massa; Taxa Variable Sexo Mean StDev
Massa F 43,03 6,87
M 53,10 6,69
Taxa F 1235,1 188,3
M 1600,0 189,2
• Evidências empíricas:
Variabilidade semelhante entre os grupos;
Poucos homens com peso menor, poucas mulheres com peso
maior
Possíveis influências na correlação:
– Peso;
– Sexo;
– Variável não apresentada
![Page 50: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/50.jpg)
Correlação – Erros Comuns
• Causalidade:
Uma correlação forte (r vizinho de +1 ou –1)
não implica uma relação de causa e efeito.
O fato de duas grandezas tenderem a variar no
mesmo sentido não implica a presença de
relacionamento causal entre elas.
![Page 51: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/51.jpg)
Correlação e Causalidade
Perguntas pertinentes, no caso de correlação
significante entre as variáveis:
• Há uma relação de causa e efeito entre as
variáveis? (x causa y? ou vice-versa)
Ex.: Relação entre gastos com propaganda e
vendas
É razoável concluir que mais propaganda
resulta mais vendas
![Page 52: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/52.jpg)
Correlação e Causalidade (2)
• É possível que a relação entre duas
variáveis seja uma coincidência?
Ex.: Obter uma correlação significante entre
o número de espécies animais vivendo em
determinada área e o número de pessoas
com mais de 2 carros, não garante
causalidade
É bastante improvável que as variáveis
estejam diretamente relacionadas.
![Page 53: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/53.jpg)
Correlação e Causalidade (3) • É possível que a relação das variáveis tenha sido
causada por uma terceira variável (ou uma
combinação de muitas outras variáveis)?
Ex: Tempo dos vencedores das provas masculina e
feminina dos 100 m rasos (numa mesma prova)
Os dados tem correlação linear positiva; é
duvidoso dizer que a diminuição no tempo
masculino cause uma diminuição no tempo
feminino;
A relação deve depender de outras variáveis:
técnica de treinamento, clima, etc.
![Page 54: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/54.jpg)
Correlação e Causalidade (4)
• A flutuação de uma 3ª variável faz com que X e
Y variem no mesmo sentido;
Esta 3ª variável é chamada variável intercorrente
(não-conhecida);
A falsa correlação originada pela 3ª variável é
denominada correlação espúria;
![Page 55: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/55.jpg)
Atividade 1
![Page 56: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/56.jpg)
Noções de Regressão
![Page 57: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/57.jpg)
Regressão e Correlação
• Regressão:
Usa variável(eis) explicativa(s) para
explicar ou predizer comportamento de
variável resposta (quando houver
sentido).
• Correlação:
Trata simetricamente duas variáveis
![Page 58: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/58.jpg)
Regressão
• Variável resposta (Y):
Variável resposta cujo comportamento se
quer explicar
• Variável(eis) explicativa(s) (Xi):
São de interesse caso ajudem a entender,
explicar ou predizer o comportamento de Y.
• O enfoque da regressão é natural quando Y é
aleatória e Xi é controlada ou não-aleatória.
![Page 59: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/59.jpg)
• Variável explicativa
• Variável independente
• Regressor
• Preditor
• Variável exógena
• Variável de controle ou
estímulos
• Variável explicada
• Variável dependente
• Regredido
• Predito
• Variável endógena
• Variável resposta
x Y
Algumas Denominações
![Page 60: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/60.jpg)
Exemplo 1 – Peso/Altura de Estudantes
• Variável resposta: Peso (kg)
• Variável explicativa: Altura (cm)
Tendência linear
![Page 61: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/61.jpg)
Exemplo 2 – Absorção de Oxigênio
• Variável resposta: Absorção de Oxigênio
• Variável explicativa: Ventilação
Ventilação
Ab
so
rçã
o d
e O
xig
ên
io
45004000350030002500200015001000500
160
140
120
100
80
60
40
20
0
Tendência
exponencial
![Page 62: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/62.jpg)
Exemplo 3 – Comprimentos de Fígados
• Variável resposta: Comprimento do fígado (mm)
• Variável explicativa: Tempo de gestação (sem.)
Tempo de Gestação (sem.)
Co
mp
rim
en
to d
o f
íga
do
(m
m)
40353025201510
70
60
50
40
30
20
10
Tendência
não-linear
![Page 63: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/63.jpg)
Outros Padrões (2)
Preço ($ 1.000)
Pe
so
(1
.00
0 lb
)
1750015000125001000075005000
5000
4500
4000
3500
3000
2500
2000
Importante descobrir o que define os grupos
![Page 64: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/64.jpg)
Outros Padrões (3)
Comprimento da pétala
La
rgu
ra d
a p
éta
la
7654321
2,5
2,0
1,5
1,0
0,5
0,0
Variedades diferentes de Flores
![Page 65: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/65.jpg)
Modelo de Regressão
• Relação de regressão:
• Tendência + dispersão residual
• Objetivo: Explicar a variação de Y
(resposta) pelas variáveis de X (variáveis
explicativas)
• Valores atípicos:
Observações muito diferentes do restante dos
dados => modelo não consegue ajustar bem
estes dados
![Page 66: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/66.jpg)
Ajuste de Funções
• Tendência linear:
Para cada mudança de uma unidade em X, Y muda
uma quantidade fixa (β1).
• Tendência quadrática:
Tendência levemente curva
• Modelo linear: linear nos parâmetros
• Modelo não-linear: não linearidade nos parâmetros
Ex:
![Page 67: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/67.jpg)
• Tendência exponencial:
Cada mudança de uma unidade em X, Y muda uma
% fixa
Aplicação: Curvas de crescimento
Se a tendência é exponencial, o gráfico de log(Y)
vs X têm tendência linear
XeY 1
0
x
lnY
4,03,53,02,52,01,51,0
9
8
7
6
5
4
3
2
1
x
Y
4,03,53,02,52,01,51,0
4000
3000
2000
1000
0
![Page 68: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/68.jpg)
Tipos de Regressão Linear
• Simples:
Uma variável independente (explicativa)
• Múltipla:
Duas ou mais variáveis independentes
(explicativas)
![Page 69: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/69.jpg)
Regressão Linear Simples
• Busca-se a equação de uma reta que permita:
Descrever e compreender a relação entre duas
variáveis
Projetar e estimar uma das variáveis em função da
outra.
ii XY 10
![Page 70: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/70.jpg)
Ajuste da Reta
• Qual a reta que se ajusta melhor aos dados?
ou seja quais os valores de β0 e β1?
X
Y
4,03,53,02,52,01,51,0
9
8
7
6
5
4
3
2
1
![Page 71: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/71.jpg)
Método dos Mínimos Quadrados
• Critério:
Escolher β0 e β1 de maneira a tornar
mínima a distância entre a reta e os
pontos
Valores dos parâmetros que minimizam a
soma dos quadrados dos desvios
2
1
)ˆ(
n
i
ii YY
![Page 72: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/72.jpg)
Método dos Mínimos Quadrados (3)
• Resultados das derivadas parciais:
• Relação com coeficiente de correlação:
221
ˆ
ii
iiii
x xn.
yx yxn. =
xx
xy
S
S = 1̂
XY = 10ˆˆ
X
YXY
X
XY
s
sr
s
s =
21̂
![Page 73: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/73.jpg)
Exemplo
• SAEB 99, 4ª série (Português)
• Variável resposta (Y)
Proficiência em Português
• Variável explicativa:
Nível Socioeconômico
Correlação entre proficiência e NSE Correlations
,442
,000
21510
Pearson Correlation
Sig. (2-tailed)
N
NSE
PROFIC
![Page 74: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/74.jpg)
Regressão Simples: Proficiência por
Nível Socioeconômico
Model Summary
,442a ,195 ,195 41,38873
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), NSEa.
ANOVAb
8926900 1 8926899,602 5211,184 ,000a
36843790 21508 1713,027
45770689 21509
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), NSEa.
Dependent Variable: PROFICb.
Coefficientsa
135,102 ,588 229,959 ,000
3,100 ,043 ,442 72,189 ,000
(Constant)
NSE
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig.
Dependent Variable: PROFICa.
![Page 75: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/75.jpg)
Interpretação
• Inclinação:
• Quando o NSE aumenta 1 unidade, o aumento estimado na proficiência é de 3.1 pontos.
• As estimativas são mais confiáveis dentro do intervalo de X observado (neste caso, 0 < NSE < 34).
• Intercepto-y
• Seria a proficiência média quando a variável X fosse 0.
![Page 76: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/76.jpg)
MRLS – Adicionando uma variável
binária
Model Summary
,454a ,206 ,206 41,11366
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), sexo, NSEa.
ANOVAb
9371166 2 4685582,990 2771,988 ,000a
36112281 21364 1690,333
45483447 21366
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), sexo, NSEa.
Dependent Variable: PROFICb.
Coefficientsa
139,696 ,645 216,600 ,000
3,126 ,043 ,445 73,028 ,000
-9,465 ,563 -,103 -16,815 ,000
(Constant)
NSE
sexo
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig.
Dependent Variable: PROFICa.
![Page 77: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/77.jpg)
Profic. Por NSE e Sexo: Interpretação
• Sexo = 1 (Meninos); 0 (Meninas)
• Controlado o efeito de sexo, o aumento de 1
unidade no NSE aumenta em média 3.1 pontos
na proficiência do aluno.
• Controlado o NSE, as meninas tiram, em
média, 9.5 pontos a MAIS que os meninos.
• MRLS para as meninas
• Profic. = 139.7 + 3.1*NSE
• MRLS para os meninos:
• Profic. = 130.2 + 3.1*NSE
![Page 78: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/78.jpg)
MRLM - Exemplo
• Proficiência dos alunos do 3º EM em
Matemática (sexo: Feminino é a referência)
Coefficientsa
184,787 ,400 462,526 ,000
2,524 ,020 ,274 123,420 ,000
10,949 ,104 ,233 105,150 ,000
12,045 ,206 ,105 58,489 ,000
6,235 ,077 ,144 80,846 ,000
(Constant)
NSE
Escolaridade dos pais
(máxima)
Sexo
Você f az lição de casa
(Nº de horas)?
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardized
Coef f icients
t Sig.
Dependent Variable: PROFICa.
Model Summary
,492 ,242 ,242 49,31996
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
ANOVAb
1,9E+008 4 47890941,70 19688,286 ,000
6,0E+008 246912 2432,459
7,9E+008 246916
Regression
Residual
Total
Model
Sum of
Squares df Mean Square F Sig.
Dependent Variable: PROFICb.
![Page 79: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/79.jpg)
MRLM da Proficiência dos alunos do
3ºEM em Matemática - Interpretação
• Controladas as demais variáveis:
O acréscimo de 1 unidade no NSE, aumenta, em
média, 2.5 pontos na proficiência.
Alunos cujos pais têm maior escolaridade alcançam
melhor desempenho no exame (em média 11 pontos
por nível).
Meninos tiram, em média, 12 pontos a mais na
prova em relação às meninas.
Quanto maior a dedicação às lições de casa, melhor
o desempenho no exame.
![Page 80: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/80.jpg)
MRLM: Qualidade do Ajuste
• R2 (coeficiente de determinação): Proporção
da variação da var. dependente explicada
pela variação da(s) variável(is)
independente(s); 0 < R2 < 1.
• Etapa posterior ao ajuste: verificação dos
pressupostos do modelo (normalidade,
homogeneidade de variância, baixa
correlação entre as variáveis explicativas,
linearidade, outliers, etc.).
![Page 81: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/81.jpg)
Atividade 2
![Page 82: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/82.jpg)
Testes de Hipóteses
![Page 83: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/83.jpg)
Exemplo do Júri
Réu: Pode ser culpado ou inocente
Juiz: dará a sentença: culpado ou inocente.
Hipótese nula: “réu é inocente!”
Erros possíveis:
Erro I: juiz dar a sentença culpado, quando na
verdade o réu é inocente;
Erro II: juiz dar a sentença inocente, quando na
verdade o réu é culpado;
Qual erro é mais grave?
![Page 84: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/84.jpg)
O que é uma Hipótese
Em Estatística, é uma alegação ou afirmação sobre uma característica de uma população.
![Page 85: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/85.jpg)
Componentes de um
Teste de Hipóteses Formal
Hipótese Nula: H0 Afirmação sobre valor de parâmetro
populacional Deve conter a condição de igualdade =, , ou
Testar a Hipótese Nula diretamente
Rejeitar H0 ou não rejeitar H0
![Page 86: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/86.jpg)
Componentes de um
Teste de Hipóteses Formal
Hipótese Alternativa: H1
Deve ser verdadeira se H0 é falsa
, <, >
‘oposto’ da Hipótese Nula.
![Page 87: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/87.jpg)
Hipóteses Nula e Alternativa no MRLM
• No MRLM, ao incluirmos variáveis
explicativas ao modelo, gostaríamos
de saber se (cada) variável é
significativa (contribui para explicar
a variável dependente) ou não. Ou
seja:
• H0: Beta (coeficiente de regressão da
variável) = 0
• H1: Beta ≠ 0
![Page 88: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/88.jpg)
Nota sobre a Indicação de suas Próprias
Afirmações (Hipóteses)
Se você está fazendo uma pesquisa e deseja usar um teste de hipótese para apoiar sua afirmação, esta afirmação deve ser formulada de maneira que se torne a hipótese alternativa (hipótese de pesquisa).
![Page 89: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/89.jpg)
Nota sobre o Teste de Validade de uma
Afirmação Alheia
A afirmação original às vezes se torna a hipótese nula (porque contém a igualdade) e por vezes passa a ser a hipótese alternativa (porque não contém a desigualdade).
![Page 90: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/90.jpg)
Estatística de Teste
um valor baseado nos dados amostras que é
usado para tomar uma decisão sobre a
rejeição da hipótese nula.
Exemplo: para grandes amostras, testando
afirmações sobre médias populacionais
z = x - µ0
n
![Page 91: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/91.jpg)
Nível de Significância
denotado por
é a probabilidade de rejeitar a Hipótese Nula quando ela é verdadeira.
são comuns as escolhas 0,05; 0,01 e 0,10. (É tipicamente predeterminado)
![Page 92: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/92.jpg)
Conclusões no
Teste de Hipóteses
Testar sempre a hipótese nula
1. Rejeitar a hipótese nula H0
2. Não rejeitar a hipótese nula H0
É necessário formular corretamente a conclusão
final.
![Page 93: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/93.jpg)
Aceitar versus Não Rejeitar
alguns textos usam “aceitar a hipótese nula”.
devemos reconhecer que não estamos provando a hipótese nula.
estamos dizendo que a evidência amostral não é forte o suficiente para recomendar a rejeição da hipótese nula (tal como um júri decidir que não há evidência suficiente para condenar um acusado).
![Page 94: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/94.jpg)
Erro Tipo I
O erro de rejeitar a hipótese nula quando ela é verdadeira.
(alfa) é usado para representar a probabilidade de um erro tipo I.
Exemplo: Rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela média é, de fato, 37ºC.
![Page 95: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/95.jpg)
Erro Tipo II
Erro de não rejeitar a hipótese nula quando ela é falsa.
ß (beta) é usado para representar a probabilidade de um erro tipo II.
Exemplo: Não rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela é, de fato, falsa (a média não é 37ºC).
![Page 96: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/96.jpg)
Erros Tipo I e Tipo II
Verdadeiro Estado da Natureza
Decidimos rejeitar
a hipótese nula
Não rejeitamos a
hipótese nula
A hipótese
nula é
verdadeira
A hipótese
nula é
falsa
Erro tipo I
(rejeição de uma
H0 verdadeira)
Erro tipo II
(não rejeição de
uma H0 falsa)
Decisão
correta
Decisão
correta
Decisão
![Page 97: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/97.jpg)
Controle dos Erros Tipo I e Tipo II
Para fixo, um aumento do tamanho n da
amostra ocasiona uma redução de
Para um tamanho n, fixo, de amostra, uma
diminuição de acarreta um aumento de . Reciprocamente, um aumento de acarreta a diminuição de .
Para reduzir e , deve-se aumentar o tamanho da amostra.
![Page 98: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/98.jpg)
Teste de uma Afirmação
sobre uma Média:
Grandes Amostras
![Page 99: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/99.jpg)
Métodos para conclusão dos testes
1) Método do valor P
2) Intervalos de confiança
3) Método Clássico (não será
focado aqui).
* Os três métodos levam à
MESMA conclusão.
![Page 100: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/100.jpg)
Hipóteses para testar afirmações sobre média populacional
1) A amostra é uma amostra aleatória simples.
2) A amostra é grande (n > 30).
a) Aplica-se o Teorema Central do Limite
b) Pode-se usar a distribuição normal
3) Se é desconhecido, podemos utilizar o
desvio-padrão amostral s como uma
estimativa para .
![Page 101: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/101.jpg)
Estatística de Teste para Afirmações sobre µ quando n > 30
x - µ0 z =
n
Teste de Hipóteses para uma Média
![Page 102: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/102.jpg)
Afirmação: = $ 8.390
H0 : = $ 8.390
H1 : $ 8.390
Exemplo: O Departamento de Agricultura alega que o custo
para se criar uma criança (até 2 anos) é US$ 8.390. Seleciona-se uma amostra com 900 crianças com 2 anos e determina-se que o custo médio é $ 8.275, com desvio-padrão 1.540. Teste a afirmação do Departamento ao nível de significância de 0,05.
Passos:
1,2,3) Identificar a Afirmação, H0, H1
4) Selecionar, se necessário, o nível :
= 0,05
![Page 103: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/103.jpg)
Método do Valor P
para o Teste de Hipóteses
O procedimento encontra a probabilidade
(Valor P ou p-valor) de obter um resultado e
rejeita-se a hipótese nula se esta
probabilidade é muito baixa (menor que o
nível de significância adotado).
Valor P: é a probabilidade de obter um valor da estatística amostral de teste no mínimo tão extremo como o que resulta dos dados amostrais, na suposição de a hipótese nula ser verdadeira.
![Page 104: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/104.jpg)
Resultados amostrais
incomuns.
Diferença significante da
hipótese nula.
Valores P pequenos
(tais como 0,05 ou
menor)
Valor P Interpretação
Os resultados
amostrais não são
incomuns.
Não é uma diferença
significante da
hipótese nula.
Valores P grandes
(acima de 0,05 )
![Page 105: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/105.jpg)
Determinação dos Valores P
A
estatística de
teste está à direita ou
à esquerda do
centro
?
Valor P = área
à esquerda da
estatística de teste
Valor P = 2 vezes
a área à esquerda
da estatística de teste
Valor P = área
à direita da
estatística de teste
Unilateral esquerdo Unilateral direito
À direita À esquerda
Bilateral
Valor P = 2 vezes
a área à direita
da estatística de teste
Que
tipo de teste
?
µ µ µ µ Estatística de teste Estatística de teste Estatística de teste Estatística de teste
Início
![Page 106: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/106.jpg)
Intervalos de Confiança (IC)
• Uma estimativa intervalar de um parâmetro
populacional contém os valores prováveis
daquele parâmetro, calculado a partir de
uma amostra.
• Exemplo: IC para a média populacional, sob
normalidade:
𝑰𝑪𝟎,𝟗𝟓 𝝁 = 𝑿 − 𝟏. 𝟗𝟔
𝝈
𝒏, 𝑿 + 𝟏. 𝟗𝟔
𝝈
𝒏
![Page 107: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/107.jpg)
Conclusão a partir de IC
Se o Intervalo de Confiança obtido através da
amostra contiver o parâmetro testado, não
rejeitamos H0; caso contrário, se o IC não
contiver o parâmetro, rejeitamos H0.
![Page 108: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/108.jpg)
Teste de uma Afirmação
sobre uma Média:
Pequenas Amostras
![Page 109: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/109.jpg)
Hipóteses
* para testar afirmação sobre média populacional
1) A amostra é uma amostra aleatória simples.
2) A amostra é pequena (n 30).
3) O valor do desvio-padrão populacional é desconhecido.
4) A população original tem distribuição essencialmente normal.
![Page 110: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/110.jpg)
Estatística de Teste
Valores Críticos Valores tabelados Distribuição t de
Student.
Graus de liberdade = n -1.
Valores t críticos à esquerda da média são negativos; à direita, positivos.
t = x -µx
s n
![Page 111: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/111.jpg)
Propriedades Importantes da
Distribuição t de Student
1. A distribuição t de Student é diferente para cada tamanho de amostra.
2. A distribuição t de Student tem a mesma forma geral de sino da distribuição normal. Sua forma mais aberta reflete a maior variabilidade esperada em pequenas amostras.
3. A distribuição t de Student tem média t = 0 (tal como a distribuição normal padronizada que tem média z = 0).
4. O desvio-padrão da distribuição t de Student varia com o tamanho da amostra, e é maior do que 1 (ao contrário da distribuição normal
padronizada, em que = 1).
5. À medida que o tamanho n da amostra aumenta, a distribuição t de Student se aproxima da distribuição normal. Para valores de n > 30, as diferenças são tão pequenas que podemos usar os valores críticos z em lugar de elaborar uma tabela muito maior de valores críticos de t. (Os valores na base da Tabela A-3 são iguais aos valores críticos z correspondentes da distribuição normal padronizada.)
![Page 112: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/112.jpg)
Escolha entre a Distribuição Normal e a Distribuição t ao Testar uma Afirmação sobre a Média Populacional µ
n > 30?
A distribuição da
população é essencialmente normal ? (Trace um
histograma)
Não
Sim
Sim
Não
Não
é
conhecido
?
Use a distribuição normal com
x - µx
/ n Z
(Se é desconhecido, use s.)
Use métodos não-paramétricos,
que não exijam uma distribuição
normal.
Use a distribuição normal com
x - µx
/ n Z
(Este caso é raro.)
Use a distribuição t de Student
com x - µx
s/ n t
Início
![Page 113: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/113.jpg)
Teste de uma Afirmação
sobre uma Proporção
![Page 114: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/114.jpg)
Hipóteses
para testar afirmação sobre proporção populacional
1) A amostra é uma amostra aleatória simples.
2) São verificadas as condições para um experimento binomial.
3) As condições np 5 e n(1-p) 5 são ambas satisfeitas, de modo que a distribuição binomial das proporções amostrais pode ser aproximada
por uma distribuição normal com µ = np e
= np(1-p)
![Page 115: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/115.jpg)
Notação
p = proporção populacional (usada na
hipótese nula)
q = 1 - p
n = número de provas
p = x/n (proporção amostral)
![Page 116: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/116.jpg)
p - p
pq
n
z =
Estatística de Teste de uma
Afirmação sobre uma Proporção
![Page 117: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/117.jpg)
Inferências com Base em Duas
Amostras
1. Inferências sobre Duas Médias: Amostras Independentes e Grandes
2. Inferências sobre Duas Médias: Amostras Dependentes
![Page 118: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/118.jpg)
1. Inferências sobre Duas Médias:
Amostras Independentes e Grandes
![Page 119: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/119.jpg)
Definições
Duas Amostras: Independentes
• Os valores amostrais escolhidos de uma população não tem qualquer relação com os valores amostrais extraídos da outra população.
Se os valores de uma amostra estão relacionados com os valores de outra amostra, as amostras são dependentes. Estas amostras são freqüentemente chamadas amostras ligadas ou amostras emparelhadas.
![Page 120: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/120.jpg)
Suposições
1. As duas amostras são independentes.
2. Os tamanhos das duas amostras são
grandes. Ou seja, n1 > 30 e n2 > 30.
3. Ambas as amostras são amostras
aleatórias simples.
![Page 121: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/121.jpg)
Teste de Hipóteses
Estatística de Teste para Duas Médias:
Amostras Independentes e Grandes
(x1 - x2) - (µ1 - µ2) z =
n1 n2 +
1. 2
2 2
![Page 122: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/122.jpg)
Teste de Hipóteses
Estatística de Teste para Duas Médias:
Amostras Independentes e Grandes
e Se e não são conhecidos, utilizar em seu
seu lugar s1 e s2 desde que ambas as
amostras sejam grandes.
P-valor: Usar o valor calculado da estatística de teste
z, e determinar o P-valor através do
procedimento já visto.
![Page 123: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/123.jpg)
Exemplo: Coca versus Pepsi Conjunto de dados fornece pesos (em libras) de
amostras de Coca e Pepsi (regulares). As estatísticas amostrais estão mostradas abaixo. Use o nível de significância de 0,01 para testar a afirmação que o peso médio da Coca regular é diferente do peso médio da Pepsi regular.
Coca Pepsi
n 36 36
x 0,81682 0,82410
s 0,007507 0,005701
![Page 124: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/124.jpg)
Coca Versus Pepsi
![Page 125: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/125.jpg)
Afirmação: 1 2
Ho : 1 = 2
H1 : 1 2
= 0,01
Coca Versus Pepsi
Não rejeitar H0 Rejeitar H0 Rejeitar H0
Z = - 2,575 Z = 2,575 1 - = 0
ou Z = 0
![Page 126: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/126.jpg)
Estatística de Teste para Duas Médias:
Amostras Independentes e Grandes
(0,81682 – 0,82410) - 0 z =
36 +
Coca Versus Pepsi
0,0075707 2 0,005701 2
36
= - 4,63
![Page 127: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/127.jpg)
Afirmação: 1 2
Ho : 1 = 2
H1 : 1 2
= 0,01
Coca Versus Pepsi
Não rejeita H0 Rejeita H0 Rejeita H0
Z = - 2,575 Z = 2,575 1 - = 0
ou Z = 0
Dados
amostrais:
z = - 4,63
Rejeita-se a
Hipótese Nula
Há evidência significativa para apoiar a
afirmação que há uma diferença entre os
pesos médios da Coca e da Pepsi.
![Page 128: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/128.jpg)
Intervalos de Confiança
(x1 - x2) - E < (µ1 - µ2) < (x1 - x2) + E
n1 n2 +
1 2 onde E = z
2 2
![Page 129: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/129.jpg)
Inferências sobre Duas Médias:
Amostras Dependentes
![Page 130: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/130.jpg)
Suposições
1. Os dados amostrais consistem de amostras emparelhadas (amostras dependentes de duas populações).
2. As amostras são amostras aleatórias simples.
3. Se o número de pares de dados amostrais é pequeno (n 30), então a população de diferenças dos valores pareados deve ser
aproximadamente normalmente distribuídas.
![Page 131: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/131.jpg)
sd = desvio-padrão das diferenças d para os
dados amostrais emparelhados.
n = número de pares de dados.
µd = média das diferenças d para a
população de dados emparelhados
d = valor médio das diferenças d para os
dados amostrais emparelhados (igual
à média dos valores de x - y )
Notação para Amostras
Dependentes
![Page 132: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/132.jpg)
t = d - µd
sd
n
Estatística de Teste para Dados Amostrais Emparelhados
T com graus de liberdade = n - 1
![Page 133: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/133.jpg)
Valores Críticos
Se n 30, os valores críticos são determinados através da Tabela t de student.
Se n > 30, os valores críticos são determinados através da Tabela Normal.
![Page 134: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/134.jpg)
Intervalos de Confiança
T com graus de liberdade = n -1
d - E < µd < d + E
onde E = t/2 sd
n
![Page 135: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/135.jpg)
Exemplo:
Alturas Relatadas e Medidas (em polegadas) de
Estudantes
Estudante A B C D E F G H I J K L
Altura 68 74 82,25 66,5 69 68 71 70 70 67 68 70
Relatada
Altura 66,8 73,9 74,3 66,1 67,2 67,9 69,4 69,9 68,6 67,9 67,6 68,8
Medida
Diferença 1,2 0,1 7,95 0,4 1,8 0,1 1,6 0,1 1,4 -0,9 0,4 1,2
outlier
Existem diferenças de alturas relatadas e medidas?
![Page 136: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/136.jpg)
Exemplo – Saída do Excel
![Page 137: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/137.jpg)
Teste para Três ou mais Médias
• ANOVA : ANalysis Of VAriance
• Testa se a média de uma variável de interesse se
difere por grupos da população.
• Hipóteses:
As populações têm a mesma variância.
As amostras são retiradas de populações com
distribuição normal.
As amostras são aleatórias e independentes.
Hipótese nula: as médias são iguais
Hipótese alternativa: Pelo menos uma média é
diferente
![Page 138: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/138.jpg)
Tabela ANOVA (I)
• k grupos
• ni: tamanho da amostra i, i =1,...,k; N: n1+...+nK
• Xij: j-ésima replicação da variável de interesse no i-
ésimo grupo
• : média amostral do grupo i, i=1,...,k
• : média geral (ou grande média) de todas as
observações
• SQT= : Soma de Quadrados Total
• SQD= : Soma de Quadrados Dentro
![Page 139: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/139.jpg)
Tabela ANOVA(II)
• SQE = SQT – SQD: Soma de Quadrados Entre
• Tabela:
• Rejeite a hipótese nula se F for MAIOR que o
quantil 1-α de uma distribuição F com k-1 e N-
k graus de liberdade.
Fonte de Variação
Graus de liberdade
Soma de Quadrados
Quadrado Médio
F
Entre k-1 SQE QME=SQE/(k-1) QME/QMD Dentro N-k SQD QMD=SQD/(N-k) Total N-1 SQT
![Page 140: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/140.jpg)
ANOVA - Exemplo
• Médias de Proficiência, SAEB99, 4ª série,
Português, por Raça
Report
PROFIC
179,1829 9169 48,78049
170,4634 7982 43,64761
151,6980 2229 35,28886
175,9971 1041 46,05428
171,1383 755 46,73425
172,5597 21176 46,13448
Você se considera:
Branco
Pardo/Mulato
Negro
Amarelo
Indígena
Total
Mean N Std. Deviation
ANOVA Table
1421195 4 355298,758 172,336 ,000
43647476 21171 2061,663
45068671 21175
Between Groups
Within Groups
Total
PROFIC * Você
se considera:
Sum of
Squares df Mean Square F Sig.
![Page 141: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/141.jpg)
Atividade 3
![Page 142: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/142.jpg)
Referências
![Page 143: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/143.jpg)
Bibliografia
• Magalhães, M.N. e Lima, A.C.P.L. Noções de
Probabilidade e Estatística. Ed. Edusp, 6ª
edição, 2005.
• Wild, C.J. e Seber, G.A.F. (LTC)
Encontros com o Acaso: um Primeiro Curso de
Análise de Dados e Inferência
• Laponi, J.C. Estatística usando Excel. Ed.
Campus, 4ª edição, 2005.
![Page 144: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/144.jpg)
Apêndice
![Page 145: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/145.jpg)
Introdução à Probabilidade
![Page 146: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/146.jpg)
Probabilidades
• Para variáveis categóricas, discretas ou
contínuas
• Varia entre 0 e 1.
• Soma das probabilidades de cada categoria
é igual a 1.
• (integral, no caso contínuo).
![Page 147: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/147.jpg)
Caso discreto
• Se a variável assume valores {x1, x2,...,xn}
(ou infinitos valores discretos):
• Prob(X=xi)=pi
• 0 < pi < 1
• Soma de todos os pi’s = 1
![Page 148: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/148.jpg)
Caso contínuo
• A probabilidade entre 2 pontos é igual à área sob a
curva, entre os dois pontos e o eixo x.
• Probabilidade no ponto é igual a 0
P{5 ≤ X ≤ 8}
![Page 149: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/149.jpg)
Modelo Binomial
• Variável assume dois valores: “sucesso”
(com probab. p) ou “fracasso” (com probab.
1-p) => Distrib. Bernoulli.
• Em n tentativas independentes de Bernoulli:
X: nº de sucessos nas n tentativas.
X tem distrib. Binomial, com parâmetros n e p.
Abrir Binomial.html
Quando o interesse está em modelar uma var.
de Bernoulli => regressão logística.
![Page 150: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/150.jpg)
Modelo Binomial - Exemplo
• Experimento: lançamento de uma moeda.
• Xi: 1, se der cara no i-ésimo lançamento; 0
se coroa
• X: nº de caras em n lançamentos
(independentes) da moeda.
• * Qualquer variável pode-se transformar em
binária.
![Page 151: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/151.jpg)
Outros modelos discretos (1)
• Exemplo:
• X: nº de acidentes em certo dia em certo
cruzamento (Rio Branco com
Independência)
• Valores de X: 0, 1, 2, ...
• Modelo apropriado: Distrib. de Poisson
(distribuição dos eventos raros, baixa
probabilidade de ocorrência)
• Prob (X=k)=e-λ λk/k!
• Parâmetro λ: taxa de sucesso
![Page 152: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/152.jpg)
Outros modelos discretos (2)
• Exemplo:
• X: nº de tentativas até obter o 1º sucesso
(ex, lançamento de uma bola na cesta de
basquete).
• Valores de X: 1, 2, ...
• Modelos apropriado: Distrib. Geométrica
• Prob (X=k)=(1-p)kp, k=1,2,3,...
![Page 153: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/153.jpg)
Modelos Contínuos
• Existem vários:
• Uniforme, Exponencial , Normal, etc.
http://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%B5es_de_probabilidade
Clicar em cada distribuição, para mostrar os
gráficos.
![Page 154: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/154.jpg)
Função Distribuição Acumulada
• F(x)=P(X≤x)
• Caso Discreto:
• Caso contínuo:
𝑭 𝒙 = 𝑷(𝑿 = 𝒙𝒊)
𝒊:𝒙𝒊≤𝒙
𝑭 𝒙 = 𝒇 𝒙 𝒅𝒙𝒙
−∞
![Page 155: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/155.jpg)
Distribuição Normal
![Page 156: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/156.jpg)
Exploração de Dados Univariados
• Faça sempre um gráfico de seus dados
Em geral, ramo-e-folhas ou um histograma
• Procure um padrão global e desvios acentuados
Outliers
• Calcule um resumo numérico para descrever o
centro e a dispersão
• Às vezes, o padrão global de um grande número
de observações é tão regular que pode ser
descrito por uma curva suave
![Page 157: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/157.jpg)
• Curva descreve toda a distribuição em uma
única expressão
Mais fácil para trabalhar
• A curva é um modelo matemático
descrição matemática idealizada
![Page 158: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/158.jpg)
• Áreas das barras em um histograma
representam contagens (ou proporções)
• Área sob a curva é exatamente 1
• Área sob a curva representa proporção de
observações
área = freqüência relativa
![Page 159: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/159.jpg)
Curvas Normais
• É uma classe importante de curvas de
densidade
• Características:
São simétricas, unimodais e tem forma de sino
Descrevem distribuições normais (gaussianas)
![Page 160: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/160.jpg)
Função de Densidade
O gráfico tem o fomato de sino
Parâmetros da distribuição normal:
• Média ()
• Desvio-padrão () ou variância (2)
![Page 161: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/161.jpg)
Características
Simétrica em torno da média ()
• área antes de = área depois de = 0,5
• média = mediana = moda
Varia de – a +
![Page 162: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/162.jpg)
• Parâmetro de locação:
• Parâmetro de escala: (2)
![Page 163: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/163.jpg)
• ** Erro na figura (à direita: +1S,+2S e +3S)
• Áreas de intervalos
± 68%
± 2 95%
± 3 99,7%
![Page 164: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/164.jpg)
Distribuição Normal Padrão
• Z ~ N(0, 1)
Média () = 0
Desvio-padrão () = 1
• Valores de área tabelados
![Page 165: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/165.jpg)
Tabela Normal Padrão (1)
![Page 166: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/166.jpg)
Tabela Normal Padrão (2)
![Page 167: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/167.jpg)
Distribuição Normal – Cálculo de
Probabilidades
• Seja a variável aleatória Z ~ N(0, 1)
Calcule P{Z < – 1,96}
Roteiro:
• Esboce a curva normal
• Trace uma linha para z = – 1,96
• Verifique a área que se deseja calcular
• Determine a área a partir da tabela
![Page 168: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/168.jpg)
Área sob a curva para Z < – 1,96:
![Page 169: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/169.jpg)
P {Z < – 1,96} = 0,0250
Leitura direta na
Tabela
0
![Page 170: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/170.jpg)
Calcule P{– 1,96 < Z < 1,96}
P{– 1,96 < Z < 1,96} = 0,9750 – 0,0250 = 0,9500
0,0250
Tabela:
P{Z<1,96} = 0,9750
0
![Page 171: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/171.jpg)
• Área sob a curva para Z < 1,96
![Page 172: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/172.jpg)
• Calcule P { Z > 1,96}
Tabela:
P{Z<1,96} = 0,9750
1 – 0,9750 = 0,0250
0
![Page 173: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/173.jpg)
• Probabilidade contida em alguns intervalos
Intervalo Proporção
–1 < Z < 1
–2 < Z < 2
–3 < Z < 3
![Page 174: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/174.jpg)
• Determinar x, tal que P{Z > x} = 0,05
P { Z < 1,65} = 0,9505
P {Z < 1,64} = 0,9495
0,0500
x
Tabela: Valor mais próximo de P{Z<x} = 0,9500
x = 1,645 0
![Page 175: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/175.jpg)
Intervalos Simétricos em Torno de Zero
Proporção Intervalo
90%
95%
99%
![Page 176: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/176.jpg)
Outras Distribuições Normais
• Caso Geral:
Média:
Desvio-padrão:
• Transformação:
• Mesmos procedimentos após transformação
(tabela Normal Padrão)
![Page 177: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/177.jpg)
Conversão na Normal Padrão
• P{ < X < x } = P {0 < Z < z }
X Z
![Page 178: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/178.jpg)
Exemplo
• As alturas de mulheres com 18 a 24 anos de
idade é aproximadamente normal com
média 164 cm e desvio-padrão 6,4 cm.
X: altura de mulheres entre 18 e 24 anos (cm)
X ~ N (164, 6,4)
![Page 179: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/179.jpg)
1. Encontre a proporção de mulheres com altura
inferior a 172 cm
![Page 180: Introdução à Análise de Dados II · Estatísticas Descritivas de Proficiência, por Horas de trabalho, 3ª EM, Matemática Statistics PROFIC 1915 142285 29750 55612 31993 0 0](https://reader035.vdocuments.site/reader035/viewer/2022070223/6143fc216cc38f259c25e270/html5/thumbnails/180.jpg)
Padronização
Pela tabela
P { Z < 1,25} = 0,8944
P { X < 100} = 0,8944 = 89,44%
2. Qual o valor de altura que delimita 5% das mulheres
mais altas?