apostila 11 - estat_descritiva(curso) com minitab

31
1 Do que trata a Estatística A essência da ciência é a observação. Estatística: A ciência que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. Ramo da Matemática Aplicada . A palavra estatística provêm de Status . Áreas da Estatística Estatística Descritiva Amostragem Cálculo de Probabilidades Estatística Indutiva Curiosidade: Em 1662, John Graunt publicou os primeiros informes estatísticos. Era sobre nascimento e mortes. População e Amostra v A População é a coleção de todas as observações potenciais sobre determinado fenômeno. v O conjunto de dados efetivamente observados, ou extraídos, constitui uma Amostra da população. vUm Censo é uma coleção de dados relativos a Todos os elementos de uma população. vUm Parâmetro está para a População assim como uma Estatística está para a Amostra.

Upload: janrieller

Post on 29-Oct-2015

114 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apostila 11 - Estat_descritiva(Curso) Com Minitab

1

Do que trata a Estatística

A essência da ciência é a observação. Estatística: A ciência que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. Ramo da Matemática Aplicada . A palavra estatística provêm de Status.

Áreas da Estatística

Estatística Descritiva

Amostragem Cálculo de Probabilidades

Estatística Indutiva

Curiosidade: Em 1662, John Graunt publicou os primeiros informes estatísticos. Era sobre nascimento e mortes.

População e Amostra

v A População é a coleção de todas as observações potenciais sobre determinado fenômeno.

v O conjunto de dados efetivamente observados, ou extraídos, constitui uma Amostra da população.

vUm Censo é uma coleção de dados relativos a Todos os elementos de uma população.

vUm Parâmetro está para a População assim como uma Estatística está para a Amostra.

Page 2: Apostila 11 - Estat_descritiva(Curso) Com Minitab

2

Variável

Qualitativa

Quantitativa

Ordinal

Nominal

Discreta

Contínua

Tipos de Variáveis

Ex.: Para uma população de peças produzidas em um determinado processo, poderíamos ter:

Quantitativa ContínuaDiâmetro das peças

Quantitativa DiscretaNo de peças defeituosas

Qualitativa OrdinalQualidade: 1a, 2a ou 3a categoria

Qualitativa NominalEstado: Perfeita ou defeituosa

TipoVariável

(Também Dados Categóricos ou de Atributos)

Agrupamentos de Dados e Distribuição de Freqüências

Ex.: População = X=Diâmetro de determinada peça (em mm).Dados brutos: { 168, 164, 164, 163, 165, 168, 165, 164, 168, 168 }Rol: { 163, 164, 164, 164, 165, 165, 168, 168, 168, 168 }Amplitude (H) = 168 - 163 = 5

110Σ

1.0100.44168

0.660.22165

0.440.33164

0.110.11163

FiFrequência

Relativa Acumulada)

Ni(Frequência

Absoluta Acumulada)

fi(Frequência

Relativa)

ni (Frequência

Absoluta)X

Distribuição de Freqüências

n ni

K

1

∑ =

fn

nii=

f ii

K

=∑ =

1

1

FN

nii=

Page 3: Apostila 11 - Estat_descritiva(Curso) Com Minitab

3

100150Σ

1001.050100.155550 � � 60

900.945260.26134540 � � 50

640.6432360.36183530 � � 40

280.2814240.24122520 � � 30

40.04240.0421510 � � 20

F%(Percentual

Acum.)

Fi(RelativaAcum.)

Ni(AbsolutaAcum.)

f%(frequência percentual)

fi(frequência

relativa)

ni(frequência absoluta)

xi (ponto médio)

x(Variável)

Classes (ou Categorias)

Classes (ou Categorias)

a) As classes devem abranger todas as observações; b) O extremo superior de uma classe é o extremo inferior da classe subseqüente (simbologia: �� intervalo fechado àesquerda e aberto à direita);c) Cada valor observado deve enquadrar-se em apenas uma classe;d) k ≤ 20, de um modo geral, sendo k o número de classes;e) As unidades das classes devem ser as mesmas dos dados.

Regra maior: Bom Senso!

Page 4: Apostila 11 - Estat_descritiva(Curso) Com Minitab

4

50 � � 60

0.2645� �

1830 � � 40

142420 � �20.0421510 � � 20

F%(Percentual

Acum.)

Fi(RelativaAcum.)

Ni(AbsolutaAcum.)

f%(frequência percentual)

fi(frequência

relativa)

ni(frequência absoluta)

xi (ponto médio)

x(Variável)

Exercício: Complete a tabela abaixo a partir dos dados existentes

Classes

Exercício: Os números de lugares vagos em vôos entre duas cidades foram agrupados nas classes

0|-- 5 5|-- 10

10|-- 20 20|-- 25 25|-- 30 30 ou mais.

Com esta distribuição é possível determinar o número de vôos em que há: (Responda sim ou não, justificando):

(a) menos de 20 assentos vagos?(b) mais de 20 ? (c) ao menos 20?(d) no máximo 20?(e) exatamente 20?(f) entre 10 e 25 (Exclusive 10 e 25)?

Page 5: Apostila 11 - Estat_descritiva(Curso) Com Minitab

5

Nk 2log1+=

Nk ≅

Geralmente, temos ainda:

• Intervalo da classe (h): h ≅ H / k• Ponto médio da classe (xi): Ponto

médio entre o limite inferior e o limite superior de cada classe .

Classes

Fórmula de Sturges:

Obs.: N é o número de elementos diferentes da amostra e em muitas vezes pode ser considerado N =n

Cálculo do número de Classes k(opções não rígidas):

Exercício:

Em certa época, os salários mensais dos operários de uma indústria eletrônica variavam de 1.500 a 3.250 unidades monetárias. Quais seriam os extremos se quiséssemos agrupá-losem seis classes?

Page 6: Apostila 11 - Estat_descritiva(Curso) Com Minitab

6

Simule o problema anterior com o Minitab gerando 100, 500 e 1000 números aleatórios.

Use:

<Calc>

<Random Data>

<Uniform>

<Lower endpoint=1500

Upper endpoint=3250>

GráficosHistograma e polígono de freqüência.

ƒi ou ni

xClasse

ƒi ou ni

x

Histogramaalisado

⇒⇒

As áreas dos retângulos são proporcionais às freqüências e o polígono utiliza os pontos médios das classes.Uma regra empírica: A altura vertical do Histograma deve ser em torno de ¾ da largura total. Siga o bom senso, contudo!

Page 7: Apostila 11 - Estat_descritiva(Curso) Com Minitab

7

10

8

6

4

2

10 20 30 40 60 x

ni

Exercício: Construção da tabela de distribuição de freqüências a partir do histograma de classes desiguais. Complete a tabela.

40 |-- 60

30 |-- 40

20 |-- 30

10 |-- 20

finiX

Gráficos

Gráficos

x

Ni,Fi

Ogiva (De Galton)

Ex.: Para um valor de Ficorrespondendo a 0.5 (50%) pode-se chegar àmediana do conjunto de observações

A ogiva utiliza os pontos extremos das classes e é usado em freqüências acumuladas.

50%

Mediana

Page 8: Apostila 11 - Estat_descritiva(Curso) Com Minitab

8

x

ni fi

x

40% 10%

30%20%

x ≠ classe

fi , ni

Barras ColunasAs distribuições não envolvem

classes ou são qualitativas. Gráfico de Pareto: As barras são decrescentes

Pontos

Para pequena quantidade de

elementos

As subdivisões são mensuráveis.

Setores

LinhaUm dos mais utilizados.

Não há observações intermediárias

Gráficos

Ramo-e-folhas

xxx

xxxxx

FolhasxxRamos

x

8694858978898793929190

949095101101101100100100103106

93109105939078797410811381

88947

6599718

432104053309

1110003695810

311

88947

6599718

432104053309-

111000310-

695810+

311

Ex.:

Page 9: Apostila 11 - Estat_descritiva(Curso) Com Minitab

9

Exercício no Minitab: Faça o gráfico abaixo a partir da planilha grafico.mtw

Plot

Stem-and-Leaf Display: folha_ramo

Stem-and-leaf of Ramo N = 33Leaf Unit = 1.0

1 7 44 7 8895 8 110 8 56799(10) 9 000123334413 9 512 10 00011135 10 56891 11 3

Obtenha o seguinte Folha

e Ramo na planilha

grafico.mtw

Compare os resultados

fazendo um Histograma.

O que representa tal

coluna?

Coluna folha_ramo

Page 10: Apostila 11 - Estat_descritiva(Curso) Com Minitab

10

Exercício no Minitab: Faça o gráfico abaixo a partir da planilha grafico.mtw

Use

<Marginal Plot>

MedidasEstatísticas Conjunto Original

de dados

Gráficos/ Ramo-e-Folhas/ Distribuições de Frequência

Medidas Estatísticas

Fornece muito mais informações sobre o

comportamento de uma variável do que a própria série original de dados

Redução dos dados

Valores representativos da série toda. Medidas de Posição e Dispersão.

Page 11: Apostila 11 - Estat_descritiva(Curso) Com Minitab

11

Aplicação:

Gere uma sequência de dados que represente um processo em sua área e calcule as estatísticas desse conjunto de dados.

Use:

<Random> e

<Display Descriptive Statistics>

Ex.:

Número de acessos à página do Site da Empresa durante os últimos 100 dias úteis.

MedidasEstatísticas

MedidasEstatísticas

Medidas de Posição: Média

xx x x

n

x

nn

ii

n

=+ + +

= =∑

1 2 1L

xx p x p x p

p p p

x p

p

n n

n

i ii

n

ii

n=+ + +

+ + +=

=

=

∑1 1 2 2

1 2

1

1

L

L

x

x n

nn

x n x fi i

i

n

ii

n i ii

n

i ii

n

= = ==

=

= =

∑∑ ∑1

1

1 1

1

Aritmética Simples

Aritmética Ponderada

Para dados em Classes

Page 12: Apostila 11 - Estat_descritiva(Curso) Com Minitab

12

Um Cidadão Americano Médio

q Chama-se Robert

q Pesa 78 Kg

q Manequim 48

q 85 cm de cintura

q Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne.

q Vê TV por ano 2567 horas

q Recebe anualmente 585 “coisas” por correio (cartas e outros)

q Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e trabalha 6,1 horas

Um pouco sobre arredondamento de médias:q Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73

q Em várias operações, arredonde apenas o resultado final

~xn o

=+

1

2termo ~x

n n

=

+ +

2 21

2

o o

termo termo

{ }35 36 37 38 40 40 41 43 46 40, , , , , , , , ~⇒ =x

{ }12 14 14 15 16 16 17 2015 16

215 5, , , , , , , ~ ,⇒ =

+=x

Ex.:

Se n é ímpar: Se n é par:

MedidasEstatísticas

Medidas de Posição: Mediana

Mediana é o valor “do meio” de um conjunto de dados dispostos emordem crescente ou decrescente.

Inconveniente: Não considera todos os valores da amostra!

Page 13: Apostila 11 - Estat_descritiva(Curso) Com Minitab

13

MedidasEstatísticas

Medidas de Posição: Média x Mediana

x = 345 7,~x = 300

Ex.: { 200, 250, 250, 300, 450, 460, 510 }

Ambas são boas medidas de Tendência Central.

Prefira a média

x

{ 200, 250, 250, 300, 450, 460, 2300 }

= 601~x = 300

Devido ao Outlier2300, a mediana é

melhor estatística que a média.

MedidasEstatísticas

Medidas de Posição: Mediana para Classes

Exemplo:

Cálculo da mediana para a seguinte Distribuição de Frequência

1846 1834

36%

1834

8%

. . ~ .−=

−x

~x =1.837

Page 14: Apostila 11 - Estat_descritiva(Curso) Com Minitab

14

MedidasEstatísticas

Medidas de Posição: Outras Medidas

A Média Aparada

x m( )= =+ + + +

=1250 250 300 450 460

5342

2,5% ≤ m ≤ 5%

A moda e a classe modal (mo)

x⇑mo

x

DistribuiçãoBimodal

mo I mo II

Ex. { 200, 250, 250, 300, 450, 460, 2300 }

MedidasEstatísticas

Medidas de Dispersão

Rode e Entenda o programa Interativo da

PQ Systems

Discuta:

1) Porque os bancos adotam fila única?

2) “Por favor, com quantos dias de antecedência eu devo postar uma carta de aniversário para minha mãe?”

Page 15: Apostila 11 - Estat_descritiva(Curso) Com Minitab

15

MedidasEstatísticas

Medidas de Dispersão

A = { 3, 4, 5, 6, 7 }B = { 1, 3, 5, 7, 9 }C = { 5, 5, 5, 5 }D = { 3, 5, 5, 7 }E = { 3.5, 5, 6.5 }

Uma medida de Posição não é suficiente para descrever um conjunto de dados. Os Conjuntos ao lado mostram isso! Eles possuem mesma média, sendo diferentes.

Algumas medidas de Variabilidade:

Amplitude (H): Tem o inconveniente de levar em conta apenas os dois valores extremos:

HÁ =7-3=4

Considerando os desvios em relação à média, temos, para A, por exemplo:

A = { 3, 4, 5, 6, 7 } xxi - {-2, -1, 0, 1, 2}

MedidasEstatísticas

Medidas de Dispersão

( )x x x x n x n xi

n

i

n

i

n

11

111

0− = − = − ≡= ==∑ ∑∑Inconveniente:

Duas opções para analisar os desvios das observações são:a) considerar o total dos desvios em valor absoluto ou; b) considerar o total dos quadrados dos desvios.

x xii

− = + + + + ==

∑1

5

2 1 0 1 2 6 e ( )x xii

− = + + + + ==∑ 2

1

5

4 1 0 1 4 10

Page 16: Apostila 11 - Estat_descritiva(Curso) Com Minitab

16

MedidasEstatísticas

Medidas de Dispersão

x x

n

ii

n

−=∑

1

.

( )x x

n

ii

n

−=∑ 2

1

Associando ao número de elementos da amostra (n), tem-se:

DM(x)= ...que é o Desvio Médio (DM(x))

...que é a Variância ( Var(x))S2 =

S S= 2 ...que é o Desvio Padrão (DP(x)), uma medida que é expressa na mesma unidade dos dados originais

MedidasEstatísticas

Medidas de Dispersão: DM x Variância

O uso do DM(x) pode causar dificuldades quando comparamos conjuntos de dados com número diferentes de observações.Ex.: Em A = { 3, 4, 5, 6, 7 } temos:

DM(x) = 6/5 = 1.2 eS2 = 10/5 = 2

Em D = { 3, 5, 5, 7 } temos:DM(x) = 1,0 eS2 = 2,0

Assim, podemos dizer que, segundo o Desvio Médio, o Grupo Dé mais homogêneo (tem menor dispersão) do que A, enquanto que ambos tem a mesma homogeneidade segundo a variância. O desvio médio possui pequena utilização em estatística.

Page 17: Apostila 11 - Estat_descritiva(Curso) Com Minitab

17

MedidasEstatísticas

Medidas de Dispersão: Fórmulas Alternativas

( )S

x x

n

x

nx

ii

n

ii

n

2

2

1

2

1 2=−

= −= =∑ ∑

( )S

x x

n

ii

n

2

2

1

1=

−=∑

( )( )S

x x n

nS x x f

i ii

K

i ii

K2

2

1 2 2

1

=− ⋅

= − ⋅=

=

∑∑ ou

Para dados agrupados em classes:

Variância Amostraln-1 está

Relacionado a um problema de tendenciosidade

Variância Populacional(σ2 ou σn

2 )

Média = 3

Soma daúltima coluna= 10

Divide a Soma por (n-1):= Variância = S2

= 2,5

X =Soma dos pontos de dados

Número dos pontos de dados

X54312

X210-2-1

( )X X−41041

( )X X−2

Raiz Qadrada da Variância = Desv.Pa. = S= 1,58

S S= 2

Calcular a Variância e o Desvio Padrão deX

S2

Exemplo

Uma Regra Prática para

conjunto de dados típicos:

S=Amplitude/4

Page 18: Apostila 11 - Estat_descritiva(Curso) Com Minitab

18

25%

50%

75%109

104

99

94

DBP

* Outlier ( fora da distância do Q3 + 1,5D )

Q3=75ª Percentil

Observação Máxima

Q1=25ª Percentil

Q2=Mediana (50ª Percentil)

D=Q3-Q1

Interquartil

MedidasEstatísticas

EDA (ExploratoryData Analysis) e

Método dos Cinco Números

Outra Estratégia: Percentis e Boxplot

ççValor do meio

Quartis: (0.25)x15=3.75èQuarta Observação

è Q1=Quarta Observação Crescente=71.7

è Q3=Quarta Observação Decrescente=150.6

Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95

è São outliers valores maiores que 268.95

MedidasEstatísticas

Outra Estratégia: Percentis e Boxplot

Page 19: Apostila 11 - Estat_descritiva(Curso) Com Minitab

19

Exercício: <StatGame><Describing Data><BoxPlot>

MedidasEstatísticas

Outra Estratégia: Percentis e Boxplot

A Média e o Desvio padrão podem não ser medidas adequadas para representar um conjunto de valores pois:

1)São afetados, de forma exagerada, por valores extremos

2)Apenas com esses dois valores não temos idéia da assimetria do conjunto de valores

O BoxPlot pode não ser a melhor representação para um único conjunto de dados (O Histograma é geralmente preferencial). Para diversos conjuntos de dados o BoxPloté contudo mais eficiente

MedidasEstatísticas

Histograma x Boxplot

Page 20: Apostila 11 - Estat_descritiva(Curso) Com Minitab

20

MedidasEstatísticas

Medidas de Dispersão

Escores padronizados (z)

zx x

sii=

− x

7.75 kg72.9 kgB

6.38 kg66.5 kgA

Desvio PadrãoPeso médioGrupo

Ex.: Dois grupos de pessoas acusam os seguintes dados:

e 3,238,6

5,662,81 : em =

−=AzA 95,1

75,7

9,7288 : em =−=BzB

xi - considera o afastamento de xi em relação à média.

A divisão por s torna s como unidade ou padrão de medida.

Nesses grupos há duas pessoas que pesam respectivamente, 81.2 kg e 88.0 kg.

Logo, a pessoa de A revela um maior excesso relativo de peso.

MedidasEstatísticas

Medidas de Dispersão

Escores padronizados (z)

zx x

sii=

Regra 68 -- 95 -- 99

ü Cerca de 68% dos valores estão a menos de 1 desvio padrão a contar da média (-1 < z < 1)

ü Cerca de 95% dos valores estão a menos de 2 desvios padrões a contar da média (-2 < z < 2)

ü Cerca de 99% dos valores estão a menos de 3 desvios padrões a contar da média (-3 < z < 3)

Page 21: Apostila 11 - Estat_descritiva(Curso) Com Minitab

21

MedidasEstatísticas

Medidas de DispersãoCoeficiente de Variação (cv)

cvSx

= cv exprime a variabilidade em termos relativos. É uma medida adimensional e sua grande utilidade é permitir a comparação das variabilidades em diferentes conjuntos de dados.

Ex.: Testes de resistência à tração aplicados a dois tipos diferentes de aço:

Assim, apesar do Tipo I ser menos resistente, é ele mais estável, mais consistente. O uso do coeficiente de variação pode ser pensado considerando a questão: Um desvio padrão de 10 se a média é 10.000 é bem diferente se a média é 100!

17,25147,00Tipo II

2,027,45Tipo I

s (kg/mm2)Média (kg/mm2) cvI = =2

27 457 29

,, %

cv II = =17 25

14711 73

,, %

MedidasEstatísticas

Assimetria (Skewness)

Próximo de 0: Simétrico

Menor que 0: Assimétrico à Esquerda

Maior que 0: Assimétrico à Direita

Achatamento (Kurtosis)

Próximo de 0: Pico Normal

Menor que 0: Mais achatada que o Normal (Uniforme)

Maior que 0: Menos achatada que o normal (Afinada)

Page 22: Apostila 11 - Estat_descritiva(Curso) Com Minitab

22

MedidasEstatísticas

Análise BidimensionalDistribuição Conjunta

20060140Total

802555Administração

1203585Economia

TotalFemininoMasculinoX YDistribuição conjunta das

freqüências das variáveis X (Curso) e Y (Sexo)

A Distribuição Conjunta é usada para o estudo da associabilidade entre variáveis. Ex.: A partir de uma renda familiar podemos estimar a classe social de uma pessoa, pois sabemos da existência de dependência entre essas duas variáveis.

Como ver a associação das variáveis na Distribuição Conjunta abaixo?

MedidasEstatísticas

Análise BidimensionalEx.: Independência de Eventos

20060140Total

802555Administração

1203585Economia

TotalFemininoMasculinoX YDistribuição conjunta das

freqüências das variáveis X (curso) e Y (sexo)

100%100%100%Total

40%42%39%Administração

60%58%61%Economia

TotalFemininoMasculinoX Y Distribuição conjunta das proporções em relação aos totais de cada coluna.Independente do sexo, 60% preferem Economia e 40% preferem

Administração

100%30%70%Total

100%31%69%Administração

100%29%71%Economia

TotalFemininoMasculinoX Y Distribuição conjunta das proporções

em relação aos totais de cada linha.Independente do Curso, 70% é Masculino e 30% é feminino

Page 23: Apostila 11 - Estat_descritiva(Curso) Com Minitab

23

MedidasEstatísticas

Análise BidimensionalEx.: Independência de Eventos

20060140Total

802555Administração

1203585Economia

TotalFemininoMasculinoX Y

Desenvolva a análise de Independência de

Eventos para cada uma das tabelas, usando o

Minitab(Bidimensional.mtw)

<Stat>

<Tables>

<Cross Tabulation>20080120Total

806020C. Sociais

12020100Engenharia

TotalFemininoMasculinoX Y

Escola A

Escola B

MedidasEstatísticas

Análise BidimensionalEx.: Independência de Eventos

1551 (100%)189 (12%)343 (22%)643 (42%)376 (24%)Total

602 (100%)48 ( 8%)139 (23%)304 (51%)111 (18%)Rio G.Sul

301 (100%)22 ( 7%)126 (42%)102 (34%)51 (17%)Paraná

648 (100%)119 (18%)78 (12%)237 (37%)214 (33%)São Paulo

TotalOutrosEscolaProdutorConsumidor

Tipo de CooperativaEstado

1551 (100%)189 (12%)343 (22%)643 (42%)376 (24%)Total

602 (100%)72 (12%)132 (22%)254 (42%)144 (24%)Rio G.Sul

301 (100%)36 (12%)66 (22%)127 (42%)72 (24%)Paraná

648 (100%)78 (12%)142 (22%)272 (42%)156 (24%)São Paulo

TotalOutrosEscolaProdutorConsumidor

Tipo de CooperativaEstado Distribuição conjunta dos valores esperadosem relação aos totais das linhas

Distribuição conjunta das proporções em relação aos totais de cada linha.

ijo

ije

Page 24: Apostila 11 - Estat_descritiva(Curso) Com Minitab

24

-24750-33Rio G. Sul

-1460-25-21Paraná

41-64-3558São Paulo

OutrosEscolaProdutorConsumidor

Tipo de CooperativaEstado

8,000,379,847,56Rio G. Sul

5,4454,544,926,12Paraná

21,5528,844,5021,56São Paulo

OutrosEscolaProdutorConsumidor

Tipo de CooperativaEstado

( )379,17300,812,656,21

2

2 =+++=−

= ∑∑ Lj ij

ijij

i e

eoχ

( )ij

ijijij e

eon

2−=

n o eij ij ij= −

Qui-Quadrado

MedidasEstatísticas

Análise BidimensionalEx.: Independência de Eventos

MedidasEstatísticas

Análise BidimensionalEx.: Independência de Eventos

Desenvolva a análise de Independência de Eventos para a tabela, usando o Minitab (Bidimensional.mtw)

<Stat> <Tables> <Cross Tabulation>

1551 (100%)189 (12%)343 (22%)643 (42%)376 (24%)Total

602 (100%)48 ( 8%)139 (23%)304 (51%)111 (18%)Rio G.Sul

301 (100%)22 ( 7%)126 (42%)102 (34%)51 (17%)Paraná

648 (100%)119 (18%)78 (12%)237 (37%)214 (33%)São Paulo

TotalOutrosEscolaProdutorConsumidor

Tipo de CooperativaEstado

Page 25: Apostila 11 - Estat_descritiva(Curso) Com Minitab

25

MedidasEstatísticas Coeficiente de Correlação

Ex.: Suponha que o nosso desejo seja o de quantificar a associabilidade entre duas variáveis relacionadas a cinco agentes de uma seguradora. Assim, temos:X≡ Anos de experiência do agente.Y ≡ Número de clientes do agente.

8765432

70

60

50

ExperiênciaAnos de

Clie

nte

s

728E

606D

645C

564B

482A

yxAgente

(x, y) é um par aleatório – Dados emparelhados

Diagrama de Dispersão

y

x x x−

y y−

x xs

zx

x

−=

y

y

zs

yy=

MedidasEstatísticas Coeficiente de Correlação

Série de dados originais (x e y) são valores quantitativos.

O conjunto de pontos é deslocado, tendo agora como centro, os valores médios.

A escala de x e y é agora padronizada. Isso torna os valores independente da sua unidade.

∑=

==n

iyx ii

zzn

YXr1

1),(Corr

Page 26: Apostila 11 - Estat_descritiva(Curso) Com Minitab

26

4,75000030025Total

2,251.51.5123728E

000.501606D

00.5040645C

0,25-0.5-0.5-4-1564B

2,25-1.5-1.5-12-3482A

zx . zyzyzxyxAgente x x− y y−

MedidasEstatísticas Coeficiente de Correlação

x = 5S x = 2

y = 60S y = 8 %9595,0

575,4

),( ===YXr = Correlação

r X Yn

z zn

x x

s

y y

sx yi

ni

x

i

yi

n

i i= = =

= =∑ ∑Corr ( , )

1 1

1 1

( )( )r

n

x x y y

s sX Y

s si i

x y x y

=− −

⋅=

⋅∑1 Covariância ( , ) − ≤ ≤1 1r

A correlação apresentada aqui é linear. Existem outros tipos de correlação!

MedidasEstatísticas

Coeficiente de Correlação

728E

606D

645C

564B

482A

yxAgente

Pearson correlation of Anos Exp and Clientes = 0,950

P-Value = 0,013

Ex.: Cálculo da correlação da tabela ao lado

Forte Correlação pois P-Value <0,05

Page 27: Apostila 11 - Estat_descritiva(Curso) Com Minitab

27

Faça a análise de Correlação dasvariáveis ao lado na planilhaBidimensional.mtw

MedidasEstatísticas

Coeficiente de Correlação

O Coeficiente de Correlação é também chamado de Coeficiente de Pearson.

Recursos Adicionais:

<Estatis> <Correlat>

Desenvolvido por John Hattie

(Alguns recursos gráficos mas roda no modo DOS)

<Statgame>

<Statistical Inference>

<Correlation>

(Interessante para verificar o conhecimento básico)

MedidasEstatísticas

Coeficiente de Correlação

Page 28: Apostila 11 - Estat_descritiva(Curso) Com Minitab

28

Algumas questõ es sobre Correlação:

A) U m a m e d i d a d e C o r r e l a ç ã o f o r n e c e d o i s t i p o s d e i n f o r m aç õe s a r e s p e i t o d o

r e l a c i o n a m e n t o d e d u a s v a r i áv e i s . Q u a i s s ão e l a s ?

B) Q u a l c o e f i c i e n t e d e c o r r e l aç ã o a b a i x o i n d i c a o m a i s f o r t e r e l a c i o n a m e n t o ?

a) 0 .70 b) 0 .03 c ) -0 .77 d) 0 .10

C ) S e a c o r r e l aç ã o Rxy =0 .45 , en t ã o Ryx =

D ) Q u a l o v a l o r d o c o e f i c i e n t e d e c o r r e l aç ã o m e l h o r d e s c r e v e o s s e g u i n t e s

va lo res das va r i áve i s X e Y , r e l ac i onadas aba i xo :

X : 2 0 3 0 4 0 5 0 6 0

Y : 4 0 3 0 2 0 1 0 0

a) -1 . 0

b) 0 .0

c ) 0 . 5

d) 1 .0

E) Qual a correlação do gráfico abaixo?

Algumas questõ es sobre Correlação :

F) S e u m c o e f i c i e n t e d e c o r r e l a ç ão f o r d e + 1 . 4 , o q u e o c o r r e ?

a) O R e l a c i o n a m e n t o é e x t r e m a m e n t e f o r t e

b) O R e l a c i o n a m e n t o é p o s i t i v o

c ) A a r e s p o s t a s a c i m a e s t ã o co r re tas

d) U m e r r o c o m p u t a c i o n a l f o i c o m e t i d o

G ) U m c o e f i c i e n t e d e P e r s o n d e -0 .5 en t re os va lo res de Le i t u ra (X ) e o nú m e r o d e d i a s a u s e n t e s d a e s c o l a ( Y ) i n d i c a q u e :

a) M e t a d e d o s v a l o r e s d e L e i t u r a s ã o m e n o s d o q u e o n ú m e r o d e d i a s a u s e n t e s d a e s c o l a

b) Ma io res va l o res de Le i t u ra sã o a s s o c i a d o s c o m m e n o r a u s ê n c i a d a e s c o l a

c ) A s o m a d o p r o d u t o X Y é igua l a -0 . 5

d ) Q u a s e n ã o e x i s t e r e l a c i o n a m e n t o e n t r e X e Y

Page 29: Apostila 11 - Estat_descritiva(Curso) Com Minitab

29

As “armadilhas”: variável comum

É comum associar-se um defeito com uma variável que está sempre presente quando ele ocorre (é o casodo operador que é culpado, pois quando ele executa a operação ocorre um defeito – Toda operaçãogeralmente tem um operador).

1995 Six Sigma Academy Inc.

Dia Fator 1 Fator 2 Resultado1 Água Whisky Ficou Bêbado2 Água Vodka Ficou Bêbado3 Água Rum Ficou Bêbado4 Água Bourbon Ficou Bêbado

Conclusão: a água embebeda

Se a história servisse de base, os Republicanos deveriam estar vestindo a camisados Yankees e dando uma força para o New York vencer o campeonato. Desde a Segunda Guerra Mundial, toda vez que os Yanks venceram em um ano de eleição, o Partido Republicano assumiu a Casa Branca.

Yankees RepublicanosGANHARAM PERDERAM GANHARAM PERDERAM

1976

1964

1960

1956

1952

As “armadilhas”: correlações casuais

Page 30: Apostila 11 - Estat_descritiva(Curso) Com Minitab

30

As “armadilhas”: causa reversa

Um fator “X” tem influência sobre um “Y” quando, na verdade, o que ele está vendo é a conseqüência do “Y” .

Um exemplo deste caso é o do Departamento de Vendas que insatisfeito com as Vendas resolve dar uma série de descontos e faz promoções para atrair os clientes . Só que a verdadeira causa do problema é o Serviço de Atendimento ao Cliente .

Com os novos descontos e a nova promoção fica mais difícilainda administrar o Serviço de Atendimento ao Cliente, ocasionando num aumento da insatisfação do cliente e diminuindo mais ainda as vendas (“o tiro saiu pela culatra”) .

As “armadilhas”: fatores omitidos

Pesquisas continuamente demonstram que a medida que o tamanho dos hospitais aumenta, a taxa de mortalidade dos pacientes aumenta dramaticamente. Portanto, deveríamos evitar hospitais grandes?

Esta análise é enganadora, pois omite um segundo X2 (fator) importante -- a gravidade da condição do paciente quando é admitido ao hospital. Os casos mais sérios tendem a ser levados aos hospitais maiores!

Fumar cigarros causa câncer? E se eu dissesse que ... (1) Médicos franceses não encontram esta correlação;(2) O tabaco dos EUA geralmente é exposto a pesticidas, fertilizantes e preservativos contendo substâncias conhecidamente cancerígenas, e;(3) O tabaco francês raramente entra em contato com tais substâncias químicas.

Page 31: Apostila 11 - Estat_descritiva(Curso) Com Minitab

31

O Fazendeiro Radiofóbico

Em 1950, um fazendeiro afirmou que suas árvores frutíferas estavam sendo prejudicadas pelas ondas de rádio de uma estação local próxima. Ele colocou uma tela de arame ao redor de algumas das árvores para “protegê-las” destas ondas de rádio e, realmente, as árvores protegidas se recuperaram rapidamente, enquanto que as desprotegidas ainda sofriam.

Na mesma época, muitas árvores cítricas em todo país foram ameaçadas por uma doença chamada de “folha pequena”. Alguns fazendeiros Texanos descobriram que uma soluçãode sulfato de ferro curava a doença. No entanto, nem sempre funcionava no Texas, e praticamente nunca funcionava na Flórida ou na Califórnia.

O mistério foi desvendado quando o problema verdadeiro foi revelado -- deficiência de zincono solo. A cercado fazendeiro Radiofóbico era de tela galvanizada, sendo que traços dozinco da galvanização eram levados da tela para o solo.

O sulfato de ferro nada tinham a ver com a cura, mas sim os baldes de ferro galvanizados usados para espalhar a substância! Em outras regiões, onde outros tipos de baldes eram usados , as árvores continuaram doentes.

As “armadilhas”: multicolinearidade

É difícil saber o quê causa o quê, quando alguns fatores [X’s] tendem a ocorrer juntos regularmente.

• “Tenho visto uma redução dramática nas perdas desde que comecei a implementar as ferramentas estatísticas na fábrica!” No entanto, foi exatamente na mesma época em que o RH introduziu seu novo sistema de recompensa e reconhecimento. O que ocasionou a melhoria?

• Em 1967, um artigo rotulou um determinado tipo de carro como sendo inseguro. O modelo em questão era um carro pequeno esportivo de alto desempenho. Mas que tipo de motorista seria atraído a tal carro? E se eu dissesse que a maioria dos proprietários deste carro tendiam a sermotoristas jovens menores de 25 anos com novas idéias. Esta faixa etária não paga prêmios de seguro mais elevados devido a maior incidência de acidentes?