apostila de apoio aos cursos de estatística aplicada (aaea) · faculdade de tecnologia de...

48
FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística Aplicada Prof. Dr. Herivelto Tiago Marcondes dos Santos Guaratinguetá, Março de 2017

Upload: trinhcong

Post on 13-Nov-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ

Apostila de Apoio aos cursos de

Estatística Aplicada (AAEA) Estatística Aplicada

Prof. Dr. Herivelto Tiago Marcondes dos Santos

Guaratinguetá, Março de 2017

Page 2: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística
Page 3: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

1 Conteúdo 2 A estatística como ferramenta de estudo.................................... 5

3 Estatística Descritiva ................................................................. 5

3.1 Amostragem ..................................................................................................................................... 5

3.2 Tipos de amostragem ........................................................................................................................ 6

3.2.1 Amostragem simples ................................................................................................................ 6

3.2.2 Amostragem estratificada ......................................................................................................... 6

3.2.3 Amostragem sistemática ........................................................................................................... 6

3.2.4 Amostragem por conglomerados .............................................................................................. 6

3.2.5 Exercícios ................................................................................................................................. 7

3.3 Organização de dados ....................................................................................................................... 7

3.3.1 Classificação de variáveis ......................................................................................................... 9

3.3.2 Tabelas de frequências ............................................................................................................ 10

3.3.3 Ferramentas gráficas ............................................................................................................... 12

4 Medidas resumo ...................................................................... 19

4.1 Introdução ....................................................................................................................................... 19

4.2 Medidas de posição ou de tendência central ................................................................................... 19

4.2.1 Moda, mediana e média .......................................................................................................... 19

4.3 Medidas de dispersão...................................................................................................................... 21

4.3.1 Amplitude ( ......................................................................................................................... 21

4.3.2 Variância populacional ( ) ................................................................................. 22

4.3.3 Variância amostral ( ) ........................................................................................... 22

4.3.4 Desvio padrão ( ) ................................................................................................................... 22

4.3.5 Coeficiente de variação ........................................................................................................... 23

4.3.6 Teorema de Tchebyschev ....................................................................................................... 23

4.3.7 Curtose(K) .............................................................................................................................. 24

4.3.8 Assimetria (As) ....................................................................................................................... 24

5 Análise combinatória ............................................................... 24

5.1 Princípio fundamental de contagem ................................................................................................ 24

5.2 Princípio fundamental de contagem generalizado ........................................................................... 25

5.3 Permutação ..................................................................................................................................... 25

6 Probabilidades ......................................................................... 26

6.1 Teoria de conjuntos ........................................................................................................................ 26

6.1.1 Espaço Amostral e Eventos .................................................................................................... 26

6.1.2 Identidades:............................................................................................................................. 27

6.1.3 Leis de De Morgan ................................................................................................................. 27

6.1.4 Axiomas de probabilidade: ..................................................................................................... 27

Page 4: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

6.1.5 Probabilidade condicional e independência ............................................................................ 28

6.1.6 Exercícios: .............................................................................................................................. 29

7 Modelos de probabilidade ....................................................... 36

7.1 Variável aleatória ............................................................................................................................ 36

7.2 Variável aleatória discreta .............................................................................................................. 36

7.3 Principais modelos discretos de probabilidade ............................................................................... 36

7.3.1 Modelo uniforme discreto ....................................................................................................... 36

7.3.2 Modelo de Bernoulli ............................................................................................................... 37

7.3.3 Modelo Binomial, X~B(n,p) ................................................................................................... 37

7.3.4 Modelo Geométrico, X~G(p) .................................................................................................. 37

7.3.5 Modelo de Poisson, X~P( ) .................................................................................................... 37

7.3.6 Exercícios ............................................................................................................................... 38

7.4 Variável aleatória contínua ............................................................................................................. 41

7.4.1 Função distribuição acumulada ............................................................................................... 41

7.5 Principais modelos contínuos de probabilidade .............................................................................. 41

7.5.1 Modelo uniforme contínuo, X~U[a,b] .................................................................................... 42

7.5.2 Modelo exponencial, X~exp( ) .............................................................................................. 42

7.5.3 Modelo normal, X~N( ) .................................................................................................. 43

8 Inferência estatística ................................................................ 45

8.1 Distribuições amostrais ................................................................................................................... 45

9 Teorema central do limite ........................................................ 46

9.1 Intervalo de confiança para estimar a média e o tamanho da amostra ............................................. 46

9.2 Testes de hipóteses ......................................................................................................................... 47

10 Referência bibliográfica .......................................................... 48

Page 5: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

2 A estatística como ferramenta de estudo

Desde tempos remotos há um interesse das organizações sociais, principalmente, por parte de

instituições governamentais, em obter informações sobre a população, a respeito da acumulação de riquezas,

isso aplicado tanto a fins militares como para os interesses tributários (MEMÓRIA, 2004). Muitas aplicações

designadas ao interesse de estudo da estatística são do nosso cotidiano. Entre estas aplicações temos os

estudos meteorológicos, estudos em logística, prospecções áreas como transporte, energia, economia,

biologia, astronomia. A estatística é um campo da ciência que estuda o planejamento, coleta, organização e

síntese de dados, além do ajuste de modelos estatístico-matemáticos.

De alguma maneira, os cursos de estatística oferecidos em diversas universidades são similares em

conteúdo, porém a necessidade de proporcionar ao aluno um curso de estatística relacionado cada vez mais

ao mercado de trabalho e as suas reais necessidades profissionais, esses cursos diferenciam-se quanto aos

métodos de ensino aplicados. Contudo, a essência permeia sobre três tópicos bem experimentados em

atividades de pesquisa, as Estatísticas Descritivas, Probabilidades e Inferência Estatística.

3 Estatística Descritiva

A necessidade de evidenciar alguns fenômenos constantes no dia-a-dia do ser humano permitiu que,

com o desenvolvimento de técnicas matemáticas adequadas, pudessem apresentar resultados satisfatórios e

adequados para explicar esses fenômenos.

Diferentes áreas tomam como necessárias o uso das ferramentas estatísticas na tentativa de explicar

suas atividades, pode-se citar: biologia, ciências sociais, engenharias, ciências humanas e tecnologia da

informação. Inda mais com a evolução constante do processamento de dados, no qual os estudos estatísticos

se enquadram e evoluem paralelamente. Atualmente, o uso intenso de computadores pessoais permite que

uma grande massa de dados seja analisada por qualquer operador. Entretanto, fica claro, que um indivíduo

não preparado para analisar e identificar as técnicas mais adequadas limita o estudo a conclusões sem

sentido.

De maneira sucinta, a estatística é composta por áreas que definem o início da pesquisa, em que se

podem tirar as primeiras conclusões (Estatísticas descritivas), as tomadas de incerteza (probabilidade) e

modelagem estatística matemática, e a extrapolação de características de uma pequena amostra para um

grande conjunto de dados (inferência estatística).

3.1 Amostragem

Os procedimentos de amostragem utilizados em uma pesquisa estatística são formas de representar a

totalidade de uma população por meio de uma pequena parte dessa população.

Page 6: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Ao grande conjunto de dados denomina-se uma população

Assim, a teoria de amostragem é a afirmação de que o conhecimento científico pode ser uma boa

representação de grandezas desconhecidas de determinadas populações.

Uma pequena parte da população, ou seja, um subconjunto da população será chamado de amostra.

3.2 Tipos de amostragem

Os procedimentos de amostragem são comuns entre as técnicas estatísticas, pois há nesses uma

possibilidade de processamento de dados menos custoso, mais rápido e, bem próximo de explicar as

características de uma população.

Há dois tipos de amostragem, a probabilística e a não probabilística. A amostragem é dita

probabilística quando cada elemento amostral tem uma probabilidade de pertencer à amostra. De forma

simplificada, uma amostragem é probabilística, se a amostra pertence, de fato, à população. Assim, existe a

condição de probabilidade diferente de zero. Caso contrário a essas condições a amostragem será não

probabilística.

A amostragem probabilística pode ser simples, estratificada, sistemática e por conglomerados.

3.2.1 Amostragem simples

Se amostras de tamanho k são tomadas de uma população de tamanho N então tem-se1

amostras distintas possíveis de tamanho k a partir dessa população, todas com probabilidade de serem

selecionadas.

3.2.2 Amostragem estratificada

Em algumas populações a existência de subconjuntos bem definidos, denominados estratos, como

exemplos de características como sexo, idade, cores, estados físicos, possibilitam um procedimento de

amostragem que visa estudar as particularidades de cada estrato.

3.2.3 Amostragem sistemática

Uma amostragem é dita sistemática se a partir de uma população de tamanho N, extraem-se amostras

de tamanho n, em intervalos de tamanho h.

3.2.4 Amostragem por conglomerados

A amostragem por conglomerados é similar a por estratos, porém, um conglomerado (ou

agrupamento) é um subconjunto da população melhor caracterizado pela individualidade como exemplo de

um bairro de uma cidade, um setor geográfico, zona urbana ou rural.

1

Page 7: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

3.2.5 Exercícios

1. Para as situações descritas a seguir, identifique a população e a amostra correspondente.

a. Para avaliar a eficácia de uma campanha de vacinação no Estado de São Paulo, 200 mães de recém-

nascidos, durante o primeiro semestre de um dado ano e em uma dada maternidade em São Paulo, foram

entrevistadas a respeito da última vez em que vacinaram seus filhos.

b. Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.

c. Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com

relação ao canal em que estavam sintonizados.

d. A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em

Brasília.

2. Exemplo no MS Excel (a incluir junto aos professores da disciplina)

3. Exemplo no SPSS ou R-project (a incluir junto aos professores da disciplina)

3.3 Organização de dados

Para a análise inicial de um conjunto de dados pode-se dizer que as ferramentas mais utilizadas são:

tabelas de frequências e os gráficos. Para exemplificar, será utilizado um exemplo, o qual apresenta os dados

de um questionário feito junto a alunos de uma universidade2. Os elementos abaixo são as características

requeridas no questionário. Ao conjunto de informações disponíveis formulado na execução do questionário

estudantil chamamos de tabela de dados brutos. Cada característica respondida pelos estudantes é

denominada por variável.

Id: identificação do aluno

Turma: turma a que o aluno foi alocado (A ou B)

Sexo: F se feminino, M se masculino

Idade: idade em anos

Alt: altura em metros

Peso: peso em quilogramas

Filhos: número de filhos na família

Fuma: hábito de fumar, sim ou não

Toler: tolerância ao cigarro:

(I) indiferente, (P) incomoda pouco e (M) incomoda muito

Exerc: horas de atividade física, por semana

Cine: número de vezes em que vai ao cinema por semana

OpCine: opinião a respeito das salas de cinema na cidade

(B) regular a boa e (M) muito boa

TV: horas gastas assistindo TV, por semana

OpTV: opinião a respeito da qualidade da programação na TV:

2 (MAGALHÃES, M. N. AND LIMA, 2007)

Page 8: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

(R) ruim, (M) média, (B) boa e (N) não sabe

Tabela 1 Tabela de dados brutos – questionário estudantil

Id Turma Sexo Idade Alt Peso Filhos Fuma Toler Exerc Cine OpCine TV OpTV

1 A F 17 1,60 60,5 2 NAO P 0 1 B 16 R

2 A F 18 1,69 55,0 1 NAO M 0 1 B 7 R

3 A M 18 1,85 72,8 2 NAO P 5 2 M 15 R

4 A M 25 1,85 80,9 2 NAO P 5 2 B 20 R

5 A F 19 1,58 55,0 1 NAO M 2 2 B 5 R

6 A M 19 1,76 60,0 3 NAO M 2 1 B 2 R

7 A F 20 1,60 58,0 1 NAO P 3 1 B 7 R

8 A F 18 1,64 47,0 1 SIM I 2 2 M 10 R

9 A F 18 1,62 57,8 3 NAO M 3 3 M 12 R

10 A F 17 1,64 58,0 2 NAO M 2 2 M 10 R

11 A F 18 1,72 70,0 1 SIM I 10 2 B 8 N

12 A F 18 1,66 54,0 3 NAO M 0 2 B 0 R

13 A F 21 1,70 58,0 2 NAO M 6 1 M 30 R

14 A M 19 1,78 68,5 1 SIM I 5 1 M 2 N

15 A F 18 1,65 63,5 1 NAO I 4 1 B 10 R

16 A F 19 1,63 47,4 3 NAO P 0 1 B 18 R

17 A F 17 1,82 66,0 1 NAO P 3 1 B 10 N

18 A M 18 1,80 85,2 2 NAO P 3 4 B 10 R

19 A F 20 1,60 54,5 1 NAO P 3 2 B 5 R

20 A F 18 1,68 52,5 3 NAO M 7 2 B 14 M

21 A F 21 1,70 60,0 2 NAO P 8 2 B 5 R

22 A F 18 1,65 58,5 1 NAO M 0 3 B 5 R

23 A F 18 1,57 49,2 1 SIM I 5 4 B 10 R

24 A F 20 1,55 48,0 1 SIM I 0 1 M 28 R

25 A F 20 1,69 51,6 2 NAO P 8 5 M 4 N

26 A F 19 1,54 57,0 2 NAO I 6 2 B 5 R

27 B F 23 1,62 63,0 2 NAO M 8 2 M 5 R

28 B F 18 1,62 52,0 1 NAO P 1 1 M 10 R

29 B F 18 1,57 49,0 2 NAO P 3 1 B 12 R

30 B F 25 1,65 59,0 4 NAO M 1 2 M 2 R

31 B F 18 1,61 52,0 1 NAO P 2 2 M 6 N

32 B M 17 1,71 73,0 1 NAO P 1 1 B 20 R

33 B F 17 1,65 56,0 3 NAO M 2 1 B 14 R

34 B F 17 1,67 58,0 1 NAO M 4 2 B 10 R

35 B M 18 1,73 87,0 1 NAO M 7 1 B 25 B

36 B F 18 1,60 47,0 1 NAO P 5 1 M 14 R

37 B M 17 1,70 95,0 1 NAO P 10 2 M 12 N

38 B M 21 1,85 84,0 1 SIM I 6 4 B 10 R

39 B F 18 1,70 60,0 1 NAO P 5 2 B 12 R

40 B M 18 1,73 73,0 1 NAO M 4 1 B 2 R

41 B F 17 1,70 55,0 1 NAO I 5 4 B 10 B

42 B F 23 1,45 44,0 2 NAO M 2 2 B 25 R

43 B M 24 1,76 75,0 2 NAO I 7 0 M 14 N

44 B F 18 1,68 55,0 1 NAO P 5 1 B 8 R

45 B F 18 1,55 49,0 1 NAO M 0 1 M 10 R

46 B F 19 1,70 50,0 7 NAO M 0 1 B 8 R

47 B F 19 1,55 54,5 2 NAO M 4 3 B 3 R

48 B F 18 1,60 50,0 1 NAO P 2 1 B 5 R

49 B M 17 1,80 71,0 1 NAO P 7 0 M 14 R

50 B M 18 1,83 86,0 1 NAO P 7 0 M 20 B

Fonte 1 (MAGALHÃES, M. N. AND LIMA, 2007)

Page 9: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

3.3.1 Classificação de variáveis

Uma variável estatística pode ser classificada em dois grupos: métricas e não métricas.

As variáveis métricas, também conhecidas como quantitativas, são variáveis formadas por conjuntos

numéricos finitos ou infinitos. Se a variável representa um conjunto de valores enumeráveis, então se

denomina uma variável quantitativa discreta (exemplo: número de acidentes de trabalho em uma empresa,

número de imperfeições em uma peça fabricada, número de chegadas e saídas de aviões em um aeroporto,

número de grãos de areia em uma praia, número de automóveis que passam por um determinado trecho de

estrada). Se a variável representa um conjunto de valores provenientes de mensuração, então a variável é

quantitativa contínua (exemplo: volume ocupado por líquidos ou gases, extensão ou altura de um depósito,

tempo decorrido entre entregas de um produto, viscosidade de óleos, pressão, massa de um corpo, diâmetro

de uma esfera).

Já as variáveis não métricas, qualitativas, representam atributos dados a objetos, eventos da natureza,

intenções e desejos de uma pessoa. Quando os atributos de uma variável são ordenados, ou seja, apresentam

ordenação natural entre os resultados possíveis da variável, então a chamamos de variável qualitativa ordinal

(exemplos: Características de um jantar: muito bom, bom, regular, ruim ou muito ruim; Colocação de um

candidato em um vestibular: 1º colocado, 2º colocado, 3º colocado, ... , 40º colocado), caso contrário,

denominaremos variável qualitativa nominal (exemplo: respostas de um questionário simples com respostas:

sim, não, às vezes, frequentemente; nomes de pessoas, estados, cores, animais;

ATENÇÃO: RG, CPF, Título de Eleitor, RA – registro de aluno, são exemplos de variáveis qualitativas

nominais, pois são números que substituem os nomes das pessoas para os órgãos competentes, não se deve

atribuir o fato de ser um número e associá-lo a uma variável quantitativa, por isso). Pode-se também chamar

atenção às variáveis similares a Idade, idade é uma variável que representa tempo, e tempo é uma variável

quantitativa contínua, portanto mensurável, porém a idade quase sempre é tratada como uma variável

discreta, ou seja, um indivíduo tem 18 anos de idade, sem contabilizar os meses dias, horas, minutos e

segundos. Isso é perfeitamente permitido quando for o caso de aplicação.

variável

métrica

quantitativa

discreta contínua

não métrica

qualitativa

nominal ordinal

Page 10: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

3.3.2 Tabelas de frequências

Entre as possibilidades que existem para organizar e resumir um conjunto de dados, a tabela de

frequências é uma das mais conhecidas. Nela estão contidas informações a respeito da variável em estudo: ou

representadas por (frequência simples, número de elementos na variável em estudo com a característica

destacada) ou por (ou – frequência relativa, representa o número de elementos com a característica

destacada relativa ao número total de elementos estudados,

) ou por (frequência relativa

acumulada representa a frequência relativa adicionada, uma a uma, entre as características ordenadas de uma

variável). Esses valores de frequências referem-se ao processo de contagem sobre a variável que contém a

característica definida em cada linha da tabela. É conveniente afirmar que cada tipo de variável, classificada

anteriormente (v. 3.3.1), deve estar representado em uma tabela de frequências de maneira adequada. Para

variáveis qualitativas só há necessidade de inclusão das frequências simples e relativa, pois a frequência

acumulada não possui significado prático. Já para as outras variáveis, quantitativas, deve-se acrescentar a

coluna para a frequência relativa acumulada.

Tabela 2 Tabela de frequências de uma variável qualitativa

sexo ni Fr fr %

feminino 37 0,74 74%

masculino 13 0,26 26%

Total 50 1,00 100% Fonte 2 (MAGALHÃES, M. N. AND LIMA, 2007)

O elemento mais importante na criação de tabelas de frequências é a oportunidade de demonstração

de bom senso do avaliador, o que permitirá transformar uma tabela de dados brutos em uma tabela de

frequências informativa é o conhecimento do público que receberá aquele resumo de dados, se é um

especialista em estatística, ou um empresário, um diretor financeiro ou uma dona de casa. Para cada público,

a riqueza de informações de uma tabela de frequências depende das escolhas do analista que produz esse

resumo de dados que pretende ser compreendido tanto por especialistas, financiadores de projetos ou mesmo

pessoas leigas em estatística.

Tabela 3 Tabela de frequências de uma variável quantitativa

idade ni fr fr % fac fac %

17 9 0,18 18% 0,18 18%

18 22 0,44 44% 0,62 62%

19 7 0,14 14% 0,76 76%

20 4 0,08 8% 0,84 84%

21 3 0,06 6% 0,90 90%

22 0 0 0% 0,90 90%

23 2 0,04 4% 0,94 94%

24 1 0,02 2% 0,96 96%

25 2 0,04 4% 1,00 100%

Page 11: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Total 50 1 100% - - Fonte 3 (MAGALHÃES, M. N. AND LIMA, 2007)

Outro elemento importante para a construção de tabelas de frequências para variáveis quantitativas

contínuas é a necessidade de construir intervalos, chamados intervalos de classe convenientes. Para isso, há

algumas regras práticas.

A regra suficiente é quando o pesquisador consegue adequar seus dados a intervalos que sejam

facilmente interpretados nas tabelas de frequências construídas. Além disso, qualquer leitor deve conseguir

identificar com facilidade o resumo informativo que representa cada tabela.

Como regra básica, se n é o tamanho da amostra, ou número de valores da variável em estudo, a

quantidade k (números de intervalos de classe) recomendada para a tabela de frequências será:

Ou

(Formula de Sturges)

Exemplo: Dada a variável peso, em kg, da Tabela 1, uma variável quantitativa contínua temos:

;

Em ambos os casos, utilizaremos 7 intervalos de classe. Assim, basta escolher um método apenas e

calcular o número de intervalos de classe, em geral, utiliza-se a fórmula de Sturges.

Sugere-se que o valor de k esteja entre 5 e 8 intervalos de classe, as exceções devem ser definidas pelo

analista de acordo com sua necessidade. Um exemplo disso é dado pela variável TV, da Tabela 1. Nesse

caso, o tempo dividido em períodos de 6 em 6 horas torna-se conveniente para compreensão do analista.

Além disso, há intervalos de 12 horas no fim da mesma tabela de frequências, e isso se deve a facilidade na

interpretação dos dados.

Tabela 4 Variável quantitativa contínua

TV ni fr fr % fac fac %

0|--6 14 0,28 28% 0,28 28%

6|--12 17 0,34 34% 0,62 62%

12|--18 11 0,22 22% 0,84 84%

18|--24 4 0,08 8% 0,92 92%

24|--36 4 0,08 8% 1,00 100%

Total 50 1 100% - - Fonte 4 (MAGALHÃES, M. N. AND LIMA, 2007)

Page 12: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Com o número de intervalos de classe pode-se agora encontrar a amplitude de cada classe, que

comumente é a mesma para todos os intervalos, mas é permitido que nos extremos, superior ou inferior,

sejam tratados intervalos com amplitudes diferentes dos intervalos centrais, como apresentado na Tabela 4.

A amplitude ( ) é calculada por:

Exemplo: Dos mesmos dados da variável peso do exemplo anterior tem-se:

Assim, uma forma para construir a tabela de frequências para essa variável pode ser:

Tabela 5 Tabela de frequências da variável PESO

peso ni fr fr % fac fac %

44,0|-- 51,3 10 0,2 20% 0,2 20%

51,3|-- 58,6 20 0,4 40% 0,6 60%

58,6|-- 65,9 6 0,12 12% 0,72 72%

65,9|-- 73,1 7 0,14 14% 0,86 86%

73,1|-- 80,4 1 0,02 2% 0,88 88%

80,4|-- 87,7 5 0,1 10% 0,98 98%

87,7|-- 95,0 1 0,02 2% 1 100%

TOTAL 50 1 100% - -

3.3.3 Ferramentas gráficas

Outro recurso bem conhecido em um resumo de dados estatísticos é a ferramenta gráfica, a qual, se

bem utilizada, pode organizar muito bem um conjunto de dados. Há alguns tipos comuns em análises

estatísticas: gráfico de setores circulares, gráfico de barras, gráfico de dispersão, gráfico de linhas (ou de

tendência), histograma e box-plot (diagrama de caixa). Assim como, para as tabelas de frequências, as

ferramentas gráficas dependem sensivelmente da habilidade, coerência e bom senso do analista.

i. Gráfico de setores circulares ou “pizza”, ou “torta”

O gráfico circular representa, em geral, uma variável qualitativa (ou quando associada a uma variável

quantitativa). Cada elemento chamado setor circular que compõem o gráfico circular representa uma

característica diferente. Essa característica pode ser representada, ou pela frequência relativa, ou pela

frequência simples. Há casos no cotidiano em que o gráfico circular pode representar como exemplos:

valores monetários, parcela de contribuição por certa região do país, quantidade de venda por funcionários.

Page 13: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Figura 1 Gráfico circular das receitas municipais das regiões de governo da região metropolitana do vale do Paraíba

Observação: Os gráficos de setores circulares são muito utilizados, porém para variáveis binárias, como

sexo – masculino ou feminino – como possíveis atributos, esse tipo de gráfico pode ser facilmente

substituído por um texto. Por exemplo: se em um grupo de pessoas, há 70% de mulheres, fica claro nessa

frase que 30% são homens. Não há necessidade de um gráfico para explicar isso ao leitor.

ii. Gráfico de barras – verticais ou horizontais

O gráfico de barras representa, em geral, uma variável qualitativa Ordinal, ou quantitativa discreta. É

claro, que apenas nos casos em que for conveniente e que a informação apresentada não crie dúvidas para o

próprio analista ou outra pessoa. Em seus eixos coordenados devem-se representar os valores da variável

estudada na abscissa (eixo x) e sua frequência relativa, ou frequência simples na ordenada (eixo y). Com

exceção, se for conveniente para o analista trocar as variáveis para facilitar a leitura e interpretação.

Figura 2 Gráfico de barras para variável idade do questionário estudantil

248.541.248; 5%

583.151.465; 13%

2.477.462.597; 53%

1.323.664.882; 29% Região de Governo de Cruzeiro

Região de Governo de Guaratinguetá

Região de Governo de São José dos Campos

Região de Governo de Taubaté

0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

50%

17 18 19 20 21 22 23 24 25

Page 14: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

iii. Gráfico de dispersão de dados

O gráfico de dispersão representa a associação entre duas variáveis quantitativas. Em geral, esse tipo

de gráfico está relacionado à variável tempo (minuto, segundo, hora, dias, meses, anos, séculos). É de fácil

interpretação, principalmente se o interesse é identificar se há alguma nuvem de pontos evidente entre o

conjunto de dados.

Figura 3 Gráfico de dispersão entre variável peso e a altura dos alunos

Figura 4 Gráfico de dispersão entre variável peso e a altura dos alunos – por sexo

Observação: Note que na Figura 3 a dispersão de dados fica menos significativa, porém quando destacamos

o sexo do indivíduo, percebe-se uma clara diferença entre os sexos, na Figura 4.

iv. Gráfico de linhas de tendências

O gráfico de linhas de tendências representa a associação entre duas variáveis quantitativas. Assim,

como o gráfico de dispersão, pode definir ao longo de um período a existência (ou não) de tendência da

variável estudada.

Page 15: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Figura 5 Gráfico de dispersão da variável ano versus número de habitantes da região metropolitana do vale do Paraíba

Figura 6 Gráfico de linhas de tendências da população da região metropolitana do vale do Paraíba

v. Histograma

O histograma é um tipo de gráfico de barras, porém há um detalhe poucas vezes estudado e pode ser

mais bem entendido:

Um gráfico de barras associa os valores de uma variável a sua frequência relativa, isto é, um

eixo cartesiano (abscissa) é composto por valores da variável estudada e o outro (ordenada)

pela frequência relativa, ou frequência simples.

Para esse gráfico não há necessidade da variável ser tratada em intervalos de classes, observe

o exemplo da Figura 2, e sua área não representa significado. A sua analogia básica ao

histograma diz respeito a sua forma que pode ser a mesma apresentada em um histograma.

Assim, o histograma relaciona a área sobre um de seus intervalos de classe ao valor de sua

frequência relativa, ou seja, a altura de cada retângulo não será representada pela frequência relativa e, sim,

por um valor chamado densidade.

Page 16: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

A densidade representará o eixo das ordenadas e a abscissa será composta por intervalos de classe

predefinidos em uma tabela de frequências.

Tabela 6 Tabela de frequências da variável de potássio no sangue de uma pessoa

Nível de K ni fr fr % fac fac % d

2,25|-- 2,55 1 0,048 4,8% 0,048 4,8% 0,159

2,55|-- 2,75 3 0,143 14,3% 0,190 19,0% 0,714

2,75|-- 2,95 2 0,095 9,5% 0,286 28,6% 0,476

2,95|-- 3,15 4 0,190 19,0% 0,476 47,6% 0,952

3,15|-- 3,35 5 0,238 23,8% 0,714 71,4% 1,190

3,35|-- 3,65 6 0,286 28,6% 1,000 100,0% 0,952

Total 21 1 100,0%

Figura 7 Histograma da variável nível de potássio no sangue de uma pessoa

Do aspecto computacional, os softwares praticamente não se preocupam com o valor da densidade

de área, porém para o analista isso deve ser tomado uma atenção especial.

vi. Gráfico de Pareto

O gráfico de Pareto é uma representação das atividades mais frequentes em um conjunto de dados, e

é mais comum quando se trata uma variável qualitativa, de forma a sinalizar oportunidades de melhoria na

variável estudada. O exemplo da Figura 8 produz o efeito de que a tolerância ao cigarro é pouco aceita entre

os estudantes, e de forma decrescente estão as pessoas que toleram muito e os indiferentes. É nesse sentido

que o gráfico de Pareto sinaliza as oportunidades de mudanças ou melhorias em algumas análises na área de

produção.

0,000

0,200

0,400

0,600

0,800

1,000

1,200

1,400

[2,25; 2,55] [2,55; 2,75] [2,75;2,95] [2,95;3,15] [3,15;3,35] [3,35;3,65]

A densidade (d) foi calculada para cada

intervalo de classe como o ex. do

primeiro intervalo.

Observe que alguns intervalos possuem

amplitudes diferentes entre si.

Page 17: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Figura 8 Gráfico de Pareto associado a tolerância ao cigarro por parte dos alunos do questionário estudantil

vii. Diagrama de caixas – Box plot

O Box plot é um tipo de gráfico muito útil para representar a dispersão de um conjunto de dados. A

variável estudada deve ser numérica, ou seja, quantitativa Discreta ou Contínua. Além disso, o Box plot

apresenta algumas medidas de tendência central que podem auxiliar a resumir um conjunto de dados ou

explicar as características de uma variável, como exemplo, temos os valores quartis. É importante observar

que esse tipo de gráfico só será construído se a variável for Contínua, ou ainda, se a variável for Discreta e

tratada através do uso de intervalos de classe.

Figura 9 Diagrama de caixas da variável altura – comparação entre sexos

Para construir um diagrama de caixas devem-se tomar as seguintes medidas como referências:

Variável quantitativa discreta

Page 18: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Os 1º e 3º quartis poderão ser encontrados a partir do 2º quartil, pois o analista saberá o número

de elementos inferior ou superior ao 2º quartil, assim buscará as suas metades inferior e superior

para definir o 1º e o 3º quartil.

Variável quantitativa contínua

tal que é dado por:

Nesse caso o valor a representará o limite inferior do retângulo a que pertence o quartil, no

caso da Figura 10, o 1º quartil deve estar no terceiro retângulo do histograma.

Se observar a Tabela 6, verifica-se o mesmo fato, na coluna da frequência relativa

acumulada, ou seja, no seu terceiro intervalo de classe, deverá estar presente o 1º quartil, pois

essa frequência é a primeira superior a 25%.

Ainda por meio da tabela, o valor a será o limite inferior do mesmo intervalo de classe, logo

igual a 2,75, pode ser determinado pela diferença entre 25% e a do intervalo de classe

imediatamente inferior, no caso, 19%. Assim, . Como a densidade

para cada intervalo de classe já foi calculada previamente, pode-se calcular:

Figura 10 Definição de fQ no cálculo de Qi

Os limites de definição das discrepâncias serão:

Ou quando for o caso, devem-se tomar os valores probabilísticos para a média e o desvio padrão da

variável para:

, é a média e σ é o desvio padrão da variável estudada.

Como parte das interpretações destaca-se o exemplo na Figura 9:

O grupo masculino apresenta maiores alturas entre os alunos do questionário.

Dentro do grupo feminino há dois eventos discrepantes (outliers), elementos 17 e 42. Isso

significa que a maior homogeneidade do grupo não inclui esses elementos. O que não ocorre no

grupo masculino.

Page 19: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

A dispersão de dados do grupo masculino é maior dentro do seu intervalo interquartil ( )

do dentro do grupo feminino.

4 Medidas resumo

4.1 Introdução

As medidas resumo pertencem ao grupo de ferramentas matemáticas que permitem caracterizar um

conjunto de dados quanto ao ponto de vista da tendência central ou da dispersão dos dados estudados. Isso

quer dizer, são ferramentas que exibem a relação existente entre os dados coletados em uma pesquisa

estatística e pode ser mais bem explicada – pelo analista – com o conhecimento do ambiente de análise e das

diferentes perturbações que podem alterar o comportamento das características estudadas tais como:

equipamentos, métodos de trabalho, interpretações na leitura de medições, alterações ambientais, recursos

econômicos e aspectos físicos limitados. As ferramentas selecionadas para representar essas técnicas são:

média, moda, mediana, variância, amplitude, desvio padrão, erro padrão, assimetria, curtose, coeficiente de

variação. E, aqui serão caracterizadas segundo as suas aplicações possíveis e discutidas quando são mal

utilizadas em uma análise estatística.

4.2 Medidas de posição ou de tendência central

A teoria estatística permite que muitas decisões, sobre eventos do cotidiano, sejam tomadas em

comparação a situações simples em que todos podem presenciar.

Exemplo 3.1: Coloque-se em uma fila de espera (em agências bancárias, em campos de futebol, em um

Shopping Center, em estacionamentos, em agências públicas de atendimento) – é possível que todos tenham

alguma noção do tempo que poderá aguardar até serem atendidos, alguns podem ser otimistas, outras pessoas

nem tanto. Certamente, não há em nenhuma hipótese um quadro de resultados de espera disponível, ou

mesmo um gráfico informando, conforme o horário de chegada à fila, que indique o tempo previsto para ser

atendido. Para isso, justifica-se o uso de ferramentas que possam resumir e em muitas vezes coincide com o

conhecimento prático observado por todos que são submetidos a essas situações.

4.2.1 Moda, mediana e média

i. Moda (mo)

A moda é uma ferramenta que representa o elemento mais frequente no conjunto de dados. Em muitos

casos, a moda pode ser representada por mais de um elemento, se isso representar dois casos mais frequentes

do que outro, diz-se que o conjunto apresenta dois valores de moda, ou seja, o conjunto é bimodal. Se há

mais elementos na mesma situação, diz-se um conjunto multimodal. Na situação em que não há um elemento

mais frequente diz-se que o conjunto é amodal.

Page 20: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Exemplo: Foi observado o número de peças defeituosas em 20 lotes (com 100 peças cada) na produção

de peças automotivas. Considerou-se que X representa o número de peças com algum tipo de imperfeição e

construiu-se a seguinte tabela:

Tabela 7 Tabela de frequências do número de peças com algum tipo de imperfeição em 20 lotes

X ni fr fr % fac fac %

12 1 0,05 5% 0,05 5%

13 7 0,35 35% 0,4 40%

14 8 0,4 40% 0,8 80%

15 4 0,2 20% 1 100%

Total 20 1 100%

Nesse exemplo o elemento de maior frequência simples (ou relativa) é X=14, isso representa que entre

esses 20 lotes (com 100 peças cada) a moda é igual a 14, ou seja, há 8 lotes com 14 peças com algum tipo de

imperfeição.

ii. Mediana (md)

A mediana representa o elemento que ocupa a posição central dos dados ordenados (rol). É também,

conhecida como segundo quartil (Q2), isto é, o maior valor dos 50% menores valores, ou ainda, o menor

valor dos 50% maiores valores. É calculada exatamente como o segundo quartil (v. diagramas de caixa –

box plot).

iii. Média ( )

A média é uma das ferramentas mais utilizadas na análise estatística, em muitos casos, confundida com

os conceitos de mediana e moda. A média é definida como a soma de todos os elementos do conjunto de

dados avaliados dividido pelo número total de observações.

Em termos práticos, a média é o valor esperado para um conjunto de dados, ou ainda, se há um

elemento que pode substituir e representar o conjunto amostral, ele então será dado pela média.

Observação: Geralmente, é uma ferramenta que é mal interpretada, em função da conclusão errônea de

que o elemento central é dado pela média. Um cuidado com as conclusões sobre os efeitos causados pelo uso

incorreto do valor médio deve ser considerado crucial na análise estatística.

Page 21: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Os softwares estatísticos apresentam resumos de dados completos, dos quais podemos definir esses

valores de medidas de posição de forma bem simples.

iv. Separatrizes – valores quantis

Os valores quantis são medidas que limitam um conjunto de dados em pontos específicos e são

utilizados para explicar a dispersão ou mesmo de posição em um conjunto de dados. Entre eles existem os

decis (10%, 20%, 30%,...,80%, 90%), percentis (1%, 2%, 3%, 4%, 5%,..., 10%,..., 98%, 99%), quartis (25%,

50%, 75%)

Os elementos quartis representam valores de ordem definidos por 25%, 50% ou 75%. Eles assumem

valores de posição dados por:

= 1º Quartil = Maior valor entre os 25% menores valores do conjunto de dados.

= 2º Quartil = Maior valor entre os 50% menores valores do conjunto de dados (Mediana).

= 3º Quartil = Maior valor entre os 75% menores valores do conjunto de dados.

O significado de um elemento quartil é dado principalmente pela noção de dispersão dos dados.

Se esses valores são próximos significa pouca dispersão entre os valores centrais.

Se é igual a então se pode afirmar que há uma simetria entre os valores

centrais da variável estudada.

Se é diferente de então se pode afirmar que há um deslocamento dos

valores da variável, sempre com tendência a uma maior dispersão onde a diferença entre

é maior.

4.3 Medidas de dispersão

4.3.1 Amplitude (

A amplitude é definida pela diferença entre o valor máximo e o valor mínimo do conjunto de dados

avaliados.

O uso dessa ferramenta permite que o analista perceba a dispersão dos dados de maneira simples, porém

é uma ferramenta que não define a relação existente entre os diferentes valores que estão presentes entre o

valor máximo e o mínimo. A amplitude é extremamente sensível na presença de valores discrepantes em um

conjunto de dados. Para isso insere-se o cálculo da variância e do desvio padrão para tentar explicar o

comportamento de dispersão dos dados centrais.

Page 22: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

4.3.2 Variância populacional ( )

A variância populacional é definida como a média das distâncias quadráticas existentes entre cada

observação em relação à média. É definida por:

ou

Observação: Cuidado com o uso do valor da variância, afinal o seu valor físico é sempre diferente da unidade

física das observações.

4.3.3 Variância amostral ( )

A variância amostral é aplicada a problemas em que uma amostra da população é apresentada e

pretende-se estudar e estimar as características de dispersão da sua população.

ou

4.3.4 Desvio padrão ( )

O desvio padrão é um elemento importante para definição da relação existente entre os diferentes

valores em um conjunto de dados. Ele permite que a discussão sobre a variabilidade dos dados ocorra na

unidade em que os dados são apresentados, assim os termos relacionados ao desvio do conjunto de dados em

relação à média será dado pelo valor de . Observação: o mesmo ocorre com o desvio padrão amostral.

Um resultado importante para o uso do desvio padrão é a relação existente entre o conjunto de dados e o

valor da média:

Page 23: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

i. Se os valores estão a um desvio padrão distantes da média, então se pode afirmar que a incerteza, em

torno da média, está em 68,26%.

ii. Se os valores estão a dois desvios padrões distantes da média, então se pode afirmar que a incerteza

em torno da média está em 95,45%. Esse valor é muito aplicado em estudos sobre variáveis quantitativas

contínuas, especialmente, as mensuráveis.

4.3.5 Coeficiente de variação

O coeficiente de variação é o valor encontrado pela divisão do desvio padrão (amostral ou populacional)

pela sua média. Esse valor permite uma medida comparativa entre duas ou mais distribuições. A distribuição

que apresentar o menor valor de CV é a que possui menor dispersão entre os seus valores.

Na prática, considera-se uma distribuição com baixa dispersão quando o coeficiente de variação for

menor ou igual a 10%; dispersão moderada quando o coeficiente de variação for maior que 10% e menor ou

igual a 20% e alta dispersão quando for superior a 20%.

Exemplo: Os retornos mensais dos investimentos A e B durante os últimos seis meses estão apresentadas na

tabela seguinte. Qual dos dois investimentos apresentou maior dispersão?

Tabela 8 Retornos mensais dos investimentos A e B

A B

5% 6%

9% 7%

15% 9%

12% 7%

9% 6%

6% 8%

MÉDIA 9,33% 7,17%

DESVIO PADRÃO 3,7% 1,2%

CV 39,9% 16,3%

Daí, conclui-se que o investimento A apresenta maior variabilidade do que B. Pois o CV do

investimento A é maior do que o CV do investimento B.

4.3.6 Teorema de Tchebyschev

Para qualquer grupo de valores de uma amostra ou população, a proporção mínima de valores que se

encontram dentro de k desvios padrões ao redor da média é pelo menos igual a

, sendo k uma

constante maior que um.

Page 24: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

4.3.7 Curtose(K)

A medida de curtose apresenta o grau de achatamento da distribuição de frequências em relação à

curva normal [Gaussiana!].

4.3.8 Assimetria (As)

As medidas de assimetria medem o deslocamento da distribuição de frequências em relação aos seus

valores centrais. Há dois métodos conhecidos:

i. Coeficiente de assimetria de Pearson

ii. Coeficiente de assimetria de Bowley

5 Análise combinatória

5.1 Princípio fundamental de contagem

Suponha que dois experimentos sejam executados. Então, se o primeiro experimento pode ocorrer em

alguma de m possibilidades e, se para cada resultado do experimento 1 existem n possibilidades de

ocorrências do segundo experimento, então existem, quando ocorrem juntos, possibilidades dos dois

experimentos ocorrerem.

Page 25: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Exemplo. Uma pequena comunidade possui 10 mulheres, cada qual possui três filhos. Se uma mulher

e uma de suas crianças são escolhidas como “mãe e filho do ano”. Quantas possibilidades de escolhas

diferentes existem?

Resposta.

5.2 Princípio fundamental de contagem generalizado

Se existirem k procedimentos sendo executados e o i-ésimo procedimento puder ser executado de

maneiras, , então o procedimento formado pelo procedimento k poderá ser executado de

maneiras.

Exemplo 2. Um comitê escolar consiste de três novatos, quatro do 2º semestre, cinco do 3º semestre e dois

do 4º semestre. Um subcomitê de quatro elementos, consistindo de um elemento de cada semestre é

escolhido. Quantos subcomitês diferentes podem ser formados?

Resposta.

Exemplo 3. Quantas licenças de placas de carro são possíveis existir, quando há sete posições em cada

placa, das quais as três primeiras são letras e as quatro últimas são números?

Exemplo 4. Se, no Exemplo 3, não pudéssemos repetir as letras e os números quantas possibilidades

existiriam?

5.3 Permutação

Quantos arranjos ordenados diferentes podem ser formados com as letras A, B, C?

ABC, ACB, BAC, BCA, CAB, CBA

Cada arranjo desses é conhecido por permutação. Então, para três elementos têm-se seis possibilidades.

Suponha um arranjo ordenado formado por n objetos, nesse caso haverá

permutações diferentes dos n objetos.

Exemplo 5. Quantas são as possibilidades diferentes para organizar um time de baseball, o qual consiste de

nove jogadores?

OBS: Quando tomamos permutações em que há ao menos uma repetição entre os elementos, utilizaremos a

divisão:

Page 26: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Nesse caso quando houver k elementos com ao menos uma repetição com elementos.

Exemplo 6. Quantos anagramas podem ser formados com as letras:

a. PARE

b. SOFIA

c. CARAMELADA

d. PARAIBUNA

6 Probabilidades

Algumas ocorrências de nosso cotidiano de certos fenômenos naturais não podem ser previstos

antecipadamente. Há nessas ocorrências o interesse em estudar a intensidade de chuvas em uma determinada

região do país, durante o verão; ocorrências de acidentes de trabalho, execução de manutenções corretivas,

estimativas de crescimento econômico, índices sociais. Como também podemos citar a previsão do tempo de

vida útil de equipamentos, dos quais inserimos algumas medidas de incerteza para caracterizar estes eventos.

A estes fenômenos cujos resultados não podem ser previstos com total precisão, chamamos de fenômenos

aleatórios.

6.1 Teoria de conjuntos

6.1.1 Espaço Amostral e Eventos

Ao conjunto de todos os resultados possíveis de um experimento será chamado de espaço amostral

do experimento e, é comumente denotado por S ou .

Para qualquer subconjunto de denominaremos como evento e representaremos por E.

Exemplo:

i. Quando apresentamos as possibilidades de sexo de uma criança ao nascer:

= {Masculino, Feminino}

ii. Quando lançamos uma moeda e apresentamos as suas possibilidades de ocorrências:

= {Cara, Coroa}

Exercício:

1. Para cada um dos casos a seguir, escreva o espaço amostral correspondente e conte seus elementos:

Page 27: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

a. Uma moeda é lançada duas vezes e observam-se as faces obtidas.

Resposta {(K, K), (K, C), (C, K), (C, C)}

b. Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões rigorosamente iguais. Três

bolas são selecionadas ao acaso com reposição e as cores são anotadas.

Resposta. {(A, A, A), (A, A, V), (A, V, A), (V, A, A), (A, V, V), (V, A, V), (V, V, A), (V,

V, V)}.

c. Dois dados são lançados simultaneamente e estamos interessados na soma das faces

observadas.

Resposta. {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}

Observações:

Chamamos o conjunto de conjunto vazio, ou seja, o conjunto que não apresenta nenhum elemento

contido nele.

Chamamos o evento EC de evento complementar, formado por todos os elementos, se existirem, que

não pertencem ao evento E.

Para quaisquer dois eventos E e F pertencentes a um mesmo espaço amostral, então definiremos o

evento como a união de E e F a qual consiste de todos os elementos que estão ou em F ou em

E ou em ambos os conjuntos.

é a interseção de E e F, que consiste dos resultados que estão em E e em F (ao mesmo tempo).

Se , então E e F são ditos ser eventos mutuamente exclusivos, ou disjuntos.

6.1.2 Identidades:

e.

f.

g.

h.

i.

j.

k.

l.

6.1.3 Leis de De Morgan

6.1.4 Axiomas de probabilidade:

Isso quer dizer, quando o número de casos possíveis de um evento E sobre o número total de

possibilidades tende a um valor constante, então chamaremos de probabilidade do evento E. Para:

Page 28: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Axioma 1:

Axioma 2:

Axioma 3: Para uma sequencia de eventos mutuamente exclusivos (isto é,

eventos tais que a interseção entre si é igual ao conjunto vazio) temos:

Proposição 1:

Proposição 2: Se então

Proposição 3:

6.1.5 Probabilidade condicional e independência

Definição 1: Se então

Observação: É importante verificar que a condição é evidenciada pelo termo “sabendo-

se”, o qual também poderá ser “dado que” ou “visto que” ou “se”.

Definição 2: Se E e F são eventos independentes então

Observação: nesse caso a definição 1é dada por: , pois E é independente

de F.

Page 29: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

6.1.6 Exercícios:

1. Sejam A e B dois eventos em um dado espaço amostral, tais que , ,

e . Determine o valor de p.

2. 2. Uma universidade tem 10 mil alunos dos quais 4 mil são considerados esportistas. Temos, ainda,

que 500 são alunos do curso de biologia diurno, 700 da biologia noturno, 100 são esportistas e da

biologia diurno e 200 são esportistas e da biologia noturno. Um aluno é escolhido, ao acaso, e

pergunta-se a probabilidade de:

a. Ser esportista.

b. Ser esportista e aluno da biologia noturno.

c. Não ser da biologia.

d. Ser esportista ou aluno da biologia.

e. Não ser esportista, nem aluno da biologia.

3. Dois dados equilibrados são lançados. Calcule a probabilidade de:

a. Obter o par (3,4), sabendo-se que ocorreu face ímpar no primeiro dado.

b. Ocorrer face ímpar no segundo dado, sabendo-se que ocorreu face par no primeiro dado.

4. Em um bairro existem três empresas de TV a cabo e 20 mil residências. A empresa TA tem 2100

assinantes, a TB tem 1850 e a empresa TC tem 2600 assinantes, sendo que algumas residências em

condomínios subscrevem aos serviços de mais de uma empresa. Assim, temos 420 residências que

são assinantes de TA e TB, 120 de TA e TC, 180 de TB e TC e 30 que são assinantes das três

empresas. Se uma residência desse bairro é sorteada ao acaso, qual é a probabilidade de?

a. Ser assinante somente da empresa TA?

b. Assinar pelo menos uma delas?

c. Não ter TV a cabo?

5. A urna 1 contém x bolas brancas e y bolas vermelhas. A urna 2 contém z bolas brancas e v bolas

vermelhas. Uma bola é escolhida ao acaso da urna 1 e posta na urna 2. A seguir, uma bola é

escolhida ao acaso da urna 2. Qual será a probabilidade de que esta bola seja branca?

6. Suponha que A e B sejam eventos independentes associados a um experimento. Se a probabilidade

de A ou B ocorrerem for igual a 0,6, enquanto a probabilidade da ocorrência de A for igual a 0,4,

determine a probabilidade da ocorrência de B.

7. Suponha que temos duas urnas 1 e 2, cada uma com duas gavetas. A urna 1 contém uma moeda de

ouro em uma gaveta e uma moeda de prata em outra gaveta; enquanto a urna 2 contém uma moeda

de ouro em cada gaveta. Uma urna é escolhida ao acaso; a seguir uma de suas gavetas é aberta ao

acaso. Verifica-se que a moeda encontrada nessa gaveta é de ouro. Qual a probabilidade de que a

moeda provenha da urna 2?

8. Um saco contém três moedas, uma das quais foi cunhada com duas caras, enquanto as duas outras

moedas são normais e não viciadas. Uma moeda é tirada ao acaso do saco e jogada quatro vezes, em

sequencia. Se sair cara toda vez, qual será a probabilidade de que essa seja a moeda de duas caras?

Page 30: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

9. Um número binário é constituído apenas dos dígitos zero e um. (Por exemplo, 1011, 1100,…) Esses

números têm importante papel na utilização de computadores eletrônicos. Suponha que um número

binário seja formado de n dígitos. Suponha que a probabilidade de um dígito incorreto aparecer seja

p e que os erros em diferentes dígitos sejam independentes uns dos outros. Qual será a probabilidade

de formar-se um número incorreto?

10. Um dado não viciado é lançado n vezes. Qual é a probabilidade de que o “6” apareça ao menos uma

vez em n jogadas?

11. Cada uma de duas pessoas joga três moedas equilibradas. Qual é a probabilidade de que elas

obtenham o mesmo número de caras?

12. Uma montagem eletrônica é formada de dois subsistemas A e B. De procedimentos de ensaio

anteriores, as seguintes probabilidades se admitem conhecidas:

Calcule as

seguintes probabilidades:

a.

b.

13. Um dado é lançado e, independentemente, uma carta é extraída de um baralho completo (52 cartas).

Qual será a probabilidade de que:

a. O dado mostre um número par e a carta seja de um naipe vermelho?

b. O dado mostre um número par ou a carta seja de um naipe vermelho?

14. Dois dados não viciados são lançados. Qual é a probabilidade condicional de que no mínimo uma

das faces seja o número 6 dado que as faces são números diferentes?

15. Se dois dados não viciados são lançados, qual é a probabilidade condicional de que a primeira face

seja o número 6 dado que a soma das faces é igual a i? Calcule para todos os valores possíveis de i.

16. Se dois dados não viciados são lançados, qual é a probabilidade condicional de que pelo menos uma

das faces seja o número 6 dado que a soma das faces é i?

17. Uma urna contém 6 bolas brancas e 9 bolas pretas. Se 4 bolas são selecionadas ao acaso sem

reposição, qual é a probabilidade de que as duas primeiras bolas selecionadas sejam brancas e as

duas últimas bolas pretas?

18. Considere três urnas. A urna A contém 2 bolas brancas e 4 vermelhas; a urna B contém 8 bolas

brancas e 4 vermelhas; e a urna C contém uma branca e três vermelhas. Se uma bola é selecionada

de cada urna, qual é a probabilidade de que a bola escolhida a partir da urna A seja branca, dado que

exatamente duas bolas brancas foram selecionadas?

19. Em certa comunidade, 36% das famílias possuem um cachorro, e 22% das famílias que possuem um

cachorro também possuem um gato. Além disso, 30% das famílias possuem um gato. Qual é:

a. A probabilidade de que uma família selecionada ao acaso tenha ambos, um gato e um

cachorro?

b. A probabilidade condicional de que uma família selecionada ao acaso tenha um cachorro

dado que possui um gato?

Page 31: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

20. Dos eleitores de uma cidade 46% são classificados como Independentes, e 30% são classificados

como Liberais e 24% como Conservadores. Em recente eleição, 35% dos Independentes, 62% dos

Liberais e 58% dos Conservadores votaram. Um eleitor é escolhido ao acaso. Dado que esta pessoa

votou nessa eleição, qual é a probabilidade de que ele ou ela sejam:

a. Um Independente?

b. Um Liberal?

c. Um Conservador?

d. Qual a parcela de eleitores que participaram dessa eleição?

21. Cinquenta e dois por cento dos estudantes de uma universidade são mulheres. Cinco por cento dos

estudantes dessa universidade fazem Ciência da Computação. Dois por cento são mulheres que

fazem Ciência da Computação. Se um estudante é selecionado ao acaso, encontre a probabilidade

condicional de que:

a. Este estudante seja mulher, dado que o estudante faz Ciência da Computação?

b. Este estudante faça Ciência da Computação, dado que o estudante é mulher?

22. Uma moeda é viciada de modo que a probabilidade de sair cara é 4 vezes maior que a de sair coroa.

Para dois lançamentos independentes dessa moeda, determinar:

a. O espaço amostral.

b. A probabilidade de sair somente uma cara.

c. A probabilidade de sair pelo menos uma cara.

d. A probabilidade de dois resultados iguais.

23. Considere um conjunto de 4 números dos quais nenhum deles é zero, dois são positivos e dois são

negativos. Sorteamos ao acaso, com reposição, 2 números desse conjunto. Determine a

probabilidade de:

a. Somente um deles ser negativo.

b. O quociente ser negativo.

c. Os dois números terem o mesmo sinal.

24. Uma classe de estatística teve a seguinte distribuição das notas finais: 4 do sexo masculino e 6 do

feminino foram reprovados, 8 do sexo masculino e 14 do feminino foram aprovados. Para um aluno

sorteado dessa classe, denote por M se o aluno escolhido for do sexo masculino e por A se o aluno

foi aprovado. Calcule:

a.

b.

c.

d.

e.

25. Numa cidade do interior de São Paulo, estima-se que cerca de 20% dos habitantes tem algum tipo de

alergia. Sabe-se que 50% dos alérgicos praticam esporte, enquanto que essa porcentagem entre os

Page 32: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

não alérgicos é de 40%. Para um indivíduo escolhido aleatoriamente nessa cidade, obtenha a

probabilidade de:

a. Não praticar esporte.

b. Ser alérgico dado que não pratica esporte.

26. As preferências de homens e mulheres, por gênero de filme alugado em uma locadora de vídeos,

estão apresentadas na próxima tabela.

Sexo/Filme Comédia Romance Policial

Homens 136 92 248

Mulheres 102 195 62

Sorteando-se, ao acaso, uma dessas locações de vídeo, pergunta-se a probabilidade de:

a. Uma mulher ter alugado um filme policial?

b. O filme alugado ser uma comédia?

c. Um homem ter alugado ou o filme ser um romance? IO

d. O filme ser policial dado que foi alugado por um homem?

27. Das pacientes de uma Clínica de Ginecologia com idade acima de 40 anos, 60% são ou foram

casadas e 40% são solteiras. Sendo solteira, a probabilidade de ter tido um distúrbio hormonal no

último ano é de 10%, enquanto que para as demais essa probabilidade aumenta para 30%. Pergunta-

se:

a. Qual a probabilidade de uma paciente escolhida ao acaso ter um distúrbio hormonal?

b. Se a paciente sorteada tiver distúrbio hormonal, qual a probabilidade de ser solteira?

c. Se escolhermos duas pacientes ao acaso e com reposição, qual é a probabilidade de pelo

menos uma ter o distúrbio?

28. Você entrega a seu amigo uma carta, destinada a sua namorada, para ser colocada no correio.

Entretanto, ele pode se esquecer com probabilidade 0,1. Se não se esquecer, a probabilidade de que o

correio extravie a carta é de 0,1. Finalmente, se foi enviada pelo correio a probabilidade de que a

namorada não a receba é de 0,1.

a. Sua namorada não recebeu a carta, qual a probabilidade de seu amigo esquecer-se de colocá-

la no correio?

b. Avalie as possibilidades de esse namoro continuar, se a comunicação depender das cartas

enviadas.

29. Numa região, a probabilidade de chuva em um dia qualquer de primavera é de 0,1. Um

meteorologista da TV acerta suas previsões em 80% dos dias em que chove e em 90% dos dias em

que não chove.

a. Qual é a probabilidade do meteorologista acertar a sua previsão?

b. Se houve acerto na previsão feita, qual a probabilidade de ter sido um dia de chuva?

30. A tabela a seguir apresenta informações de alunos de uma universidade quanto às variáveis: Período,

Sexo, Opinião sobre a Reforma Agrária. Determine a probabilidade de escolhermos:

a. Uma pessoa do sexo masculino e sem opinião sobre a reforma agrária?

Page 33: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

b. Uma mulher contrária a reforma agrária?

c. Dentre os estudantes do noturno, um que seja a favor da reforma agrária?

d. Uma pessoa sem opinião, sabendo-se que ela é do sexo feminino?

Período Sexo Reforma Agrária

Contra A Favor Sem opinião

Diurno Feminino 2 8 2

Masculino 8 9 8

Noturno Feminino 4 8 2

Masculino 12 10 1

31. Três candidatos disputam as eleições para o Governo do Estado. O candidato do partido de direita

tem 30% da preferência eleitoral, o de centro tem 30% e o de esquerda 40%. Sendo eleito, a

probabilidade de dar prioridade para Educação e Saúde é de 0,4; 0,6 e 0,9 para os candidatos de

direita, centro e esquerda, respectivamente.

a. Qual é a probabilidade de não ser dada prioridade a essas áreas no próximo governo?

b. Se a área teve prioridade, qual a probabilidade do candidato de direita ter sido eleito?

32. A tabela a seguir apresenta dados dos 1000 ingressantes de uma universidade, com informações

sobre área de estudo e classe sócio econômica.

Se um aluno ingressante é escolhido ao acaso, determine a probabilidade de:

a. Ser da classe econômica mais alta.

b. Estudar na área de exatas.

c. Estudar na área de humanas, sendo de classe média.

d. Ser da classe baixa, dado que estuda na área de biológicas.

33. Numa população, a probabilidade de gostar de teatro é 1/3, enquanto que a de gostar de cinema é ½.

Determine a probabilidade de gostar de teatro e não de cinema, nos seguintes casos:

a. Gostar de teatro e gostar de cinema são eventos disjuntos.

b. Gostar de teatro e gostar de cinema são eventos independentes.

c. Todos que gostam de teatro gostam de cinema.

d. A probabilidade de gostar de teatro e de cinema é 1/8.

e. Dentre os que não gostam de cinema, a probabilidade de não gostar de teatro é ¾.

34. Acredita-se que numa população, 20% de seus habitantes sofrem de algum tipo de alergia, e são

classificados como alérgicos para fins de saúde pública. Sendo alérgico, a probabilidade de ter

reação a certo antibiótico é de 0,5. Para os não alérgicos essa probabilidade é de apenas 0,05. Uma

pessoa dessa população teve reação ao ingerir o antibiótico, qual a probabilidade de?

a. Ser do grupo não alérgico?

b. Ser do grupo alérgico?

35. Uma família viaja ao litoral para passar um fim de semana. A probabilidade de congestionamento na

estrada é de 0,6. Havendo congestionamento, a probabilidade dos seus dois filhos brigarem no carro

de 0,8 e, sem congestionamento, a briga pode aparecer com probabilidade 0,4. Quando há briga, com

Page 34: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

ou sem congestionamento, a probabilidade do pai perder a paciência com os filhos é de 0,7. É claro

que havendo congestionamento o pai pode perder a paciência com os filhos mesmo sem brigas, o

que aconteceria com probabilidade 0,5. Quando não há congestionamento, nem briga, o pai dirige

tranquilo e não perde a paciência. Determine a probabilidade de:

a. Não ter havido congestionamento se o pai não perdeu a paciência com seus filhos.

b. Ter havido briga, dado que o pai perdeu a paciência.

c. Quatro sinais de radio são emitidos sucessivamente. Se a recepção de cada um for

independente da recepção de outro, e se essas probabilidades forem, 0.1, 0.2, 0.3, 0.4,

respectivamente, calcule a probabilidade de que k sinais venham a ser recebidos para k=0, 1,

2, 3, 4.

36. Numa sala com 15 pessoas, quantas amostras (de 15 pessoas) com a condição de que todas elas

tenham nascido em dias diferentes podem ser formadas? Assuma que o ano tem 365 dias.

37. Uma professora distribui para classe um conjunto de dez problemas, sendo que o exame final

consistirá de uma seleção aleatória de cinco desses problemas. Se um aluno tiver resolvido

corretamente sete problemas, qual a probabilidade de que:

a. Ele consiga nota máxima no exame.

b. Ele consiga acertar pelo menos quatro problemas no exame.

38. Uma urna contém duas bolas brancas e três bolas vermelhas. Duas bolas são extraídas ao acaso, em

sequencia, e suas cores são registradas.

a. Calcule a probabilidade de que a segunda bola escolhida seja branca, dado que a primeira

escolhida é vermelha.

b. Calcule a probabilidade de que a segunda bola escolhida seja vermelha, dado que a primeira

escolhida é vermelha.

c. Há diferença se as retiras ocorrerem com ou sem reposição? Explique.

39. Sejam A e B eventos independentes tais que a

.

Calcule:

.

40. Considere um experimento em que um dado não viciado é lançado e, independentemente, uma

moeda não viciada é lançada.

a. Escreve o espaço amostral.

b. Qual é a probabilidade de que a face da moeda seja Cara e apareça um número ímpar na face

do dado?

c. Se ocorrer um número par na face do dado, qual a probabilidade de que ocorra uma coroa na

face da moeda?

41. Suponha que uma pessoa lance dois dados equilibrados três vezes em sequencia. Determine a

probabilidade de que em cada um dos três lançamentos a soma dos dois números seja igual a 7.

42. Suponha que 10.000 bilhetes sejam vendidos de uma loteria A e 5000 bilhetes sejam vendidos de

uma loteria B. Se uma pessoa compra 100 bilhetes de cada loteria, qual é a probabilidade de que ela

receba o primeiro prêmio em pelo menos uma das loterias? (Suponha que haja apenas um bilhete

premiado na loteria A e outro na loteria B)

43. Suponha que A, B e C sejam três eventos, tais que: A e B são mutuamente exclusivos, A e C são

independentes, e B e C são independentes. Suponha também que e

. Determine a .

44. A Urna 1 contém 2 bolas brancas e 4 vermelhas, além disso a Urna 2 contém 1 bola branca e 1

vermelha. Um bola é selecionada aleatoriamente da Urna 1 e colocada na Urna 2, e uma bola é

selecionada na Urna 2. Qual é:

a. A probabilidade de que a bola selecionada na Urna 2 seja branca.

Page 35: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

b. A probabilidade de que a bola transportada seja branca, dado que uma bola branca foi

selecionada na Urna 2?

45. A Urna A tem 5 bolas brancas e 7 bolas pretas. A Urna B tem 3 bolas brancas e 12 bolas pretas. Uma

moeda não viciada é lançada. Se o resultado da face da moeda é Cara, então uma bola é selecionada

da Urna A, se for Coroa, então a bola selecionada será da Urna B. Suponha que uma bola branca foi

selecionada, qual a probabilidade de que a moeda tenha apresentado a face Coroa?

46. Uma escola do ensino médio do interior de São Paulo tem 40% de estudantes do sexo masculino.

Entre estes, 20% nunca viram o mar, ao passo que, entre as meninas, essa porcentagem, é de 50%.

Qual a probabilidade de que um aluno selecionado ao acaso seja:

a. Do sexo masculino e nunca tenha visto o mar?

b. Do sexo feminino ou nunca tenha visto o mar?

47. O São Paulo Futebol Clube ganha com probabilidade 0.7 se chove e com 0.8 se não chove. Em

setembro a probabilidade de chuva é de 0.3. O São Paulo ganhou uma partida em Setembro, qual a

probabilidade de ter chovido nesse dia?

48. Dois processadores tipos A e B são colocados em teste por 50 mil horas. A probabilidade de que um

erro de cálculo aconteça em um processador do tipo A é de 1/30, no tipo B, 1/80 e, em ambos,

1/1000. Qual a probabilidade de que:

a. Pelo menos um dos processadores tenha apresentado erro?

b. Nenhum processador tenha apresentado erro?

c. Apenas o processador A tenha apresentado erro?

49. Em uma fábrica de parafusos, as máquinas A, B e C produzem 25%, 35% e 40% do total produzido,

respectivamente. Da produção de cada máquina 5%, 4% e 2%, respectivamente, são parafusos

defeituosos. Escolhe-se ao acaso um parafuso e verifica-se ser defeituoso. Qual será a probabilidade

de que o parafuso venha da máquina A? Da B? Da C?

50. Três jornais A, B e C são publicados em uma cidade e uma recente pesquisa entre os leitores indica o

seguinte: 20% leem A; 26% leem B; 14% leem C; 8% leem A e B; 5% leem A e C; 2% leem A, B e

C e 4% leem B e C. Para um adulto escolhido ao acaso, calcule a probabilidade de que:

a. Ele não leia qualquer dos jornais.

b. Ele leia exatamente um dos jornais;

c. Ele leia ao menos A e B, se se souber que ele lê ao menos um dos jornais publicados.

51. Em um espaço amostral com uma probabilidade P, são dados os eventos A, B e C tais que:

P(A) = P (B) = ½, com A e B independentes, , e sabe-se que

. Calcule as probabilidades condicionais e .

52. Suponha que um fabricante de sorvetes recebe 20% de todo o leite que utiliza de uma fazenda F1,

30% de outra fazenda F2 e 50% de F3. Um órgão de fiscalização inspecionou as fazendas de

surpresa e observou que 20% do leite produzido por F1 estava adulterado por adição de água,

enquanto que para F2 e F3, essa proporção era de 5% e 2%, respectivamente. Na indústria de

sorvetes os galões de leite são armazenados em um refrigerador sem identificação das fazendas.

Para um galão escolhido ao acaso, analise as possibilidades de o leite estar adulterado ou não.

Sabendo-se que o leite está adulterado, qual a probabilidade do leite provir da fazenda F1, F2 ou F3.

Page 36: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

7 Modelos de probabilidade

7.1 Variável aleatória

Definição: Sejam ε um experimento e S um espaço amostral associado ao experimento. Uma função X, que

associe a cada um número real, X(s), é denominada variável aleatória.

Exemplo 1: No lançamento independente de duas moedas obtemos as faces: S = {(Cara, Cara), (Cara,

Coroa), (Coroa, Cara), (Coroa, Coroa)}. Nesse caso, pode-se afirmar que o número de caras X associado a

cada experimento , deve ser considerado um X(s) = {2, 1, 1, 0}.

7.2 Variável aleatória discreta

Definição: Seja X uma variável aleatória. Se o número de valores possíveis de X for finito ou infinito

numerável, denominar-se-á X como variável aleatória discreta. Isto é, os valores possíveis de X, podem ser

colocados em listas como .

Definição: Se X é uma variável aleatória discreta então, a cada valor possível de , associaremos um

número , denominado probabilidade de xi. Esses valores devem satisfazer as seguintes

condições:

a.

b.

A função p, definida anteriormente, é denominada função de probabilidade da variável aleatória X. A

coleção de pares (xi, p(xi)) é denominada distribuição de probabilidade.

7.3 Principais modelos discretos de probabilidade

7.3.1 Modelo uniforme discreto

Seja X uma variável aleatória cujos valores possíveis são representados por . Diz-se

que X segue o modelo uniforme discreto se atribui a mesma probabilidade a cada um desses k valores,

isto é, sua função de probabilidade é dada por:

Page 37: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

7.3.2 Modelo de Bernoulli

Diz-se que uma variável X segue o modelo de Bernoulli se atribui 0 ou 1 à ocorrência de fracasso ou

sucesso respectivamente. Com p representando a probabilidade de sucesso, , sua função discreta

de probabilidade é dada por:

A repetição de n ensaios de Bernoulli independentes dá origem à mais importante variável aleatória

discreta, denominada modelo Binomial.

7.3.3 Modelo Binomial, X~B(n,p)

Considere a repetição de n ensaios de Bernoulli independentes e todos com a mesma probabilidade

de sucesso p. A variável que conta o número total de sucessos é denominada Binomial com parâmetros n e p

e sua função de probabilidade é dada por:

e

7.3.4 Modelo Geométrico, X~G(p)

Diz-se que uma variável aleatória X tem distribuição Geométrica de parâmetro p, se sua função de

probabilidade tem a forma:

7.3.5 Modelo de Poisson, X~P( )

Uma variável aleatória X tem distribuição de Poisson com parâmetro , se sua função de

probabilidade é dada por:

Com parâmetro λ sendo usualmente referido como a taxa de ocorrência.

Observação: O modelo de Poisson é usado com frequência em experimentos físicos e biológicos e, no caso, é

a frequência média ou esperada de ocorrências num intervalo de tempo.

Uma das aplicações interessantes e que prestam bons resultados pelo uso do modelo de Poisson é a

observação de eventos que ocorrem segundo uma taxa de frequência. Sempre que houver possibilidade de

tratar um evento que ocorre segundo um valor médio, ou valor médio esperado, então, pode-se tentar aplicar

o modelo de Poisson.

Page 38: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

7.3.6 Exercícios 1. Determine a média aritmética e o desvio-padrão para a variável aleatória X em cada uma das distribuições

binomiais a seguir:

a.

b.

c.

d.

2. Em uma pesquisa realizada pela Society for Human Resource Management, 70% dos trabalhadores afirmam

que os empregadores têm o direito de monitorar o uso dos telefones na empresa. Suponha que seja selecionada

uma amostra aleatória de 20 trabalhadores e que lhes seja perguntado se os empregadores têm o direito de

monitorar o uso dos telefones na empresa. Qual é a probabilidade de que:

a. Cinco ou menos desses trabalhadores concordem?

b. 10 ou menos desses trabalhadores concordem?

c. 15 ou menos desses trabalhadores concordem?

d. Mais do que quatro desses trabalhadores discordem?

3. Ainda sobre o exercício 2, quando foi indagado aos mesmos trabalhadores se os empregadores teriam o direito

de monitorar o uso de telefones celulares de seus empregados, o percentual caiu para 50%. Suponha que seja

indagado aos 20 trabalhadores se os empregadores tem o direito de monitorar o uso dos telefones celulares de

seus empregados. Qual é a probabilidade de que:

a. Cinco ou menos desses trabalhadores concordem?

b. 10 ou menos desses trabalhadores concordem?

c. 15 ou menos desses trabalhadores concordem?

d. Mais do que quatro desses trabalhadores discordem?

4. Compare os resultados apresentados nos exercícios 2 e 3.

5. Suponha uma distribuição de Poisson com . Qual é a probabilidade de que:

a. ?

b. ?

c. ?

d. ?

6. O departamento de transportes dos EUA mantém estatísticas sobre reclamações relacionadas a bagagem

extraviada para cada 1000 passageiros de companhias aéreas. Em 2005, a Jet Blue teve 4.1bagagens

extraviadas para cada 1000 passageiros. Qual é a probabilidade de que, para os próximos 1000 passageiros, a

Jet Blue venha ter:

a. Nenhuma bagagem extraviada?

b. Pelo menos uma bagagem extraviada?

c. Pelo menos duas bagagens extraviadas?

d. Qual o número esperado de bagagens extraviadas?

7. O departamento de transportes dos EUA mantém estatísticas sobre reclamações relacionadas a bagagem

extraviada para cada 1000 passageiros de companhias aéreas. Em 2005, a Delta teve 7.1bagagens extraviadas

para cada 1000 passageiros. Qual é a probabilidade de que, para os próximos 1000 passageiros, a Delta venha

ter:

a. Nenhuma bagagem extraviada?

b. Pelo menos uma bagagem extraviada?

c. Pelo menos duas bagagens extraviadas?

d. Qual o número esperado de bagagens extraviadas?

8. Compare as respostas apresentadas nas questões 2 e em 3.

9. Um número de telefone com discagem gratuita está disponível das 9 horas da manhã às 9 horas da noite para

que seus clientes registrem reclamações sobre algum produto adquirido de sua empresa. O histórico indica que

uma média de 0.4 chamadas é recebida por minuto.

a. Que propriedades precisam ser verdadeiras no que concerne à situação aqui descrita para que possa

ser utilizada a distribuição de Poisson para calcular probabilidades relacionadas ao número de

chamadas telefônicas recebidas em um período de 1minuto?

b. Zero chamada telefônica será recebida?

c. Três ou mais chamadas telefônicas serão recebidas?

Page 39: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

d. Qual é o número de máximo de chamadas telefônicas que serão recebidas, em um período de um

minuto, em relação a 99,99% do tempo?

10. Uma teoria relacionada à média industrial Dow Jones é que ela tende a crescer em anos de eleição presidencial

nos EUA. De 1964 a 2004, a média industrial Dow Jones cresceu em 9 dos 11 anos de eleições presidenciais

americanas. Considerando que esse indicador seja um evento aleatório, sem nenhum valor em termos de

previsão, você esperaria que o indicador estivesse correto em 50% do tempo. Qual é a probabilidade de a

média industrial Dow Jones crescer em 9 ou mais dos 11 anos de eleição presidencial se a verdadeira

probabilidade de crescimento da média industrial Dow Jones for de 50%?

11. Um agricultor cultiva laranjas e também produz muda para vender. Após alguns meses a muda pode ser

atacada por fungos com probabilidade 0,05 e, nesse caso, ela tem probabilidade 0,5 de ser recuperável. Admita

que o processo de recuperação seja infalível. O custo de cada muda produzida é R$1, que será acrescido de

mais R$ 0,5 se precisar ser recuperada. As irrecuperáveis são descartadas. Vendendo cada muda a R$ 3, estude

como se comporta o lucro por muda produzida.

12. Uma agência de turismo apresenta aos clientes o orçamento de uma viagem em duas partes. A primeira é o

transporte aéreo que têm três opções com preços 3; 3,5 e 4 mil reais e preferências de escolha de 0,5; 0,3 e 0,2

para as companhias TWA, TWB e TWC, respectivamente. A segunda parte do orçamento é a escolha de

estadia. Existem quatro opções de hotéis que custam 2; 2,5; 3 e 3,5 mil reais e são igualmente escolhidos pelos

clientes, independentemente da companhia aérea. Seja X a variável aleatória: orçamento da viagem. Calcule a

função de probabilidade e a função de distribuição da variável X.

13. Um equipamento consiste de duas peças A e B que têm 0,10 e 0,15 de probabilidade de serem de qualidade

inferior. Um operário escolhe ao acaso uma peça tipo A e uma do tipo B para construir o equipamento. Na

passagem pelo controle de qualidade o equipamento vai ser classificado. Será considerado como nível I se as

peças A e B forem de qualidade inferior, nível II se uma delas for de qualidade inferior e, nível III, no outro

caso. O lucro na venda é de R$ 10, R$ 20 ou R$ 30 para os níveis I, II ou III, respectivamente. Como se

comporta a variável lucro? Para dois equipamentos vendidos obtenha a função de probabilidade do lucro.

Nesse caso, qual seria a probabilidade de pelo menos R$ 30 de lucro?

14. Estatísticas de acidentes, num trecho da rodovia SP330, indicam probabilidade de 0,05 de haver um acidente

durante a madrugada (24 às 6 horas). Em ocorrendo um acidente nesse período, a chance de gerar vítimas é de

0,5. Ainda considerando o período acima, se acontece um acidente com vítima, ela será fatal com

probabilidade 0,1. O serviço de ajuda aos usuários utiliza 2 veículos na inspeção do tráfego naquela área. A

esse número, acrescentamos mais 2 se houver acidente. Se o acidente tem vítimas, acrescente aos anteriores

mais 2 veículos e finalmente, acrescente mais 1 se a vítima for fatal. Encontre a função de probabilidade da

variável aleatória número de veículos em serviço de auxílio nessa estrada durante a madrugada.

15. Um laboratório estuda a emissão de partículas de certo material radioativo. Seja N: número de partículas

emitidas em 1 minuto. O laboratório admite que N tem função de probabilidade Poisson com parâmetro 5, isto

é,

a. Calcule a probabilidade de que em um minuto não haja emissões de partículas.

b. Determine a probabilidade de que pelo menos uma partícula seja emitida em um minuto.

c. Qual a probabilidade que, em um minuto, o número de partículas emitidas esteja entre 2 e 5

(inclusive)?

16. Suponha que a probabilidade de que uma peça, produzida por determinada máquina, seja defeituosa é 0,2. Se

10 peças produzidas por essa máquina forem escolhidas ao acaso, qual é a probabilidade de que não mais de

uma defeituosa seja encontrada? Empregue a distribuição Binomial e de Poisson e compare as respostas.

17. Uma companhia de seguros descobriu que somente cerca de 0,1% da população está incluída em um tipo de

acidente cada ano. Se seus 10.000 segurados são escolhidos, ao acaso, na população, qual é a probabilidade de

que não mais do que 5 de seus clientes venham a estar incluídos em tal acidente no próximo ano?

18. Suponha que X tenha uma distribuição de Poisson. Se

, calcular:

a.

b.

c.

19. Um fabricante de filmes produz 10 rolos de um filme especialmente sensível, cada ano. Se o filme não for

vendido dentro do ano, ele deve ser refugado. A experiência passada diz que D, a (pequena) procura desse

Page 40: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

filme, é uma variável aleatória com distribuição de Poisson, com parâmetro 8. Se um lucro de $7 for obtido,

para cada rolo vendido, enquanto um prejuízo de $3 é verificado para cada rolo refugado, calcule o lucro

esperado que o fabricante possa realizar com os 10 rolos que ele produz.

20. O retorno para os próximos doze meses de uma ação é a variável aleatória X registrada na tabela seguinte.

Qual o valor esperado e o desvio padrão?

x P(x)

10% 10%

15% 30%

20% 40%

25% 20%

21. A tabela seguinte registra o lucro líquido da empresa para o próximo ano (em milhões) e suas respectivas

probabilidades. Calcular o valor esperado e o desvio padrão.

22. O gerente do banco afirma que em média sua agência tem que administrar a devolução de oito cheques por dia

por falta de fundos. Considerando que a distribuição do número de cheques devolvidos é do tipo Poisson, qual

a probabilidade de amanhã ter que devolver:

a. Menos de oito cheques?

b. Exatamente oito cheques?

c. Oito ou mais cheques?

d. Nenhum cheque?

e. A partir de quantos cheques pode-se afirmar que a probabilidade de ocorrência dessa quantia de

devolução de cheques é “nula”?

23. Os dados históricos das vendas de um televisor importado mostram que durante o período de garantia de um

ano: 80% dos televisores não apresentaram nenhum problema, 15% requereram algum conserto e regulagem, e

os restantes 5% devem ser substituídos. O lucro nos três casos foi, respectivamente, $85, $20 e –$35

(considerando o valor da venda como sucata). Calcular o lucro esperado na venda de 100 unidades.

24. Um time paulista de futebol tem probabilidade 0,92 de vitória sempre que joga. Se o time atuar 4 vezes,

determine a probabilidade de que vença:

a. Todas as 4 partidas.

b. Exatamente 2 partidas.

c. Pelo menos uma partida.

d. No máximo 3 partidas.

e. Mais da metade das partidas.

25. Uma vacina contra a gripe é eficiente em 70% dos casos. Sorteamos, ao acaso, 20 dos pacientes vacinados e

pergunta-se a probabilidade de obter:

a. Pelo menos 18 imunizados.

b. No máximo 4 imunizados.

c. Não mais do que 3 não imunizados.

26. 25% dos universitários de São Paulo praticam esporte. Escolhendo-se, ao acaso, 15 desses estudantes

determine a probabilidade de:

a. Pelo menos 2 deles serem esportistas.

b. No mínimo 12 deles não serem esportistas.

c. Havendo mais de 5 esportistas no grupo, obtermos menos de 7 que praticam esporte.

27. As pacientes diagnosticadas com câncer de mama precocemente têm 80% de probabilidade de serem

completamente curadas. Para um grupo de 12 pacientes nessas condições, calcule a probabilidade de:

a. Oito ficarem completamente curadas.

b. Entre 3 e 5 (inclusive) não serem curadas.

c. Não mais de 2 permanecerem com a doença.

28. A resistência (em toneladas) de vigas de concreto produzidas por uma empresa comporta-se conforme a função

de probabilidade abaixo:

Page 41: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Admita que essas vigas sejam aprovadas para uso em construções se suportam pelo menos 3 toneladas. De um

grande lote fabricado pela empresa escolhemos 15 vigas ao acaso. Qual será a probabilidade de:

a. Todas serem aptas para construções.

b. No mínimo 13 serem aptas?

29. Em momentos de pico, a chegada de aviões a um aeroporto se dá segundo o modelo Poisson com taxa de 1 por

minuto.

a. Determine a probabilidade de 3 chegadas em um minuto qualquer do horário de pico.

b. Se o aeroporto pode atender 2 aviões por minuto, qual a probabilidade de haver aviões sem

atendimento imediato?

c. Previsões para os próximos anos indicam que o tráfego deve dobrar nesse aeroporto, enquanto que a

capacidade de atendimento poderá ser no máximo ampliada em 50%. Como ficará a probabilidade de

espera por atendimento?

30. Uma indústria de tintas recebe pedidos de seus vendedores através de fax, telefone e Internet. O número de

pedidos que chegam por qualquer meio (no horário comercial) é uma variável aleatória discreta com

distribuição Poisson com taxa de 5 pedidos por hora.

a. Calcule a probabilidade de mais de 2 pedidos por hora.

b. Em um dia de trabalho (8 horas), qual seria a probabilidade de haver 50 pedidos?

c. Não haver nenhum pedido em um dia de trabalho é um evento raro?

31. No estudo do desempenho de uma central de computação, o acesso à Unidade Central de Processamento

(CPU) é assumido ser Poisson com 4 requisições por segundo. Essas requisições podem ser de várias naturezas

tais como imprimir um arquivo, efetuar um cálculo ou enviar uma mensagem pela Internet, entre outras.

a. Escolhendo-se ao acaso um intervalo de 1 segundo, qual é a probabilidade de haver mais de 2 acessos

à CPU? E do número de acessos não ultrapassar 5?

b. Considerando agora o intervalo de 10 segundos, também escolhido ao acaso, qual é a probabilidade

de haver 50 acessos?

7.4 Variável aleatória contínua

Definição: Diz-se que X é uma variável aleatória contínua, se existir uma função f, denominada função

densidade de probabilidade (f.d.p.) de X que satisfaça as seguintes condições:

a.

b.

c. Para quaisquer valores a, b com , implica que

.

7.4.1 Função distribuição acumulada

Definição: Seja X uma variável aleatória, discreta ou contínua. Define-se a função F como a função

distribuição acumulada da variável aleatória X como:

7.5 Principais modelos contínuos de probabilidade

Nesse momento do curso de Estatística serão utilizadas algumas técnicas estatísticas para o estudo de

funções contínuas de probabilidade. Sabe-se que uma variável será conhecida por variável aleatória contínua

se existir uma função f(x), conhecida por função contínua de probabilidade ou função densidade de

probabilidade (f.d.p.) e, se, as condições a seguir são obedecidas:

Page 42: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

a.

b.

c. Para quaisquer valores a, b com , implica que

.

Obs.: Para qualquer intervalo onde , tem-se:

7.5.1 Modelo uniforme contínuo, X~U[a,b]

Uma variável aleatória X, terá f.d.p. Uniforme Contínua, se, e somente se, f(x) assume um único

valor constante. Isto é, a variável aleatória X terá sua densidade dada por:

;

7.5.2 Modelo exponencial, X~exp( )

Uma variável aleatória X, que assume todos os valores não negativos, terá uma distribuição

exponencial com parâmetro , se sua for dada por:

Page 43: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Uma das aplicações mais importantes do modelo exponencial é proposta sobre os problemas de filas

de espera. Assim, pode-se aplicar esse modelo a tempo de operação de equipamentos, vida útil de

equipamentos, atendimentos em praças de pedágio, caixas eletrônicos, atendimentos de serviços públicos.

Para a distribuição exponencial tem-se que:

;

;

7.5.3 Modelo normal, X~N( )

Uma variável aleatória X segue o modelo Normal se, e somente se, existe uma função f(x) tal que sua f.d.p é:

Essa função é também conhecida como Gaussiana. E, possui três propriedades elementares:

a. A função f(x) apresenta simetria em torno de .

b. O valor máximo que a função assume ocorre quando e

.

c. Quando os valores de x tendem para o valor infinito positivo (ou negativo), a função tende

a ZERO. Isto é, .

Para efetuar o cálculo de probabilidades para uma função que segue o modelo Normal deve-se tomar

uma tabela de probabilidades conhecida como tabela da distribuição normal padrão.

Page 44: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Uma transformação da variável aleatória X pela variável

é utilizada nessa tabela. Daí, as

propriedades de média e variância da variável aleatória X passam a ser tratadas pelos valores da variável Z

(Normal Padrão) e são dadas por: .

Logo, todas as variáveis que seguem o modelo Normal podem ser escritas e devem ser transformadas

em uma variável Normal Padrão para facilitar o cálculo de probabilidades através da tabela já com valores de

Z dentro do intervalo [-4, 4].

Essa nova variável Z apresenta as mesmas propriedades da variável X, agora com valor de simetria

em torno de Z=0. Ou seja, 50% da distribuição são valores menores do que zero, assim como para os valores

maiores do que zero está a outra metade da distribuição.

Exemplo: A variável aleatória X tem distribuição normal com parâmetros µ=40 e σ=10. Qual a

probabilidade de um valor de X ser menor ou igual a 52,4?

[Resultado obtido da tabela da

Normal Padrão]

Observação: A tabela Normal Padrão representada pelos valores de da variável Z, apresenta para

cada valor de z, um .

Além disso,

Page 45: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

8 Inferência estatística

Nesse momento do curso de estatística as aplicações dos conhecimentos adquiridos em temas anteriores

serão exigidas e apreciadas pelos nobres alunos. Estudaremos como se comportam as variáveis aleatórias

(discretas ou contínuas) quando expostas a ocorrência simultânea e/ou independente de outras variáveis

aleatórias, bem como, outras metodologias em que podem ser aplicados os conhecimentos adquiridos.

Além disso, é necessário entender que a maioria dos procedimentos em que se tomam as medidas e

metodologias estatísticas para explicar informações aos departamentos de qualidade das empresas, aos

órgãos de defesa do consumidor, aos sistemas de avaliação de satisfação do cliente, é determinada (em

grande parte) por variáveis que associam diferentes variáveis aleatórias independentes e dependem de

metodologias essenciais para a análise estatística, em geral, procedimentos de amostragem.

Os procedimentos de amostragem tornam-se necessários, diante da complexidade de vários sistemas

(máquinas, procedimentos, impossibilidades físicas de ambiente), da natureza dos problemas (metodologias

de produção, sistemas de leitura, medição e interpretação), dos custos envolvidos, da necessidade de

planejamento, exigência de demanda (cliente, localização, comportamento, costumes), atuação de operadores

na interpretação de resultados, compreensão de procedimentos, treinamentos adequados e regulares,

atualizações periódicas do conhecimento. Uma vantagem evidente é a de que esse procedimento pode

minimizar a necessidade de avaliar todo o espaço amostral de possibilidades de um evento qualquer.

8.1 Distribuições amostrais

Para iniciar o estudo de distribuições amostrais devemos afirmar que a média amostral de um dado

experimento será o objeto de estudo. Isso porque a maior parte dos problemas envolvidos trata da

determinação ou estimação de valores de médias (vida média de lâmpadas, expectativa de vida, médias de

atendimentos em filas, previsão de tempo de espera). Com isso, avaliar uma amostra para explicar o que

ocorre com a população ou ao menos estimar o que pode ocorrer com a referida população.

Diremos que a média amostral será composta de uma sequencia de variáveis aleatórias

independentes das quais afirmamos que:

Sejam variáveis aleatórias independentes, com médias iguais a µ e variância tais

que:

então o valor esperado de será e sua variância será dada por

. A essas

estatísticas3 acrescenta-se o desvio padrão amostral ou erro padrão de dado por

onde n é o

tamanho da amostra.

3 Estatística é uma medida numérica que descreve uma amostra. Parâmetro é uma medida numérica que descreve uma

população.

Page 46: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Observe que a afirmação anterior não determina a distribuição de probabilidade das variáveis e isso

permite o leitor concluir que podemos tratar diferentes eventos com a mesma ferramenta de estimação.

Observação: A forma da distribuição da variável aleatória será dita normal com média µ e

variância

se a forma da distribuição da população for conhecida e normal.

9 Teorema central do limite

Se a forma da distribuição de uma população não for normal (qualquer forma de distribuição de

probabilidade), assim que, o tamanho da amostra for suficientemente grande4, isto é, com tendência ao

infinito, então a média amostral se apresentará como uma distribuição normal com média e variância

conhecida, ou seja,

).

Observação: Há casos em que a população é muito maior que o tamanho da amostra escolhida, isto é, se

for menor do que 5% do tamanho da população teremos que inserir um fator de correção para o desvio

padrão amostral, que será:

, onde N é o tamanho da população e n é o tamanho da amostra.

Sugestão: Calcule o valor do fator de correção

para o desvio padrão amostral para valores de n= 5, 10,

20, 25, 50, 100, 150, 200, 400, 500 e N = 2.000.

9.1 Intervalo de confiança para estimar a média e o tamanho da amostra

Podemos identificar entre as técnicas estatísticas estudadas, estimativas pontuais, que definem a média e

a variância de uma população. Além disso, há a técnica de construção de um intervalo de valores em torno de

um grau de confiança γ. Contudo, há para um grau de confiança γ que:

e para , podemos encontrar um valor

tal que

Desse resultado temos

4 Para amostras com pelo menos 30 valores; se a distribuição for simétrica é suficiente se n estiver entre 15 e 25 valores.

Page 47: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Assim,

5

Do qual

Para uma proporção

há dois intervalos de confiança a considerar:

(otimista)

(conservador)

9.2 Testes de hipóteses

Os estudos de testes de hipóteses estão associados a critérios de aceitação ou rejeição de hipóteses iniciais.

Daí pode-se concluir que um erro será cometido quando:

i. Erro Tipo I: Rejeita-se uma hipótese inicial (Hipótese Nula – H0) quando a H0 é verdadeira.

ii. Erro Tipo II: Não se rejeita a H0 quando ela deveria ser rejeitada.

Um objetivo importante do teste de hipótese é o fato de poder estudar a probabilidade de cometer os

erros do Tipo I ou Tipo II, a esses erros associa-se:

Exemplo:

Considere que o consumo médio de gasolina em um tipo de automóvel seja de 15 km/L, segundo

informações da montadora. Uma revista especializada verificou o consumo em 25 desses veículos,

escolhidos ao acaso, e constatou consumo médio de 14,3 km/L. Assume-se também que o consumo siga o

modelo Normal com variância igual a 9 .

Para essa situação há que se dedicar sobre a verificação se os automóveis estudados possuem

consumos inferiores ao especificado pela montadora.

Logo, deseja-se verificar se a informação da montadora é verdadeira. Ou seja, se o consumo médio

dos automóveis fabricados é de 15 km/L. Para a amostra retirada pode-se afirmar que o consumo médio dos

automóveis segue o modelo Normal(μ, 9/25).

5 Intervalo de confiança para a média populacional com grau de confiança .

Page 48: Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) · FACULDADE DE TECNOLOGIA DE GUARATINGUETÁ Apostila de Apoio aos cursos de Estatística Aplicada (AAEA) Estatística

Além disso, deseja-se também a determinação de um valor (valor crítico), tal que, se a média do

consumo for superior a então a informação da montadora está correta, se for inferior, a informação da

montadora estará equivocada.

Logo, as hipóteses denotadas por e , hipótese nula e hipótese alternativa, respectivamente.

Então,

: O consumo médio dos automóveis é igual a 15 km/L

: O consumo médio dos automóveis é inferior a 15 km/L

Se o tratamento das hipóteses é sobre o fato da informação da montadora, pode-se dizer que o teste é

unilateral, ou seja, versus .

Nesse problema, os erros cometidos podem apresentar:

A situação ideal é tal que ambas as probabilidades anteriores são próximas de zero. Porém, sempre que

se reduz a probabilidade de ocorrência do Erro do tipo I, aumenta-se a probabilidade de ocorrência do Erro

do tipo II.

Supondo que α seja um valor conhecido logo temos:

, assim

.

Se temos, então

. Dessa forma, se ;

rejeita-se e conclui-se que a informação do fabricante é correta.

10 Referência bibliográfica

MAGALHÃES, M. N. AND LIMA, A. C. P. Noções de probabilidade e estatística. 5th. ed. [s.l: s.n.].

MEMÓRIA, J. M. P. Breve História da Estatística, 2004.