pós-graduação latu sensu em engenharia de...
Post on 09-Nov-2018
218 Views
Preview:
TRANSCRIPT
CENTRO UNIVERSITÁRIO UNA
PRÓ-REITORIA DE PÓS-GRADUAÇÃO
Pós-Graduação latu sensu em Engenharia de Produção
ESTATÍSTICA APLICADA (20 hs)
Belo Horizonte - 2011
Disciplina: Estatística Aplicada Prof.: Kerley Alberto Pereira de Oliveira professorkerley@yahoo.com.br
Pós de Engenharia de Produção - Estatística
2
PLANO DE CURSO
DISCIPLINA : Estatística Aplicada
PROFESSOR: Kerley Alberto Pereira de Oliveira
OBJETIVO DA DISCIPLINA: Fornecer aos alunos o instrumental estatístico básico necessário para o tratamento, análise e inferência de dados nas diversas áreas de atuação da engenharia de produção; controle de qualidade, planejamento e controle produção, pesquisa operacional, estudos de tempos e métodos etc. RESULTADOS ESPERADOS: espera-se o entendimento do aluno em relação as técnicas estatísticas apresentadas. Uma compreensão do aluno tanto na parte prática quanto teórica.
EMENTA CARGA
HORÁRIA
Estatística Descritiva; Amostragem; Estimação de Parâmetros; Teste de Hipóteses; Teste de Aderência; Correlação e Regressão; Análise de Variância.
20 horas
PLANO DE AULA
Data Conteúdo a ser Abordado
Metodologia a ser Utilizada
19/07 Estatística Descritiva Aula expositiva; estudo de casos; exercícios individuais e em grupo.
03/10 Amostragem; Estimação de parâmetros
Aula expositiva; estudo de casos; exercícios individuais e em grupo.
05/10 Teste de Hipóteses; Teste de Aderência
Aula expositiva; estudo de casos; exercícios individuais e em grupo.
10/10 Correlação e Regressão; Análise de Variância
Aula expositiva; estudo de casos; exercícios individuais e em grupo.
17/10 Prova Prova
Exercícios e estudos de caso Avaliação Final Total 50 50 100
Pós de Engenharia de Produção - Estatística
3
ORIENTAÇÕES: Durante as realizações das aulas serão utilizados recursos
computacionais. (Excell).
BIBLIOGRAFIA BÁSICA
1. Apostila – Estatística Aplicada – Curso de Pós-Graduação (latu sensu) em
Engenharia de Produção. Centro Universitário UNA. Autoria de: OLIVEIRA,
Fernando Luiz Pereira de. Adaptações de: OLIVEIRA, Kerley Alberto Pereira
de. Belo Horizonte, MG. 2011.
BIBLIOGRAFIA COMPLEMENTAR
1. ANDERSON, Davi R.; SWEENEY, Dennis J.; WILLIAMS, Thomas A.; PAIVA, Luis Sérgio de Castro (Org.). Estatística aplicada à administração e economia. 2 ed. São Paulo: Pioneira Thompson, 2002.
2. BRUNI, Adriano Leal. Estatística aplicada à gestão empresarial. 1 ed. São
Paulo: Atlas 2007.
3. COSTA, Sérgio Francisco. Introdução Ilustrada à Estatística. 4 ed. São Paulo: Harbra, 2005.
4. LEVINE, David M. Estatística: teoria e aplicação utilizando o Microsoft
Excel em português. Rio de Janeiro: LTC. 2005.
5. TRIOLA, M. F. Introdução à Estatística. 10 ed. Rio de Janeiro: LTC 2008.
Pós de Engenharia de Produção - Estatística
4
Kerley Alberto Pereira de Oliveira Curriculum Vitae Resumido ______________________________________________________________________ Trabalhou durante 10 anos na Força Aérea Brasileira como Especialista e Instrutor em
Manutenção Aeronáutica e Segurança de Vôo. Habilitado pela ANAC para grupo
Aviônicos. Graduado em Física pela Universidade Federal de Minas Gerais. Mestre em
Ciência e Tecnologia das Radiações, Minerais e Materiais pelo Centro de
Desenvolvimento da Tecnologia Nuclear/Comissão Nacional de Energia Nuclear (área
de concentração: Análise de Risco Ambiental). Doutorando em Saneamento, Meio
Ambiente e Recursos Hídricos pela Escola de Engenharia da UFMG. Coordenador dos
Cursos Superiores de Tecnologia em Pilotagem Profissional de Aeronaves, Manutenção
de Aeronaves e Transporte Aéreo do Centro Universitário Una – UnaTec. Coordenador
do Curso de Pós-Graduação em Gestão Ambiental do Uni-BH. É professor de Física no
Centro de Instrução e Adaptação da Aeronáutica/PUC Minas, Faculdade Pitágoras e
UnaTec. Professor de Estatística da Pós-Graduação em Engenharia de Produção do
Centro Universitário Una. Ministra disciplina de Análise e Gestão de Riscos na Pós-
Graduação em Gestão Ambiental da Faculdade SENAC e na Pós-Graduação em
Engenharia Ambiental Integrada do IETEC. Pertence a grupo de trabalho da Comissão
Nacional de Energia Nuclear atuando nas áreas de avaliação e mitigação de riscos e
impactos ambientais. Possui artigos publicados em revistas e anais de congressos
nacionais e internacionais. É Revisor convidado do Journal of Environmental
Management, sócio fundador da EcoQuality Soluções e consultor credenciado junto ao
SEBRAE-MG.
______________________________________________________________________
Endereço eletrônico: professorkerley@yahoo.com.br
Web site: GrupoKerley.webnode.com.br
Pós de Engenharia de Produção - Estatística
5
ÍNDICE
I. INTRODUÇÃO, CONCEITOS E DEFINIÇÕES
II. TÉCNICAS DE AMOSTRAGEM I
III. APRESENTAÇÃO DE DADOS – REPRESENTAÇÃO GRÁFICA
IV. MEDIDAS ESTATÍSTICAS – TENDÊNCIA CENTRAL
V. MEDIDAS ESTATÍSTICAS – DISPERSÃO OU VARIABILIDADE
VI. MEDIDAS ESTATÍSTICAS – POSIÇÃO
VII. INTRODUÇÃO À PROBABILIDADE
VIII. TÉCNICAS DE AMOSTRAGEM II
IX. TESTES DE HIPÓTESES
X. MEDIDAS DE ASSOCIAÇÃO LINEAR ENTRE DUAS VARIÁVEIS
XI. INTRODUÇÃO AO MODELO DE ANÁLISE DE REGRESSÃO LINEAR
SIMPLES
Pós de Engenharia de Produção - Estatística
6
I. INTRODUÇÃO, CONCEITOS E DEFINIÇÕES
Por que estatística é importante?
Porque nos permite entender e lidar com a noção de variabilidade.
Um exemplo típico é:
• produção de parafusos. Uma fábrica produz parafusos, que devem ter seu
diâmetro dentro de certas especificações. Ao medirmos o diâmetro de 100
parafusos produzidos ao acaso existirão variações individuais.
Estas variações são importantes?
Até que ponto as variações observadas são aceitáveis?
Em geral um número em Estatística não é apenas um número! A ele associamos uma
medida de incerteza ou variabilidade.
A Estatística aplicada à engenharia é um ramo da estatística que estuda as suas
aplicações à engenharia, onde o maior uso seja talvez no controle de processos de
produtos e serviços. Mas também é usada, por exemplo, no planejamento de novas
estratégias de produção, vendas, etc. Existe uma preocupação da Estatística aplicada à
Engenharia que se localiza no Controle de Processos e Manufatura, analisando
distribuições e lotes para padrões de qualidade nos produtos. Por exemplo, para a
Engenharia de Alimentos, há certa estatística na Análise Sensorial, para observar a
aceitação de um produto manufaturado em relação ao público. A estatistica é aplicada
na produção para acompanhar a estabilidade dos processos, esta estabilidade é analisada
por cartas de acompanhamento conhecida como cartas de controle estatistico de
processo. Também se utiliza a estatistica para analisar ensaios tanto destrutivos como
não destrutivos, verificando a porcentagem de peças não conforme ou probabilidade de
vida de equipamentos ou peças. Utiliza-se estatistica em calibração de equipamentos de
medição e na analise dos mesmos, também na verificação da condição de uso dos meios
de medição.
Conceito de Variável
Especificação de valores coletados. É uma grandeza que não possui qualificação ou
quantificação fixa, ou seja, pode ser qualificada ou quantificada de formas diferentes.
Pós de Engenharia de Produção - Estatística
7
Tipos de Variável
• Variável Qualitativa: não podem ser operadas algebricamente. Ex.: cor de
cabelo, marca, escolaridade etc...
• Variável Quantitativa: podem ser operadas algebricamente. Ex.: idade, altura,
salário, peso etc...
Em nossa cultura, não é elegante tratar de assuntos que envolvam variáveis
quantitativas, principalmente com uma Dama. Por exemplo, não é educado
perguntar sobre a idade das pessoas, altura, peso, salário etc. Contudo, não há
problema em se perguntar a cor dos olhos, o tipo de cabelo, a marca do
carro...só não pode perguntar o quanto custou.
Muitos experimentos produzem resultados não-numéricos. Antes de analisá-los é
conveniente transformar seus resultados em números. Um exemplo muito usado são
as escalas de Likert:
O formato típico de um item Lidert é:
Concordo totalmente . . . . . . . Discordo totalmente
1. não concordo veementemente;
2. não concordo;
3. indiferente;
4. concordo;
5. concordo totalmente.
População x Amostra
Inferir significa generalizar com parte do todo (amostra) tentando entender o próprio
todo (população).
População é qualquer conjunto de informações que tenham, entre si, uma característica
(variável) comum.
Ex.: o conjunto de todas as cores de olhos constitui uma população de cores de
olhos.
População não implica necessariamente gente ou pessoas. O que importa é a variável
estudada. Você pode ter uma população de cores de flores ou marcas de carro.
Pós de Engenharia de Produção - Estatística
8
Se uma população for muito grande (por exemplo, o conjunto de todas as estaturas de
uma comunidade), o pesquisador poderá ter um trabalho astronômico para estudá-la.
Nesses casos, recorre-se a uma AMOSTRA, que, basicamente, constitui em uma
redução da população a dimensões menores, SEM PERDA DAS
CARACTERÍSITCAS ESSENCIAIS.
Uma amostra, para ser BOA, tem de ser REPRESENTATIVA , ou seja, deve conter em
proporção tudo o que a população possui QUALITATIVA e
QUANTITATIVAMENTE . E precisa ser IMPARCIAL , isto é, todos os elementos da
população devem ter IGUAL OPORTUNIDADE de fazer parte da amostra.
A partir de uma amostra representativa da população pode-se dar origem a diversas
relações estatísticas como, por exemplo, média, mediana, moda, variância etc. Essas
relações estatísticas possibilitam descrever, sob diversos ângulos, o conjunto de dados
representado pela amostra. Por essa razão, o estudo dessas relações pertence ao campo
da ESTATÍSTICA DESCRITIVA . Contudo, o interesse do pesquisador está voltado
para a população da qual se originou a amostra. Ele estuda as características da amostra,
isto é, calcula as relações estatísticas) com o objetivo de TRANSFERIR, de
GENERALIZAR suas CONCLUSÕES para a população. A parte da estatística que se
interessa pelas GENERALIZAÇÕES , ou seja, pelas TRANSFERÊNCIAS DE
CONCLUSÕES das amostras para as populações, chama-se ESTATÍSTICA
INFERENCIAL. Na transferência de suas conclusões (da amostra para a população), o
pesquisador vale-se de um poderoso recurso que é a TEORIA DAS
PROBABILIDADES . Essa teoria permite AVALIAR E CONTROLAR o
TAMANHODO ERRO (INCERTEZA) que ele estará cometendo ao fazer
GENERALIZAÇÕES (INFERÊNCIAS).
Mas se existe a probabilidade de ocorrência de incertezas quando se usa uma amostra,
por que então não se usa sempre a população?
Simplesmente por que, nem sempre é viável ou possível usar a população.
Por exemplo:
Pós de Engenharia de Produção - Estatística
9
• Um médico precisa avaliar as condições de seu sangue. Você vai a um
laboratório e retiram de você uma amostra de sangue. Por que usaram uma
amostra e não a população?
• Um agrônomo precisa avaliar as condições do solo de uma área que será usada
para plantio. Ele retira uma amostra do solo e envia para um laboratório. Por que
usaram uma amostra e não a população?
• Existem indícios de que um rio esteja contaminado. Só existe uma forma de se
chegar a uma conclusão. Retira-se uma amostra de água do rio que é enviada
para um laboratório. Por que usaram uma amostra e não a população?
• Prévias para eleições. Por que usaram uma amostra e não a população?
O uso de uma amostra também pode ser útil quando o processo de pesquisa é destrutivo.
Por exemplo, se tivermos uma população de fósforos e quisermos avaliar a porcentagem
de falhas.
Para pensar:...Todo – mais caro, mais tempo, mais confiável....Amostra – mais barato,
mais rápido mas envolve incertezas...o que fazer? Deve-se colocar na balança e avaliar
o custo-benefício.
“Você deseja uma válvula que não vaze e faz todo o possível para desenvolvê-la. Mas
no mundo real, só existem válvulas que vazam. Você tem que determinar o grau de
vazamento que pode tolerar” Wernher von Braun
EXERCÍCIOS
1- Uma agência do estado classifica a ocupação dos trabalhadores como
profissional liberal, funcionário e operário. No registro de dados, 1 denota o
profissional liberal, 2 o funcionário e 3 o operário. Identifique a variável de
interesse e qualifique como quantitativa ou qualitativa.
2- Um levantamento jornalístico argüiu 2013 adultos: “você está satisfeito com a
situação da economia do país hoje?”. As categorias das respostas eram
insatisfeito, satisfeito e indeciso.
a) Qual a variável de interesse desse estudo?
Pós de Engenharia de Produção - Estatística
10
b) Qual a população alvo desse estudo?
c) Nesse estudo trabalhou-se com a população ou com uma amostra? Por
que?
d) Qual foi o tamanho da população ou amostra para essa pesquisa?
e) Os dados coletados eram qualitativos ou quantitativos?
f) Para um resumo dos dados para esta questão, faria sentido usar a média
ou a porcentagem?
g) Dos que responderam, 28% disseram que estavam insatisfeitos com a
situação. Quantos indivíduos forneceram esta resposta?
3- Declare se cada uma das seguintes variáveis é qualitativa ou quantitativa
a) idade
b) gênero
c) classe social
d) marca de automóvel
e) número de pessoas favoráveis à pena de morte
f) vendas anuais
g) tamanho dos refrigerantes (pequeno, médio, grande)
h) ganhos por ação
i) método de pagamento (à vista, com cheque, com cartão)
4- O seguinte conjunto de dados fornece um quadro do desempenho financeiro de
uma empresa.
Ano 1993 1994 1995 1996
Ganho por
ação
2,78 2,13 3,41 3,83
Renda
(bilhões)
11,87 12,57 13,43 14,92
Renda líquida
(bilhões)
1,51 1,17 1,89 2,12
Valor nominal
por ação
14,35 10,98 12,67 13,98
Pós de Engenharia de Produção - Estatística
11
a) Quantas variáveis existem na tabela
b) Os dados são qualitativos ou quantitativos
5- Uma empresa está interessada em testar a eficácia da propaganda de um novo
comercial de TV. Como parte do teste, o comercial é mostrado em um programa
de notícias locais às 18h30min. Dois dias mais tarde, uma firma de pesquisa de
mercado realizou um levantamento telefônico para obter informações sobre os
índices de respostas (porcentagens de espectadores que responderam vendo o
comercial) e impressão sobre o comercial.
a) Qual é a população desse estudo
b) Qual é a amostra para esse estudo
c) Por que se usaria uma amostra nessa situação? Explique.
II. TÉCNICAS DE AMOSTRAGEM
Amostragem x Amostra
Amostragem é uma ferramenta que permite a você analisar um subconjunto de uma
população, objetivando levantar informações sobre os fatos relativos a esse
subconjunto, com a intenção de inferir o comportamento da população.
A amostra é um número limitado de informações tirada de um conjunto da mesma
natureza denominado população. Amostra é uma parte, um subconjunto de um espaço
amostral. Uma amostra deverá reunir as características básicas de uma população. A
importância de uma amostra está na avaliação de grandezas desconhecidas de uma
população e a qualidade desta avaliação depende basicamente da representatividade da
amostra e a representatividade de uma amostra depende da sua capacidade de reproduzir
as características básicas da sua população. Falamos de população em termos de
pessoas, mas, na realidade, ela se refere ao conjunto total de objetos que você está
estudando – todos os alunos de uma escola, todos os funcionários de uma empresa,
Pós de Engenharia de Produção - Estatística
12
todas as garrafas de vinho, todos os carros produzidos por uma fábrica, e assim por
diante. Muito provavelmente você não será capaz de entrevistar toda uma população de
pessoas ou examinar todo um conjunto de objetos, então você se orienta por um
pequeno grupo retirado desta população/conjunto.
Você vai inferir o comportamento da população com base nos resultados descritos da
sua amostra. Uma amostra é uma parte integrante de uma população e a diferença básica
entre os conceitos de amostra e população é que a amostra representa uma parte do todo,
enquanto a população representa o todo. Uma amostra é considerada parte
representativa da população se ela tiver a propriedade de absorver todas as
características da população e se as características da população estiverem nela contidas,
as conclusões a respeito desta amostra podem ser consideradas como conclusões da
respectiva população. Mas à medida que o tamanho da amostra for crescendo, tais
informações vão se tornando cada vez mais verdadeiras.
Diversos fatores justificam os trabalhos com amostras, no lugar de estudar a respectiva
população, entre os quais, destacam-se:
Custo: as despesas com a operacionalização estatística da população são
geralmente bem maiores que com a averiguação de uma amostra. Velocidade: as
pesquisas realizadas com amostras são mais rápidas, em virtude de conter um menor
número de unidades. Praticabilidade: conforme o próprio conceito, às vezes, a dimensão
da população torna as pesquisas impraticáveis.
Experimento Aleatório
Os experimentos aleatórios são aqueles cujos resultados não são sempre os mesmos,
apesar de se repetirem, várias vezes, em condições semelhantes. Estes experimentos são
aqueles que apresentam resultados imprevisíveis. O lançamento de moedas e dados,
bem como sorteios e extrações lotéricas são fenômenos aleatórios. Alguns experimentos
aleatórios poderão ser repetidos sob as mesmas condições indefinidamente. O
experimento apresenta vários resultados não sendo possível afirmar, com antecedência,
qual será sua determinação antes que o mesmo tenha sido realizado. Antes do
lançamento de um dado, não podemos dizer qual será o resultado, mas somos capazes
Pós de Engenharia de Produção - Estatística
13
de enumerar todos os resultados. Uma característica importante de alguns experimentos
é a sua possibilidade de repetição contínua, mantidas as mesmas condições iniciais.
Amostragem Aleatória
É uma técnica que visa selecionar os integrantes de uma amostra de tal forma que cada
elemento de uma população tem a mesma probabilidade de ser incluído na amostra.
Amostragem Aleatória Simples
A amostragem aleatória simples é um processo que visa selecionar amostras de tamanho
n entre os N elementos da população. Este processo garante a mesma chance para cada
um dos elementos desta população. A adoção da técnica da amostragem aleatória
simples pressupõe uma população homogênea, em relação ao característico de interesse.
A amostragem aleatória simples é um processo muito empregado e o procedimento para
a formação da amostra será sempre a escolha aleatória, a escolha cega, o sorteio.
Sempre tendo-se em mente que o pesquisador não pode influenciar nos resultados.
Amostragem Aleatória Proporcional Estratificada
Este processo é utilizado quando se percebe que a população pode ser dividida em
subconjuntos distintos, grupos distintos, estratos que podem possuir diferentes idéias
sobre o fato em análise: população heterogênea. A participação de cada estrato em uma
amostra será igual à sua participação em sua população.
Exemplo 1)
Em um auditório, temos 70 homens e 30 mulheres. Os homens participam desta
população com 70% e as mulheres com 30%. Para selecionar uma amostra aleatória
estratificada de 10 pessoas, 70% deverão ser homens e 30% de mulheres. ( 7H e 3 M).
A seleção deverá ser feita por meio de sorteio. A população foi dividida em dois
estratos: homens e mulheres.
Pós de Engenharia de Produção - Estatística
14
Amostragem Aleatória Sistemática
A amostragem sistemática consiste em selecionar aleatoriamente um número inicial “a”
e depois selecionar cada item da população dentro de um certo intervalo. O processo
consiste na definição de uma progressão aritmética: a, a + r, a + 2r, a + 3r, ... , a + nr.
Calcula-se o intervalo de amostragem: h = N/n e faz-se “r” igual à parte inteira de h.
Exemplo 2)
Uma população é formada de 30 itens e desejamos formar amostras com 6 itens. O valor
de h será 30/6 = 5. O valor da razão “r” será 5. Sorteia-se um número entre 1 a 5. Por
exemplo o número 4, então a = 4. A amostra será formada pelos valores que se
colocarem nas posições: 4º, 9º, 14º, 19º, 24º e 29º elemento. Se o número sorteado de 1
a 5 fosse o 3, então a = 3 e a amostra seria formada pelos números que estiverem nesta
ordem: 3º, 8º, 13º 18º, 23º e 28º número.
Exemplo 3)
Uma população é formada por 400 alunos do Curso de Administração, 300 do Curso de
Contábeis, 200 do Curso de Computação e 100 do Curso de Turismo. Retirando-se uma
amostra estratificada proporcional de 100 alunos, teremos 40 alunos de administração,
30 alunos de contábeis, 20 alunos de computação e 10 de turismo.
Observe que os cursos são os estratos e a proporcionalidade de cada curso define o
percentual de cada estrato que fará parte da amostra.
Exemplo 4)
Em fevereiro deste ano, levantamos as vendas diárias da Empresa Sulminas, no período
de 10 de janeiro a 20 de fevereiro, reunindo 36 dias úteis e seis semanas, em Belo
Horizonte. Os valores estão explícitos em reais.
116 146 136 119 106 118 118 153 143 122 120 122
116 139 127 106 145 129 120 122 130 117 117 127
146 133 124 141 133 131 144 146 133 141 124 141
Pós de Engenharia de Produção - Estatística
15
a) Extrair uma amostra aleatória estratificada proporcional com nove elementos, sem
reposição.
Em primeiro lugar, vamos dividir este universo, por exemplo, em 3 estratos e depois de
identificados os números que compõem cada estrato, faremos a divisão proporcional em
razão do tamanho da amostra. Nesta amostragem, estaremos tentando dividir as vendas
diárias em três partes ou estratos.
Estrato A _ vendas diárias realizadas abaixo de 126,00 reais. Neste intervalo, vamos
relacionar as vendas diárias cujos valores são de: 116, 119, 106, 118, 118, 122, 120,
122, 116, 106, 120, 122, 117, 117, 124, 124.
Estrato B _ vendas diárias realizadas de 126,00 a 135,00 reais. Neste intervalo, vamos
relacionar as vendas diárias cujos valores são de: 127, 128, 130, 127, 133, 133, 131,
133.
Estrato C _ vendas diárias realizadas acima de 135,00 reais. Neste intervalo, vamos
relacionar as vendas diárias cujos valores são de: 146, 136, 153, 143, 139, 145, 146,
141, 144, 146, 141, 141.
Estes valores deverão ser enumerados, no estrato A, de 1 a 16, no estrato B, de 17 a 24 e
no estrato C, de 25 a 36. Para sabermos quantos elementos serão retirados de cada
estrato, usaremos uma regra de três para a divisão proporcional.
O tamanho da população está para o da amostra, assim como o tamanho de cada estrato
está para X que será a quantidade de valores deste estrato que vai compor a amostra.
Extraindo uma amostra com nove vendas
No estrato A, temos 16 vendas e vamos selecionar quatro vendas diárias: Na = 16 x 9 /
36 = 4 vendas.
No estrato B, temos 8 vendas e vamos selecionar duas vendas diárias: Nb = 8 x 9 / 36 =
2 vendas.
No estrato C, temos 12 vendas e vamos selecionar três vendas diárias: Nc = 12 x 9 /36 =
3 vendas.
Para compor a amostra, selecionamos quatro vendas diárias do estrato A, duas vendas
diárias do estrato B e três vendas do estrato C. Se a amostra fosse de doze vendas,
deveríamos selecionar 16 x 12 / 36 = 5 vendas do estrato A; 8 x 12 / 36 = 3 vendas do
estrato B e 12 x 12 / 36 = 4 vendas do estrato C.
Pós de Engenharia de Produção - Estatística
16
Exemplo 5)
Realizou-se, em janeiro deste ano, uma pesquisa envolvendo diversos diretores de
empresa, em Belo Horizonte, encontrando-se os salários abaixo, explícitos em mil reais.
4,2 4,6 4,9 5,7 4,3 4,6 4,1 4,7 5,6 4,2 4,9 4,7 3,9 4,0
3,9 5,0 4,6 4,3 4,8 4,2 5,6 5,6 4,9 4,3 4,7 4,9 4,0 4,3
a) Construir uma amostra aleatória simples, sem reposição, com oito salários.
Em primeiro lugar vamos enumerar os salários, na ordem em que eles apresentam, e em
segundo lugar vamos realizar o sorteio, sem reposição, para definir os salários que vão
compor a amostra. Um sorteio poderá ser feito com ou sem reposição. Com reposição, o
salário de uma pessoa pode entrar na amostra vários vezes e sem reposição, o salário
desta pessoa pode entrar na amostra apenas uma vez. Se a amostragem for com
reposição, registram-se as repetições; se for sem reposição, abandonam-se as repetições.
Após enumerar todos os salários, vamos supor que os salários sorteados foram: 3º, 7º,
11º, 15º, 21º, 25º, 26º e o 28º. Então a nossa amostra será formada pelos salários: 4,9;
4,1; 4,9; 3,9; 5,6; 4,7; 4,9; e 4,3. Observe que o salário de 4,9 mil reais foi repetido três
vezes mas as pessoas são distintas. Não podemos repetir a pessoa, mas os valores sim.
III. APRESENTAÇÃO DE DADOS – REPRESENTAÇÃO GRÁFICA
Distribuição de Freqüência
Ao estudarmos grandes conjuntos de dados, é conveniente organiza-los e resumi-los,
construindo uma Tabela de Freqüências. Esta relaciona categorias (ou classes) de
valores, juntamente com contagens (ou freqüências) do número de valores que se
enquadram em cada categoria.
Exemplo:
Pós de Engenharia de Produção - Estatística
17
É praticamente inviável tirar conclusões diretamente baseadas em um grande
número de dados. Assim, se o número de dados for muito grande, digamos superior a
25, é de toda conveniência que eles sejam organizados e/ou condensados previamente.
O propósito desta seção é desenvolver métodos para apresentar dados, de modo a
facilitar sua interpretação.
Em uma tabela de distribuição de freqüência, os dados podem ser agrupados em
classes. A determinação do tamanho e da quantidade de classes deve observar as
seguintes normas:
• as classes devem abranger todas as observações,
• o extremo superior de uma classe é o extremo inferior da classe subseqüente,
• cada valor observado deve enquadrar-se em apenas uma classe,
• a quantidade de classes, em geral, não deve ser inferior a 5 ou superior a 15.
Uma fórmula de se determinar um número razoável, k, de classes consiste em aplicar a
fórmula de Sturges, que sugere o cálculo de k mediante a expressão:
k = 1 + Log2 n = 1 + 2 Log
Log n=1 +3,32Log n
Uma outra forma de se calcular o valor de k consiste em tomar a raiz quadrada de n,
assim, k= n .
Pós de Engenharia de Produção - Estatística
18
Após definir o número de classes, é necessário verificar qual é o maior e o menor valor
do conjunto de dados, para que possamos calcular a amplitude, que consiste na
diferença entre estes dois valores. De posse do valor k e da amplitude, iremos encontrar
a amplitude de classe, que é a divisão da amplitude pelo número de classes.
Anteriormente à apresentação de um exemplo, devemos definir alguns termos:
• amplitude é a diferença entre o maior e o menor valor do conjunto de dados,
• xi é o ponto médio da i-ésima classe, é a média dos pontos extremos da classe,
• n é a quantidade total de observações
=∑ inn ,
• ni é a quantidade de observações, ou freqüência, da i-ésima classe,
• fi é a freqüência relativa da classe
=n
nf i
i ,
• Ni é a freqüência acumulada até a i-ésima classe e indica a quantidade de
observações inferiores ao limite superior da classe
=∑
=
i
jji nN
1
,
• Fi é a freqüência relativa acumulada até a i-ésima classe e indica a quantidade
de observações relativas inferiores ao limite superior da classe
=∑
=
i
jji fF
1
.
Exemplo 1 (Dados contínuos): Construa uma tabela de distribuição, para as seguintes
alturas, expressas em centímetros, de 30 atletas do sexo masculino de uma universidade:
168 172 170 181 169 173 164 175 182 177
176 173 170 186 183 170 168 166 169 180
175 164 181 179 172 169 174 171 178 166
1º passo: colocar os dados em ordem crescente
164 164 166 166 168 168 169 169 169 170
170 170 171 172 172 173 173 174 175 175
176 177 178 179 180 181 181 182 183 186
Pós de Engenharia de Produção - Estatística
19
2º passo: calcular da amplitude (maior valor – menor valor): 186 – 164 = 22
3º passo: calcular do número de classes: 547,530 ≈=== nk
4º passo: calcular da 540,45
22 ≈===classedenúmero
amplitudeclassedeamplitude
Observação: O arredondamento no cálculo da amplitude de classe deve ser sempre para
cima, para evitar que alguma observação da amostra fique fora da tabela de distribuição.
5º passo: definir o limite inferior da primeira classe: 162
Observação: O limite inferior da primeira classe deve ser inferior ao menor valor
observado da amostra, e o limite superior da última classe deve ser superior ao maior
valor observado da amostra.
6º passo: definir os intervalos (extremos) das classes: 1ª) 162 a 167; 2ª) 167 a 172; 3ª)
172 a 177; 4ª) 177 a 182; 5ª) 182 a 187
Observação: Os intervalos são definidos somando o limite inferior da primeira classe
mais a amplitude da classe, o valor encontrado desta soma mais a amplitude da classe,
. . ., até completar todos os intervalos das classes.
7º passo: calcular a média de cada classe (xi): 1ª) 164,5; 2ª) 169,5; 3ª) 174,5; 4ª) 179,5;
5ª) 184,5
8º passo: contar a freqüência de observações em cada classe (ni) e calcular a freqüência
relativa (fi)
9º passo: calcular a freqüência acumulada (Ni) e a freqüência relativa acumulada (Fi)
10º passo: apresentar a tabela de freqüência
Observação: Deve estar contido na apresentação da tabela: título ou referência da tabela
e a fonte dos dados.
Pós de Engenharia de Produção - Estatística
20
Distribuição de freqüência das alturas de atletas
Classe (cm) xi ni f i Ni F i
162 167 164,5 4 0,13 4 0,13
167 172 169,5 9 0,30 13 0,43
172 177 174,5 8 0,27 21 0,70
177 182 179,5 6 0,20 27 0,93
182 187 184,5 3 0,10 30 1,00
Fonte: Dados Hipotéticos
Exemplo 2 (dados discretos): Construa uma tabela de distribuição, para as idades de
estudantes que concluíram o 2º grau em uma escola estadual:
17 18 18 25 19 19 20 18 18 17
18 18 21 19 18 19 17 18 20 18
21 18 18 20 20 19 23 18 18 25
18 17 17 17 18 18 17 21 18 18
17 23 24 18 18 19 19 18 17 18
Pode-se construir a tabela de distribuição de freqüência da seguinte forma:
Distribuição de freqüência da idade de conclusão 2º grau
Classe ni f i Ni F i
17 9 0,18 9 0,18
18 22 0,44 31 0,62
19 7 0,14 38 0,76
20 4 0,08 42 0,84
21 3 0,06 45 0,90
22 0 0,00 45 0,90
23 2 0,04 47 0,94
24 1 0,02 48 0,96
25 2 0,04 50 1,00
Fonte: Dados Hipotéticos
Ou construir a tabela de distribuição de freqüência da seguinte forma:
Pós de Engenharia de Produção - Estatística
21
Exemplo 2: Distribuição de freqüência da idade de conclusão 2º grau
Classe ni fi Ni Fi
17 – 18 31 0,62 31 0,62
19 – 20 11 0,22 42 0,84
21 – 22 3 0,06 45 0,90
23 – 24 3 0,06 48 0,96
25 2 0,04 50 1,00
Fonte: Dados Hipotéticos
Pode-se verificar que a segunda tabela de freqüência feita para estes dados não está
representando os dados de forma tão satisfatória quanto a primeira tabela. Este exemplo
procura demonstrar que deve haver um bom senso na escolha que quantas classes
devem-se utilizar, pois a sua má escolha pode implicar em grandes perdas de
informação, que poderiam ser valiosas para analise e conclusões futuras.
Exemplo 3 (Dados qualitativos): Construa uma tabela de distribuição supondo que o
orçamento, em milhões de reais, de um estado tenha sido elaborado com as seguintes
destinações de verbas:
Administração Educação Saúde Obras Públicas Segurança
47,5 70,0 75,0 45,0 12,5
Podemos construir a tabela de distribuição de freqüência da seguinte forma:
Distribuição de freqüência do orçamento do estado
Classe ni fi Ni Fi
Administração 47,5 0,19 47,5 0,19
Educação 70,0 0,28 117,5 0,47
Saúde 75,0 0,30 192,5 0,77
Obras Públicas 45,0 0,18 237,5 0,95
Segurança 12,5 0,05 250,0 1,00
Fonte: Dados Hipotéticos
Pós de Engenharia de Produção - Estatística
22
Exercício 1: Observaram-se os 50 valores seguintes de diâmetros, em centímetros, de
certa peça circular fabricada por uma indústria. Construa a distribuição de freqüência,
utilizando-se de 5 e 10 classes.
1,845 1,823 1,840 1,853 1,815 1,838 1,843 1,840 1,865 1,830
1,828 1,838 1,820 1,810 1,833 1,843 1,858 1,850 1,840 1,835
1,840 1,855 1,838 1,848 1,855 1,813 1,830 1,833 1,845 1,838
1,820 1,850 1,835 1,830 1,830 1,833 1,835 1,845 1,825 1,860
1,835 1,848 1,828 1,830 1,860 1,812 1,814 1,823 1,827 1,835
Representação Gráfica
Uma imagem vale por mil palavras
os objetivos dos gráficos não envolvem gastar o azul ou o vermelho do seu cartucho
colorido, o objetivo verdadeiro é transmitir informação. Assim, quanto mais simples,
melhor!
Os gráficos são representações pictóricas dos dados, muito valiosas na visualização dos
resultados. Os principais tipos de gráficos usados na representação estatística são:
• Histograma e Polígono de Frequência
• Ogiva
• Gráfico em Barras (ou em colunas)
• Gráfico de Pontos
• Gráfico em Setores (pizza)
• Gráfico em Linha
Histograma e Polígono de freqüência: São utilizados para representar a distribuição de
freqüência. O histograma é um conjunto de retângulos com bases sobre um eixo
dividido de acordo com os tamanhos de classe, centros nos pontos médios das classes e
áreas proporcionais às freqüências. Um polígono de freqüência é um gráfico que se
obtém unindo por uma poligonal os pontos correspondentes às freqüências das diversas
classes, centradas nos respectivos pontos médios.
Pós de Engenharia de Produção - Estatística
23
Exemplo 1: Construa o histograma e o polígono de freqüência das freqüências absolutas
da tabela abaixo:
Alturas de Atletas
Classe (cm) xi ni fi Ni Fi
162 167 164,5 4 0,13 4 0,13
167 172 169,5 9 0,30 13 0,43
172 177 174,5 8 0,27 21 0,70
177 182 179,5 6 0,20 27 0,93
182 187 184,5 3 0,10 30 1,00
Fonte: Dados Hipotéticos
Ogiva: É o gráfico representativo de uma distribuição acumulada de freqüências. Consta
de uma poligonal ascendente. No eixo horizontal colocam-se as extremidades de classe
e no eixo vertical as freqüências acumuladas
Exemplo 2: Construa o gráfico ogiva das freqüências absolutas da tabela de freqüência
do exemplo 1:
Exemplo 1: Histograma e Polígono de Freqüência
Pós de Engenharia de Produção - Estatística
24
Exemplo 2: Altura de Atletas
Observação: O polígono de freqüências utiliza-se dos pontos médios, e o gráfico ogiva
utiliza-se dos pontos extremos.
Gráfico em Barras (em colunas): Por vezes os dados consistem em contagens com
dados discretos, e que o número de valores distintos não é grande, constrói-se uma
distribuição de freqüência utilizando os próprios valores individuais como “classes”, em
lugar de intervalos de classes. Gráfico também utilizado para dados categóricos.
Exemplo 3: Construa o gráfico de barras das freqüências absolutas da tabela abaixo:
Idade de Conclusão 2º Grau
Classe ni fi Ni Fi
17 9 0,18 9 0,18
18 22 0,44 31 0,62
19 7 0,14 38 0,76
20 4 0,08 42 0,84
21 3 0,06 45 0,90
22 0 0,00 45 0,90
23 2 0,04 47 0,94
24 1 0,02 48 0,96
25 2 0,04 50 1,00
Fonte: Dados Hipotéticos
Pós de Engenharia de Produção - Estatística
25
0
5
10
15
20
25
17 18 19 20 21 22 23 24 25
Idade de Conclusão 2º Grau
Exemplo 3: Gráfico em Barras
Exemplo 4: Construa o gráfico de barras das freqüências relativas da tabela abaixo:
Orçamento de Estado
Classe ni fi Ni Fi
Administração 47,5 0,19 47,5 0,19
Educação 70,0 0,28 117,5 0,47
Saúde 75,0 0,30 192,5 0,77
Obras Públicas 45,0 0,18 237,5 0,95
Segurança 12,5 0,05 250,0 1,00
Fonte: Dados Hipotéticos
Pós de Engenharia de Produção - Estatística
26
19%
28%30%
18%
5%
0,00
0,05
0,10
0,15
0,20
0,25
0,30
Orçamento Estadual
Administração EducaçãoSaúde Obras PúblicasSegurança
Orçamento Estadual
19%
28%
30%
18%
5%
0,00 0,10 0,20 0,30
Administração
Educação
Saúde
Obras Públicas
Segurança
Exemplo 4: Gráfico em Barras
Gráfico de Pontos: Quando os dados consistem em um pequeno conjunto de números,
estes podem ser representados traçando-se uma reta com uma escala que abranja todas
as mensurações observadas, e grafando-se as respectivas freqüências como pontos
acima da reta.
Exemplo 5: Construa o gráfico de pontos da tabela de distribuição de freqüência do
exemplo 3:
Idade de Conclusão do 2º Grau
Pós de Engenharia de Produção - Estatística
27
Exemplo 5: Gráfico de Pontos
Gráfico em Setores: Este gráfico é construído tomando-se um círculo (360 graus), que
se divide em setores com áreas proporcionais às freqüências das diversas categorias.
Utilizado para representar dados categóricos.
Exemplo 6: Construa o gráfico de setores da tabela de distribuição de freqüência do
exemplo 4:
Orçamento Estadual
19%
28%30%
18%5%
Administração EducaçãoSaúde Obras PúblicasSegurança
Exemplo 6: Gráfico de Setores
Gráfico em Linha: É um dos mais importantes gráficos, pois representa observações
feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados
constituem as chamadas séries históricas, ou séries temporais. Traduzem o
comportamento de um fenômeno em certo intervalo de tempo.
Pós de Engenharia de Produção - Estatística
28
Exemplo 7: Construa o gráfico de linhas da seguinte tabela de distribuição:
Exemplo 7: Consumo Mensal de Luz
Mês / 98 Consumo(Kwh) Mês / 99 Consumo(Kwh) Mês / 00 Consumo(Kwh)
4 145 1 251 1 261
5 183 2 146 2 151
6 179 3 143 3 211
7 220 4 170 4 300
8 230 5 245 5 278
9 204 6 256 6 317
10 230 7 250
11 208 8 279
12 244 9 208
10 292
11 247
12 285
Fonte: Dados Hipotéticos
mfjdnosajjmamfjdnosajjmamfj
300
250
200
150
Mês
Con
sum
o (K
wh)
C onsum o M ens a l d e Luz
Exemplo 7: Gráfico em Linhas
Gráfico Ramo e Folha: Uma forma alternativa, muito simples, de fazer essa descrição é
através do chamado ramo-e-folha, método criado pelo estatístico americano John
Tukey.
Pós de Engenharia de Produção - Estatística
29
Exemplo 8: Construa o ramo e folha dos seguintes dados:
168 172 170 181 169 173 164 175 182 177
176 173 170 186 183 170 168 166 169 180
175 164 181 179 172 169 174 171 178 166
Ramo Folha
16 4 4
16 6 6
16 8 8 9 9 9
17 0 0 0 1
17 2 2 3 3
17 4 5 5
17 6 7
17 8 9
18 0 1 1
18 2 3
18 6
Exemplo 8: Ramo e Folha
Dados
Dados
Quantitativos
Dados
Quantitativos
Métodos
Tabulares
Métodos Gráficos
Métodos
Tabulares
Métodos Gráficos
Pós de Engenharia de Produção - Estatística
30
• Distribuição
de
Freqüência
• Gráfico em
Barras
• Distribuição
de Freqüência
• Gráficos de
Dispersão
• Distribuição
de
Freqüência
Relativa
• Gráfico em
Pizza
• Distribuição
de Freqüência
Relativa
• Histograma
• Distribuição
de
Freqüência
Percentual
• Distribuição
de Freqüência
Percentual
• Ogiva
• Distribuição
de
Freqüência
Percentual
• Distribuição
de Freqüência
Cumulativa
• Apresentação
de Ramo-e-
Folha
• Distribuição
de Freqüência
Relativa
Cumulativa
• Diagrama de
dispersão
• Distribuição
de Freqüência
Percentual
Cumulativa
• Tabulação
Cruzada
Pós de Engenharia de Produção - Estatística
31
Exercícios
1.O quadro abaixo apresenta as notas dos 35 alunos de uma turma em avaliação da
disciplina Fundamentos e Metodologia da Matemática II, cujo valor foi 20,0 créditos:
7,0 13,0 12,0 15,0 3,0 15,0 17,0
10,0 17,0 7,0 10,0 18,0 15,0 12,0
10,0 12,0 11,0 11,0 11,0 16,0 15,0
10,0 12,0 11,0 10,0 12,0 13,0 12,0
18,0 16,0 12,0 13,0 15,0 18,0 10,0
Com base nesses dados, construir:
a) Construir a distribuição de freqüências
b) Construir o histograma
c) quantos alunos conseguiram nota até 11,0 nessa avaliação?
d) considerando que a média nessa avaliação é 12,0, qual a porcentagem de alunos
que conseguiu alcançar ou superar a média?
2.Com o objetivo de divulgar um de seus produtos, determinada indústria entrevistou
600 pessoas para saber qual veículo de informação (jornal, rádio, revista e televisão) era
mais utilizado por elas. Dentre os entrevistados, 72 preferiam jornal, 276 rádio, 42
revista e 210 televisão. Construir uma tabela relacionando os quatro veículos de
informação e as freqüências absoluta e relativa.
3.Os resultados do lançamento de um dado 50 vezes foram os seguintes:
6 5 2 6 4 3 6 2 6 5
1 6 3 3 5 1 3 6 3 4
5 4 3 1 3 5 4 4 2 6
2 2 5 2 5 1 3 6 5 1
5 6 2 4 6 1 5 2 4 3
Pós de Engenharia de Produção - Estatística
32
Forme uma distribuição de freqüências e construa o histograma:
A seguir, responda as perguntas abaixo:
a) qual a porcentagem de vezes em que saiu um número menor que 4
b) qual a porcentagem de vezes em que o resultado do dado foi um número maior ou
igual a 3?
c) indique a porcentagem de vezes em que o número anotado foi par:
4. Um dado foi jogado 25 vezes, sendo obtidos os seguintes pontos:
1,5,6,5,2,2,2,4,6,5,1,1,3,4,6,2,3,3,1,6,6,5,5,4,2
Elabore um quadro com distribuição de freqüências absolutas e relativas. A seguir,
construa o histograma:
Observando a tabela acima , responda:
a) Quantas vezes o numero 2 foi obtido no dado?
b) Quantas vezes o número obtido no dado foi menor que 5?
c) Qual o índice em % em que o número 6 foi obtido no dado?
d) Qual o índice em % em que números maiores que 4 foram obtidos no dado?
5. Dada a distribuição de freqüência:
xi 3 4 5 6 7 8
FA 2 5 12 10 8 3
6. O quadro mostra a distribuição de freqüências dos salários mensais (agrupados em
classes) de 40 empregados de uma firma:
Determine: a) N: b) as freqüências relativas
Pós de Engenharia de Produção - Estatística
33
Salário (em reais) Número de empregados (fi)
800 | 900 4
900 | 1 000 10
1 000 | 1 100 18
1 100 | 1 200 5
1 200 | 1 300 3
a) Qual a amplitude do intervalo de classe?
b) construa o histograma:
c) Quantos empregados ganham menos que R$ 1 000,00 mensais?
d) Qual o índice, em porcentagem, de empregados que ganham R$ 1 000,00 ou mais?
e) Quantos empregados ganham entre R$ 800,00 (inclusive) e R$ 1 200,00?
f) Qual o índice, em porcentagem, de empregados que ganham menos que R$1
000,00?
7.Foi realizada uma pesquisa com 40 pessoas que procuravam um carro popular usado
para comprar, de modo a levantar o carro que pretendiam comprar. A pesquisa foi
encomendada por um centro de vendas de carro aqui de Belo Horizonte, e apresentou os
seguintes resultados:
Gol Pálio Uno Corsa Sedan Ford Ka Gol Gol Uno Ford Ka Pálio Gol Uno Uno Pálio Uno Gol Pálio Uno Pálio Corsa Sedan Gol Uno Gol Gol Ford Ka Pálio Uno Ford Ka Ford Ka Gol Uno Uno Pálio Gol Pálio Corsa Sedan Ford Ka Uno Pálio Gol
A partir desse levantamento, construa uma tabela com freqüência absoluta e relativa e o
diagrama. Determinar o carro mais procurado e também o menos procurado:
Pós de Engenharia de Produção - Estatística
34
8.Uma loja de calçados vendeu quarenta pares de tênis com a seguinte numeração:
37 39 37 33 37 41 37 35 37 35
37 39 37 33 37 41 37 35 37 35
37 39 37 33 37 39 37 35 37 35
37 39 37 33 37 39 37 35 37 35
a) construir o histograma:
IV. MEDIDAS ESTATÍSTICAS – TENDÊNCIA CENTRAL
Medidas de tendência central (dados não agrupados)
Há diferentes maneiras de definir o centro e/ou o meio de um conjunto de dados, assim,
há diferentes definições de medidas de tendência central: a média, a mediana, a moda, o
ponto médio e outros.
Ponto Médio: É o valor que está a meio caminho entre o maior e o menor valor
observado na amostra. Sua fórmula é apresentada a seguir:
2
rmenor valo r maior valo += MédioPonto
Exemplo 1: Determine o ponto médio dos tempos de sobrevivência (após a posse) dos
10 primeiros presidentes americanos, em anos: 10 29 26 28 15 23 17 25 0 20
Ponto Médio = (29 + 0) / 2 = 14,5 anos
Moda: É o valor que ocorre com maior freqüência no conjunto de dados. Esta estatística
apresenta dois problemas básicos, pode não existir ou existir várias, e também não leva
em consideração todos os dados.
Exemplo 2: Na inspeção de qualidade, antes da remessa, foram examinados 15 rádios,
onde a quantidade de defeitos por unidade era de: 1 0 3 4 2 1 0 3 1 2 0 1 1 0 1.
Encontre a moda desta amostra.
Pós de Engenharia de Produção - Estatística
35
Mo = 1 defeito (4 rádios)
Média Aritmética: É o valor obtido somando-se todos os valores do conjunto de dados
e dividindo-se pelo número de observações da amostra. Esta medida de tendência
central é a mais utilizada. Suas principais vantagens são a utilização de todos os dados
da amostra e é uma estatística que funciona bem em quase todos os métodos estatísticos.
Apresenta uma desvantagem relevante, que é a forte influência de pontos extremos em
seu valor. É comumente representada por x . Sua fórmula é apresentada a seguir:
n
x )x( Média∑= , onde n é o tamanho da amostra
Exemplo 3: Determine média aritmética dos tempos de sobrevivência (após a posse) dos
10 primeiros presidentes americanos, em anos: 10 29 26 28 15 23 17 25 0 20
19,310
193
10
2002517231528262910 ==+++++++++== ∑n
xx i anos
Mediana: É o valor do meio do conjunto de dados, quando este se encontra em ordem
crescente ou decrescente. A Mediana é comumente utilizada porque se trata de uma boa
escolha quando há alguns valores extremos. A restrição a seu respeito é por não levar
em consideração todos os dados. É comumente representada por x~ . A duas formas de
encontrar a média quando o conjunto ordenado ter uma quantidade par de valores ou
ímpar.
Exemplo 4: Determine a mediana dos pagamentos realizados às bandas de um concerto
de rock, em reais (R$): 500 600 800 50000 1000 500 700
Mediana = Ordenando os valores temos 500 500 600 700 800 1000
50000, assim a mediana deste conjunto de dados será R$ 700
Exemplo 5: Determine a mediana se o primeiro valor (R$500) dos dados acima não
estivesse na amostra.
Mediana= Ordenando os valores temos: 500 600 700 800 1000 50000,
assim (700 + 800) / 2 = 750, assim a mediana será R$750.
Pós de Engenharia de Produção - Estatística
36
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
amostra
Exercício 1: Uma amostra de 20 operários de uma companhia apresentou os seguintes
salários recebidos durante certa semana, em dólar (US$), e apresentados em ordem
crescente: 140 140 140 140 140 140 140 140 155 155 165 165 180 190 200
205 225 230 240 250. Calcular a) a média, b) a mediana, c) a moda e o ponto médio
para este grupo de salários.
Observação: existe uma relação muito importante entre a média, a mediana e a
moda:em uma distribuição simétrica, observa-se que a Média=mediana=Moda.
Moxx ≅≅ ~
Entretanto, em uma distribuição assimétrica positiva observa-se que a Média >
Mediana > Moda, e em uma distribuição com assimetria negativa, observa-se
que a Média < Mediana < Moda. Portanto, temos:
Resumindo as propriedades, temos:
Moda Mediana Média Média Mediana Moda
Pós de Engenharia de Produção - Estatística
37
Medida Definição Quão
Freqüente Existência
Levam
em
conta
todos
os
valores
?
Afetada
pelos
valores
Extremos
?
Vantagens e
Desvantagens
Média n
xx i∑=
“média”
mais familiar
Existe
sempre Sim Sim
Usada em todo
este curso;
funciona bem
com muitos
métodos
estatísticos.
Mediana Valor do meio Usada
comumente
Existe
sempre Não Não
Costuma ser
uma boa
escolha se há
alguns valores
extremos
Moda Valor mais
freqüente
Usada às
vezes
Pode não
existir; pode
haver mais
de uma
moda.
Não Não
Apropriada para
dados ao nível
nominal
Ponto
Médio 2
menormaior+
Raramente
usada
Existe
sempre Não Sim
Muito sensível a
valores
extremos.
Média Aparada: É calculada da mesma forma que a média aritmética, desconsiderando
apenas os valores extremos. Esta medida de tendência central é muito utilizada quando
se têm valores outliers (discrepantes).
Média Ponderada: A fórmula da média aritmética supõe que cada observação tenha a
mesma importância, mas no caso da Média Ponderada isto não ocorre, pois cada
Pós de Engenharia de Produção - Estatística
38
observação é ponderada de acordo com o seu grau de importância. A fórmula para o
cálculo é:
Média Ponderada =
∑
∑
=
=n
1ii
n
1iii
w
xw
, onde wi é o peso da observação xi.
Exemplo 6: Uma determinada carteira de valores a receber é composta por três ativos
com seus prazos de cobrança. Calcule o prazo médio de recebimento ponderando com
os respectivos valores.
Ativo Prazo de
Cobrança (dias)
Valor
A 47 $22600,00
B 76 $68000,00
C 91 $134000,00
Média Ponderada = 82224600
18424200
1340006800022600
1340009168000762260047 ==++
×+×+× dias
Média Geométrica: Obtém-se esta média calculando a raiz nésima da multiplicação de
todos os n valores do conjunto de dados. É largamente utilizada na Administração e na
Economia para achar taxas médias de variação, ou de crescimento. É expressa da
seguinte forma:
Média Geométrica = n
n
iix∏
=1
, se x é um número,
Média Geométrica = =−+∏=
1)1(1
n
n
iir , se r é uma taxa
Exemplo 7: Qual é a Média Geométrica dos números 2, 4, 10:
Média Geométrica = 3,410*4*23
1
==∏=
n
n
iix
Pós de Engenharia de Produção - Estatística
39
Exemplo 8: Seja um fundo de ações com as seguintes cotas ($) anuais:
Ano Cota ($) Taxa de Retorno (r)
1 100 ––
2 200 100%
3 200 0%
4 200 0%
5 100 –50%
Sabemos que a média aritmética do retorno é de 12,5%, calcule a Média Geométrica:
Média Geométrica =
%000,011105,0*21)50,01(*)00,01(*)00,01(*)00,11( 444 ==−=−=−−+++
Observação: podemos ver claramente que o valor da cota iniciou com 100 e terminou
com 100, ou seja, não tendo nenhum aumento, logo a Média Geométrica representa
melhor a taxa de retorno do fundo de ações que a média aritmética.
Exercícios
1. As alturas dos jogadores de um time de basquete são 1,98 m,2,02 m, 2,08 m, 1,92 m e
1,95 m. Qual é a média de altura desse time?
2. Um comerciante mistura 4 kg de café tipo A, que custa R$ 6,00 o quilo; 10kg do café
B, que custa R$ 5,60 o quilo; e 6 kg do café C, que custa R$ 5,00 o quilo. Qual o preço
por quilo da mistura?
3. Em uma casa de repouso, as pessoas internadas têm as seguintes idades:
Pós de Engenharia de Produção - Estatística
40
67 67 67 68 68 68 68 71 71 71 72 72
73 73
73 73 74 74 74 74 75 75 75 75 75 77
77 77
78 78 80 80 80 84 84 84 84 85 85 85
Calcular a média dessa distribuição
5. Determine a média e a moda do conjunto de dados representado pelo quadro:
xi 8 12 16 20
f i 7 16 20 5
6. Os dados a seguir representam as massas, em quilogramas, dos atletas de uma equipe
juvenil de natação:
46, 44, 49, 45, 44, 48, 50, 42
Determine a mediana e a moda dessa distribuição:
7. Calcule a média e a moda do conjunto de dados representados pelo quadro:
xi 10 15 20 25 30
f i 9 21 10 32 8
8.Os preços, em reais, para uma amostra de aparelhos de TV 21 polegadas estão abaixo.
500 840 470 480 420 480 440
Com base nos preços levantados, responda:
a) qual o preço médio dos aparelhos de TV?
b) encontre o preço mediano (Mediana):
Pós de Engenharia de Produção - Estatística
41
c) determine a moda dos preços dos aparelhos de TV:
d) a produção do aparelho de TV cujo preço é R$ 420,00 é suspensa. Qual o preço
mediano dos aparelhos restantes?
9. Com o objetivo de orientar pessoas com problemas cardiovasculares, um nutricionista
divulgou tabela relacionando determinados alimentos com a gordura saturada:
Alimento/ informação da
quantidade
Gordura saturada ( em gramas)
Leite integral (1 copo) 5,1
Carne de porco (100 g) 3,2
Bife magro ( 100 g) 2,7
Fígado (100 g) 2,5
Frango (100 g) 2,0
Iogurte desnatado ( 1 copo) 1,8
Ovo (1) 1,7
Lula ( 100 g) 0,4
Camarão ( 100 g) 0,2
Óleo de coco (colher de sopa) 0
Óleo de milho (colher de sopa) 0
Determinar para esses dados:
a) a média de gordura saturada entre os alimentos listados:
b) a moda e a mediana:
10. No quadro seguinte estão as idades de 20 alunos que cursam o 1º ano do ensino
médio de uma determinada escola:
15, 15, 14, 16, 16, 16, 17, 16, 14, 15, 15, 15, 16, 16, 16, 17, 16, 15, 14, 15
Pós de Engenharia de Produção - Estatística
42
Nessas condições:
a) faça um quadro de distribuição de freqüências absolutas:
b) qual é a média aritmética dessa turma?
V. MEDIDAS ESTATÍSTICAS
Medidas de Dispersão ou Variabilidade
Porque muitos bancos apresentavam filas separadas para os diversos guichês, e que
passaram a adotar a fila única? Qual o motivo dessa modificação?
Exemplo 1: Notas de 2 grupos de estudantes.
Grupo A – 8 8 8 6 5,7=x todos aprovados
Grupo B – 5 5 10 10 5,7=x 50% de reprovados
Amplitude: É a diferença entre o maior valor e o menor valor. Esta depende apenas do
menor e do maior valor, portanto não é tão boa quanto outras medidas de variação que
levam em conta todos os valores.
Amplitude = X(n) – X(1)
Exemplo 2: Calcule a amplitude do tempo de espera na fila em dois bancos distintos:
Banco A (Fila única) – 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
Banco B (Fila múltipla) – 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0
Amplitude A= 7,7 – 6,5 = 1,2 minutos
Amplitude B= = 10,0 – 4,2 = 5,8 minutos
Podemos observar que a variação no segundo banco, onde se tem fila múltipla, é bem
maior.
O critério mais utilizado para medir a dispersão dos dados é a distância em relação à
média. Para cada observação calcula-se xxi −
Pós de Engenharia de Produção - Estatística
43
A medida total da dispersão é a soma dos desvios ponderada pelo número de
observações: ( )
n
xxi∑ −, entretanto esta soma é zero.
Desvio Médio: Uma estatística que realmente meça a variação é definida pela soma dos
valores absolutos, que é dada por:
Desvio Médio = n
xxi∑ −
Exemplo 3: Dado o seguinte conjunto de tempos de reação (em segundos) de seis
indivíduos a um estímulo, 4 2 3 3 6 3, calcule a média e o desvio médio.
Solução: Média 5,36
21)( ==x
Desvio Médio= =−+−+−+−+−+−
6
5,335,365,335,335,325,34 1
Variância: Utiliza-se a soma dos quadrados dos desvios em relação à média, que
denotamos por Variância, e definimos como:
( )
1
2
2
−−
= ∑n
xxs
i ou 1
22
2
−−
= ∑n
xnxs
i ou
( )1
22
2
−
−=
∑∑n
nx
xs
ii
onde n é o tamanho da amostra, e ( )
N
xxi
2
2 ∑ −=σ ,onde N é o tamanho da população.
Desvio Padrão: É a raiz quadrada da variância. Definida também como a variação
média dos valores em torno da média. A grande vantagem é que esta medida está na
mesma escala das observações. É dada por
( )
1
2
−−
= ∑n
xxs
i ou
1
22
−−
= ∑n
xnxs
i ou
( )1
22
−
−=
∑∑n
nx
xs
ii
Algumas propriedades:
Pós de Engenharia de Produção - Estatística
44
1) se uma constante c é adicionada ou subtraída de todos os elementos da amostra, o
desvio padrão não se altera;
2) se uma constante c é multiplicada por cada elemento, o desvio padrão também será;
3) Se a distribuição da variável é simétrica, pode-se mostrar que:
68% das observações estão no intervalo[ ]sxsx +− ,
95% das observações estão no intervalo[ ]sxsx 2,2 +−
99% das observações estão no intervalo[ ]sxsx 3,3 +− .
Exemplo 4: Dado o seguinte conjunto de tempos de reação (em segundos) a um
estímulo de seis indivíduos, 4 2 3 3 6 3, calcule a média, a variância e o desvio
padrão.
5,36
2121 ==⇒=∑ xxi ∑ =+++++= 83936994162
ix
38,19,19,116
)5,3(683 22 ==⇒=
−×−
= ss
Coeficiente de Variação: Toma-se uma medida relativa da variabilidade comparando o
desvio padrão com a média. Esta medida é o coeficiente de variação, que é dado por:
x
scvode VariaçãeCoeficient =)(
Sabemos que o desvio padrão tem a mesma unidade de medida que os dados, de modo
que o coeficiente de variação é adimensional. Assim, esta medida torna-se de grande
utilidade, pois nos permite comparar as variabilidades de diferentes conjuntos de dados.
Exemplo 6: Considerando as informações abaixo relacionadas a respeito de dois
investimentos em ação, calcule os coeficientes de variação e comente.
Ação A %0,24=x %0,11=s
Ação B %0,30=x %0,15=s
Solução: Os coeficientes de variação são:
Ação A = %8,45458,024,0
11,0 == Ação B = %0,5050,030,0
15,0 ==
Pós de Engenharia de Produção - Estatística
45
Conclui-se que a Ação B apresenta menor variabilidade em relação à sua expectativa de
retorno, portanto menor risco relativo.
Exercício 1: Encontre a média, a variância e o desvio padrão dos dados abaixo:
A B C D
10,5 6,1 3,7 2,4
8,5 12,5 14,8 8,9
10,1 7,8 16,9 6, 2
8,8 12,1 13,0 24,2
7,5 2,5 10,8 12,9
11,8 3,9 15,5 16,2
6,8 12,7 12,6 3,9
12,0 4,3 -1,1 10,0
11,2 8,4 7,0 9,5
10,2 3,9 17,5 22,4
Exercício 2: A tabela a seguir apresenta o retorno esperado e o risco de cinco possíveis
projetos de uma instituição que podem ser implementados, entretanto, por questões
financeiras apenas dois poderão ser desenvolvidos, um imediatamente, e outro daqui um
ano. Determine o melhor projeto no qual já será implementado imediatamente e o
segundo melhor que será implementado posteriormente.
VI. MEDIDAS ESTATÍSTICAS
Projetos Retorno Esperado (%) Risco (%)
A 50,0 18,0
B 30,0 12,3
C 16,0 6,4
D 35,0 15,4
E 20,0 9,6
Pós de Engenharia de Produção - Estatística
46
Medidas de Posição
Escore Padronizado: O escore padronizado é o número de desvios padrão pelo qual
um valor x dista da média (para mais ou para menos). Ou seja:
s
xxz
−= ; onde se deve arredondar z para duas casas decimais.
A importância dos escores z na estatística reside no fato de que eles permitem distinguir
entre valores usuais e valores raros, ou incomuns. Consideramos usuais os valores cujos
escores padronizados estão entre –2,00 e 2,00, e incomuns os valores com escore z
inferior a –2,00 ou superior a 2,00.
Exemplo 1: As alturas de crianças de um ano e meio têm média µ=100 cm e desvio
padrão σ=5 cm. A pediatra avaliou a altura (em cm) de quatro crianças: 115 93 108
86. Alguma criança merece especial atenção?
00,35
100115 =−=⇒−= z
xz
σµ
→ NÃO É NORMAL
40,15
10093 −=−=⇒−= z
xz
σµ
60,15
100108 =−=⇒−= z
xz
σµ
80,25
10086 −=−=⇒−= z
xz
σµ
→ NÃO É NORMAL
Quartis, Decis e Percentis: Assim como a mediana divide os dados em duas partes
iguais, os três quartis, denotados por Q1, Q2, e Q3 , dividem as observações ordenadas
(dispostas em ordem crescente) em quatro partes iguais. Assim Q1 separa os 25%
inferiores dos 75% superiores dos valores ordenados; Q2 é a mediana; e Q3 separa os
75% inferiores dos 25% superiores dos dados.
Pós de Engenharia de Produção - Estatística
47
Analogamente, há nove decis, denotados por D1, D2, D3, . . . , D9, que dividem os dados
em 10 grupos com cerca de 10% deles em cada grupo. Há, finalmente, 99 percentis,
que dividem os dados em 100 grupos com cerca de 1% em cada grupo.
Para se calcular os percentis façam os seguintes passos:
Primeiramente ordenam-se os valores em ordem crescente. Pontuando suas posições .i
Para se encontrar a posição i correspondente ao percentil desejado utiliza-se a seguinte
fórmula: nP
i ×=100
;
Onde P = percentil desejado e na quantidade de dados.
Se o valor encontrado da posição i for fracionário o valor desejado daquele percentil
será o dado correspondente a esta posição arredondada para cima.
Se o valor encontrado da posição i for inteiro o valor desejado daquele percentil será
2
)1( ++ ii, ou seja, o valor do dado encontrado na posição i somado com o valor
encontrado na posição 1+i ( o próximo valor ordenado) divido por 2.
Exemplo 2: Determine, por inspeção, o 25º percentil destes dados
Posição i : 1 2 3 4 5 6 7 8 9
Dados: 10 25 62 65 73 86 91 104 124
Resolvendo:
Notem que os dados estão ordenados então:
25,29100
25 =×=i . Percebemos que o valor da posição i foi fracionário então
arredondando para cima temos que 3=i . O dado correspondente a esta posição é o 62.
Então o 25º percentil é o valor 62. Sendo assim para este conjunto de dados 25% estão
abaixo de 62 e 75% acima.
Vamos encontrar o 50º percentil.
Posição i : 1 2 3 4 5 6 7 8
Dados: 2 3 5 8 9 12 13 15
48100
50 =×=i . O valor da posição i foi inteiro então o valor do 50º percentil será o
dado nesta posição somado com o próximo dividido por 2. 5,82
9850 =+=P .
Pós de Engenharia de Produção - Estatística
48
Percentis pelo gráfico Ogiva: Pode-se encontrar através de representação gráfica.
Exemplo 3: Temos a quantidade de gramas dos bifes de um restaurante:
1
7
0
1
7
5
1
8
0
1
8
5
1
9
0
1
9
5
2
0
0
2
0
0
2
0
0
2
0
5
Valor ni Ni Fi
170 1 1 0,10
175 1 2 0,20
180 1 3 0,30
185 1 4 0,40
190 1 5 0,50
195 1 6 0,60
200 3 9 0,90
205 1 10 1,00
2005,1772
1801755,192
2
195190312 ==+==+= QQQ
Exercício 1: Sejam os dados a seguir, já ordenados do menor para o maior, de 50
observações, em decibéis, do nível de ruído de tráfego em certo cruzamento. Determine
o Q1, Q2, Q3, D1, D9, P2, P9.
Pós de Engenharia de Produção - Estatística
49
52,0 54,4 54,5 55,7 55,8 55,9 55,9 56,2 56,4 56,4
56,7 56,8 57,2 57,6 58,9 59,4 59,4 59,5 59,8 60,0
60,2 60,3 60,5 60,6 60,8 61,0 61,4 61,7 61,8 62,0
62,1 62,6 62,7 63,1 63,6 63,8 64,0 64,6 64,8 64,9
65,7 66,2 66,8 67,0 67,1 67,9 68,2 68,9 69,4 77,1
Gráfico de Box Plot: É um gráfico particularmente útil para comparar a distribuição de
amostras em diferentes grupos. Para a construção do boxplot são utilizadas as seguintes
estatísticas: mínimo, primeiro quartil (valor que deixa 25% dos dados abaixo), terceiro
quartil (valor que deixa 75% dos dados abaixo) e máximo.
Exemplo 4: Seja algumas estatísticas descritivas do Peso de Alunos separados por
sexo.Construa o gráfico de Box Plot.
Variável Mínimo Q1 Q2 Q3 Máximo Outlier
Todos Alunos 45 50 60 75 95 30, 120
Sexo Fem 45 50 55 60 70 30
Sexo Mas 60 65 75 85 95 120
Maior Valor
Menor Valor
Q3
Q2
Q1
* Outliers*
**
**
AA BB CC DD
Pós de Engenharia de Produção - Estatística
50
Exercício 2: Temos a população (em 10000) dos 15 municípios mais populosos do
Brasil. Construa o gráfico Box Plot. (Fonte: IBGE 1996)
Cida
de
Pop. Cidade Pop. Cidade Pop.
São Paulo 988,
8
Brasíli
a
187,
7
Belém 116,
0
Rio de
Janeiro
556,
9
Curitib
a
151,
6
Goiânia 102,
3
Salvador 224,
6
Recife 135,
8
Guarulh
os
101,
8
Belo
Horizonte
210,
9
Porto
Alegre
129,
8
Campina
s
92,4
Fortaleza 201,
5
Manau
s
119,
4
São
Gonçalo
84,7
Exercícios
1. As velocidades máximas das cinco voltas dadas em um teste de Fórmula 1, em km/h,
foram: 190, 198, 196, 204, 202. Nessas condições, determine:
a) a média das velocidades b) a variância
c) o desvio padrão d) o coeficiente de variação
2. Dez canções concorrentes a um festival foram apreciadas por um júri que lhes
atribuiu as seguintes pontuações: 1; 5; 4; 3; 2; 1; 1; 1; 5; 2.
a) elabore uma tabela com as freqüências
b) calcule a moda e a mediana
c) determine o desvio padrão e o coeficiente de variação
3. O tempo gasto por seis alunos para fazer um trabalho foi, em minutos, 6, 5, 5, 3, 3, 2.
Nessas condições, calcule a média aritmética, a variância e o desvio padrão dessa
distribuição:
Pós de Engenharia de Produção - Estatística
51
4. O quadro mostra as notas de uma prova de Matemática feita pelos alunos do 1º no do
ensino médio de um determinado colégio:
Nº.do
aluno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Nota 8 5 4 4 3 6 2 4 7 6 6 5 4 8 9 7 6 6 5 5 5 2 4 3 3
Nessas condições:
a) organize um quadro de distribuição de freqüências absolutas e freqüências relativas:
b) determine a média aritmética da distribuição
c) determine a moda e a mediana da distribuição
d) determine o desvio padrão e o coeficiente de variação da distribuição
5. Uma pesquisa dividiu em três micro-regiões (X, Y, Z) a região norte do estado de
Minas Gerais. Cada uma dessas micro-regiões foi dividida em cinco municípios. A
tabela seguinte informa o grau de satisfação (notas de 0 a 100) da população de cada
município em relação à respectiva administração municipal:
Região X 50 50 50 50 50
Região Y 70 60 30 40 50
Região Z 90 20 10 50 80
a) calcular o desvio padrão das notas dadas à administração municipal de cada região
pesquisada
b) determinar o coeficiente de variação de cada região
c) classificar em ordem crescente as regiões em relação à regularidade das notas
atribuídas
6. Para o conjunto de valores seguinte, determine o desvio padrão e o coeficiente de
variação:
70, 65, 60, 65, 68, 72, 60
VIII. INTRODUÇÃO À PROBABILIDADE
Pós de Engenharia de Produção - Estatística
57
Distribuição Normal
Agora trataremos daquela que pode ser considerada a mais importante variável
aleatória, a distribuição Normal. Tal importância se deve ao fato de ser muito utilizado
no desenvolvimento teórico da teoria de probabilidade e estatística como também por
ser muito útil à aproximação nos cálculos de probabilidades de outras variáveis
aleatórias.
Dizemos que uma variável aleatória segue um modelo Normal com média µ e variância
(Notação: X~N(µ, )) se sua função densidade é dada por:
, .
Onde, e .
A distribuição normal possui propriedades interessantes, os quais são relacionados a
seguir:
a) é simetria em relação à média µ;
b) quando ;
c) O valor máximo de se dá para .
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
x
f(x)
Figura 4. Densidade de uma variável X~N(0,1)
Pós de Engenharia de Produção - Estatística
58
A distribuição de probabilidades acumuladas da normal não pode ser obtida
analiticamente, e a obtenção de probabilidades em intervalos na reta é feita por
aproximação e através de métodos numéricos. Por este motivo, os livros e softwares
estatísticos consultam tais probabilidades associadas à normal tendo como referencial a
tabela da normal com média zero e variância 1, pois a partir desta é possível obter
probabilidades para normais com quaisquer outros parâmetros. Este recurso é possível
graças ao que chamamos de padronização de variáveis aleatórias.
A padronização de uma variável aleatória é feita subtraindo-se sua média e dividindo o
resultado pelo seu desvio padrão. Qualquer variável aleatória passa a ter média zero e
variância 1 após passar por esta transformação de padronização. Como combinações
lineares de variáveis normais resulta em Normais, então, pode-se passar de uma
normal( ) para uma normal(0,1) e vice versa, ou seja:
Seja a variável obtida por uma transformação linear de uma X normal( ) da
seguinte forma:
, portanto, ~N(0,1).
Então,
, portanto, a probabilidade de X ser menor ou
igual a um x é exatamente igual a obter a probabilidade de ser menor ou igual a ,
mas , como já falamos, é normal(0,1), e se tivermos de posse de uma tabela da normal
padronizada, ou seja, da normal(0,1), podemos obter a probabilidades de interesse para
normais com quaisquer parâmetros e .
Pós de Engenharia de Produção - Estatística
59
Tabelas de Z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,10 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,20 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,30 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,40 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,50 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,60 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,70 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,80 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,90 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,00 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,10 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,20 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,30 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,40 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,50 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,60 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,70 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,80 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,90 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
2,00 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,10 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,20 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,30 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,40 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,50 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,60 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,70 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,80 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,90 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
Pós de Engenharia de Produção - Estatística
60
VIII. TÉCNICAS DE AMOSTRAGEM II
A amostragem consiste, essencialmente, em selecionar itens de uma população, com
vistas a investigar alguma característica dessa população. Os itens selecionados
compõesm o que se denomina amostra (uma parte ou uma parcela da população
escolhida de maneira conveniente) e a quantidade desses itens é denomindado tamanho
da amostra. A partir das propriedades da amostra inferem-se, isto é, concluem-se) as da
população. É um instrumento valioso para obter dados ou informações de forma rápida,
econômica e precisa.
Mas, como determinar o tamanho ideal para uma amostra?
Um dos passos mais importantes no processo de inferência estatística consiste na
determinação do tamanho da amostra. Esse “tamanho” dependerá do grau de confiança
desejado, da quantidade de dispersão entre os valores individuais da população e do erro
tolerável no processo. A depender do tamanho da população (finita ou infinita) e de o
fato de o desvio padrão populacional ser ou não conhecido, deferente será o processo de
cálculo do tamanho da amostra.
Variáveis quantitativas, desvio conhecido e população infinita
É importante destacar que o desvio e o erro devem estar referenciados sempre na mesma
unidade.
Ex.: um pesquisador precisa analisar os rendimentos mensais de trabalhadores
assalariados da lavoura em uma determinada localidade. Ele definiu que o erro máximo
aceitável deve ser igual a R$ 16,00. Sabe-se que o desvio padrão populacional dessa
classe de trabalhadores assalariados é igual R$ 63,00 e o nível de confiança da pesquisa
é igual a 99%. Qual deve ser o tamanho da amostra a ser estudada?
Para um nível de confiança bilateral igual a 99%, o valor de z é 2,57, logo
2
=e
znσ
Pós de Engenharia de Produção - Estatística
61
Aproximando para cima, tem-se um tamanho de amostra igual a 103 elementos.
Variáveis quantitativas, desvio desconhecido e população infinita
Ex.: suponha que um pesquisador tenha analisado uma amostra formada por 200 frascos
de perfume produzidos por uma imortante indústira do Sul do país. O volume contido
nos frascos revelou um desvio padrão amostral igual a 20 ml. Caso o pesquisador
precisasse extrair uma amostra, empregando um nível de confiança igual a 95%e um
erro máximo tolerável para a média igual a 1 ml, qual seria o tamanho ideal da amostra?
Assim, o tamanho da amostra analisada deveria ser igual a 1.537 elementos.
Variáveis quantitativas, desvio conhecido e população finita
Ex.: uma associação formada por 420 indústrias projetou um desvio padrão dos lucros
anuais de seus associados como sendo igual a R$ 40.000,00. Sabe-se que a entidade
precisa estimar o lucro anual médio com um erro máximo tolerável igual a R$ 2.000,00
e um nível de confiança igual a 95%. Quantas empresas precisariam ser analisadas em
uma amostra representativa?
4018,10216
6357,2
2
=
=n
2
=e
szn
6400,536.11
2096,1
2
=
=n
( )1222
22
−+=
Nez
Nzn
σσ
Pós de Engenharia de Produção - Estatística
62
Aproximadamente, 331 empresas deveriam ser analisadas.
Variáveis quantitativas, desvio desconhecido e população finita
Uma amostra aleatória formada por 50 embalagens de ração de um lote formado por
5.000 embalagens apresentou um desvio padrão amostral do peso igual a 28g.
assumindo um erro máximo tolerável associado à média populacional igual a 4g e um
nível de confiança igual a 95%, o tamanho da amostra a ser analisada pode ser obtido
por meio da equação anterior:
Seria preciso analisar 182 embalagens
Variáveis qualitativas e população infinita
Um pesquisador precisa determinar o tamanho de uma amostra para estimara a
verdadeira percentagem populacional com um erro máximo igual a 5% e utilizando um
nível de confiança de 95%.
( )( )( )( ) ( ) ( ) 0141,330
1420000.2000.4096,1
000.4096,12222
22
=−+
=n
( )1222
22
−+=
Nesz
Nszn
( )( )( )( )( ) ( ) ( ) 4438,181
1000.542896,1
000.52896,12222
22
=−+
=n
22 25,0
ezn =
Pós de Engenharia de Produção - Estatística
63
Variáveis qualitativas e população finita
Imagine que um pesquisador precisasse dimensionar uma amostra de eleitores a
entrevistar em um vilarejo com 2.000 habitantes. Pretende inferir qual o percentual de
eleitores que pensam em votar no atual prefeito. O pesquisador precisa assumir um erro
máximo igual a 8%
100 eleitores, aproximadamente.
IX. TESTES DE HIPÓTESES
Pode-se dizer que sem o “empirismo” a estatística não existiria.
Os dados observados em uma amostra aleatória espelham o comportamento da variável
aleatória sob estudo. Existe uma dualidade entre informação empírica e distribuição de
probabilidade real do fenômeno de interesse.
Quando temos interesse em acessar o modelo de probabilidade de uma variável aleatória
utilizamos uma ou mais amostras para fazer aproximações sobre tal modelo.
Nas situações em que o interesse não é apenas estimar, mas, especialmente, verificar se
uma suposição, associada ao modelo de probabilidade de uma variável aleatória, é
verdadeira, utilizamos o que é chamado na literatura estatística de “Teste de Hipóteses”.
( ) 16,38405,0
25,096,1
2
2 ==n
( )1)25,0(
)25,0(22
2
−+=
Nez
Nzn
( ) 8663,991000.208,0)25,0(64,1
000.2)25,0(64,122
2
=−+
=n
Pós de Engenharia de Produção - Estatística
64
Por exemplo:
Digamos que se supõe que a renda média na região metropolitana de Belo Horizonte
seja de R$900,00. Um pesquisador coleta uma amostra aleatória de pessoas desta cidade
e obtém uma média amostral de R$780,00. O valor obtido com esta amostra confirma a
suposição sobre os R$900,00?
Observamos que este questionamento é probabilístico. A cada amostra retirada da
população, um valor diferente será observado, mas, tais valores tenderão a oscilar no
entorno do verdadeiro valor da média, que é aquele que observaríamos se
entrevistássemos a população por completo. Portanto, podemos usar a probabilidade
associada com a ocorrência do valor R$780,00 no caso em que a média real é R$900,00.
O interesse, portanto, é verificar se o valor observado é típico sob a hipótese de media
R$900,00.
No caso da distribuição ser Normal, temos os seguintes exemplos:
A Figura acima representa a densidade de duas normais com variância 800, sendo que a
da esquerda, face A, possui média 900, e a da direita, face B, possui média 800. A linha
que corta ambos os gráficos na vertical passam pelo valor 780. Qual é a distribuição
mais verossímil da renda tendo em vista a tipicidade com que ocorre valores inferiores a
780 em cada densidade?
Obviamente, se fôssemos “chutar” baseando-nos nesta amostra rejeitaríamos a hipótese
de que a média é 900, e preferiríamos acreditar que a média 800 é mais plausível. Mas
antes de definirmos formalmente um teste de hipóteses vamos primeiramente introduzir
alguns conceitos importantes ao seu entendimento.
750 800 850 900 950 1000 1050 1100
0.00
00.
005
0.01
00.
015
A
renda
Den
sida
de N
(900
,800
)
650 700 750 800 850 900 950 1000
0.00
00.
005
0.01
00.
015
B
renda
Den
sida
de N
(800
,800
)
Pós de Engenharia de Produção - Estatística
65
Parâmetro: Valor constante que define a forma da distribuição de probabilidades de
uma variável aleatória
Exemplo 1.
Seja X uma variável aleatória com distribuição ( )αExp , ou seja, a densidade de X é
dada por:
, x > 0.
O parâmetro da variável aleatória X é .
Inferência estatística: É qualquer procedimento que utiliza os dados amostrais para
acessar valores aproximados dos parâmetros associados à distribuição de probabilidade
de uma variável aleatória.
Estatística: Qualquer função dos dados amostrais.
Hipótese: Suposição sobre o valor real do parâmetro da variável aleatória estudada.
No teste de hipóteses estatístico é necessário definir as hipóteses a serem testadas.
As hipóteses podem ser formuladas de várias maneiras, mas as escolhas habituais são:
Teste unilateral, à esquerda ou à direita, e teste bilateral.
Teste unilateral à direita
é o parâmetro a ser testado.
Teste unilateral à esquerda
Teste bilateral
xexf αα −=)(
α
00 : θθ =H
01 : θθ >H
θ
00 : θθ =H
01 : θθ <H
00 : θθ =H
01 : θθ ≠H
Pós de Engenharia de Produção - Estatística
66
A notação H0 representa a hipótese principal a ser testada, que é chamada de hipótese
nula. H1 é a hipótese alternativa, que é o caso em que H0 é falsa.
Exemplo 2.
Está sendo lançada uma nova droga para hipertensão e deseja-se investigar se a droga
provoca um efeito melhor que a droga convencional. Baseando-se nas observações do
nível de hipertensão de pacientes submetidos a esta droga, deseja-se testar se o valor da
média desta variável é igual ao verificado com a droga anterior, que é de 10. Portanto,
as hipóteses a serem testadas são:
A amostra coletada apresentou os seguintes valores: 9, 12, 14, 8, 15, 16, 7, 10, 12 e 11.
A média amostral, denotada por X , foi de 11,37.
Baseado nesta amostra deve rejeitar H0? É para oferecer uma resposta razoável para este
tipo de pergunta que formularemos uma metodologia que virá adiante.
A expressão “resposta razoável” não é apenas uma maneira de expressar, pois de fato a
resposta à escolha ou não por H0, devido à natureza aleatória do problema, está sujeita a
dois possíveis erros:
- Erro tipo I: Ocorre quando rejeitamos H0 quando, na realidade, ela é verdadeira.
- Erro tipo II: Acontece quando não rejeitamos H0 quando na verdade ela é falsa.
Define-se desta forma:
P( erro tipo I) = P(rejeitar H0 quando ela é verdadeira)
Que é a probabilidade de rejeitar H0 quando ela é verdadeira.
P(erro tipo II) = P(não rejeitar H0 quando ela é falsa.
Ou em outros termos:
P(rejeitar H0| H0 é verdadeira) (lê-se: probabilidade de rejeitar H0 dado que ela é
verdadeira)
P(não rejeitar H0| H0 é falsa) (lê-se: probabilidade de não rejeitar H0 dado que ela é
verdadeira)
10:0 =µH
10:1 ≠µH
=α
=β
=α
=β
Pós de Engenharia de Produção - Estatística
67
Observação: Nomeamos a probabilidade de rejeitar H0 dado que ela é falsa de “Poder”,
que é igual a . Portanto, quanto maior o poder melhor é o teste.
Testes de hipótese para a média populacional - Variância conhecida
Seja X uma variável aleatória , e considere que a variância seja conhecida
e o interesse é testar hipóteses sobre a média µ . Sabemos que a média amostra X é o
estimador não viciado para µ portanto, vamos usá-la para testar.
Primeiramente é necessário adotar um nível de significância para o teste, que é a
probabilidade de rejeitar H0 dado que H0 é verdadeira, que será denotado por .
Para testar a média populacional, vamos tratar dos três tipos de teste comentados, a
começar pelo teste unilateral à direita:
H0: 0µµ =
H1: 0µµ >
Se o valor de X for muito maior que 0µ , então teremos um indício para rejeição de H0.
Mas, o que seria um valor muito maior?
O que será usado como referência sobre o que seria um valor amostral extremo frente ao
que esperaria sob H0, faz-se uma escolha arbitrária da probabilidade do erro tipo I (α ).
Ou seja, queremos que:
αµµ ==> )|( 0cxXP (lê-se: A probabilidade da variável aleatória X ser maior que
um valor cx , dado que a média verdadeira é igual a 0µ , é igual a α ).
Pode-se escolher α tão pequeno quanto se queira, mas é usual utilizar-se α =0,05.
Portanto, o valor cx define uma região de rejeição da hipótese nula, a que chamaremos
de região crítica. Mas para obtermos esta região crítica na prática, é necessário
conhecermos a distribuição de probabilidade de X . Sabe-se que se a variável aleatória
X possui distribuição N( 2,σµ ), então qualquer transformação linear em X também
possui distribuição normal, e no caso de X , a distribuição é N(n
2
,σµ ), sendo n o
tamanho da amostra utilizada para calcular X , do que temos que o desvio padrão da
média amostra é . Uma observação importante é que, como podemos ver pela
variância de X , quanto maior for o tamanho da amostra, menor será a variação de X .
β−1
),( 2σµN 2σ
α
Pós de Engenharia de Produção - Estatística
68
Portanto, supondo que X seja normalmente distribuído com média 0µ e variância 2σ ,
podemos fazer algumas manipulações na expressão da probabilidade do erro tipo I a fim
de direcionar a obtenção da região crítica para a simples tarefa de consultar uma tabela
da normal padronizada, ou seja, da normal com média zero e variância 1. Temos:
)|()|( 00 µµσ
µσ
µµµα =−>−==>= cc
xXPxXP
Sendo σ
µ−= XZ ~N(0,1).
Assim, consultando na tabela da normal padronizada, obtemos o valor cz tal que
.)( α=> czZP
Fazendo-se σ
µ0−= cc
xz temos que o valor crítico é dado por cc zx σµ += 0 , definindo
a região crítica: }:{.. cxxxCR >ℜ∈= . Portanto, dizemos que rejeitamos H0 no teste
unilateral à direita, com um nível de %100α de significância, se o valor de X
observado for maior que cx .
Quanto ao teste unilateral à esquerda:
H0: 0µµ =
H1: 0µµ >
O processo é análogo, pois precisamos encontrar a região crítica de modo que:
)|()|( 00 µµσ
µσ
µµµα =−<−==<= cc
xXPxXP
Ao se encontrar cz que satisfaça α pela tabela da normal padronizada, temos que o
valor crítico no teste unilateral à esquerda para a média populacional também é
cc zx σµ += 0 , com região crítica }:R{.. cxxxCR <∈= . Portanto, dizemos que
rejeitamos H0 no teste unilateral à esquerda, com um nível de %100α de significância,
se o valor de X observado for menor que cx .
Para o teste bilateral:
H0: 0µµ =
Pós de Engenharia de Produção - Estatística
69
H1: 0µµ ≠
O processo também segue a mesma filosofia que os unilaterais, à exceção do fato de se
ter uma região crítica constituída por duas sub-regiões disjuntas.
Intuitivamente, nota-se que procuramos os valores extremos que, sob H0, nos indicam o
que seria um valor muito grande ou um valor muito pequeno, ou seja, queremos achar
1cx e 2cx tais que:
α=<> )( 12 Cc xXouxXP . Como estes intervalos são disjuntos, e a distribuição
normal é simétrica, podemos encontrar tal região crítica de modo que:
2)( 2
α=> cxXP e 2
)( 1
α=< cxXP .
Fazendo a padronização de X , e consultando na tabela da normal padronizada para
obtermos 1cz e 2cz , temos que 101 cc zx σµ += e 202 cc zx σµ += , e a região crítica
será: }:R{.. 21 cc xxouxxxCR ><∈= .
Exemplo 3.
Seja X uma variável aleatória N(µ,144). Uma amostra de 100 observações desta
variável foi obtida a fim de testar se µ é 12 ou diferente de 12, sabendo que a média
amostral das 100 observações foi igual a 16,4.
Vemos que este teste é bilateral:
H0: µ=12
H1: µ≠12
Vamos obter a região crítica usando um nível de significância α=0,01.
Como X é uma variável aleatória normal, que sob H0 possui média 12, e com variância
conhecida igual a 144, obtemos que a média amostral também possui distribuição
normal com variância e desvio padrão (12/10 neste exemplo) e, sob H0,
possui média igual à média da variável X, 12.
Pós de Engenharia de Produção - Estatística
70
e
Pela tabela da normal padronizada (Apêndice 1) temos que o valor z1 que retorna
probabilidade de 0,01 abaixo dele e o valor z2 que retorna probabilidade de 0,01 acima
dele são, respectivamente, -2,58 e 2,58. Assim temos:
e
Então, rejeitamos H0 se o valor da média amostra for maior que 15,096 ou menor
que 8,904: .
A média obtida com as 100 observações foi igual a 16,4, portanto, rejeita-se H0 ao nível
de 1%, e dizemos que a média da variável X é diferente de 12.
Será que chegaríamos à mesma conclusão se o teste fosse unilateral à direita? Vamos
verificar. As hipóteses são:
H0:
H1:
Então:
Para , temos e consultando na tabela da normal temos que :
E a região crítica é dada por: .
Pós de Engenharia de Produção - Estatística
71
Como o valor observado para foi de 16,4, dentro da região crítica, para um teste
unilateral à direita, ao nível de 1%, rejeitamos H0 e concluímos que a média real de X é
maior que 12.
Com este exemplo é possível perceber que a operacionalização do teste de hipóteses
segue os seguintes passos:
1- Estabelecimento das hipóteses;
2- Identificação da distribuição do estimador sob a hipótese nula;
3- Escolha do nível de significância ;
4- Obtenção da região crítica baseada na hipótese nula;
5- Comparação do valor observado com a região crítica.
Testes de hipótese para a média populacional - Variância desconhecida
No caso em que a variância real é desconhecida, o que na prática é mais comum, é
preciso ajustar a construção do teste à estimação da variância.
Apesar da mudança no contexto relacionado à variância, ainda usaremos a média
amostral para estimar a média populacional. E o estimador natural para a variância é a
estatística que é obtida da amostra da seguinte maneira:
É intuitivo que, como é o estimador da variância, queiramos realizar a padronização
de colocando, no lugar de , que não conhecemos, :
Perceba que esta é uma tentativa de fazer uma analogia com a padronização .
Mas o denominador é uma variável aleatória. Isto faz com que a distribuição de
não seja Normal(0,1) como antes em que a variância era conhecida.
Pós de Engenharia de Produção - Estatística
72
A distribuição de , no caso em que X possui distribuição normal, pode ser deduzida
teoricamente, e seu nome é distribuição t-Student. O parâmetro da distribuição t-Student
são os graus de liberdade, que, no caso de uma amostra de n observações, tal parâmetro
vale (n-1). A notação para designar uma variável com esta distribuição é T~t(n-1), e a fim
de simplificar notação costuma-se dizer apenas distribuição “ t” ao invés de “t-
Student”.
Assim como no caso da distribuição normal, esta distribuição também possui a
importante característica de ser simétrica, porém, também não é possível obter uma
forma fechada para a integral de sua função densidade em um intervalo, portanto, para a
obtenção de probabilidades associadas à distribuição os livros carregam tabelas dos
percentis mais usados em testes que usam esta distribuição.
Agora já sabemos como obter a região crítica do teste para a média populacional de uma
normal nos casos em que não conhecemos a variância, pois basta colocarmos no
lugar da variância e procedemos da mesma forma que no exemplo 3. O teste unilateral à
direita, por exemplo, ficaria:
, onde , sob H0, denota uma variável
com distribuição t-Student com (n-1) graus de liberdade.
Para obtenção do valor crítico basta consultarmos a tabela da distribuição t(n-1).
Exemplo 4.
Em uma fábrica o processo de produção de uma peça está sob investigação. Sabe-se que
a medida de uma das dimensões desta peça é normalmente distribuída, porém, deseja-se
testar se a média de tal medida é menor ou igual a 6. Foram amostradas 10 peças, as
quais ofereceram média amostra () igual a 5,5 e variância amostral () igual a 4.
As hipóteses a serem testadas são:
H0:
H1:
Usando , vamos obter a região crítica:
Pós de Engenharia de Produção - Estatística
73
Da tabela da t9 temos:
.
Como a média observada foi igual a 5,5, que não pertence à região crítica, ao nível de
5%, não rejeitamos H0 em favor de H1.
Valor-p ou Nível descritivo
Em testes de hipóteses é necessário especificarmos a região crítica e, após obtido o
valor da estatística via amostra, compará-lo com o valor cx crítico para a tomada de
decisão quanto a rejeição de H0. Mas, em alguns caos, o valor observado é muito
próximo do valor cx . Voltemos ao exemplo em que testamos:
H0: 12=µ
H1 12>µ
A região crítica deste teste foi . De modo que, se o valor da
média amostral observada ( .obsx ) fosse igual 14,7 não rejeitaríamos H0, mas, 14,7 não
seria também um valor atípico sob a hipótese nula? Este valor é muito próximo da
fronteira cx . Portanto, é necessário, além de comparar o valor .obsx com cx , também
verificar o quanto .obsx é típico sob H0.
Para o teste unilateral à esquerda e nível de significância 01,0=α temos:
Pós de Engenharia de Produção - Estatística
74
01222,0)25,2(10/12
127,14
10/12
12)12|( . ≈>=
−>−==>=− ZPX
PxXPpValor obs µ
Ou seja, a probabilidade de obtermos um valor tão extremo quanto 14,7, sob H0, é de
0,01222, que apesar de ser maior que o nível de significância adotado, também nos dá
evidências de que H0 não é razoável.
Na prática devemos agir com bom senso. O nível de significância é apenas um
referencial. Foi concebido para ser usado como referencial e, portanto, o valor-p é que
na verdade é o grande indicado para ditar a favor ou contra H0.
E quanto ao teste bilateral, como fazemos para proceder ao cálculo do valor-p?
Procedemos fazendo o cálculo na direção do que mais desfavorece H0, portanto, se a
média amostral observada for maior que µ sob H0, calculamos
)( .obsxXPpValor >=− , e se .obsx for menor que µ sob H0, calculamos
)( .obsxXPpValor <=− .
Portanto, podemos sempre proceder ao cálculo do valor-p para tomar a decisão sobre
rejeitar ou não H0, pois se o valor-p for menor que α então o valor amostral pertence à
região crítica e H0, portanto, deve ser rejeitada.
O Teorema Central do Limite
Sejam X1, X2, ..., Xn, uma amostra aleatória de variáveis independentes e identicamente
distribuídas. Então, se 2σ é a variância de cada Xi e é finita, então:
)/,( 2 nNX d σµ→ , para n grande,
A notação ),( σµNY d→ significa que uma variável Y tem distribuição Normal para
n muito grande.
Portanto, o Teorema Central do Limite nos diz que a distribuição da média amostral
converge para uma distribuição Normal quando o tamanho da amostra é suficientemente
grande, independentemente da distribuição original de X.
Pós de Engenharia de Produção - Estatística
75
Exemplo 5. Seja X o número de unidades defeituosas de um artigo. Seja p a proporção
de unidades defeituosas em determinado lote. 100 artigos são sorteados para inspeção.
Deseja-se testar se 05,0=p ou se é maior. Portanto as hipóteses a serem testadas são:
H0: 05.0=p
H1: 05.0>p
Podemos interpretar X da seguinte maneira: ∑=
=n
iiYX
1
, onde )(~ pBYi (Bernoulli)
E temos que pYE i =)( e )1()( ppYVar i −= .
Se calcularmos Pn
X
n
YY
n
ii
ˆ1 ===∑
= , que é a proporção amostral. Portanto, a proporção
amostral nada mais é do que a tão conhecida média amostral de uma variável aleatória
Bernoulli.
Então, pPE =)ˆ( e n
ppPVar
)1()ˆ(
−= .
Continuando como o exemplo, vamos obter a região crítica do teste para %1=α :
)05,0|ˆ()|ˆ( 0 =>=> ppPPverdadeiraéHpPP cc
Como vimos, pelo Teorema Central do Limite, a média amostral converge para a
distribuição Normal, e, portanto, a proporção amostral (que também é uma média) P
também converge para uma distribuição Normal com média p e variância npp /)1( − .
Então, podemos dizer por aproximação que:
=
−−>
−−==> 05,0|
100/)05,01(05,0
05,0
100/)05,01(05,0
05,0ˆ)05,0|ˆ( p
pPPppPP c
c
01,0100/)05,01(05,0
05,0 ==
−−>≈ αcp
ZP , onde Z ~N(0,1).
Que pela tabela da Normal(0,1):
Pós de Engenharia de Produção - Estatística
76
⇒ 10,033,2100/)05,01(05,0
05,0 =⇒=−−
cc p
p.
A região crítica deste teste fica: }10,0:{.. >ℜ∪= xxCR .
Este é um método eficiente de realizar testes de hipóteses para a média amostral nos
casos em que se tem uma grande amostra, mas não se conhece a distribuição da variável
original, ou, assim como vimos por este exemplo, o teste com a distribuição exata da
estatística de teste poderia tornar-se trabalhoso.
Testes para comparação de duas amostras
Os testes que vimos até agora consideraram apenas a avaliação de médias provenientes
de uma amostra, mas, e se, no lugar de testar a média de uma variável usando uma
amostra, quiséssemos comparar as médias de duas variáveis usando duas amostras,
sendo uma amostra de cada uma das duas variáveis.
Exemplo 6. Suponhamos que um novo anticoncepcional esteja sendo testado para ser
lançado ao mercado. Já se sabe que este novo medicamento tem a mesma eficácia que
os já comercializados, porém, acredita-se que este provoque menos retenção de líquido
no corpo das mulheres. 30 mulheres usaram este medicamento durante certo tempo,
enquanto que outro grupo de 20 mulheres, com características biológicas e físicas muito
similares às das primeiras, usaram um dos remédios convencionais. Deseja-se testar se a
retenção de líquido no corpo de mulheres que usam a nova droga é menor ou igual à
média apresentada pelo convencional.
Neste exemplo fica nítida a diferença deste contexto dos que temos trabalhado, pois
temos agora duas populações para comparar e não apenas uma para estudar.
Vamos tratar de 4 diferentes casos que envolvem a comparação de duas amostras:
amostras dependentes e variâncias desconhecidas, amostras independentes com
variâncias conhecidas, amostras independentes com variâncias desconhecidas e iguais
e amostras independentes com variâncias desconhecidas e diferentes.
Pós de Engenharia de Produção - Estatística
77
1 - Amostras dependentes (teste t para amostras pareadas)
Imaginemos que, no exemplo 6, ao invés de duas populações de mulheres, os
pesquisadores trabalhassem apenas com as 30 primeiras mulheres. E o procedimento
seria oferecer às mulheres durante períodos disjuntos, os dois medicamentos, tentando-
se garantir ao máximo que, no momento de uso de um dos medicamentos, os resíduos
do outro não restem nos organismo das experimentadoras.
Um argumento que poderia justificar esta metodologia seria o de que, usando-se duas
amostras de mulheres distintas, os pesquisadores não saberiam ao certo se os resultados
do teste se devem de fato aos tratamentos ou se foram influenciados, em algum grau,
pelos fatores biológicos, físicos, psicológicos e hábitos distintos, e impossíveis de
controlar simultaneamente, dos dois grupos.
Vemos então que a principal característica desta abordagem é a realização de duas
medições em uma mesma unidade amostral, no caso, a mulher. Este procedimento é
chamado pela bioestatística de “pareamento”. Dizemos que duas amostras são pareadas
se elas são originas da repetição da mediação em cada elemento amostral em dois
estágios, ou quando as amostras são garantidamente idênticas frente à natureza do
estudo.
Foi elaborada uma escala para os valores de retenção de líquido e as medições foram
baseadas nesta escala, de modo que, quanto maior o valor desta medição, menor a
retenção de líquido. Vamos denotar por Xi os valores de retenção obtidos no primeiro
estágio de tratamento, onde as pacientes ingeriram a nova droga, e por Yi, os valores de
retenção obtidos com a ingestão do medicamento convencional.
Podemos dizer, portanto que o efeito da retenção no i-ésimo indivíduo é de Xi-Y i = Di.
Se as médias de retenção gerada pelos dois medicamentos são iguais, então a média da
variável aleatórias Di é zero. Assim sendo, testar se as médias são iguais, é o mesmo que
Pós de Engenharia de Produção - Estatística
78
testar se a média de Di, que denotaremos por Dµ , é igual a zero. As hipóteses a serem
testadas são:
H0: 0=Dµ (os medicamentos produzem o mesmo efeito)
H1: 0>Dµ (o medicamento novo produz uma retenção menor que o convencional)
Pois com estamos fazendo X menos Y, se a média de X for maior, que é a hipótese
alternativa original, então a diferença das médias será positiva.
Vamos proceder à estimação da média Dµ como de costume, usando a média amostral
das diferenças que denotamos por Dµ . Como também não se conhece a variância das
diferenças, mesmo porque o tratamento é novo, teremos que estimá-la por:
1
)(1
2
2
−
−=∑
=
n
DDS
n
ii
D
Nota-se que, sob esta perspectiva, o problema recai no já visto problema de teste de uma
amostra para variância desconhecida, e portanto, tendo-se as estimativas para a média e
para a variância, usa-se o teste:
nS
DT
D
D
/
µ−= , que sob a hipótese nula, e supondo-se que as medições possuem
distribuição Normal, ou que o tamanho da amostra é grande, T possui distribuição t-
Student com n-1 graus de liberdade. Os passos para execução deste teste são os mesmos
já vistos nas seções anteriores.
Com a amostra de 30 mulheres, obteve-se uma média amostral para a diferença das
medições, .obsd , igual a 0,75, e um desvio padrão observado, .obss , igual a 2,1.
Adotando um 05,0=α , temos:
05,0030/1,230/1,2//
0 ==
=>=
−>− αµµµD
c
obs
Dc
obs
D dDPverdadeiraéH
nS
d
nS
DP
Pós de Engenharia de Produção - Estatística
79
6514,0699,130/1,2
,05,0)30/1,2
( 29 =⇒=⇒=>= ccc d
dttabelapela
dTP
A região de rejeição é: }6514,0:{.. >ℜ∈= xxCR .
Como a média observada para a diferença entre as medições foi de 0,75, rejeita-se H0 ao
nível de 5%, e podendo-se dizer que o novo medicamento apresenta uma média de
retenção de líquido menor que o convencional comparado.
Vamos obter o nível descritivo do teste para esta amostra, ou como usualmente é
chamado, valor-p. Como o teste é unilateral à esquerda, vamos calcular a probabilidade
de se obter um valor tão extremo quanto este dentre os valores superiores sob a hipótese
nula:
03,0)9561,1(030/1,2
75,0
30/1,229 ==>=
=>=− tdatabelapelaTP
DPpValor Dµ .
É importante ressaltar, e isto é fácil de ver pela própria definição de valor-p, que toda
vez que o valor amostral cai na região crítica o valor-p será menor ou igual a α , ou
seja, sempre podemos usar o valor-p para tomar a decisão quanto a rejeição de H0.
2 - Amostras independentes com variâncias conhecidas (teste Z para amostras
pareadas)
Retornemos agora ao caso em que temos duas populações independentes, ou seja, como
no caso em que tínhamos dois grupos de mulheres para o teste do anti-contraceptivo.
Se conhecermos a variância real das duas populações comparadas, o teste t para
amostras pareadas não é adequado, pois a distribuição da estatística padronizada, no
caso da distribuição dos dados serem Normais, também é normal.
Continuaremos por proceder ao teste que usa a diferença média entre as medições, só
que desta vez, a estimação desta diferença se dará por YXD −= , onde agora X
denota a medição média amostral da nova droga e Y a média amostral da droga antiga.
Pós de Engenharia de Produção - Estatística
80
Como estamos com duas variáveis X e Y independentes, e como as variâncias são
supostamente conhecidas, a variância de D é:
+=+=+=−=
21
2
2
2
1
2 11)()()()(
nnnnYVarXVarYXVarDVar σσσ
, onde 1n e 2n são
os tamanhos de cada amostra.
Se X e Y tem distribuição normal ambos com variâncias iguais a 2σ , como
DDE µ=)( , então,
+
21
2 11,~
nnND D σµ .
Assim, a padronização de D nos leva à normal padronizada, e a obtenção da região
crítica se procede como de costume.
Suponhamos 8,22 =σ , e sabendo que temos 1n =30 observações do grupo do novo
medicamento e 2n =20 do antigo, que a diferença entre as médias observadas foi de 1,2
e adotando 05,0=α , vamos obter a região crítica para testar H0: 0=Dµ X H1:
0>Dµ :
+>==
+
−>
+
−
20
1
30
18,2
05,0
20
1
30
18,2
0
20
1
30
18,2
0 cc dZP
dDP
, que pela tabela da Normal(0,1),
9467,096,1
20
1
30
18,2
=⇒=
+⇒ c
c dd
.
}9467,0:{.. >ℜ∈= xxCR .
A diferença entre as médias observadas de cada grupo foi de 1,2, indicando novamente
que, ao nível de 5%, o novo medicamento apresenta menor média na retenção de
líquido.
3 - Amostras independentes com variâncias desconhecidas e iguais
Pós de Engenharia de Produção - Estatística
81
O que é mais comum na prática é que as variâncias não sejam conhecidas, e no caso em
que duas amostras são independentes e normalmente distribuídas, de modo que se tem
duas amostras provenientes de X~N( ), 21 σµ e Y~N ),( 2
2 σµ , ou seja, com mesmas
variâncias.
A estatística de teste novamente deve ser baseada na distribuição t-Student, pois as
variâncias, apesar de iguais, são desconhecidas. Fazendo novamente YXD −= , a
estatística de teste será 21
21
/1/1
)(
nnS
DT
C +−−= µµ
, onde CS é o desvio padrão obtido da
estimação combinada da variância de X e de Y pela expressão:
2
)()(
21
1 1
22
2
1 2
−+
−+−=∑ ∑
= =
nn
YYXXS
n
i
n
iii
C .
A diferença mais importante agora é que a distribuição da estatística de teste T possui
)2( 21 −+ nn graus de liberdade.
4 - Amostras independentes com variâncias desconhecidas e diferentes
De fato, na prática quase nunca se conhece a variabilidade de um conjunto de dados,
quem dirá afirmar sobre a igualdade da variabilidade de duas amostras independentes.
Sob este tipo mais genérico e realista de problema, temos a estatística de teste:
2
22
1
21
21 )(
n
S
n
S
DT
+
−= −µµ, onde 2
1S e 22S são os estimadores das variâncias de X e de Y e D
obtido como no caso anterior.
A distribuição de referência para obtenção da região crítica também será a t-Student,
porém, com os graus de liberdade dados por:
1
)/(
1
)/(
)//(
2
22
22
1
21
21
22
221
21
−+
−
+=
n
nS
n
nS
nSnSv .
Pós de Engenharia de Produção - Estatística
82
Estimação de Parâmetros
É um processo de indução, na qual usamos dados extraídos de uma amostra para
produzir inferência sobre a população. Esta inferência só será válida se a amostra for
significativa.
Os tipos de estimação de parâmetros são: Pontual e Intervalar.
Estimação Pontual
É usada quando a partir da amostra procura-se obter um único valor de certo parâmetro
populacional, ou seja, obter estimativas a partir dos valores amostrais.
Estatísticas:
Seja nXXX ,...,, 21 uma amostra aleatória e nxxx ,, 21 os valores representados pela
amostra.
Então uma função destes valores, ou seja, ( )nxxxHy ,...,, 21= é uma estatística.
Onde podemos citar algumas estatísticas como:
Média Amostral, Variância Amostral e Proporção Amostral.
Consideradas estimativas pontuais.
Estimação Intervalar.
Uma forma de calcular uma estimativa de um parâmetro desconhecido, é construindo
um intervalo de confiança para esse parâmetro. Onde este intervalo terá uma
probabilidade de α−1 de que o intervalo contenha o verdadeiro parâmetro. Sendo α o
nível de significância, ou seja, o erro que se estará cometendo ao afirmar que o
verdadeiro parâmetro está contido no intervalo.
Distribuição da média amostral e intervalo de confiança para µ
Considere uma variável aleatória com média µ e desvio padrão σ . Se observarmos
uma amostra de tamanho n desta variável aleatória, calculando X em todas as possíveis
Pós de Engenharia de Produção - Estatística
83
amostras de tamanho n, obtemos a distribuição de probabilidade deste estimador. Sendo
este estimador uma variável aleatória.
Uma vez conhecida a distribuição deste estimador, podemos determinar um intervalo
centrado no valor médio do estimador e que contenha, por exemplo, 95% de seus
valores. Este intervalo é conhecido como intervalo de confiança ao nível de 95%.
Vimos o caso que a média amostral segue uma distribuição Normal e que
Z
n
X n →− ∞→
σµ
onde ( )1,0~ NZ
Então um intervalo de confiança de 100(α−1 )% para a média populacional, com
variância conhecida, é dado por n
ZXσ
α2
± . Se a variável aleatória tem distribuição
normal e a variância é conhecida, o intervalo de confiança para µ de 100( α−1 )% é
dado por n
stX
n 1,2
−± α .
Se temos duas populações independentes com médias 1µ e 2µ e variâncias 21σ e 2
2σ e
se 1X e 2X , forem as médias baseadas em duas amostras independentes de tamanhos
n1 e n2 então ( ) ( )
)1,0(~
2
22
1
21
2121N
nn
XXZ
σσµµ
+
−−−= Sendo que o intervalo de confiança de
( α−1 )% para X é dado por:
+− −−
2
1
2
1 ; αασσ
Zn
XZn
X
Distribuição da Proporção Amostral
Considere uma população em que a proporção de indivíduos com certa característica é
igual a η . Retira-se uma amostra aleatória de tamanho n dessa população e observa-se o
valor de Y = número de indivíduos com a característica na amostra. Um estimador para
η é dado por n
Yp =ˆ . Pode-se demonstrar que Y ~ têm distribuição de probabilidade
binomial com parâmetros ( )η,n . Então ( ) η=pE ˆ e ( )pVar ˆ = ( ) n/1 ηη − . Se o tamanho
Pós de Engenharia de Produção - Estatística
84
amostral for maior que 30, p ~Normal ( )( )n/1, ηηη − . Onde o intervalo de confiança é
dado por:( ) ( )
−+−−−− n
Zpn
Zpηηηη
αα1
ˆ;1
ˆ2
12
1.
X. MEDIDAS DE ASSOCIAÇÃO LINEAR ENTRE DUAS VARIÁVE IS
Vamos apresentar duas medidas capazes de captar a existência de
associação linear entre duas variáveis, ou seja, avaliar a relação entre duas
variáveis, as quais são a Covariância e a Correlação de Pearson. Para
utilizarmos estas medidas, os dados correspondentes as variáveis, devem
estar emparelhados, ou seja, para cada valor de uma variável se tem um
correspondente da outra variável.
Covariância
A fórmula utilizada para estimarmos a covariância com uma amostra de
tamanho n é definida como:
( ) XYSYXCOV =, = ( )( )
11
−
−−∑=
n
YYXXn
iii
A fórmula utilizada para encontrarmos a covariância de uma população de
tamanho N é definida como:
( ) XYSYXCOV =, = ( )( )
N
YXN
iYixi∑
=
−−1
µµ
µ é a média da população.
Para exemplificar a utilização da Covariância utilizaremos um exemplo retirado
do livro Estatística Aplicada a Administração e Economia – Anderson, Sweeney
Pós de Engenharia de Produção - Estatística
85
e Williams 2005. Este exemplo retrata o interesse de um gerente de uma loja
de vendas de equipamentos de som em verificar se existe uma relação entre o
número de comerciais mostrados no fim de semana e as vendas na loja
durante a semana seguinte. Os resultados deste estudo estão na tabela a
seguir.
Tabela – Dados de amostra para a loja de equipamentos de som
51
;3
=
=
Y
X
Resolvendo a covariância amostral:
Sendo assim o resultado da covariância amostral seria = 11.
Pós de Engenharia de Produção - Estatística
86
Podemos ter um indício da associação linear entre as variáveis, pois se a
covariância é maior do que zero podemos suspeitar de uma associação
positiva, se a covariância é menor do que zero uma associação negativa e, se
é igual a zero, não há associação linear.
O resultado da covariância para situações aplicadas é de difícil interpretação
por dois motivos: Seu valor depende das unidades com as quais se mede as
variáveis X e Y e seu resultado pode ser qualquer valor, dificultando a
interpretação, pois como saber se o valor observado para a covariância é tal
que indique uma alta associação linear?
Portanto, vamos utilizar o coeficiente de correlação de Pearson, já que
este coeficiente não depende da unidade da variável em questão, e ao mesmo
tempo é de fácil interpretação, já que seu valor varia entre -1 e 1.
Correlação de Pearson
A fórmula é dada por:
XYr = ( )
ys
,
×xs
YXCOV
.
.
;
Ydepadrãodesvios
Xdepadrãodesvios
onde
Y
x
==
Como já mencionado, os resultados obtidos por este coeficiente são de fácil
interpretação já que os valores oscilam entre:
11 +≤≤− XYr .
Valores positivos de r indicam que as variáveis X e Y possuem uma
associação linear positiva, ou seja, variam na mesma direção, e valores
negativos de r indicam que as variáveis X e Y possuem uma associação linear
negativa, ou seja, variam em direção oposta. E r próximo de zero é indicação
da não existência de associação linear entre as variáveis em estudo.
Pós de Engenharia de Produção - Estatística
87
Valores de r próximo à unidade indicam forte ligação linear entre as
variáveis, e valores próximos a zero indicam fraca ligação linear entre elas.
Quanto mais próximo de +1 forem os valores de r, mais forte é a relação linear
positiva entre x e y.
Quanto mais próximo de -1 forem os valores de r, mais forte é a relação linear
negativa entre x e y.
Valores de r próximos de zero indicam ausência de relação linear entre x e y
No exemplo anterior;
De acordo com o valor da correlação obtido, existe uma forte ligação linear
entre número de comerciais (X) e volume de venda (Y).
Podemos afirmar que para estes valores a medida que o número de comerciais
aumenta, o volume de vendas também aumenta.
Dois fatos importantes devem ser levados em conta.
1. O fato de existir correlação entre as variáveis não significa uma
situação de causalidade, ou seja, no nosso exemplo não
podemos afirmar que o único motivo para aumentarmos a venda
seria o aumento do número de comerciais.
2. Se as variáveis não estão associadas linearmente isso não quer
dizer que não possuam um outro tipo de associação que não seja
a linear.
Pode-se demonstrar que a covariância e o coeficiente de correlação
podem ser calculados por meio das seguintes fórmulas alternativas:
COV (X,Y) =
( )( )
1−
−∑∑∑
nn
yxyx ii
ii
93,081,11
11
93,7
49,1
11
===
==
=
yx
xyxy
y
x
xy
ss
sr
s
s
S
Pós de Engenharia de Produção - Estatística
88
r(X,Y) =
( )( )
( ) ( )
−
−
−
∑∑∑
∑
∑∑∑
n
yiy
n
xx
n
yxyx
ii
i
iiii
2
2
2
2
.
Após o cálculo da correlação é necessário fazer um teste de hipótese para verificar a
significância estatística da correlação observada. É importante citar que este teste de
hipótese é utilizado em situações onde nossa população de estudo segue o modelo
Normal bivariado. Temos as seguintes hipóteses:
H0: 0=r
H1: 0≠r
Neste teste de hipótese a não rejeição da hipótese nula permite, com um nível de
significância, a conclusão da não existência de correlação entre as variáveis, ou seja,
que elas são independentes.
Com um nível de significância α fixado, e utilizando a distribuição t de Student com n-
2 graus de liberdade, vamos determinar as regiões de rejeição e não rejeição para a
hipótese nula.
Após determinar as regiões de rejeição utilizamos a seguinte estatística de teste:
t =21
2
r
nr
−
−;
Onde n é o tamanho da amostra e r é o coeficiente de correlação.
Para um teste bilateral rejeita-se a hipótese nula se t > 2
;2α
−nt ou t < -
2;2α
−nt .
No nosso exemplo onde 05,0=α e 10=n .
156493,71351,0
630437,2
8649,01
828427,293,0 ==−
= xt
Pós de Engenharia de Produção - Estatística
89
2;2α
−nt = =025,0;8t 2,306.
Como t > 2
;2α
−nt , rejeitamos H0 com nível de 5% de significância, então podemos
assumir, com base nesta amostra, a existência de correlação linear entre estas duas
variáveis.
Exercício 1) A tabela 3.1 fornece o valor nominal por ação e o dividendo anual para 15
ações de utility (Barron’s, 2 de janeiro de 1995).
Empresa Valor nominal(US$) Dividendo Anual (US$)
Am Elec 22,44 2,4
Com Ed 20,89 2,98
Detroit Ed 22,09 2,06
Niag Moh 14,48 1,09
Pac G&E 20,73 1,96
Peco 19,25 1,55
Pub Sv Ent 20,37 2,16
UnicomCp 26,43 1,6
Centerior 12,14 0,8
Cons N Gas 23,31 1,94
Houston Ind 16,23 3
NorAm Enrgy 0,56 0,28
Panh East 0,84 0,84
Peoples Em 18,05 1,8
SCEcorp 12,45 1,21
Fonte: Barron's, 2 de janeiro de 1995.
Tabela 3.1 Valores nominais e dividendos por ação para 15 ações de utility
a) Calcule e interprete o coeficiente de correlação da amostra.
b) Teste a hipótese de existência de correlação linear nestas duas variáveis a um
nível α de 5% interprete.
X. INTRODUÇÃO AO MODELO DE ANÁLISE DE REGRESSÃO LIN EAR
SIMPLES
Vamos introduzir neste capítulo alguns conceitos sobre o modelo de análise de
regressão linear simples.
De uma forma bem simplificada, podemos dizer que o objetivo da regressão linear é
estudar o possível efeito que algumas variáveis quantitativas exercem nas outras, e
isto é feito basicamente medindo-se a relação entre estas variáveis. De posse da
associação entre as variáveis, constrói-se a equação de uma reta, em que se coloca
uma variável em função das outras. No caso da regressão linear simples, uma
Pós de Engenharia de Produção - Estatística
90
variável é colocada em função de apenas uma outra variável. No modelo de
regressão linear simples temos a variável Y que é chamada de variável resposta ou
dependente e a variável X sendo chamada geralmente de variável explicativa,
independente ou preditora. Assim, com o modelo de regressão ajustado, podemos
obter uma equação onde alterações na variável explicativa influenciam na variável
resposta, ou seja, uma explicação da variabilidade de Y por meio das variações
observadas em X . Se esta relação é estabelecida através do modelo de regressão,
podemos prever valores da variável Y através de oscilações de valores da variável
X .
O MODELO DE REGRESSÃO LINEAR SIMPLES
O modelo de regressão linear simples pode ser representado por:
iioiY εββ +Χ+= 1
onde
iY a variável resposta;
iX a variável explicativa;
1β o coeficiente angular da relação linear;
oβ o intercepto da relação linear;
iε o erro aleatório, isto é, a parte de Y que não é explicada por X, podendo ter
efeito de outras variáveis que podem estar influenciando no comportamento de Y mas
não estão contempladas no modelo. Na prática quase sempre existirá um efeito não
explicado por X, pois na maior parte dos problemas, a relação entre as variáveis não é
exata.
Para que um modelo seja bem ajustado as variáveis em questão precisam ter
uma relação linear significativa. A reta ajustada fornece o valor médio de Y para cada
unidade de X . Para visualizar esta possível relação linear entre as variáveis recomenda-
se construir o diagrama de dispersão plotando cada ponto pela sua coordenada de X e
Y .Na figura abaixo uma ilustração da reta da regressão linear simples
Pós de Engenharia de Produção - Estatística
91
ii XbbY 10
^
+=
iε
ESTIMAÇÃO DO MODELO DE REGRESSÃO LINEAR SIMPLES
O método para estimação dos parâmetros oβ (intercepto da reta) e 1β (inclinação
da reta) é o Método dos Mínimos Quadrados (MMQ). O método MMQ é muito
utilizado por possuir importantes propriedades. A reta ajustada com este método é de tal
forma a minimizar a soma dos quadrados dos erros entre os iy (observados) e os iy
(calculados pela reta estimada), ou seja, minimizar ( )∑=
−n
iii yy
1
2ˆ .
Assim ( )∑=
−−n
iioi xy
1
2
1ββ))
deverá ser minimizada
Derivando e igualando a zero, tem-se:
( ) ( ) ⇒=−−⇒=−×−−= ∑∑∑=
0012 11
1 ioi
n
iioi
o
xnyxyd
d βββββθ )))))
X
Y
Pós de Engenharia de Produção - Estatística
92
( ) ( ) 002 21
11
1
=−−⇒=−×−−= ∑∑ ∑∑=
iioii
n
iiioi xxyxxxy
d
d βββββθ )))))
Resolvendo o sistema obtemos os estimadores para oβ e 1β :
( )( )
( )n
xx
n
yxyx
ii
iiii
2
2
1
∑∑
∑∑∑
−
−=β
)
n
xy iio
∑∑ −= 1β
β)
)
Outra forma encontrada para encontrarmos as estimativas dos parâmetros é dada
por:
XX
XY
i
ii
s
s
xx
yyxx=
−−−
=∑
∑21 )(
))((β)
xyo 1ββ))
−=
Uma estimativa do erro aleatório iε da equação de regressão linear simples é
dado pelo resíduo iii yye ˆ−= .
Também se faz necessário testar um conjunto de suposições que são exigidas a priori, e
devem ser conferidas no modelo de regressão linear simples. A validade destas
suposições é de extrema importância para que os testes de hipóteses sobre a
significância dos parâmetros estimados sejam válidos. Estas suposições são testadas em
relação aos resíduos gerados da regressão. E são elas:
a) Os erros são independentes e identicamente distribuídos não correlacionados;
b) Os erros seguem uma distribuição normal;
Pós de Engenharia de Produção - Estatística
93
c) A dispersão dos pontos em torno da reta de regressão deve ser constante, ou
seja, os erros aleatórios têm média zero e variância constante.
Uma das formas mais utilizadas para avaliar a suposição dos resíduos é por
procedimentos gráficos:
a) Utilizamos um gráfico para verificar a suposição de que os erros têm média zero
e variância constante, geralmente chamado de gráfico dos resíduos versus valores
ajustados.
b) Um gráfico utilizado para verificar se os erros são independentes é o gráfico dos
resíduos versus a ordem das observações:
c) Para testarmos a suposição de normalidade dos resíduos pode-se utilizar um
teste de normalidade como o teste de Anderson Darling. Este teste é encontrado no
software estatístico Minitab.
Existem outros tópicos importantes para abordar em Análise de Regressão Linear
Simples, mas este texto visa apenas introduzir este assunto.
Exercício retirado na Apostila Conceitos e Aplicações de Estatística, 2007. Dos autores
Wanderley Ramalho e Juliana Aparecida Ribeiro.
A tabela abaixo mostra a renda familiar semanal (em U$ 1,00) e o consumo
familiar semanal (em U$ 1,00) para 10 famílias.
Família 1 2 3 4 5 6 7 8 9 10
Renda (X) 80 100 120 140 160 180 200 220 240 260
Consumo
(Y)
70 65 90 95 110 115 120 140 155 150
Fonte: GUJARATI (1995)
a) Calcule o coeficiente de correlação entre o consumo e renda;
Pós de Engenharia de Produção - Estatística
94
b) Estimar a reta de regressão ioi xy 1ββ))) += ;
c) Estimar a média do consumo de famílias cuja renda semanal é 165 dólares.
Solução:
a) Realizando-se os cálculos, tem-se:
Família ix y i 2ix 2
iy y x ii
1 80 70 6.400 4.900 5.600
2 100 65 10.000 4.225 6.500
3 120 90 14.400 8.100 10.800
4 140 95 19.600 9.025 13.300
5 160 110 25.600 12.100 17.600
6 180 115 32.400 13.225 20.700
7 200 120 40.000 14.400 24.000
8 220 140 48.400 19.600 30.800
9 240 155 57.600 24.025 37.200
10 260 150 67.600 22.500 39.000
Total 1.700 1.110 322.000 132.100 205.500
Então:
( )( )
( ) ( )98,0
10
110.1100.132
10
700.1000.322
10
110.1700.1500.205
),(222
2
2
2
=
−
−
×−=
−
−
−=
∑∑∑
∑
∑∑∑
n
yiy
n
xx
n
yxyx
YXr
ii
i
iiii
De acordo com este resultado podemos dizer que existe uma forte associação
linear positiva entre a renda e o consumo destas famílias. Sendo assim temos uma forte
relação linear entre estas variáveis.
Pós de Engenharia de Produção - Estatística
95
b) Calculando oβ e 1β :
( )( )
( ) 5091,0
10
700.1000.322
10
110.1700.1500.205
22
2
1 =−
×−=
−
−=
∑∑
∑∑∑
n
xx
n
yxyx
ii
iiii
β)
4545,2410
700.15091,0110.11 =×−=−
= ∑∑n
xy iio
ββ
))
Obtendo a equação de regressão estimada ii xy 5091,04545,24ˆ += .
Através das definições abordados no texto podemos afirmar que para cada
elevação de 1 dólar na renda familiar semanal estima-se que, em média, o consumo
familiar semanal aumenta 0,5091 dólares (51 centavos de dólares)
c) Para famílias cuja renda semanal mensal é 165 dólares, a média do consumo
é de:
46,108ˆ1655091,04545,24ˆ5091,04545,24ˆ =⇒×+=⇒+= iiii yyxy dólares.
Pós de Engenharia de Produção - Estatística
96
Referências bibliográficas:
ANDERSON, D.R.; SWEENEY,D.J.;WILLIANS, T.A. Estatística Aplicada a
Administração e Economia – 2ª ed. Thomson, 2007.
MAGALHÃES, MARCOS NASCIMENTO. Noções de Probabilidade e Estatística/
Marcos Nascimento Magalhães, Antônio Carlos de Lima – 6 ed. Ver., 1a reimpr. –São
Paulo: Editora da Universidade de São Paulo, 2007. – (Acadêmica 40)
MARTINS, GILBERTO DE ANDRADE. Estatística geral e aplicada – 3ª Ed. São
Paulo – Atlas, 2006.
RAMALHO, WANDERLEY; RIBEIRO, J. A. Apostila Conceitos e Aplicações de
Estatística, 2007.
top related