apostila de estatistica reestruturada 2015
Post on 19-Dec-2015
39 Views
Preview:
DESCRIPTION
TRANSCRIPT
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
ESTATÍSTICA NAS ORGANIZAÇÕES
Segundo GESSER (2004), no mundo atual, a organização é uma das vigas-mestras da
economia dos povos. A direção de uma empresa, de qualquer tipo, incluindo as estatais e
governamentais, exigem de seus administradores a importante tarefa de tomar decisão, neste
sentido, conhecimento e o uso da Estatística facilitam o trabalho de organizar, dirigir e
controlar a empresa.
Por meio de sondagem, de coleta de dados e de recenseamento de opiniões, podemos
conhecer a realidade geográfica e social, os recursos naturais, humanos e financeiros
disponíveis, as expectativas da comunidade sobre a empresa, e estabelecer suas metas, seus
objetivos com maior possibilidade de serem alcançados a curto, médio e longo prazo.
A Estatística auxilia na seleção e organização da estratégia a ser adotada no
empreendimento e, ainda, na escolha das técnicas de verificação e avaliação da quantidade e
da qualidade do produto e mesmo dos possíveis lucros e ou perdas.
Tudo o que foi pensado e planejado, necessita ser registrado para evitar
esquecimentos, a fim de que seja garantido o bom uso do tempo, da energia e do material,
também para que haja um controle eficiente do trabalho.
O esquema do planejamento é o plano, que pode ser resumido, com o auxílio da
Estatística, em tabelas e gráficos, que facilitarão a compreensão visual dos cálculos
matemático-estatísticos que lhe deram origem.
O homem de hoje, em suas múltiplas atividades, lança mão de processos e técnicas
estatísticas, e só estudando-os evitaremos o erro das generalizações apressadas a respeito de
tabelas e gráficos apresentados em jornais, revistas e televisão freqüentemente cometidos
quando se conhece apenas superficialmente os recursos estatísticos.
Sendo assim, observe a definição para Método.
MÉTODO: é o conjunto de meios dispostos convenientemente para se chegar a
um fim que se deseja. Dos métodos científicos, podemos enfatizar o método experimental
e o estatístico.
MÉTODO EXPERIMENTAL: o próprio termo sugere que este método consiste em,
através da experimentação, manter constantes todas as causas ou fatores, menos uma,
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
variando-a de modo que se possam descobrir seus efeitos, caso existam. Este método é
amplamente usado nos diversos campos da atividade humana, bem como nas disciplinas:
física, química, biologia, etc.
MÉTODO ESTATÍSTICO: quando não é possível fazer uso do método
experimental, visto que os vários fatores que afetam o fenômeno em estudo não podem
permanecer constantes enquanto faz-se variar a causa que naquele momento interessa, aplica-
se o método estatístico que, na impossibilidade de manter todas as causas constantes, as
admite, variando-as e registrando-as, procurando determinar no resultado final, que
influências cabem a cada uma delas. Como por exemplo, pode-se citar a viabilidade ou não,
do lançamento de determinado produto, a partir de uma pesquisa de mercado. Pelo processo
do método experimental, neste caso, poderia ser dispendioso e inadequado.
FASES DO MÉTODO ESTATÍSTICO
a) Coleta de dados: Uma das primeiras coisas que se faz necessário observar em
estatística, é como manipular dados e como obtê-los, depois de definido cuidadosamente o
problema. Para isso existem duas maneiras: uma é usarem dados que já estão coletados por
outra pessoa, a estes chamamos de dados secundários, outra é coletar os próprios dados os
quais chamamos de dados primários.
Coleta Indireta: é quando há disponibilidade de dados secundários adequados, economiza-
se a coleta dispendiosa de dados primários. No entanto, quando se utiliza dados secundários,
as definições, a finalidade, a cobertura, a freqüência, a temporalidade ou atualidade, o nível
de desagregação ou detalhes e a exatidão incluindo é claro o tamanho da amostra e a
tendenciosidade dos questionários feitos, podem ser inadequados aos objetivos propostos.
Dados secundários incluem: estatísticas oficiais, não oficiais e estatísticas obtidas dentro de
empresas.
Coleta Direta: quando obtida diretamente da fonte. Por exemplo: Empresas que realizam
uma pesquisa para saber a preferência dos consumidores pela sua marca.
A coleta de dados pode ser classificada em relação ao fator tempo como:
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
a) Contínua: quando é feita continuamente, tal como a de nascimentos, óbitos, registros da
fiscalização eletrônica da velocidade dentre outros.
b) Periódica: quando feita em intervalos de tempo constantes, como os censos
demográficos, as matrículas semestrais e ou anuais dos estudantes.
c) Ocasional: quando feita ocasionalmente, a fim de atender a uma conjuntura ou uma
emergência, como no caso de epidemias, pesquisas eleitorais ou avaliações.
CRÍTICA DOS DADOS
Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de possíveis falhas e
imperfeições, a fim de não incorrer em erros grosseiros ou de certo vulto, que possam influir
sensivelmente nos resultados.
APURAÇÃO DOS DADOS
Nada mais é que a soma e o processamento dos dados obtidos e a disposição mediante
critérios de classificação. Ou seja, é o resumo dos dados através de sua contagem e
agrupamento. É a condensação e tabulação dos dados.
APRESENTAÇÃO DOS DADOS
Não importa a finalidade que se tenha em vista, os dados são usualmente apresentados de
duas formas, que não se excluem mutuamente. A apresentação tabular, que tem forma
matricial para a ordenação dos dados e são distribuídos em linhas e colunas, segundo regras
práticas fixadas pelo Conselho Nacional de Estatística e a apresentação gráfica, que constitui
uma apresentação geométrica permitindo uma visão rápida e clara do fenômeno.
ANÁLISE DOS RESULTADOS
A última fase do trabalho estatístico é a mais importante e delicada. Está ligada
essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o
fenômeno, esta fase é definida estatística descritiva. Na estatística indutiva ou inferencial a
interpretação dos dados se fundamenta na teoria da probabilidade, que tem por base a
indução abstraindo desses resultados conclusões e previsões.
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
DOIS SIGNIFICADOS PARA A PALAVRA ESTATÍSITCA A palavra estatística tem dois significados diferentes, embora estejam relacionados. * No sentido mais comum, significa um conjunto de dados numéricos. Por exemplo,
podemos recorrer à estatística para resumir o desempenho de um time de futebol durante uma
temporada, ou para relacionar os nascimentos e os óbitos em uma cidade, ou descrever as
características de um novo edifício. Há também importantes estatísticas da administração
pública, como o produto interno bruto (PIB) e o índice de preços ao consumidor (IPC).
Estatística também designa o ramo da matemática que analisa os dados coletados em
uma pesquisa. (DOWNING & CLARK, p. 2, 2005)
Para que serve estatística?
Para aqueles que tomam decisões, o principal papel da estatística é fornecer-lhes os
métodos para obter a conversão de dados (valores, fatos, observações, medições) em
informações úteis.
Vejamos os dados que nos mostram as causas de acidentes aéreos.
Causas de acidentes aéreos Erro humano 67,57% Falha técnica 20,72% Mau tempo 5,95% Sabotagem 3,25% Outras causas 2,51% Fonte: Escritório de Registros de Acidentes Aéreos De todos os acidentes, 27,73% ocorreram durante o voo, como aconteceu com o da Air
France. A maior parte dos acidentes, 50,39%, no entanto, ocorreu no pouso.
Momento dos acidentes aéreos Durante o pouso 50,39% Durante o voo 27,73% Durante a decolagem 20,96% Durante o taxiamento 0,64% Durante o estacionamento 0,28% Fonte: Escritório de Registros de Acidentes Aéreos
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
De posse destas informações, Você se sente seguro para viajar de
avião?
Gráficos, tabelas, inferências, projeções são elementos inerentes a
estudos estatísticos. De origem muito antiga, a Estatística é um ramo da Matemática que desenvolveu um
conjunto de técnicas e métodos de pesquisa que, entre outras coisas, envolve o planejamento
do experimento que será realizado, a coleta e a organização de dados, o processamento e a
análise das informações obtidas por meio do experimento e por fim da inferência.
A Linguagem da Estatística
Em diversas reportagens de jornais e revistas, em pesquisas de opinião, em
recenseamentos, em ciências tais como Geografia, Economia e Medicina, são utilizados
números para descrever e representar fatos observados. Esses números utilizados são
chamados DADOS ESTATÍSTICOS.
O vocabulário utilizado em Estatística teve origem nos primeiros estudos desse tipo
feitos pela humanidade e que se relacionavam com a demografia. Por isso, a Estatística
emprega termos próprios dessa área de conhecimento, mas com uma acepção diferenciada.
POPULAÇÃO: A Estatística parte da observação de grupos, geralmente
numerosos, aos quais damos o nome de população ou universo estatístico. Cada
elemento da população estudada é denominado unidade estatística.
Mas a população estatística pode ser classificada em finita ou infinita.
FINITA: quando apresenta um número finito de elementos. Como por exemplo: o
número de professores que trabalham no Centro Universitário, ou as notas levadas em
consideração para o fechamento das médias na disciplina de estatística.
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
INFINITA: quando apresenta um número infinito de elementos. Neste caso podemos
utilizar como exemplo as temperaturas nos diversos pontos do Brasil em determinado
momento.
IMPORTANTE! Quando o universo estatístico é infinito, não é possível fazer uma observação
considerando todos os seus elementos. Nesse caso, recorre-se a um subconjunto do universo
de pesquisa o qual chamamos de amostra.
AMOSTRA: é um subconjunto finito de uma população.
O número de indivíduos da amostra é sempre menor que o da população.
Mas, mesmo quando o universo é finito, algumas vezes, há razões que nos levam à
utilização de técnicas de amostragens. Veja algumas situações em que se faz necessária a
utilização da técnica de amostragem para universos finitos.
Razões econômicas, por ser dispendioso observar grande número de elementos;
Razões de tempo, pois uma observação demorada pode levar os resultados
desatualizados.
VARIÁVEL
É o conjunto de resultados possíveis de um fenômeno, quando são feitas sucessivas
mensurações.
TIPOS DE VARIÁVEIS
Segundo GIOVANNI & BONJORNO (2005), a observação da população é dirigida ao
estudo de uma dada propriedade ou característica soa elementos dessa população. Essa
característica pode ser qualitativa ou quantitativa.
QUALITATIVA: quando os valores tomados não são numéricos, como: raça, área de
estudos, meio de transporte entre outros.
QUANTITATIVA: quando os valores tomados são numéricos, como: altura, peso,
preço de um produto e outros.
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
Uma característica quantitativa também se chama variável estatística ou
simplesmente variável. Cada valor que essa variável pode assumir chama-se dado
estatístico.
As variáveis estatísticas podem ser:
CONTÍNUAS: quando podem assumir qualquer valor do intervalo da variação. Por
exemplo, na determinação das alturas dos adolescentes de uma escola, a variável “altura” é
contínua.
DISCRETA: quando só podem assumir valores inteiros. Por exemplo, na
determinação do número de sócios de certo clube, a variável “numero de sócios” é discreta.
Embora essa distinção entre variáveis seja importante nas pesquisas estatísticas,
nas aplicações do cotidiano é muito tênue a fronteira entre o discreto e o contínuo. A
altura das pessoas, por exemplo, é contínua, mas como é medida por uma aproximação em
centímetros, torna-se discreta.
ESCALAS ESTATÍSTICAS
Quando se faz um estudo estatístico, é necessário representar o fenômeno estudado
através das chamadas escalas que variam de acordo com o nível de medida das variáveis.
As escalas são séries de unidades que representam o grau de variação de dimensão que
está sendo medida. Ao medir o peso dos acadêmicos de uma turma, por exemplo, os
resultados desta medida são representados por uma escala de razão, por que se trata de uma
variável quantitativa contínua.
Existem quatro tipos de escalas de medidas que dependem do nível de mensuração da
variável em estudo e, em função disto, envolvem operações distintas, que podem ser:
ESCALA NOMINAL: representam as escalas do tipo mais simples e são comuns em
pesquisas. As variáveis são divididas em categorias segundo um ou mais de seus atributos ou
características. São usadas essencialmente em registros qualitativos como: sexo, tipo
sanguíneo, classe socioeconômica, partido político, credo religioso, estado civil e questões de
dicotomia (respostas do tipo sim ou não).
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
Com escalas do tipo Nominal podemos calcular moda e podemos utilizar cálculos
proporcionais de porcentagem.
ESCALA ORDINAL: esta escala é usada quando se quer avaliar um fenômeno em
termos de onde ele se situa dentro de um conjunto de patamares ordenados. As escalas
ordinais podem ser construídas usando-se:
a) NUMERAIS: pontos numa avaliação, gincana, concursos, entre outros.
b) RANKING: ordenações do tipo 1º, 2º, 3º, ..., e/ou A, B, C, ..., e/ou ouro, prata,
bronze.
Veja alguns exemplos de grandezas do tipo ordinal: estado patológico, nível de instrução e
status socioeconômico, conceitos, entre outros.
Numa escala do tipo ordinal é possível calcular todas as medidas de tendência central.
ESCALA INTERVALAR: é uma forma quantitativa de registrar um fenômeno,
posicionando-o com relação a um valor conhecido denominado como ponto zero e
estabelecendo a diferença entre o valor do ponto zero e um segundo valor conhecido.
São utilizadas quando se deseja comparar intervalos e medir o quanto uma preferência
encontra-se distante de outra, segundo determinadas características e de acordo com a
quantidade dessas características.
Veja exemplos de escalas intervalares: notas dos alunos numa determinada disciplina,
temperatura das cidades de um estado ou país, idades de um grupo de acadêmicos, entre
outros.
Neste tipo de escala é possível calcular medidas de tendência central, posição, dispersão,
correlações e inferências.
ESCALA DE RAZÃO: de todas vistas, é a mais completa das escalas numéricas. Ela é uma
quantificação produzida a partir da identificação de um ponto zero que é fixo e absoluto,
representando, de fato, um ponto de nulidade. A escala de medida de razão quantifica os
objetos segundo determinadas características, podendo ordená-los e apreciar a igualdade das
diferenças e, sobretudo a igualdade de razões.
Veja alguns exemplos: idade, peso, altura, pressão arterial, freqüência cardíaca, renda entre
outros.
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
NÃO ESQUEÇA!!!!! 1º) População: conjunto de indivíduos que apresentam pelo menos uma característica em comum. 2º) Censo: é a coleta de dados relativos a todos os elementos da população; 3º) Amostra: considerando a impossibilidade, na maioria das vezes do tratamento de todos os elementos da população, necessitamos de uma parte representativa da mesma. A esta porção damos o nome de amostra; 4º) Estatística: é a medida numérica que descreve uma característica da amostra; 5º) Parâmetro: é a medida que descreve uma característica da população; RAMOS DA ESTATÍSTICA: 1.a) Estatística descritiva: envolve a organização e sumarização dos dados através de metodologias simples; 2.a) Teoria da Probabilidade: proporciona uma base racional para lidar com situações influenciadas por fatores que envolvem o acaso; 3.a) Teoria da Inferência: envolve a análise e interpretação da amostra. A estatística descritiva se resume em: a. coleta de dados; b. Crítica dos dados; c. Apresentação dos dados; d. Tabelas e gráficos; e. análise.
EXERCÍCIOS
1) Classifique as variáveis a seguir em discretas ou contínuas: a) População: alunos de uma escola Variável: número de irmãos de cada aluno. b) População: pais de alunos de uma escola; Variável: número de filhos. c) População: indústrias de uma cidade;
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
Variável: ganhos em um ano. d) População: peças produzidas por certa máquina; Variável: número de peças produzidas por hora.
2) Para cada população, dê um exemplo de variável quantitativa (discreta ou contínua) e outro de variável qualitativa:
a) População: funcionários de uma empresa.
b) População: estação meteorológica de uma cidade.
c) População: casais residentes em uma cidade.
3) O que é uma variável discreta? 4) O que é uma variável contínua? 5) População ou universo é: a) ( ) Um conjunto de pessoas; b) ( ) Um conjunto de elementos quaisquer; c) ( ) Um conjunto de pessoas com uma característica comum; d) ( ) Um conjunto de elementos com pelo menos uma característica em comum; e) ( ) Um conjunto de indivíduos de um mesmo município, estado ou país. 6) Uma parte da população retirada para analisá-la denomina-se: a) ( ) Universo ou população; b) ( ) Parte; c) ( ) Pedaço; d) ( ) Dados Brutos; e) ( ) Amostra 7) A parte da estatística que se preocupa somente com a descrição de determinadas características de um grupo, sem tirar conclusões sobre um grupo maior denomina-se:
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
a) ( ) Estatística de População; b) ( ) Estatística de Amostra; c) ( ) Estatística Inferencial; d) ( ) Estatística Descritiva; e) ( ) Estatística Grupal. 8) Diga qual o tipo de variável estamos trabalhando nos casos a seguir: a) Número de inscrições no Seguro Social. ____________________________ b) Número de passageiros no ônibus da linha Rio - São Paulo. ___________________ c) Grau de Escolaridade.________________________________ d) Peso Médio dos recém nascidos. __________________________ e) Altitude acima do nível do mar. ____________________________ f) Uma pesquisa efetuada com 2100 pessoas indica que 500 delas são assinantes de um serviço de informática on-line. _________________________ g) Cada cigarro da marca “Fume Mais” tem 16,45mg de alcatrão. ________________________ h) O radar indica que Manoel rebateu a última bola a 85,6mi/h. _____________________ 8) Classifique as seguintes variáveis:
a) Cor dos olhos. __________________________________________ b) Número de filhos de um casal. _____________________________ c) Peso de um indivíduo. ___________________________________ d) Altura de um indivíduo. __________________________________ e) Numero de alunos de uma sala. _____________________________ f) Tipo sanguíneo. _________________________________________ g) O fator Sanguíneo RH. ____________________________________ h) Valor obtido na face superior de um dado. _____________________ i) Sexo. __________________________________________________ j) Resultado da extração da loteria Federal. ______________________ k) Comprimento de um seguimento de reta. ______________________ l) Área de um Círculo. _______________________________________ m) Raça. ___________________________________________________ n) Quantidade de livro de uma biblioteca. ________________________ o) Religião. ________________________________________________ p) Salário dos empregados de uma empresa. ______________________ q) Estado civil. _____________________________________________ r) Profissão. _______________________________________________ s) O volume de água contido numa piscina. _______________________
9) Faça um comentário rápido sobre a pesquisa a seguir.
a) “Um relatório patrocinado pela Flórida Citus Comission, concluiu que os níveis de colesterol podem ser reduzidos mediante ingestão de produtos cítricos”.
Por que razão a conclusão poderia ser suspeita?
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
SÉRIES ESTATÍSTICAS
Um dos objetivos da estatística é permitir uma visão geral dos valores assumidos
pelas variáveis dentro de certos parâmetros. Para tanto existem tipos específicos de tabelas
e alguns critérios para classificá-las. Essas tabelas são conhecidas como séries estatísticas.
tabela como sendo um quadro que resume um conjunto de observações.
Um dos objetivos da estatística é sintetizar os valores que uma ou mais variáveis
podem assumir, para que tenhamos uma visão global da variação dessas variáveis. Uma vez
coletados, os dados precisam ser dispostos de maneira a transmitir a informação desejada, ou
seja, a quantificação que eles representam. Os dados são então dispostos sob a forma de
tabelas para representar grandezas, quantidades absolutas ou posições relativas do fenômeno
estudado. A seguir os valores são apresentados em gráficos, estes nos fornecem uma rápida e
segura informação a respeito das variáveis em estudo.
MÉTODOS PARA APRESENTAÇÃO E ORGANIZAÇÃO DOS DADOS
Observe como proceder para a construção de uma tabela
de dados
• TABELAS:
CARACTERÍSTICAS: Ser auto-suficiente, deve ter significado próprio.
ELEMENTOS: ESSENCIAIS: (título, corpo, cabeçalho e coluna)
COMPLEMENTARES:(fonte, notas e chamadas)
TABELA PRIMITIVA ou ROL: é quando os elementos não foram numericamente
organizados, encontra-se da mesma maneira que foram colhidos, são chamados dados brutos.
A maneira mais simples de se organizar os dados é através de certa ordenação que pode ser do
tipo crescente ou decrescente.
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
Título: é colocado na parte superior, precede a tabela. Deve ser preciso, claro, conciso
indicando a natureza do fato estudado (o quê?), as variáveis (como?) o local (onde?) e a
época (quando?).
Corpo é o conjunto de linhas e colunas. Casa, cela ou célula é o cruzamento onde se tem a
freqüências com que a categoria (categorias) aparece.
Cabeçalho é a parte da tabela que é designada a natureza (as categorias, as modalidade da
variável) do conteúdo de cada coluna.
Coluna indicadora é a parte da tabela em que é designada a natureza (as categorias, as
modalidades da variável) do conteúdo de cada linha.
Fonte é o indicativo, no rodapé da tabela, é o autor ou entidade fornecedora dos dados
primários, conferir honestidade científica e permite consultar trabalho original.
Notas são colocadas no rodapé, esclarecimentos de ordem geral, são numerados ou símbolos
gráficos (asterisco).
Chamadas são colocadas no rodapé, Devem esclarecer minúcias em relações às casas colunas
ou linhas, são numeradas, letras minúsculas, símbolos gráficos.
PREENCHIMENTO: Nenhuma casa deve ficar sem preenchimento. Todas devem ter o
registro de algum número ou sinal.
- (hífen), quando o valor numérico é nulo;
... (reticências), quando não se dispõe de dado;
? (ponto de interrogação), quando há dúvida sobre a exatidão do valor;
0; 0,0; ou 0,00 (zero), quando o valor numérico é pequeno para ser expresso pela unidade
utilizada. Este deve conter o mesmo número de casas decimais padronizado pela tabela;
x (letra x), quando o dado for omitido a fim de evitar individualização da informação.
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
REGRAS PARA TABELAS
a) em artigos ou publicações que contenham muitas tabelas, estas serão numeradas em
ordem crescente, conforme o aparecimento;
b) tabelas são fechadas no alto e embaixo por linhas horizontais, mas não à esquerda e à
direita por linhas verticais. Traços verticais para separar colunas no corpo da tabela podem ser
empregados;
c) uma vez definido um determinado número de casas decimais, esse número será mantido
para todas as casas de modo a assegurar uniformidade na apresentação dos dados;
d) Totais e subtotais serão destacados
TABELA - (O Quê?) Produção de Café conforme índice IBGE (Como?) em toneladas
(Onde?) no Brasil (Quando?) de 1.991 1.995.
Fonte: IBGE
As tabelas podem ser simples ou de dupla entrada.
Tabelas simples. São aquelas que apresentam dados ou informações relativas a uma
variável apenas.
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
Exemplo: Levantamento do tempo de serviço dos funcionários um departamento de
uma empresa.
Os resultados foram: 3,3,3,4,4,4,4,5,5,5,5,5,5,6,6,6,6,6,6,6,7,7,7,7,7,8,8,8,9,9.
Ao organizarmos os dados em uma tabela simples teremos:
Tabelas de Entrada Dupla ou Cruzada. São aquelas que apresentam informações de pelo
menos duas variáveis, podendo as duas ser ou não qualitativas e quantitativas.
.
Nessa tabela temos informações simultâneas das duas variáveis, assim
observamos que dos 120 ouvintes, 8 são do sexo masculino e preferem noticiário,
enquanto que, 23 são do sexo feminino e preferem novela.
SÉRIES ESTATÍSTICAS
Um dos objetivos da estatística é permitir uma visão geral dos valores assumidos
pelas variáveis dentro de certos parâmetros. Para tanto existem tipos específicos de tabelas
e alguns critérios para classificá-las. Essas tabelas são conhecidas como séries estatísticas.
A estatística também visa sintetizar os valores que uma ou mais variáveis podem
assumir, para que tenhamos uma visão global da variação dessas variáveis. Uma vez
coletados, os dados precisam ser dispostos de maneira a transmitir a informação desejada, ou
seja, a quantificação que eles representam. Os dados são então dispostos sob a forma de
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
tabelas para representar grandezas, quantidades absolutas ou posições relativas do fenômeno
estudado. A seguir os valores são apresentados em gráficos, estes nos fornecem uma rápida e
segura informação a respeito das variáveis em estudo.
A descrição da variação dos fenômenos estatísticos é feita através de séries
estatísticas, Isto é, por conjuntos de dados homogêneos, discriminados segundo diversas
modalidades, ou ordenados de acordo com as medidas de uma circunstância da observação.
Classificação das Séries Estatísticas
As séries estatísticas são as tabelas quando caracterizadas pelo tempo (série
temporal), pelo local (série geográfica), pela qualidade ou categoria (série específica),
séria conjugada (tabela de dupla entrada) e distribuição de freqüência (quando os dados
são agrupados em intervalos)
Pelo Tempo – Série Temporal. Os dados estão dispostos de acordo com o tempo,
e este varia. Exemplo:
Fonte: Ministério da Agricultura
Classificando temos: Fato: Produção brasileira de trigo. (constante) Local: Brasil (constante) Tempo: aos anos de 96 a 99. (variável) Pelo Local – Série Geográfica. Os dados estão dispostos de acordo com a região geográfica correspondente, o local varia.
Fonte: Fictícios. Fato: Produção de alguns estados brasileiros. (constante) Local: Estados brasileiros (variável) Tempo: ano de 1995. (constante)
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
Pela Qualidade – Série Específica. Os dados estão dispostos de acordo com a
espécie ou qualidade
Fonte: Brasil ano 2005 (Hipotético) Fato: População ativa no Brasil (variável) Local: Brasil. (constante) Tempo: ano de 1996. (constante) Distribuição de Freqüência. Os dados numéricos estão agrupados em intervalos e estes variam. Obs.: Este item será estudado no próximo conteúdo, face à sua importância.
Séries Conjugadas – Tabelas de Dupla Entrada. Também chamadas de Séries Compostas ou Mistas. Muitas vezes temos necessidade de apresentar em uma única tabela a variação de valores de mais de uma variável, isto é, uma conjugação de duas ou mais séries. Conjugando duas séries em uma única tabela, obtemos uma tabela de dupla entrada. Em uma tabela desse tipo ficam criadas duas ordens de classificação: uma horizontal (linha) e uma vertical (coluna). Exemplo:
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
Fonte: Dados fictícios
Fato: Terminais telefônicos em serviço (constante) Local: Regiões. (variável) Tempo: anos de 1991 a 1993. (variável)
Dados Absolutos e Dados Relativos
Os dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação
senão a contagem ou medida são chamados dados absolutos.
Dados relativos é o resultado de comparações por quociente (razões) que se
estabelecem entre dados absolutos e têm por finalidade realçar ou facilitar as comparações
entre quantidades.
Traduzem-se os dados relativos em geral por meio de percentagens, índices,
coeficientes e taxas.
Percentagens
Consideremos a série.
Dados Fictícios
Cálculo das percentagens dos alunos de cada grau:
1º grau -- 19.286 x 100 = 90,96 = 91,0
21.201
2º grau -- 1.681 x 100 = 7.92 = 7,9
21.201
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
3º grau -- 234 x 100 = 1,10 = 1,1
21.201
Com esses dados podemos formar uma nova coluna na série em estudo.
Índices Econômicos, Coeficientes e Taxas
Índices. Os índices são razões entre duas grandezas tais que uma não inclui a outra.
Densidade Demográfica = população / superfície
Índices Econômicos :
Produção per capta = valor total da produção / população;
Consumo per capta = consumo do bem / população;
Receita per capta = receita / população .
Coeficientes. São razões entre o número de ocorrências e o número total. (Nº de
ocorrências e nº de não ocorrências).
Coeficiente de Natalidade = número de nascimentos / população total
Coeficiente de Mortalidade = número de óbitos / população total
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
Coeficientes Educacionais.
De Evasão escolar = número de alunos evadidos / nº inicial de matriculados
De Aproveitamento Escolar = nº de alunos aprovados / nº final de matriculados.
Taxas. São os coeficientes multiplicados por uma potência de 10 ( 10, 100, 1.000
etc.), para tornar o resultado mais inteligível.
Taxa de Mortalidade = coeficiente de mortalidade (x) 1.000. Taxa de Natalidade = coeficiente de natalidade (x) 1.000, Taxa de Evasão Escolar = coeficiente de evasão escolar (x) 100. Exemplo:
O Estado A apresentou 733.986 matriculas na 1ª série, no início do ano de 1994, e
683.816 no fim do ano. O Estado B apresentou, respectivamente, 436.127 e 412.457
matrículas. Qual o Estado que apresentou maior evasão escolar?
A -- TEE = 733.986 – 683.816 (x) 100 = 0,0683 (x) 100 = 6,83 = 6,8%
733.986
B -- TEE = 436.127 – 412.457 (x) 100 = 0,0542 (x) 100 = 5,42 = 5,4%
436.127
R. O Estado que apresentou maior evasão foi o A.
EXERCÍCIOS
a) Entrada de argentinos no Brasil Ano Número de turistas
2009 2010 2011
987.117 2.467.922 2.548.571
Fonte: OMT
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
b) Onde falta água encanada (2013) (1,1 bilhão de pessoas) Continente Valor percentual (%) África América Latina Ásia Europa
28 7 63 2
Fonte: OMS c) O que os consumidores catarinenses vão fazer com o 13o salário.
Opções Valor Percentual (%)
Pagar dívidas Fazer compras Poupar ou guardar Investir ou aplicar Gastar em férias Outros
53 14 14 7 6 6
Fonte: Informações do Estado. d) Terminais telefônicos em serviço (1991 – 1993)
Regiões 1991 1992 1993 Norte Nordeste Sudeste Sul Centro-Oeste
342.938 1.287.813 6.234.501 1.497.315 713.357
375.658 1.379.101 6.729.467 1.608.989 778.935
403.494 1.486.649 7.231.634 1.746.232 884.822
Fonte: Ministério das Comunicações e) A temperatura no campo (período de 4 a 10 de dezembro de 2004) Cidades Temperaturas da Semana (o C) Adamantina Assis Campinas Jaú Mococa Ribeirão Preto
26,9 24,3 24,2 25,3 25,1 25,3
Fonte: Instituto Agronômico de Campinas (IAC) f) Inflação no Brasil 1977-1983 (índice geral de preços) Ano Taxa inflacionária (em %)
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
1977 1978 1979 1980 1981 1982 1983
38,8 40,8 77,2 110,2 95,2 99,7 211,0
Fonte: BARBOSA, F. de Holanda. A inflação brasileira no pós-guerra: monetarismo versus estruturalismo. Rio de Janeiro: Ipea, 1983. g) Países mais populosos do mundo (1999)
Fonte: IBGE
h) Avicultura Brasileira (2013)
Espécies Número (1000 cabeças)
Galinhas
Galos, frangos e pintos
Codornas
204.160.456.432
435.465.564.234
2.488.765.324 Fonte: DADOS FICTÍCI
i) Hóspedes dos Hotéis da cidade X (2008-2011)
Hotel 2008 2009 2010 2011
A
B
C
D
4800
9400
8500
12100
4400
9900
9200
11500
4900
9800
8900
12300
5200
10100
10300
12700 Fonte: Secretaria de Turismo
APRESENTAÇÃO DE DADOS ESTATÍSTICOS
Países População (em milhões) China Índia EUA Indonésia Brasil
1.280 1.010 275 225 170
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
Quando lidamos com poucos valores numéricos, o trabalho estatístico fica
sensivelmente reduzido. No entanto, normalmente teremos que trabalhar com grandes
quantidades de dados.
Um dos objetivos da Estatística Descritiva neste caso é obter uma significativa
redução na quantidade de dados com os quais devemos operar diretamente. Isto pode ser
conseguido modificando-se a forma de apresentação destes dados.
Exemplo: Suponhamos as notas de Estatística de 30 alunos em uma prova:
Se entendermos como freqüência simples de um elemento o número de vezes que
este elemento aparece no conjunto de dados, podemos reduzir significativamente o número
de elementos com os quais devemos trabalhar.
Para isso organiza-se o conjunto de dados na forma de uma série estatística
chamada Variável Discreta.
DISTRIBUIÇÃO DE FREQÜÊNCIA – VARIÁVEL DISCRETA
É uma representação tabular de um conjunto de valores em que colocamos na
primeira coluna em ordem crescente apenas os valores distintos de série e na segunda
coluna, colocamos os valores das freqüências simples correspondentes.
3,5 5,0 4,5 4,0 4,5
3,5 4,0 4,0 5,0 5,0
2,0 3,0 4,5 3,5 4,0
4,5 3,0 4,0 3,0 4,0
3,5 3,5 3,5 4,0 4,0
3,0 4,0 4,0 5,0 3,0
xi fi
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
OBSERVE.
DEVEMOS OPTAR POR UMA VARIÁVEL DISCRETA NA REPRESENTAÇÃO DE UMA SÉRIE DE VALORES
QUANDO O NÚMERO DE ELEMENTOS DISTINTOS DA SÉRIE FOR PEQUENO.
DISTRIBUIÇÃO DE FREQÜÊNCIA – VARIÁVEL CONTÍNUA
Suponha que a observação das notas de 30 alunos em uma prova nos conduzisse aos
seguintes
valores:
3,0 4,0 2,5 4,0 4,5
6,0 5,0 5,5 6,5 7,0
7,5 2,0 3,5 5,0 5,5
8,0 8,5 7,5 9,0 9,5
5,0 5,5 4,5 4,0 7,5
6,5 5,0 6,0 6,5 6,0
OBSERVE.
DEVEMOS OPTAR POR UMA VARIÁVEL CONTÍNUA NA REPRESENTAÇÃO DE UMA SÉRIE DE
VALORES QUANDO O NÚMERO DE ELEMENTOS DISTINTOS DA SÉRIE FOR GRANDE.
2
3
3,5
4
4,5
5
1
5
6
10
4
4
Centro Universitário Leonardo da Vinci Disciplina: Probabilidade e Estatística Professora: Kasselandra Mattos Soares
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
Nomes dos dados que compõem a tabela de freqüências
1. CLASSE: são intervalos de variações das variáveis. As classes são representadas
simbolicamente por i, sendo i = 1, 2, 3, ..., k (onde k é o número total de classes da
distribuição).
1.1. AMPLITUDE TOTAL DA DISTRIBUIÇÃO (AT): é a diferença entre o limite
superior da última classe (limite superior máximo) e o limite inferior da primeira classe
(limite inferior mínimo): AT = L (max.) - l (min.). OBS: utilizamos sempre a
amplitude amostral.
1.1.2 AMPLITUDE AMOSTRAL (AA): é a diferença entre o valor máximo e o valor
mínimo da amostra: AA = L (max) - l (min). A amplitude total da distribuição, jamais
coincide com a amplitude amostral.
A amplitude total representa o comprimento total da seqüência e é dada
na mesma unidade de medida dos dados da seqüência.
1.1.3. INTERVALO DE CLASSE: é qualquer subdivisão da amplitude total de uma
série estatística.
No exemplo da tabela subdividimos a amplitude total em quatro classes,
obtendo os intervalos de classe [2; 4[ , [4; 6[ , [6; 8[ , [8; 10[.
Note que na realidade não trabalhamos com a At = 7,5 e sim com a
amplitude total ajustada para 8.
1.1.4. LIMITE DE CLASSE: são chamados de limites de classes os extremos de uma
classe. Sendo que o menor número é o limite inferior (li) e o maior número o limite
superior da classe. Uma classe é representada por: Li.
1.1.5 AMPLITUDE DE UM INTERVALO DE CLASSE: é a medida do intervalo que
define a classe. Ela é obtida pela diferença entre os limites superior e inferior dessa
classe (hi = Li - li).
OBSERVAÇÕES
* Na realidade, as classes não precisam necessariamente ter a mesma amplitude
como no exemplo acima. Porém, sempre que possível, devemos trabalhar com
classes de mesma amplitude. Isto facilita sobremaneira os cálculos posteriores.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
* Note também que usamos para representar as classes, intervalos reais semi-abertos
à direita. Isto significa que o intervalo contém o limite inferior, mas não contém o limite
superior, ou seja, o intervalo contém os valores iguais ou maiores do que 2 e menores
do que 4. Sendo assim, o último intervalo da série que é [8; 10[ , não contém o valor
10. É por isso que não utilizamos a amplitude 7,5, pois se isto fosse feito, o limite
superior da última classe seria 9,5 e como o limite superior não deve pertencer à
classe, o elemento 9,5 da seqüência estatística original ficaria sem classificação.
Como vamos utilizar este critério, precisaremos ajustar sempre o valor máximo da
série ao definir a amplitude total. Outros critérios poderiam ser adotados como o
intervalo real semi-aberto à esquerda ou mesmo o intervalo real aberto, mas nenhum
destes critérios é melhor que o critério adotado.
1.2 NÚMERO DE CLASSES – INTERVALOS DE CLASSE
Serve para limitar o tamanho da tabela que contém os dados coletados na
pesquisa.
O número de classes a ser utilizado depende muito da experiência do
pesquisador e das questões que ele pretende responder com a variável contínua.
Isto pode ser verificado facilmente pelo próprio interessado ao longo desta
exposição.
Temos em mão duas formas para determinar o número de classes de uma
distribuição.
Se a seqüência estatística contém n elementos e se indicarmos por K o número
de classes a ser utilizado, então pelo critério da raiz.
K =
Como o número K de classes deve ser necessariamente um número inteiro e
como dificilmente , é um número inteiro, deixaremos como opção para o valor de
K o valor inteiro mais próximo de , uma unidade a menos ou a mais que este valor.
No exemplo das trinta notas, n = 30 e conseqüentemente K = = 5,477,
portanto o valor inteiro mais próximo de é 5. As opções para K então são: 4 ou 5
ou 6.
A amplitude do intervalo de classe que designamos por h é denominada da
seguinte forma: h = e, portanto h = .
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
Observe que a opção por quatro classes, foi feita em função de um valor de h
mais fácil de se operar.
Existem outros critérios para a determinação do número de classes, como por
exemplo, a fórmula de STRURGES:
K = 1 + 3,3. log n
Essa fórmula é muito boa para valores de n muito grandes, esta fórmula
apresenta mais vantagens que o critério da raiz, embora apresente o mesmo
problema de aproximação do valor de K.
Como acreditamos que na prática a experiência do pesquisador é que na
verdade vai determinar o número de classes, optamos pelo método mais simples
que é o critério da raiz.
Quando já sabemos o número de classe, só nos resta resolver o problema
da determinação da amplitude do intervalo de classe, o que conseguimos dividindo
a amplitude total pelo número de classes.
EXEMPLO DE CONSTRUÇÃO DE UMA VARIÁVEL CONTÍNUA
Um teste para aferir o Quociente de Inteligência em determinada classe de
alunos de uma faculdade deu origem a seqüência de valores X:
111 90 121 105 122 61 128 112 128 93
108 138 88 110 112 112 97 128 102 125
87 119 104 116 96 114 107 113 80 113
123 95 115 70 115 101 114 127 92 103
78 118 100 115 116 98 119 72 125 109
79 139 75 109 123 124 108 125 116 83
94 106 117 82 122 99 124 84 91 130
Para a construção da variável contínua, devemos determinar o número de
elementos da seqüência. Verificamos que a seqüência possui n = 70 elementos.
Pelo critério da raiz K = = 8,37. O valor inteiro mais próximo é 8.
Portanto, temos opção para construir a variável contínua com 7 ou 8 ou 9 classes.
O maior valor da seqüência é L(máx)= 139 e o menor valor da seqüência é
l(mín)= 61. Sendo assim, a amplitude total da seqüência é At = 139 – 61 =
78.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
No entanto, sabemos que pelo fato de o critério adotado do intervalo de
classe ser semi-aberto à direita, devemos ajustar o valor L(máx). Se ajustássemos
L(máx) para 140, a amplitude ajustada passaria a ser At = 140 – 61 = 79. Este
valor não é divisível de forma inteira nem por 7 nem por 8 nem por 9, que são
nossas opções de classes.
Nesta situação devemos ajustar L(máx) para 141 obtendo a At = 141 – 61 =
80 que é divisível exatamente por 8, obtendo-se uma amplitude de intervalo de
classe h dada por:
h =
Observe que o ajuste foi de 2 unidades passando de 139 para 141. Assim o
comprimento do intervalo de classe é h = 10 e o número de classes é K = 8.
Computando as freqüências simples de cada classe, construímos a variável
contínua desta série.
Classe Intervalo
de Classe
fi
1
2
3
4
5
6
7
8
[60; 70[
[70; 80[
[80; 90[
[90; 100[
[100; 110[
[110; 120[
[120; 130[
[130; 140[
1
5
6
10
12
19
14
3
A variável contínua é conceituada como uma representação tabular em que
colocamos na primeira coluna os intervalos de classe e na segunda coluna os
valores das freqüências simples correspondentes.
A coluna “classe” tem a finalidade apenas de facilitar a referência às
classes, não fazendo parte da variável contínua.
O quadro final tanto da variável discreta como da variável contínua recebe
o nome de distribuição de freqüência.
Mas o processo dado é ainda muito inconveniente, já que existe muito espaço,
mesmo quando o número da variável (n) é de tamanho razoável. Sendo possível, a
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
solução mais aceitável, pela própria natureza da variável contínua, é o agrupamento
dos valores em vários intervalos denominados de classes.
2 - DISTRIBUIÇÃO DE FREQÜÊNCIA – VARIÁVEL DISCRETA
Uma vez que tenhamos colocado os dados na forma de uma distribuição, ele
poderá rapidamente obter algumas informações adicionais e úteis para a
compreensão da série, se considerar os seguintes conceitos:
2.1 TIPOS DE FREQÜÊNCIAS
2.1.1 DISTRIBUIÇÃO DE FREQÜÊNCIA (fi): denomina-se freqüência o número de
vezes que um determinado valor se repete. Uma tabela assim formada recebe o nome
de distribuição de freqüência. Σ fi = n
2.1.2 DISTRIBUIÇÃO DE FREQÜÊNCIA SEM INTERVALOS DE CLASSES: Quando
se trata de variáveis discretas de variação relativamente pequena, cada valor pode ser
tomado como um intervalo de classe (intervalo degenerado) e, nesse caso, a
distribuição é chamada distribuição sem intervalos de classe, tomando a seguinte
forma:
OBS: Se a variável toma numerosos valores distintos, é comum trata-la como
uma variável contínua, formando intervalos de classe de amplitude diferente de um.
Esse tratamento (arbitrário) abrevia o trabalho, mas acarreta algumas perdas de
precisão.
2.1.3 FREQÜÊNCIA RELATIVA (fri): são os valores das razões entre as freqüências
simples e a freqüência total:
fri =
“As freqüências relativas possuem o propósito de permitir a análise ou de
facilitar as comparações”.
2.1.4 FREQÜÊNCIA ACUMULADA (Fi): é o total das freqüências de todos os valores
inferiores ao limite superior do intervalo de uma dada classe:
Fk = f1 + f2 + f3 + ... + fk ou Fk = Σ fi (i = 1,2,3, ..., k)
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
2.1.5 FREQÜÊNCIA ACUMULADA RELATIVA (Fri): é a freqüência acumulada da
classe, ou seja, é a soma dos valores da freqüência relativa.
Fri = fr1 + fr2 + ... + frk
Exemplo: Seja x a variável "número de cômodos das casas ocupadas por vinte
famílias entrevistadas":
i xi fi fri Fi Fri
1 2 4
2 3 7
3 4 5
4 5 2
5 6 1
6 7 1
Σ = 20
3 - DISTRIBUIÇÃO DE FREQÜÊNCIAS – VARIÁVEL CONTÍNUA
No caso da variável contínua, pelo fato de termos intervalos de classe, semi-aberto à
direita, as interpretações são diferentes. Portanto é necessário redefinirmos esse tipo
de freqüência.
Exemplo: Considere a distribuição de freqüência abaixo:
Classe Intervalo de
classe
fi (freqüência) xi fri (%) Fi Fri(%)
1
2
3
4
2 ⏐⎯ 4
4 ⏐⎯ 6
6 ⏐⎯ 8
8 ⏐⎯ 10
6
18
10
6
Total: 40
ATENÇÃO: Observe as condições de nossas variáveis.
Cada um dos diferentes objetos da nossa tabela nos permitirá fazer análises e
por isso, as denominamos por variáveis.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
Algumas variáveis, como estado civil, cor dos olhos, cor dos cabelos,
apresentam como resultado uma qualidade, atributo ou preferência da pessoa
entrevistada. Variáveis dessa natureza recebem o nome de variáveis qualitativas. (as
respostas correspondem às realizações dessa variável).
Outras variáveis, como idade, peso, altura, apresentam como resposta um
número, resultante, nesse exemplo, de mensuração. Variáveis assim definidas são
chamadas variáveis quantitativas.
Cabe ressaltar, por fim, que se os pesquisadores tivessem perguntando:
“Quantas vezes por semana você costuma ir ao cinema?”, teríamos como objeto de
estudo uma variável quantitativa, cujos valores assumidos são resultantes de
contagens.
EXERCÍCIOS
1) Qual é o objetivo de agrupados por freqüência?
_____________________________________________________________________
_____________________________________________________________________
2) O que é uma variável discreta?
_____________________________________________________________________
3) Qual é a característica de um conjunto de dados que indique o uso de uma variável
discreta ao se agrupar os dados por freqüência?
_____________________________________________________________________
4) O que é uma variável contínua?
_____________________________________________________________________
5) Qual é a característica de um conjunto de dados que indique o uso de uma variável
contínua ao se agrupar os dados por freqüência?
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
6) Uma pesquisa sobre a idade, em anos de uma classe de calouros de uma
faculdade, revelou os seguintes valores:
18 – 17 – 18 – 20 – 21 – 19 – 20 – 18 – 17 – 19 – 20 – 18 – 19 -18 – 19 – 21 – 18 – 19
– 18 – 18 – 19 – 19 - 21- 20 - 17 - 19 - 19 - 18 - 18 - 19 - 18 - 21 - 18 - 19 - 19 - 20 - 19
- 18 - 19 - 20 - 19 - 19 - 19 - 18 - 20 - 20-18-19-18-18
Agrupe, por freqüência, estes dados.
7) Uma empresa automobilística selecionou ao acaso, uma amostra de 40
revendedores autorizados em todo o Brasil e anotou em determinado mês o número
de unidades adquiridas por estes revendedores. Obtiveram os seguintes dados:
Agrupe, por freqüência, estes dados.
Organize os dados em uma tabela de freqüência.
MEDIDAS DE TENDÊNCIA CENTRAL
Definição: As medidas de tendência central são números que indicam o valor médio de
uma distribuição de freqüência, procurando reduzir todos os valores num só, de
referência tomar como mais representativo aquele que esteja no centro da distribuição.
As medidas de posição são: - média - medida de uniformização;
- mediana - medida de posição;
- moda - medida de concentração.
10 15 25 21 6 23 15 21 26 32
9 14 19 20 32 28 16 26 24 20
7 18 17 28 35 22 19 39 18 21
15 18 22 20 25 28 10 16 21 20
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
Na maioria das situações, não necessitamos calcular as três medidas de
tendência central. Normalmente precisamos apenas uma das medidas para caracterizar o
centro da série.
Surge, então, a questão: qual medida deve ser utilizada?
A medida ideal em cada caso é aquela que melhor representa a maioria dos
dados da série. Quando todos os dados de uma série estatística são iguais, a média, a
mediana e a moda coincidirão com este valor e, portanto qualquer uma delas
representará bem a série.
No entanto, este caso dificilmente ocorrerá na prática. Na maioria das vezes,
teremos valores diferenciados para a série e conseqüentemente a medida irá representar
bem, apenas os dados da série que se situam próxima a este valor. Os dados muito
afastados em relação ao valor da medida não serão bem representados por ela.
Quando houver forte concentração de dados na área central da série optaremos
pelo uso da mais conhecida das medidas, a média.
Se uma série apresenta forte concentração de dados em seu início, a mediana e a
moda estarão posicionadas mais no início da série, representando bem esta
concentração.
Devemos optar pelo uso da mediana quando houver forte concentração de dados
no início ou no final da série.
A moda deve ser a opção como medida de tendência central apenas em séries
que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior à
freqüência dos outros elementos da série.
Média, Mediana e Moda
MÉDIA
A média é um elemento representativo de série mais usado, procura uniformizar os
dados em torno do valor médio, por isto, é também chamado de uniformização.
Simbologia: M média no sentido geral
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
média de uma amostra µ média de uma população Operacionalmente, a média é o quociente entre a soma de todos os valores (∑x) pelo
número total dos dados (n).
a) Para uma pequena quantidade de dados (dados brutos1).
(sem freqüência)
Exemplo ilustrativo 1: Imagine que na inspeção de um produto foram obtidas 7 amostras de uma substância
cujas massas em gramas resultaram no seguinte conjunto:
{3,2 - 3,3 - 3,4 - 3,4 - 3,6 - 3,5 - 3,4}
g
Portanto a massa média das sete amostras é 3,4 gramas. b) Para dados agrupados em uma distribuição de freqüência simples.
Exemplo ilustrativo 2: Seja X o número de filhos dos empregados do setor de produção de uma empresa.
Considere estes uma população.
Tabela 1 – Distribuição do Número de Filhos dos Empregados do Setor de produção, e Cálculos Intermediários para Obtenção de .
Xi(Número de
Filhos) fi(Número de
Empregados) Xi*fi
0 3 0 1 10 10 2 13 26 3 11 33 4 7 28
1 Representam dados que não foram tabelados.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
5 4 20 6 2 12
Total 50 129
filhos. O que representa uma média de 2,58 filhos por empregado.
Ou seja, aproximadamente 3 filhos por empregado. c) Para dados agrupados em uma distribuição de freqüência em classes.
Média Ponderada (utilizada para dados agrupados em classes):
Ao calcularmos uma média, podemos cometer sério engano, se ignorarmos o
fato de que as grandezas em jogo não têm todas as mesmas importâncias em relação ao
fenômeno que se está sendo estudado.
Exemplo ilustrativo 3: Seja X o salário semanal dos operários da Empresa X medidos em reais.
Tabela 2 - Distribuição do Salário Semanal dos Operários da Empresa X, e Cálculos Intermediários para Obtenção de µ .
Para o cálculo da média deve-se inicialmente obter os pontos médios (Xi) e então
proceder como no exemplo anterior.
reais. O que representa um salário semanal médio de 102 reais.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
Propriedades da média: a) A média de um conjunto de números pode sempre ser calculada.
b) Para um dado conjunto de números, a média é única.
c) A média é sensível a (ou afetada por) todos os valores do conjunto. Assim, se um
valor se modifica, a média também se modifica.
d) A soma algébrica da diferença de cada valor observado e a média é nula.
(∑d = 0 sendo d = Xi - ) ou (∑d*fi = 0 sendo d = Xi - ).
A média de uma constante é a constante.
e) A média ficará aumentada ou diminuída da quantidade que for adicionada ou
subtraída todos os dados.
f) A média ficará multiplicada ou dividida pela quantidade que for multiplicar ou
dividir todos os dados.
g) Multiplicando ou dividindo todos os pesos (f) pelo mesmo número a média não se
altera.
Observação: Não esquecer a “unidade junto ao valor da média”.
Principais características da média: a) Depende de cada valor da série e qualquer alteração de um deles altera seu valor.
b) É influenciada por valores excepcionais.
c) Representa uma série cujos valores estão ou se aproximam de uma progressão
aritmética.
d) É a medida mais empregada.
MEDIANA
Medida de tendência central que divide a série ordenada (crescente ou decrescente)
exatamente ao meio, ou seja, em 2 partes iguais. 50% antecedem e 50% da
distribuição sucedem seu valor.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
a) Para uma pequena quantidade de dados (dados brutos2).
A mediana é o valor médio ou a média entre os valores centrais. É importante que
eles estejam ordenados.
Exemplo ilustrativo 1: Imagine que na inspeção de um produto foram obtidas 7 amostras de uma substância
cujas massas em gramas resultaram no seguinte conjunto:
{3,2 - 3,3 - 3,4 - 3,4 - 3,6 - 3,5 - 3,4}
Os dados ordenados: 3,2 – 3,3 – 3,4 – 3,4 – 3,4 – 3,5 – 3,6
Portanto a mediana é 3,4 gramas. Ou seja, a metade das amostras obteve até 3,4
gramas de massa.
b) Para dados agrupados em uma distribuição de freqüência simples.
A mediana é obtida seguindo os passos abaixo.
- calcula-se a Fi (freqüência acumulada);
- calcula-se a posição: , se ∑f for par, e se for ímpar.
- localiza-se P na Fi.
- procura-se o valor de X correspondente da Fi que contém P. Este valor será a
mediana.
Exemplo ilustrativo 2:
Seja X o número de filhos dos empregados do setor de produção de uma empresa.
Considere estes uma população.
Tabela 3 – Distribuição do Número de Filhos dos Empregados do Setor de
produção, e Cálculos Intermediários para Obtenção da Me.
2 Representam dados que não foram tabelados.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
c) Para dados agrupados em uma distribuição de freqüência em classes.
Nº cálculo da mediana utiliza-se os mesmos procedimentos vistos no item “b” e a
fórmula:
Exemplo ilustrativo 3:
Seja X o salário semanal dos operários da Empresa X medidos em reais.
Tabela 4 – Distribuição do Salário Semanal dos Operários da Empresa X, e Cálculos Intermediários para Obtenção da Me.
Me = 2 filhos. Portanto, 50% dos empregados têm até 2 filhos.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
reais. Ou seja, a metade
dos operários recebe até 102,22 reais por semana.
VANTAGENS E LIMITAÇÕES DA MEDIANA: a) É menos sensível a valores extremos do que a média.
b) É difícil de determinar para grandes quantidades de dados.
c) Mais adequada para distribuições muito assimétricas.
COMPARAÇÕES ENTRE MÉDIA E MEDIANA
Em geral, dado um conjunto de valores, a média é a medida de posição central mais
adequada, quando se supõe que estes valores tenham uma distribuição razoavelmente
simétrica, enquanto que a mediana surge como uma alternativa para representar a
posição central em distribuições muito assimétricas, mesmo assim, para variáveis que
supostamente tenham distribuições razoavelmente simétricas, a média e a mediana
podem não se igualar, já que, em geral, estamos observando apenas alguns valores
(amostras) destas variáveis.
MODA (Mo)
A moda é definida como a realização mais freqüente do conjunto de valores
observados. Em alguns casos pode haver mais de uma moda, ou seja, a distribuição dos
valores pode ser bimodal (duas modas), trimodal (três modas), etc.
A moda é o valor ou os valores que ocorrem com maior freqüência, logo é uma
medida de concentração.
Num rol a moda é localizada imediatamente, é o valor que mais repete.
a) Para uma pequena quantidade de dados (dados brutos).
A moda “Mo” é o valor que ocorre com maior freqüência.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
Exemplo ilustrativo 1:
Imagine que na inspeção de um produto foram obtidas 7 amostras de uma substância
cujas massas em gramas resultaram no seguinte conjunto:
{3,2 - 3,3 - 3,4 - 3,4 - 3,6 - 3,5 - 3,4}
Ordenam-se os dados para ter uma visão melhor:
3,2 – 3,3 – 3,4 – 3,4 – 3,4 – 3,5 – 3,6
Portanto a moda é 3,4 gramas, pois é o valor que mais aparece.
b) Para dados agrupados em uma distribuição de freqüência simples.
A moda é o valor que ocorre com maior freqüência.
Moda para dados agrupados com intervalos de classe
VARIÁVEIS CONTÍNUAS E O USO DA MODA
Existem várias maneiras para determinarmos a moda de uma variável contínua,
optaremos pela moda de PEARSON.
Segundo PEARSON, a moda de uma variável contínua pode ser obtida através do valor
da média e da mediana.
A classe de maior freqüência será chamada de classe modal
Exemplo: Calcule a moda de Pearson para a distribuição de freqüência.
Classe Int. cl. fi xi Xifi Fi
1
2
3
4
0 ⏐⎯ 10
10 ⏐⎯ 20
20 ⏐⎯ 30
30 ⏐⎯ 40
1
3
6
2
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
VANTAGENS E DESVANTAGENS DA MODA:
a) é a menos útil para problemas estatísticos, porque se presta a análise matemática;
b) a utilidade da moda se acentua quando um ou dois valores, ou um grupo de valores,
ocorrem com muito maior freqüência que outros. Inversamente quando todos ou quase
todos os valores ocorrem aproximadamente com a mesma freqüência, a moda nada
acrescenta em termos de descrição dos dados.
Conclusão: Das três medidas as mais usadas são a M e Me, pois a Mo nos dá uma
informação mais rápida e grosseira.
Características importantes das medidas de tendência central A media aritmética é preferível às demais medidas, para estimar a tendência central, quando se trata de muitas classes de população, por haver menos variabilidade entre as médias aritméticas calculadas a partir de várias amostras aleatórias do que entre as medianas e as modas. A média aritmética pode ser calculada a partir dos dados brutos, sem recorrer a qualquer agrupamento ou ordenação de valores originais, o que não ocorre com a mediana e a moda. Já para a determinação da mediana e da moda, em distribuições de freqüências onde ocorram classes com limites indefinidos (“menos de ...” ou “mais de ...”), não há dificuldade alguma. Em casos como este, todavia, o valor da média não pode ser determinado com exatidão para a série, a menos que figure na tabela o valor total dos itens na classe ou classes que tenham algum extremo (limite superior ou inferior) aberto. A mediana é preferível à média quando se está interessado em conhecer exatamente o ponto médio da distribuição, aquele valor que a divide em duas partes exatamente iguais. E preferível, ainda, quando os resultados extremos são tais que podem afetar sensivelmente o valor da média. A moda é utilizada essencialmente quando pretendemos apenas uma medida rápida e aproximada de tendência central.
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
EXERCICIOS
1. Considere as distribuições do tipo de combustível doméstico usado em 2 cidades, em 2005.
Número de residências Tipo de combustível Cidade A Cidade B Gás 67450 31800
Eletricidade 23800 3450 Outros 6450 3850 Total 97700 39100
a) Identifique quem são as variáveis e qual(is) o(s) tipo(s) também o tipo de série estatística; b) Justifique a proposição: “De forma relativa, a cidade B usa mais gás que a cidade A”; c) Observe o gráfico que segue e analise-o e calcule a média percentual representada pelo gás e eletricidade.
2. O valor médio de comercialização da saca de milho de 60 quilos na Bolsa de Cereais é apresentado abaixo, para os últimos 20 meses.
6,0 6,3 6,5 6,8 7,0 7,1 7,1 7,1 7,3 7,4 7,4 7,4 7,4 7,5 7,7 7,7 7,9 7,9 8,0 8,0
Pede-se: Construa uma tabela de freqüências e calcule a média, moda e mediana. 3. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo, indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metrô e trem, o número de diferentes meios de transporte utilizados foi:
Número de locomoções diárias Freqüência absoluta 1 14 2 12 3 4
Total 30 a) Admitindo que essa amostra represente bem o comportamento do usuário paulistano, determine a porcentagem dos usuários que utilizam mais de um tipo de transporte?
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
b) Calcule as medidas de dispersão. 4. Segundo Secex/BC, o resultado do comércio internacional do Brasil nos anos indicados é dado abaixo. O gráfico faz uma comparação entre a Exportação e Importação e discuta os resultados.
Ano 90 91 92 93 94 95 96 97 Expor. 31,4 31,6 35,8 38,6 43,5 46,5 47,7 53,0 Impor. 20,6 21,0 20,6 25,3 33,1 49,9 53,3 59,8
a) Qual a média de exportação e importação? b) O que o gráfico representa?
5) A tabela abaixo representa as idades de uma amostra.
28 6 17 48 63 47 27 21 3 7 12 39 50 54 33 45 15 24 1 7 36 53 46 27 5 10 32 5 52 11 42 22 3 17 34 56 25 2 30 10 33 1 49 13 16 8 31 22 6 9 2 11 32 25 0 55 23 41 29 4 51 1 6 31 5 5 11 4 10 26 12 6 16 8 2 4 28.
a. Média aritmética simples. b. Divida em classes, conforme a regra já estudada, e encontre a média
ponderada (baseada na freqüência das classes) c. Calcule a moda bruta (considerando as classes) d. Calcule a mediana
6. Marque a questão correta e explique o resultado:
A - Em uma prova de Estatística, 3 alunos obtiveram a nota 8,2 ; outros 3 obtiveram a nota 9,0 ; 5 obtiveram a nota 8,6 ; 1 obteve a nota 7,0 e 1 a nota 8,9. A nota média dos alunos será:
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
1. uma média aritmética simples com valor 8,0 ; 2. uma média aritmética simples com valor 8,7 ; 3. uma média aritmética ponderada com valor 8,0 ; 4. uma média aritmética ponderada com valor 8,5 ; 5. uma média aritmética ponderada com valor 8,6, pois é o de maior freqüência.
Justif: ______________________________________________________________________
B - Um professor, após verificar que toda a classe obteve nota baixa, eliminou as questões que não foram respondidas pelos alunos. Com isso, as notas de todos os alunos foram aumentadas de 3 pontos. Então:
1. a média aritmética ficou alterada, assim como a mediana. 2. apenas a média aritmética ficou alterada. 3. apenas a mediana ficou alterada. 4. não houve alteração nem na média nem na mediana. 5. nada podemos afirmar sem conhecer o número total de alunos.
Justif: ______________________________________________________________________
C - Na tabela primitiva : { 6, 2, 7, 6, 5, 4 } a soma dos desvios em relação à média aritmética é igual a :
1. ao número - 4 2. ao número 8 3. ao número 0 4. ao número 25 5. ao número 4
Justif: ______________________________________________________________________
D - A moda da série { 1, 3, 8, 15, 10, 12, 7 } é :
1. igual a 15 2. igual a 10 3. igual a 7 4. igual a 3,5 5. não há moda, pois não existe repetição de valores.
Justif: ______________________________________________________________________
E - Numa pesquisa de opinião, 80 pessoas são favoráveis ao divórcio, 50 são desfavoráveis, 30 são indiferentes e 20 ainda não têm opinião formada a respeito do assunto. Então a média aritmética será:
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
1. igual a 180, porque todos opinaram somente uma vez. 2. igual a 40, porque é a média entre os valores 50 e 30. 3. igual a 45. 4. igual a 1, porque todos opinaram somente uma vez. 5. não há média aritmética.
Justif: ______________________________________________________________________
F- Segundo o site de VEJA na internet 28% da população brasileira é de origem africana, 32% de origem portuguesa, 20% de origem italiana e 20% de outras origens. Qual é a moda quanto a origem ?
1. 32% 2. 20% 3. 32% da população. 4. origem portuguesa. 5. não podemos identificar a moda por falta de dados.
Justif: ______________________________________________________________________
G- Numa determinada Escola com 300 alunos 34% deles completam o 2º grau em 3 anos e 66% em 4 anos. Qual o tempo médio de conclusão do 2º grau na referida Escola.
1. 7 anos. 2. 3 e 4 anos. 3. 3,66 anos. 4. 3 ou 4 anos. 5. 3,5 anos.
H - Na série estatística formada por { -1 , -2 , 3 , 4 }:
1. a mediana está entre -2 e 3. 2. a mediana é 0,5. 3. a questão 1 e 2 estão corretas. 4. a mediana é 2. 5. não existe mediana, pois não há dados repetidos.
I - Na série estatística formada por { 3 , 1 , 2 , 3 , 6 }:
1. mediana > moda > média. 2. moda < média < mediana. 3. moda = mediana = média. 4. mediana = média e não há moda. 5. média > mediana e não há moda.
Justif: ______________________________________________________________________
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
J - Na série estatística formada por { 3 , 1 , 2 , 3 , 4 } se for alterado o valor máximo:
1. a média poderá ser alterada ou não. 2. a mediana não vai ser alterada. 3. a moda não será alterada. 4. a média será alterada. 5. a mediana vai ser alterada.
Justif: ______________________________________________________________________
K- Quando a medida de posição deve ser o valor mais típico da distribuição utilizamos:
1. a média. 2. a mediana. 3. a moda. 4. a média, a moda e mediana. 5. a moda ou a média.
Justif: ______________________________________________________________________
L- Quando desejamos o ponto médio exato de uma distribuição de frequência, basta calcular:
1. o desvio médio. 2. a média. 3. a moda. 4. a mediana. 5. qualquer medida de posição.
Justif: ______________________________________________________________________
M- Considere uma série estatística com 2351 elementos. A posição da mediana é representada pelo:
1. 1175º elemento. 2. 1176º elemento. 3. ponto médio entre o 1175º e o 1176º elemento. 4. 1175,5º elemento. 5. Impossível resolução, pois não há identificação dos elementos.
Justif: ______________________________________________________________________
N- Dados os conjuntos de números B = { 0 , 1 , 2 , 3 , 4 , 5 } e A = { 220, 225, 230, 235, 240, 245}, podemos afirmar, de acordo com as propriedades da média, que a média de A:
UNIASSELVI DISCIPLINA: PROBABILIDADE E ESTATÍSTICA
PROFESSORA: KASSELANDRA M. SOARES ENGENHARIA CIVIL e AMBIENTAL
1. é igual à constante 220 somada ao produto da média de B por 5. 2. é igual à média de B mais a constante 220. 3. é igual à média de B multiplicada por uma constante arbitrária. 4. é igual à média de B mais a constante 220 e esse último resultado multiplicado
por 5. 5. é igual à média de B multiplicada pela constante 94.
Justif: _________________________________________________________________
top related