Análise de Dados e Simulação
Márcia D’Elia Brancohttp://www.ime.usp.br/~mbranco
Análise ExploratóriaUnidimensional
APOIO COMPUTACIONAL
Software: R
• Vantagem: software livre• Download: http://www.r-project.org/
- Escolher opção Download R- Seguir os passos de instalação
Biblioteca Rcmdr
• Vantagem: ambiente baseado em menus• Deve ser instalada após instalação do R• Instruções de instalação no material de apoio
2
Instalar o pacote Rcmdr
3
Carregar o pacote para utilizá‐lo
4
Exemplo 1. Título do projeto: “Progressão Continuada e Seriação:
um estudo comparativo”.
• Estudo realizado pela Faculdade de Educação da Universidade de São Paulo
• Ano de realização: 2012
• Finalidade: Doutorado
• Análise Estatística: Centro de Estatística Aplicada (CEA12P11) – IME‐USP
5
Exemplo 1.
• Objetivo: Comparar os regimes seriado e continuadodas escolas públicas e compreender o efeito do regimeescolar no desempenho dos alunos.
• Dados: Prova Brasil de 2007 e 2009.
Amostra: 1.128 alunos de 6 escolas
• 2 escolas municipais (regime seriado)
• 4 escolas estaduais (regime continuado)
6
Exemplo 1. Algumas variáveis:
• Proficiência em Português/Matemática (valores de 0 a 500)
• Sexo do aluno (feminino/masculino)
• Escolaridade do pai/mãe (nunca estudou, completou até a 5ªsérie, ensino fundamental completo, ensino médio completo,ensino superior completo)
• Número de livros em casa (valores no conjunto dos naturais)
• Frequência que faz os deveres de casa (nunca ou quase nunca, oprofessor não passa dever de casa, de vez em quando, sempre ouquase sempre)
• Professor corrige o dever de casa (nunca ou quase nunca, de vezem quando, sempre ou quase sempre)
• Escola (municipal, estadual)
7
Importar o conjunto de dados:
Visualizar os dados:
8
Número de livros em casa
Proficiência em Matemática
Discreta
Contínuas
Sexo
Escolaridade do pai
Nominal
Ordinal
9
Variáveis qualitativas
Variáveis quantitativas
Variância (s2)Desvio padrão (s)
Intervalo‐interquartil (Q3 – Q1)Coeficiente de variação (CV)
‐Média (x)Mediana (md) Quartis (Q1, Q3)Máximo (máx)Mínimo (min)
Medidas de posição
Medidas de dispersão
10
Variáveis quantitativas
Estatísticas Resumo
mean sd IQR 0% 25% 50% 75%PROF_MAT 212.4431 51.85155 73.60565 0 176.1596 210.0091 249.7653
100% n355.2183 1228
mean sd IQR 0% 25% 50% 75%PROF_PORT 190.5915 47.01356 63.72711 0 157.1702 189.4499 220.8973
100% n338.6800 1228
11
12
13
Boxplot da prof. em matemática
segundo a escola
Boxplot da prof. em português
segundo a escola
Alguns Comentários:
• Há observações discrepantes para a escola estadual;
• Distribuição dos valores um pouco diferente para as duas escolas.
Os dados também podem ser resumidosconstruindo‐se uma tabela de distribuiçãode frequências .
Distribuição de frequências de uma variávelé uma lista dos valores individuais ou dosintervalos de valores que a variável podeassumir, com as respectivas frequências deocorrência.
14
Construir intervalos de classe
1) Criar uma nova variável
15
Construir intervalos de classe2) Obter a distribuição de frequências da nova variável
Classes(0,59] (59,118] (118,178] (178,237] (237,296] (296,356]
Distribuição de frequências para a variável Proficiência em Matemática
f226296512324 68
fr (%)0.16 2.12 24.10 41.6926.385.54
16
Gráficos
• “Strip Chart” ou “Dotplot”
• “Boxplot”
• Histograma
17
Variáveis quantitativas
18
STRIP CHART ou DOT PLOTExemplo: Dados de performance e design de 10 modelos de carros(1973‐74) retirados do arquivomtcars (disponível no R)
Variáveis: ‐ Número de carburadores‐ Câmbio: manual ou automático
Boxplot
Representa os dados através de um retânguloconstruído com os quartis e forneceinformações sobre os valores extremos.
19
20
“Máximo”
Q3
Mediana
Q1
“Mínimo”
25%
50%
75%
ConstruçãoLS=Q3+1,5(Q3‐Q1)
LI=Q1‐1,5(Q3‐Q1)
“Máximo” é o maior valor menor que LS;
“Mínimo” é o menor valor maior que LI.
Gráficos: Boxplot
21
Professor corrige o dever de matemática/português0: Nunca ou quase nunca1: De vez em quando2: Sempre ou quase sempre
Boxplot da prof. em matemática
segundo a correção do dever pelo professor
Boxplot da prof. em português
segundo a correção do dever pelo professor
22
Exemplo 2.
Título do projeto: “Caracterização Postural de
Crianças de 7 e 8 anos das Escolas Municipais da Cidade
de Amparo/SP”
• Estudo realizado pelo Departamento deFisioterapia, Fonoaudiologia e Terapia Ocupacionalda Faculdade de Medicina da USP
• Ano de realização: 2006• Finalidade: mestrado• Análise Estatística: Centro de Estatística Aplicada (CEA06P24), IME‐USP
23
• Objetivo: caracterizar a postura de crianças dacidade de Amparo/SP, entre sete e oito anos deambos os sexos
• Amostra: 230 crianças com 7 e 8 anos.
• Medidas de postura das crianças foram obtidas.
Exemplo 2.
Variações de postura na criança, associadas aos estágios
de crescimento, surgem em resposta aos problemas de
equilíbrio devido às mudanças nas proporções do corpo.
24
Exemplo 2. Algumas variáveis:
• Sexo (feminino, masculino);
• Peso (em kg);
• Altura (em metros);
• Índice de Massa Corpórea – IMC (em kg/m2);
• Atividade Física (em hs/semana);
• Tipo de Mochila Utilizada (com fixação escapular, comfixação lateral, de carrinho, outros);
• Dominância (destro, canhoto);
• Região da escola;25
• Postura do ombro no plano frontal (cm):foi avaliado o desnível entre os ombros,conforme figura, e anotou‐se a diferençaDireito‐Esquerdo;
• Avaliação da Lordose Lombar (graus): foiavaliado o aumento da lordose lombar(hiperlordose) e a diminuição desta(retificação), pela mensuração do ânguloformado entre os pontos de maiorconvexidade da coluna torácica e da regiãoglútea e o ponto de maior concavidade dacoluna lombar, em ambos lados (Direito eEsquerdo).
Exemplo 2. Algumas variáveis relativas a postura
26
Boxplot do desnível dos ombrosBoxplot do desnível dos ombros
segundo o sexo
Alguns Comentários:
• há uma observação discrepante para meninas;
• não há observações discrepantes para meninos;
• medidas de posição tendem a ser próximas para os dois sexos.27
Boxplots do desnível dos ombros segundo Dominância
Frequências:
Direita 212
Esquerda 17
Ambidestra 1
Alguns Comentários:
• Note que só há uma criança ambidestra;
• Há observações discrepantes para dominância esquerda e direita;
• Distribuição dos valores bem diferente para as duas dominâncias.28
Histograma
Bases iguais
Construir um retângulo para cada classe, com base igualao tamanho da classe e altura proporcional à frequênciada classe (f).
Agrupar os dados em intervalos de classes (distribuição de frequências)
Bases diferentes
Construir um retângulo para cada classe, com base igual aotamanho da classe e área do retângulo igual a frequênciarelativa da classe (fr). A altura será dada por
h = fr/base (densidade de frequência).29
Histograma da altura
Distribuição de frequências paraaltura
Classe de altura f fr (%)
1,10 1,151,15 1,201,20 1,251,25 1,301,30 1,351,35 1,401,40 1,45
Total
733587736181
230
3,0414,3525,2233,4815,657,830,43
10030
31
Exemplo: Classes desiguais
0 3 12 24 60
f
Classes (meses) f fr h
0 |‐ 3 140 0,28 0,093
3 |‐ 12 100 0,20 0,022
12 |‐24 80 0,16 0,013
24 |‐60 180 0,36 0,010
Total 500 1,00
Distribuição das idades (em meses) de uma amostra de 500 crianças
vacinadas
0 3 12 24 60
h0,10
0,02
0,04
0,06
0,08
Forma da Distribuição
32
Variáveis Qualitativas
Os dados podem ser resumidos construindo‐seuma tabela de distribuição de frequências, quequantifica a frequência das distintas categorias.
Variáveis qualitativas do exemplo 2
Dominância
SexoTipo de mochila
33
Variáveis qualitativas
Sexo Freq. (%) Dominância Freq. (%)M 130 56,52 Direita 212 92,17F 100 43,48 Esquerda 17 7,39 N= 230 Ambidestra 1 0,43
N= 230
Medidas descritivas para variáveis qualitativas
34
Tipo Mochila Freq. (%)Escapular 123 53,48Lateral 23 10,00Carrinho 80 34,78Outros 4 1,74N= 230
• Gráfico de setores
• Gráfico de barras
Gráficos
35
Variáveis qualitativas
Gráfico de setores
Um círculo é dividido em tantos setoresquantas forem as categorias da variável.A área de cada setor é proporcional àfrequência da categoria
36
Gráfico de setores para a variável “Tipo de mochila”
Gráfico de setores para a variável “Região da escola”
37
Gráfico de barras
Sobre um eixo, são representadosretângulos, um para cada categoria davariável. A altura do retângulo éproporcional à frequência dacategoria
38
Gráfico de barras para a variável “Tipo de mochila”
Gráfico de barras para a variável “Região da escola”
39