aula 03 estatística, correlação e...
TRANSCRIPT
1
Aula 03 Estatística, Correlação e Regressão
BIS0005-15Bases Computacionais da Ciência
Prof. Rodrigo de Alencar [email protected]. Rodrigo de Alencar [email protected]
http://bcc.compscinet.org
3
Medidas de tendência central
⚫ Média: valor esperado de uma variável (também chamada esperança ou expectância)
⚫ Mediana: valor intermediário quando listado em ordem (se número de amostras é par, então média aritmética dos dois valores intermediários)
⚫ Moda ou modo: valor que mais ocorre (pode ser mais de um)
Exemplo 1: Abaixo temos as alturas das jogadoras de um time de futebol. Use o LibreOffice para calcular as três medidas acima:
1,60 1,52 1,66 1,68 1,69 1,66 1,64 1,48 1,61 1,66 1,62
4
Medidas de tendência central
No LibreOffice em português:
⚫ Média: MÉDIA(...)
⚫ Mediana: MED(...)
⚫ Moda: MODO(...)
Obs.: → se não há números repetidos, MODO retorna erro (#VALOR! ou #N/A!) → se há mais de uma moda, MODO retorna apenas a menor delas
6
Medidas de variabilidade
Para valores que se distribuem em torno da média, duas medidas indicam o quão concentrados esses valores estão em relação à média (menores = valores mais próx. média)
⚫ Variância (de população): VAR.P(...) O valor esperado entre o quadrado do desvio de cada valor e a média.
⚫ Desvio padrão: DESVPAD(...) Raiz quadrada da variância. Vantagem: está na mesma unidade da variável sendo analisada.
Ex: se X é medida em m (metros), a unidade de var.p(X) é m², mas desvpad(X) está em m, assim como X.
7
Medidas de variabilidade
Outras medidas de variabilidade úteis:
⚫ MÍNIMO(...) : menor valor de uma variável
⚫ MÁXIMO(...) : maior valor
Volte ao exemplo 1 e calcule variância, desvio padrão, mínimo e máximo da altura.
9
Histograma
⚫ Diagrama que mostra a distribuição de valores de uma variável
Faixa de valores da variável dividida em classes.
Qtde. de vezes que um valor da faixa aparece
10
Histograma
Voltando ao exemplo 1, vamos construir o histograma
1. Em algum lugar da planilha, coloque numa coluna os nomes das classes e na coluna adjacente os seus limites superio- res. Selecione a célula à direita do primeiro limite superior.
2. Inserir → Função → Matriciais → FREQUÊNCIA Clique no botão “Próximo >>”
3. Clique na caixa de texto ao lado de “Dados” e selecione as alturas
4. Clique na caixa de texto ao lado de “Classes”, selecione os limites superiores das classes e clique OK
5. Selecione a coluna com os nomes das classes a a coluna com as frequências (use Ctrl) e insira um gráfico de colunas
12
Variáveis dependentes
Até agora, analisamos indepententemente apenas 1 variável.
É comum analisar mais de uma variável para tentar identificar uma relação de dependência entre elas:
A análise visual de tais dependências é feita por meio de gráficos de dispersão.
Variável Independente Variável Depentente
Horas de treinamento Número de acidentes
Número do sapato Altura da pessoa
Cigarros por dia Capacidade pulmonar
Faltas de um aluno Nota do aluno no curso
Peso da pessoa QI
14
Gráfico de dispersão
Índice de sucesso financeiro
Razão indicador/anular independente:
contínua
dependente:contínua Pontos de dados
Linha de tendência:opcional
John M. Coates, Mark Gurnell, and Aldo RustichiniSecond-to-fourth digit ratio predicts success among high-frequency financial tradersPNAS 2009 106:623-628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106
15
Gráfico de dispersão
Exemplo 2:Análise da dependência entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina.
⚫ Copie os dados do exemplo 2 para uma planilha
⚫ Construa o gráfico de dispersão: 1. Selecione as colunas “faltas” e “nota” (com cabeçalhos) 2. Inserir → Gráfico ou Inserir → Objeto → Gráfico 3. Escolha o tipo “XY (Dispersão)” 4. Em elementos do gráfico, coloque título, nomes dos eixos e desmarque “exibir legenda” 5. (opcional) Clique sobre o eixo Y e ajuste o seu intervalo
⚫ Interprete o gráfico
18
Correlação e regressão
As técnicas de correlação e regressão analisam dados amostrais, procurando determinar como duas (ou mais) variáveis estão relacionadas umas com as outras.
Variável Independente Variável Depentente
Horas de treinamento Número de acidentes
Número do sapato Altura da pessoa
Cigarros por dia Capacidade pulmonar
Faltas de um aluno Nota do aluno no curso
Peso da pessoa QI
19
Correlação e regressão
A análise de correlação tem como resultado um número que expressa o grau de relacionamento entre duas variáveis.
A análise de regressão expressa o resultado em uma equação matemática, descrevendo o relacionamento.
Ambas análises geralmente são utilizadas em pesquisas exploratórias.
20
Correlação
Variável independente
Var
iáve
l dep
ende
nte
A análise gráfica do comportamento entre as variáveis mostra a existência de correlação negativa, pois à medida que X cresce, Y decresce
O gráfico mostra que a empresa, ao investir em treinamento, reduz o número de acidentes na fábrica
21
Correlação
A análise gráfica do comportamento entre as variáveis mostra a existência de correlação positiva, pois à medida que X cresce, Y também cresce.
O gráfico mostra que, com o aumento médio da renda da população, o consumo de bens duráveis aumenta.
23
Correlação
Não há correlação linear, o gráfico mostra que não existe evidência de alguma relação entre o peso de uma pessoa com seu Q.I.
25
Correlação: tipos
Podemos ter dois tipos de correlação entre as variáveis:
Correlação linear: a relação entre as duas variáveis é expressa adequadamente por uma reta.
Correlação não-linear: apesar de existir uma relação clara entre as variáveis, esta não pode ser modelada por uma reta.
26
Determinando correlações
Interpretando correlação entre duas variáveis.
● Subjetivamente: visualmente, pelo gráfico
● Objetivamente: usando uma medida de correlação→ Coeficiente de correlação
28
Coeficiente de correlação
O intervalo de variação do coeficiente de correlação r ou coeficiente de correlação de Pearson está entre -1 e 1.
Valor de r próximo de 1: as variáveis X e Y têm forte correlação linear positiva
Valor de r próximo de -1: as variáveis X e Y têm forte
correlação linear negativa
Valor de r próximo de zero: se não existir, ou se existir pouca correlação
linear entre as variáveis X e Y
29
Coeficiente de correlação
r (X ,Y )=cov (X ,Y )
√var (X )var (Y )
Onde:● var(X) : variância de X = valor esperado de [X – média(X)]²
● cov(X,Y) : covariância entre X e Y = valor esperado de [X – média(X)] [Y – média(Y)]
Note que r(X,X) é sempre 1 (uma variável é semprediretamente correlacionada com ela mesma)
30
Coeficiente de correlação
Continuação exemplo 2:Análise da correlação entre o número de faltas de alunos num semestre e suas respectivas notas finais em uma determinada disciplina.
⚫ Use a função CORREL ou PEARSON para obter o coeficiente de correlação.
38
Interpretando o coeficiente r
O significado dado a um valor de r depende de cada contexto em particular.
Na falta de contexto ou melhores informações, podemos usar um guia simples:
Valor absoluto de r Interpretação da correlação
0 a 0,199... bem fraca
0,20 a 0,399... fraca
0,40 a 0,699... moderada
0,70 a 0,899... forte
0,90 e acima muito forte
Fonte: http://leg.ufpr.br/~silvia/CE003/node74.html
39
Coeficiente de correlação
Atenção:
⚫ O coeficiente de correlação de Pearson só funciona para variáveis cuja correlação é linear (ou próxima disso)
⚫ Para outros tipos de correlação (quadrática, exponencial, logarítmica, etc.) é necessário transformar uma das variáveis.
⚫ Correlação, por si só, não implica causa! http://tylervigen.com/page
41
Coeficiente de determinação
⚫ Coeficiente de determinação = r² (= quadrado do coeficiente r) r² está sempre no intervalo [0,1]
⚫ Medida da proporção da variabilidade em uma variável em relação à outra.
⚫ No exemplo anterior: r² = –0,975, logo r² = 0,95 Ou seja, 95% da variação nas notas é devida ao número de faltas.
⚫ Na prática, raramente teremos uma determinação perfeita r²=1 pois existem inúmeros fatores que influenciam as relações entre variáveis na vida real.
43
Regressão
Encontrada uma correlação significante entre duas variáveis, geralmente é necessário prever de que forma uma alteração na variável independente se reflete em alteração na variável dependente.
1. De acordo com a correlação, escolha uma curva: reta, parábola, exponencial, etc.
2. Trace a curva que melhor aproxima os pontos dados
3. Determine a equação dessa curva
O LibreOffice faz isso automaticamente.
44
Regressão no LibreOffice
1. Clique duas vezes sobre o gráfico para permitir edição
2. Clique sobre um dos pontos do gráfico de dispersão e escolha “inserir linha de tendência...”
3. Escolha o tipo e marque “mostrar equação”
f(x) = – 0,39 + 10,57
46
Para casa
Estudar os capítulos 2 e 3 e fazer os exercícios desses capítulos.
Ler o capítulo 4 para a próxima aula
Para entregar no Tidia: Atividade 03
Faça os exercícios 3 e 4 do capítulo 3(págs. 108 e 109 do livro de Bases Computacionais)e entregue um mini-relatório em PDF com duas seções, cada uma versando sobre a solução de um dos exercícios. Explique bem a sua solução!