dzisiaj na wykładzie

39
Dzisiaj na wykładzie •Regresja wieloraka – podstawy i założenia •Przykładowe oblicznia w Statistica •Weryfikacja założeń w Statistica •Zadanie

Upload: hayes-serrano

Post on 30-Dec-2015

36 views

Category:

Documents


0 download

DESCRIPTION

Dzisiaj na wykładzie. Regresja wieloraka – podstawy i założenia Przykładowe oblicznia w Statistica Weryfikacja założeń w Statistica Zadanie. Regresja wieloraka. Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi). - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Dzisiaj na wykładzie

Dzisiaj na wykładzie

•Regresja wieloraka – podstawy i założenia

•Przykładowe oblicznia w Statistica

•Weryfikacja założeń w Statistica

•Zadanie

Page 2: Dzisiaj na wykładzie

Regresja wieloraka

Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi)

Page 3: Dzisiaj na wykładzie

Jak przewidzieć odsetek upadków zwierząt przy transporcie?

Jakie zmienne związane są z upadkami zwierząt? Co decyduje o upadkach zwierząt?

Które z nich są najważniejsze i w jakim stopniu są powiązane ze stratami zwierząt?

Typowe zadanie

Page 4: Dzisiaj na wykładzie

regresja pierwszego rzęduy = a + b1x1 + b2x2 + b3x3 + ...

+ e

drugiego rzędu y = a + b1x1 + b2x2x2 + ...

y = a + b1x1 + b2x2 + b3x2x3 +

Dlaczego te regresje są liniowe?

Page 5: Dzisiaj na wykładzie

y = a + b1x1 + b2x2 + b3x3 + ... + e

a to wyraz wolny. Średnia?

b1, b2, b3 – cząstkowe współczynniki regresji to niezależne wkłady każdej ze zmiennych objaśniających

Dlaczego cząstkowe?

Page 6: Dzisiaj na wykładzie

Współczynniki cząstkowe obrazują zależności po uwzględnieniu pozostałych czynników.

przykład: długość włosów i wzrost

Jak je oszacować?

Page 7: Dzisiaj na wykładzie

Jak wyznaczyć prostą regresji

•metoda najmniejszych kwadratów

•metoda najmniejszych kwadratów ważonych

•metoda najmniejszych reszt bezwględnych

Page 8: Dzisiaj na wykładzie

Metoda najmniejszych kwadratów

Wy kr. rozrzutu: upadki (%) wzgldy stans (km)

dy stans (km) = 1,4419 + 15,277 * upadki (%)

Korelacja: r = ,91987

1 2 3 4 5 6 7 8

upadki (%)

20

30

40

50

60

70

80

90

100

110

120

dy

sta

ns

(km

)

95% p.uf ności

Page 9: Dzisiaj na wykładzie

R-kwadrat czyli współczynnik determinacji• Mówi o jakości przewidywania

• R2=30% znaczy 30% wariancji opisane przez zmienne opisujące i 70% wciąż nie opisane (błędy)

Page 10: Dzisiaj na wykładzie

R-kwadrat

R-kwadrat = 1 - SSE / SST

• SSE - suma kwadratów reszt

• SST - suma kwadratów obserwacji

Page 11: Dzisiaj na wykładzie

R-kwadrat skorygowane

R-kwadrat zależy od liczby zmiennych objaśniających! Im więcej zmiennych tym większy.

• R-kwadrat skorygowane NIE zależy od liczby zmiennych objaśniających

• Porównując dwa modelu o różnej liczbie zmiennych patrz na R-kwadrat skorygowane

Page 12: Dzisiaj na wykładzie

R czyli korelacja

• R to pierwiastek z R-kwadrat. Tylko dodatni ( 0 - 1 ) !!!

• wskazuje na stopień powiązania zmiennych

Page 13: Dzisiaj na wykładzie

Zależność między zmiennymi jest liniowa

• Trudne do sprawdzenia• Małe odstępstwa niegroźne• Liniowość oceniamy na oko –

wykresy rozrzutu• Co jeżeli zależność nie jest liniowa?

– transformacja danych– regresja nieliniowa

Page 14: Dzisiaj na wykładzie

Regresja mówi o współwystępowaniu zjawisk, a nie o przyczynach i skutkach!

Regresja liczby kradzieży na liczbę policjantów jest dodatnia!

Page 15: Dzisiaj na wykładzie

Zwodnicza regresja

Jeżeli w modelu umieścisz dużą liczbę zmiennych objaśniających część z nich na pewno będzie istotna.

Im więcej danych tym mniej złudne są wyniki. Ile?

Page 16: Dzisiaj na wykładzie

Reszty mają rozkład normalny

• Ważne przy testowaniu, nie przy szacowaniu

• Stosujemy histogramy reszt i wykresy normalności reszt

• Niewielkie odchylenia nie są groźne• Dobry model daje duży R-kwadrat i

normalność reszt. Czy taki potrafimy znaleźć?

Page 17: Dzisiaj na wykładzie

Nadmiarowość danych

• % upadków przy transporcie tak samo dobrze opisuje liczba przejechanych kilometrów jak i dystans do ubojni (to to samo)

• Statistica daje sygnał o „złym uwarunkowaniu macierzy”, ale nie zawsze.

Page 18: Dzisiaj na wykładzie

Odstające obserwacje

Znacznie przekłamują oszacowania.

Najczęściej to błędy powstałe przy wpisywaniu danych.

Najlepiej usunąć je przed analizą regresji.

Page 19: Dzisiaj na wykładzie

Przykładowe dane

Page 20: Dzisiaj na wykładzie

Analiza bez interakcji z wieloma zmiennymi objaśniającymi ciągłymi

Page 21: Dzisiaj na wykładzie
Page 22: Dzisiaj na wykładzie

Który model jest najlepszy?

• Ten z max. R-kwadrat? Im szerszy model tym większy wsp. determ.

• Lepiej stosować statystykę Fj SSEj / MSE

Page 23: Dzisiaj na wykładzie

Jak wyznaczyć najlepszy model?

• Najlepiej rozpatrywać każdy model z osobna (Statistica tego nie ułatwia).

• Jeżeli więcej zmiennych kandydujących to korzystamy z regresji krokowej

– wstecznej– postępującej

Page 24: Dzisiaj na wykładzie

R. krokowa postępująca

1. Najprostszy model – tylko wyraz wolny

2. Testujemy każdy z osobna, i dodajemy do modelu zmienną, której F>Fwprow.

3. Kontynuujemy - wprowadzamy następne zmienne i usuwamy te, dla których F<Fusun.

Page 25: Dzisiaj na wykładzie
Page 26: Dzisiaj na wykładzie
Page 27: Dzisiaj na wykładzie
Page 28: Dzisiaj na wykładzie

y = -0,27 + 0,04 dystans + 0,45 obsada

BETA to współ., po standaryzacji wszystkich zmiennych na średnią 0 i odch. std=1. Wskazują relatywny wkład każdej zmiennej.

Page 29: Dzisiaj na wykładzie

Po dopasowaniu modelu zawsze analizujemy reszty.

Powtarzamy analizę jeżeli mamy duże wartości odstające!

Page 30: Dzisiaj na wykładzie
Page 31: Dzisiaj na wykładzie

Jeśli jedna lub więcej reszt wychodzi poza granicę ±3s usuwamy dane i powtarzamy analizę.

Wykres reszt wg przypadków

Page 32: Dzisiaj na wykładzie

Odległości Mahalanobisa

• Odległości przypadków przewidywanych od średniej przewidywań.

• Sposób na analizę wartości ekstremalnych po stronie zmiennych objaśniających.

Page 33: Dzisiaj na wykładzie

Wykres odstających wg. przypadków

Page 34: Dzisiaj na wykładzie

Reszty usunięte

•...to reszty jakie byśmy uzyskali, gdyby dany przypadek pominąć przy obliczeniach regresji.

•Jeśli reszta usunięta znacznie się różni od zwykłej reszty standaryzowanej, to dany przypadek przekłamuje całą analizę!

Page 35: Dzisiaj na wykładzie

Reszty wzg. usuniętych reszt

Reszty względem usunięty ch reszt

Zmienna zależna: upadki (%)

-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2

Reszty

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

Us

un

ięte

res

zty

95% p.uf ności

Page 36: Dzisiaj na wykładzie

udział tłuszczu w ciele

•Ważny dla zdrowia•Trudny w pomiarze - wymaga ważenia ciała w wodzie.•Czy można go przewidzieć na podstawie łatwych pomiarów.

Problem na ćwiczenia

Page 37: Dzisiaj na wykładzie

Density determined from underwater weighing Percent body fat from Siri's (1956) equation Age (years) Weight (lbs) Height (inches) Neck circumference (cm) Chest circumference (cm) Abdomen 2 circumference (cm) Hip circumference (cm) Thigh circumference (cm) Knee circumference (cm) Ankle circumference (cm) Biceps (extended) circumference (cm) Forearm circumference (cm) Wrist circumference (cm)

http://lib.stat.cmu.edu/datasets/

dane

BODYFAT

Page 38: Dzisiaj na wykładzie

Zadania na ćwiczenia

•Skonstruuj dobry model predykcji udziału tłuszczu w ciele

•Które zmienne są najlepiej objaśniają udział tłuszczu w ciele człowieka?

•Dokonaj analizy reszt. Usuń przypadki zniekształcające przewidywanie i popraw model.

Page 39: Dzisiaj na wykładzie

zadanie dla chętnych

Zbrodnie Detroit

The data are on the homicide rate in Detroit for the years 1961-1973.FTP - Full-time police per 100,000 populationUEMP - % unemployed in the populationMAN - number of manufacturing workers in thousandsLIC - Number of handgun licences per 100,000 populationGR - Number of handgun registrations per 100,000 populationCLEAR - % homicides cleared by arrestsWM - Number of white males in the populationNMAN - Number of non-manufacturing workers in thousandsGOV - Number of government workers in thousandsHE - Average hourly earningsWE - Average weekly earningsHOM - Number of homicides per 100,000 of population ACC - Death rate in accidents per 100,000 populationASR - Number of assaults per 100,000 population

http://lib.stat.cmu.edu/datasets/detroit

skonstruuj model

predykcji liczby

zabójstw