metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór
TRANSCRIPT
![Page 1: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/1.jpg)
Metody predykcji → analiza regresjiwielokrotnej, nieliniowej i wybór zmiennych
JERZY STEFANOWSKI
Instytut InformatykiPolitechnika Poznańska
TPD – 2009/2010Aktualizacja w 2010
![Page 2: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/2.jpg)
Przebieg wykładu
1. Predykcja z wykorzystaniem analizy regresji
2. Ocena poprawności modelu regresji liniowej
3. Regresja wielowymiarowa4. Ocena modeli predykcyjnych5. Regresja nieliniowa6. Selekcja zmiennych.7. Inne podejścia do predykcji
Pop
rzed
nie
wykła
dy
![Page 3: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/3.jpg)
Przypomnijmy ….• Spróbujmy wspólnie powtórzyć co wiemy na
temat tworzenia i diagnostyki modelu regresji!
• Także dla regresji wielowymiarowej
• Patrz klasyczne środki prezentacji
![Page 4: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/4.jpg)
Ogólny schemat postępowania
Ustalenie założeń i postaci modelu
Szacowanie parametrów strukturalnych modelu na podstawie wyników próby
Weryfikacja modelu:• czy parametry są istotne?• ocena założeń modelu (reszty)• czy zależność jest liniowa?
Wykorzystanie modelu:1. Predykcja zmiennej Y2. Opis zależności między
zmiennymi
NIE
TAK
![Page 5: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/5.jpg)
Trudne przypadki w modelach regresji
![Page 6: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/6.jpg)
Prognoza punktowa w regresji
• Łatwa na podstawie równania regresji.
• Np. oceń obciążenie kart wśród posiadaczy kart, których trasa podróży osiągnie 4000 mil, w okresie o takiej długości jak okresbadany: 05,529640002663,185,2742663,185,274ˆ =⋅+=⋅+= xy
![Page 7: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/7.jpg)
Przedziały predykcji
• (1-α)⋅100% przedział predykcji zmiennej Y
• Rozpiętość przedziału predykcji zależy od odległości wartości x od średniej !
Przykład: posiadacz, który przebył 4000 mil i 95% przedział ufności.• Z analizy danych historycznych:
= 79448/25=3177,92; SSx = 40947557,84 a s = 318,16Ponadto t przy 23 stopniach swobody wynosi 2,069
Stąd przedział 5296,05±676,62 = [4619,43; 5972,67]
• Oznacza to, że w oparciu o wyniki badań można mieć 95% zaufania do prognozy, że posiadacz karty, który przebył trasę 4000 mil w okresie o danej długości obciąży swoją kartę kredytową sumą od 4619.43 do 5972,67$.
( )( )∑ = −
−++⋅⋅± n
i i xxxx
nsty
12
2
2/11ˆ α
x
x
![Page 8: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/8.jpg)
Niepewność w predykcji
• Ograniczenie prognoz punktowych → błędu pochodzące zarówno z niepewności szacunków, jak i losowej zmienności położenia punktów w stosunku do linii regresji.
• Stosuj wtedy tzw. przedziały predykcji (tzw. prognozy przedziałowe).
![Page 9: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/9.jpg)
Zakres przewidywania
• Wartości prognozowane nie powinny zbyt wykraczać poza zakres wartości wykorzystywanych w procedurze szacowania parametrów równania regresji.
![Page 10: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/10.jpg)
Inne spojrzenie na ocenę predykcji
• Przypomnijmy metody oceny klasyfikatorów
• Podejście „empiryczne”
• Podział danych na części ucząca vs. testowa
Training Set – zbiór uczący
Testing SetSkonstruuj model regresji
Oszacuj zdolnośćpredykcji
![Page 11: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/11.jpg)
Podobne schematy podziału danych
Data
PredictionsY N
Results Known
Training set
Testing set
++--+
Model BuilderEvaluate
+-+-
W odróżnieniu od klasyfikacji nie ma etykiet dyskretnych klas, lecz wynik - wartość liczbową zmiennej zależnej
1-1.20.30.7
![Page 12: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/12.jpg)
Ocena predykcji → „Predictor Error Measures”• Pomiar wielkości różnicy między wartością rzeczywistą a przewidywaną• Loss function: measures the error betw. yi and the predicted value yi^
• Absolute error: | yi – yi^| • Squared error: (yi – yi^)2
• Test error (generalization error): the average loss over the test set (n)
• Mean absolute error: Mean squared error:
• Relative absolute error: Relative squared error:
The mean squared-error exaggerates the presence of outliersPopularly use (square) root mean-square error, similarly, root relative
squared error
n
yyn
iii∑
=−
1|ˆ|
n
yyn
iii∑
=−
1
2)ˆ(
∑
∑
=
=
−
−
n
ii
n
iii
yy
yy
1
1
||
|ˆ|
∑
∑
=
=
−
−
n
ii
n
iii
yy
yy
1
2
1
2
)(
)ˆ(
![Page 13: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/13.jpg)
Predykcja w danych zmiennych czasowo – szeregi czasowe
Co to jest szereg czasowy?
• Ciąg obserwacji pewnego zjawiska w kolejnych jednostkach czasu.
• Tzw. funkcja trendu
• Predykcja
• Przesuwane okna
Wykr. zmiennej: SZEREG_GMiesięczna liczba pasażerów (w tysiącach)
Nazwy obs.
SZE
RE
G_G
0
100
200
300
400
500
600
700
0
100
200
300
400
500
600
700
Sty
-194
9K
wi-1
949
Lip-
1949
Paź
-194
9S
ty-1
950
Kw
i-195
0Li
p-19
50P
aź-1
950
Sty
-195
1K
wi-1
951
Lip-
1951
Paź
-195
1S
ty-1
952
Kw
i-195
2Li
p-19
52P
aź-1
952
Sty
-195
3K
wi-1
953
Lip-
1953
Paź
-195
3S
ty-1
954
Kw
i-195
4Li
p-19
54P
aź-1
954
Sty
-195
5K
wi-1
955
Lip-
1955
Paź
-195
5S
ty-1
956
Kw
i-195
6Li
p-19
56P
aź-1
956
Sty
-195
7K
wi-1
957
Lip-
1957
Paź
-195
7S
ty-1
958
Kw
i-195
8Li
p-19
58P
aź-1
958
Sty
-195
9K
wi-1
959
Lip-
1959
Paź
-195
9S
ty-1
960
Kw
i-196
0Li
p-19
60P
aź-1
960
![Page 14: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/14.jpg)
Inne przykłady regresji wielokrotnej
• Warto przeanalizować przykład 4.3. analizy samochodów podany przez Koronacki, Mielniczuk„Statystyka” rozdział 4.3.4
• Przedstawiony opis obejmuje: • Tworzenie modelu regresji liniowej,• Diagnostykę modelu• Identyfikację obserwacji samotnicznych• Selekcje zmiennych
![Page 15: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/15.jpg)
Założenia poprawności stosowania modelu regresji
• Zmienne niezależne x nie są ze sobą silnie skorelowane.• Żadna ze zmiennych niezależnych nie powinna być
kombinacją liniową innych zmiennych niezależnych.• Liczba obserwacji n musi być większa od liczby
parametrów do oszacowania• Zakłada się istnienie modelu liniowego względem
parametrów.
• Jeśli wiele z założeń jest niespełniony nie korzystaj z przedstawionych metod weryfikacji
• Bardziej adekwatny skorygowany współczynnik determinacji (także stosowalny gdy nie ma wyrazu wolnego).
![Page 16: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/16.jpg)
Regresja nieliniowa
![Page 17: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/17.jpg)
Regresja nieliniowa i transformacje do modelu liniowego
• Między zmienną objaśnianą a zmiennymi objaśniającymi mogą zachodzić związki nieliniowe.
• W wielu przypadkach można dokonać transformacji do modelu liniowego poprzez odpowiednie przekształcenia zmiennych.
• Model Y = f(X,b) jest liniowy względem parametrów, jeśli można go przedstawić jako liniową funkcję jednoznacznych przekształceń X, przy czym współczynniki tych przekształceń musza być znane.
∑ == ki kk zbY 1
)(XhZ kk =
![Page 18: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/18.jpg)
Przykłady prostej transformacji
![Page 19: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/19.jpg)
Przykład regresji nieliniowej
• Punkty żywieniowe w latach 1981-1995
151751995
141801994
131961993
121971992
112081991
102151990
92261989
82261988
72271987
62261986
52241985
42201984
32101983
22051982
12001981
tPunktyRok
![Page 20: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/20.jpg)
Punkty żywieniowe c.d
• Zakładamy, że kształt równania jest
• Wprowadzamy zmienne zastępcze
• Rozwiązanie
• a0=188
• a1=11,031
• a2=-0,814
• Weryfikacja
• R2=0.996 s=3,37
• Obie wartości statystyk t < 0.05
2210 tataay ⋅+⋅+=
tz =12
2 tz =
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Z1
2251751995
1961801994
1691961993
1441971992
1212081991
1002151990
812261989
642261988
492271987
362261986
252241985
162201984
92101983
42051982
12001981
Z2yRok
2814.0031.11188 tty ⋅−⋅+=
![Page 21: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/21.jpg)
Przykład regresji nieliniowej – cz.2a
• Opisać kształtowania się depozytów złotowych w oddziale banku w kolejnych kwartałach lat 1994-1996
11370III 96
10320II 96
9303I 96
8240IV 95
7238III 95
6198II 95
5190I 95
4169IV 94
3145III 94
2131II 94
1124I 94
tDEPKwartałDEP / t
100125150175200225250275300325350375400
0 1 2 3 4 5 6 7 8 9 10 11 12
Hipoteza – wykładniczy przebieg tbeaDEP ⋅⋅=
![Page 22: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/22.jpg)
Przykład regresji nieliniowej – cz.2b
• Opisać kształtowania się depozytów złotowych w oddziale banku w kolejnych kwartałach lat 1994-1996
• Rozpatrujemy formę
370
320
303
240
238
198
190
169
145
131
124
DEP
11
10
9
8
7
6
5
4
3
2
1
t
5,914
5,768
5,714
5,481
5,472
5,288
5,247
5,130
4,977
4,875
4.820
Ln(DEP)
ln(DEP) / t
4,6
5
5,4
5,8
0 1 2 3 4 5 6 7 8 9 10 11 12
tbaDEP ⋅+= )(ln)ln(
![Page 23: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/23.jpg)
Depozyty - rozwiązanie
• Rozwiązanie modelu przekształconego
ln(DEP)=4.671+0.111⋅t, R2=0.989, współczynniki istotne.• Przekształcenie odwrotne
tt eeDEP ⋅⋅+ ⋅== 111.0111.0671.4 6.106
![Page 24: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/24.jpg)
Inny przykład dla Statistica – patrz ćwiczenia laboratoryjne
• Dane nt. polskiego rybołówstwa dalekomorskiego (lata 90te).
![Page 25: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/25.jpg)
Statistica – poszukaj modeli nieliniowych• Dwie opcje → na laboratorium sprawdź to?
![Page 26: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/26.jpg)
Możliwości interakcji z użytkownikiem
• „User defined quadratic function”
![Page 27: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/27.jpg)
Regresja nieliniowa cd.
• Model funkcji kwadratowej (a co z innymi?)
49,5817079,3025071,0 2 −⋅+⋅−= xxy
![Page 28: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/28.jpg)
Statistica – inna opcja• „Fitting fixed nonlinear basic functions”
![Page 29: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/29.jpg)
Różne wskazówki co do transformacjiJ.Koronacki, J.Mielniczuk: Statystyka rozdział 4.2
• Spójrz ogólne zasady doboru transformacji dla różnych typów zależności między zmiennymi.
Także inne pozycje:
• M.Walesiak: Metody analizy danych marketingowych
• Rozdział 3.5 ogólne zasady transformacji liniowej dla typowych funkcji nieliniowych (dla kontekstu badań marketingowych)
![Page 30: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/30.jpg)
Inne spojrzenie na nieliniowość
• Nie wszystkie modele są tak proste; funkcje nieliniowe mogą być bardziej złożone → nie nadają się do omówionych linearyzacji
• Regresja nieparametryczna → przybliżona postać nie jest znana badaczowi z dokładnością do wybranych parametrów
• Przeczytaj więcej w rozdziale 5tym książki Koronacki, Ćwiek „Statystyczne systemy uczące się” wyd. 2
przykład funkcji nieliniowej
-1,5
-1
-0,5
0
0,5
1
1,5
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
x
t
Produkcja cementu (tysiące ton)
0
500
1000
1500
2000
lis-94 maj-95 gru-95 lip-96 sty-97 sie-97 lut-98
![Page 31: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/31.jpg)
Różne funkcje
• Przykład trudniejszych funkcje – regresja nieparametryczna
![Page 32: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/32.jpg)
Funkcje składane / sklejane
• Estymując funkcję regresji staramy się uwzględnić w modelu własności lokalne
• Składanie funkcji bazowych zdolnych lokalnie przybliżyć własności pewnych podobszarów dziedziny
• Regresyjne funkcje sklejane z węzłami
∑ =+= pj jfy 1 ),( βα x
Locally weighted regression
![Page 33: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/33.jpg)
Zajrzyj do prac nt. zaawansowanych modeli• Rozdział przeglądowy w
„The Data Mining andKnowledge DiscoveryHandbook” O.Maimon, L. Rokach (eds), Springer2005.
• Także J.Koronacki, Ćwik „Statystyczne systemy uczące” 2 wydanie rozdział 5ty.
![Page 34: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/34.jpg)
Aproksymacja radialnymi funkcjami kołowymi RBF
• Zadanie aproksymacji • Przyjmijmy funkcje liniową względem parametrów w
wykorzystującą funkcje o symetrii kołowej RBF
• Radialna funkcja bazowa → funkcja ϕ o postaci ϕ(x,c)= ϕ(r(x,c)) , gdzie r jest odległością między punktami x i c. Punkt c nazywamy centrum
• Związek funkcji radialnym z funkcjami jądrowymi (kernals), z parametrem σ szerokością jądra
Nidf ii ,,1)( K=∀=x
∑ = −⋅= mi ii cwf 1 )()( xx ϕ
![Page 35: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/35.jpg)
Przykład aproksymacji funkcji sinsus• Za wykład prof. A.Bartkowiak Uniw. Wrocławski
![Page 36: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/36.jpg)
Metody doboru zmiennych do modelu
• Zmienne wybiera się na podstawie wiedzy dziedzinowej.
• Wymagania nt. własności zmiennych niezależnych:
• Są silnie skorelowanych ze zmienną, którą objaśniają.
• Są nieskorelowane lub co najwyżej słabo skorelowane ze sobą.
• Charakteryzują się dużą zmiennością.
• Jak wykorzystać współczynniki korelacji?
22,
22,
2 −
−∗
+−=
n
n
tn
tr
α
α
![Page 37: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/37.jpg)
Ocena zmiennych objaśniających• Przykład doboru zmiennych do modelu opisującego miesięczne spożycie ryb
(w kg na osobę) w zależności od: spożycia mięsa x1, warzyw x2, owoców x3, tłuszczów x4 oraz wydatków na lekarstwa x5.
560,050,190,42315
390,050,130,311214
300,261,221,225513
300.241,221,225512
230,341,461,467711
30,050,110,112310
30,190,560,56249
600,030,090,09458
530,010,010,02007
660,00,010,02006
600,00,00,01005
440,040,260,26234
110,10,440,44333
12,770,141,071,07332
14,10,120,630,63331
x5X4X3X2X1ynr
![Page 38: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/38.jpg)
Dobór zmiennych do modelu
• Współczynniki zmienności
• Macierz współczynników korelacji
0,6320,9441,00,9170,7540,635
X5x4x3x2x1y
x5x4x3x2x1y
X5x4x3x2x1y
1-0,539-0,503-0,477-0,395-0,442
10,9510,9460,8600,813
10,9910,8510,748
10,8430,750
10,950
1
![Page 39: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/39.jpg)
Trochę obliczeń
• Wartość krytyczna
• Słaba korelacja?
r(y,x5) =-0.442 → odrzucamy x5
• Wybieramy najsilniejszą zmienną
r(y,x1)=r1=0.950 → wybieramy x1
Co z pozostałymi zmiennymi?
5139.0264107.06656,413
6656,4==
+=∗r
![Page 40: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/40.jpg)
Regresja krokowa• Postępująca (forward)
• Zakłada kolejne dołączanie do listy zmiennych objaśniających tych zmiennych, które mają najistotniejszy wpływ na zmienną zależną.
• Wsteczna (backward)
• Usuwamy ze zbioru zmiennych, ta które mają najmniejszy wpływ na zmienną zależną.
• Stosując R2 lub testy istotności współczynników modelu (F).
![Page 41: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/41.jpg)
Regresja wielokrotna - Statistica
![Page 42: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/42.jpg)
![Page 43: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/43.jpg)
Regresja krokowa
![Page 44: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/44.jpg)
• Generalized linear model:
• Foundation on which linear regression can be applied to modelingcategorical response variables
• Variance of y is a function of the mean value of y, not a constant
• Logistic regression: models the prob. of some event occurring as a linear function of a set of predictor variables
• Poisson regression: models the data that exhibit a Poisson distribution
• Log-linear models: (for categorical data)
• Approximate discrete multidimensional prob. distributions
• Also useful for data compression and smoothing
• Regression trees and model trees
• Trees to predict continuous values rather than class labels
Inne zaawansowane modele regresji
![Page 45: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/45.jpg)
Regression Trees and Model Trees
• Regression tree: proposed in CART system (Breiman et al. 1984)
• CART: Classification And Regression Trees
• Each leaf stores a continuous-valued prediction
• It is the average value of the predicted attribute for the training tuples that reach the leaf
• Model tree: proposed by Quinlan (1992)
• Each leaf holds a regression model—a multivariate linear equation for the predicted attribute
• A more general case than regression tree
• Regression and model trees tend to be more accurate than linear regression when the data are not represented well by a simple linear model
![Page 46: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/46.jpg)
An example regression tree
A3
A7
A2 A4
17.5
11.5 -5.5A1+30.23A6-4.22.1A4-0.1A6+6.7
{V1,V3} {V2,V4}
≥0.5<0.5
{V1,V3}V2 ≥3.4
![Page 47: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/47.jpg)
Sztuczne sieci neuronowe - predykcja
Training ANN means learning the weights of the neurons
![Page 48: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/48.jpg)
Stosowanie sieci neuronowych do predykcji
• Wybór rodzaju sieci: warstwowa MLP albo RBF
• MLP
• Topologia sieci (ile neuronów w warstwie ukrytej)
• Rodzaj neuronów (dobór funkcji aktywacji i parametrów)
• Algorytm uczenia (BP) i warunki zatrzymania
• Unikaj przeuczenia!
• Konieczność posiadania właściwego i odpowiednio licznego zbioru uczącego. y
x
y
x
![Page 49: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/49.jpg)
Logistic regression
• Problem: some assumptions violated when linear regression is applied to classification problems
• Logistic regression: alternative to linear regression
• Designed for classification problems
• Tries to estimate class probabilities directly• Does this using the maximum likelihood method
• Uses this linear model:
P= Class probability
kkawawawawP
P++++=⎟
⎠⎞
⎜⎝⎛−
K2211001log
witten&eibe
![Page 50: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/50.jpg)
Modele predykcji zmiennej liczbowej w WEKA
![Page 51: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/51.jpg)
Wczytywanie danych
![Page 52: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/52.jpg)
Regresja wielokrotna liniowa
![Page 53: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/53.jpg)
Inne metody
![Page 54: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/54.jpg)
Zastosowania – bardzo dużo …• Finance
• Marketing
• Economical sciences
• Biology and Medical Science
• Behavioral and social sciences
• Psychology
• Environmental science
• Agriculture
• …
![Page 55: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/55.jpg)
Applications – few words more …• Finance:
• The capital asset pricing model uses linear regression as well as the other predictive models for analyzing and quantifying thesystematic risk of an investment.
• Marketing• Analysis of sales, demands for products, …
• Economical sciences• Macro-economical models for countries, etc.
• Biology and Medical Science• The scale of illness depeneding on epidemiology indicaters
• Behavioral and social sciences • Psychology• Environmental science
• E.g. to measure the effects of pulp mill or metal mine effluent on the aquatic ecosystem
![Page 56: Metody predykcji → analiza regresji wielokrotnej, nieliniowej i wybór](https://reader034.vdocuments.site/reader034/viewer/2022042619/587614f61a28abb06f8b8f11/html5/thumbnails/56.jpg)
Literatura
• Statystyka dla studentów kierunków technicznych i przyrodniczych, Koronacki Jacek, Mielniczuk Jan, WNT, 2001.
• Statystyczne systemy uczące się, Koronacki, Ćwik, WNT 2009 (2 wydanie)
• Statystyka w zarządzaniu, A.Aczel, PWN 2000.• Metody i modele eksploracji danych. D. Larose, PWN 2008.• Przystępny kurs statystyki, Stanisz A., 1997 (kol. wyd.)
• Tom 2 → poświęcony wyłącznie analizie regresji!• Statystyka. Ekonometria. Prognozowanie. Ćwiczenia z Excelem. A.
Snarska, Wydawnictwo Placet 2005.
• I wiele innych …• Przykłady zastosowań → także czytelnia firmy Statsoft