tema - university of belgrade
TRANSCRIPT
Matematiฤki fakultet
Univerzitet u Beogradu
Tema
Logistiฤka regresija
Student: Sanja Paลกanjski 1107/2013
Mentor: Slobodanka Jankoviฤ
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
Sadrลพaj
1 Uvod .......................................................................................................................................... 1
2 Logistiฤka funkcija ..................................................................................................................... 2
2.1 Maltusov populacioni model ............................................................................................. 2
2.2 Logistiฤki Verhulstov model .............................................................................................. 3
3 Logistiฤka regresija .................................................................................................................... 7
3.1 Regresija ............................................................................................................................ 7
3.2 Uopลกteni linearni modeli ................................................................................................... 8
3.3 Logistiฤka regresija ............................................................................................................ 9
3.4 Logit transformacija ........................................................................................................ 12
3.5 Verovatnoda i ลกansa dogaฤaja ........................................................................................ 13
4 Parametri logistiฤke regresije .................................................................................................. 15
4.1 Znaฤenje parametara ..................................................................................................... 15
4.2 Ocenjivanje parametara .................................................................................................. 17
4.2.1 GSK metod ..................................................................................................................... 20
4.3 Testiranje znaฤajnosti parametara .................................................................................. 22
4.3.1Test koliฤnika verodostojnosti ........................................................................................ 22
4.3.2Wald-ov test .................................................................................................................... 24
4.3.3Score test......................................................................................................................... 25
4.4 Intervali poverenja za parametre .................................................................................... 26
5 Tumaฤenje modela .................................................................................................................. 27
5.1 Binarna nezavisna promenljiva ....................................................................................... 28
5.2 Politohomna nezavisna promenljiva ............................................................................... 31
5.3 Neprekidna nezavisna promenljiva ................................................................................. 34
5.4 Interakcija izmeฤu promenljivih ..................................................................................... 35
5.5 Identifikacija vaลพnih opservacija ..................................................................................... 36
5.5.1Autlajeri ........................................................................................................................... 36
5.5.2Delta-beta statistika ........................................................................................................ 37
6 Kreiranje modela i procena slaganja modela sa podacima..................................................... 39
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
6.1 Izbor promenljivih u model ............................................................................................. 39
6.2 Procena slaganja modela sa podacima ........................................................................... 40
6.2.1 Pirsonov๐๐ test i odstupanje .................................................................................. 41
7 Zakljuฤak .................................................................................................................................. 43
8 Literatura ................................................................................................................................. 44
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
1
1 Uvod
Regresija se koristi za opisivanje i predviฤanje zavisne promenljive na osnovu skupa nezavisnih
i prvi put se pojavila krajem 19. veka. Ukoliko je zavisna promenljiva binarna, tada logistiฤka
regresija daje bolje rezultate od linearne, pa se ฤeลกde i koristi.
Kako se binarne promenljive pojavljuju u mnogim sferama ลพivota, logistiฤka regresija ima ลกiroku primenu. Prvi put se pojavila sredinom 20. veka a do danas je naลกla primene u medicini, biologiji, maลกinskom kodiranju, marketingu i raznim drugim istraลพivanjima. Na osnovu nje se moลพe prouฤiti efikasnost leka, koji su spoljni uticaji na bolesti, da li se dati tekst i u kojoj meri poklapa sa proizvoljnim drugim tekstom, da li su ispitanici zainteresovani za kupovinu proizvoda i sliฤno. Logistiฤka funkcija je prepoznatljiva po svom S-obliku pomodu koga se najlakลกe moลพe proceniti stopa rasta neke populacije ili odnos broja starosedelaca u odnosu na broj doseljenika nekog grada.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
2
2 Logistiฤka funkcija
2.1 Maltusov populacioni model
Tomas Robert Maltus (Thomas Robert Malthus) je u svom poznatom delu An essay on the principle of population as it affects the future improvement of society objavljenom 1789. godine, izneo svoje populacionistiฤko glediลกte koje je povezao sa bioloลกko-evolucionistiฤkim i organistiฤkim shvatanjem ฤoveka i druลกtva ipokuลกao da skrene paลพnju javnosti na problem prenaseljenosti. Maltus je tvrdio da ฤoveฤanstvo moลพe opstati samo ako rast populacije bude povremeno prekidan povedanjem smrtnosti โ epidemijama, ratovima, oskudicama, ograniฤenim raฤanjem i katastrofama.[20] Prema njemu, sa povedanjem broja stanovnika, povedava se i potrebna koliฤina hrane i drugih resursa neophodnih za preลพivljavanje, ali to povedanje raste aritmetiฤkom progresijom jer je zemlja proizvodni resurs sa ograniฤenim kapacitetom, dok broj stanovnika raste geometrijskom progresijom. Kako se broj stanovnika povedava brลพe od koliฤine resursa, posle izvesnog vremena zavladade oskudice. Takvo stanje se naziva Maltusova (demografska) katastrofa.
Ako broj stanovnika na planeti u nekom trenutku ๐ก0 oznaฤimo sa ๐ 0 , a sa ๐ oznaฤimo parametar koji opisuje priraลกtaj stanovniลกtva, tada imamo da de u slededem trenutku broj stanovniลกtva biti ๐ 1 = ๐๐ 0 . Pod pretpostavkom da su vremenski intervali jednake duลพine u slededem trenutku dobijamo da broj stanovnika iznosi ๐ 2 = ๐๐ 1 = ๐2๐ 0 ... Posle ๐ vremenskih intervala dobijamo da broj stanovnika na planeti iznosi ๐ ๐ = ๐๐๐ 0 . Kako je parametar priraลกtaja ๐ > 1, populacija se povedava i broj stanovnika, bez obzira na poฤetnu vrednost ๐ 0 , teลพi beskonaฤnosti.
Ako se sa๐พ oznaฤikonstantna brzina raฤanja u jedinici vremena (stopa nataliteta), a sa ๐ฟ konstantna brzina umiranja(stopa mortaliteta), tada vaลพi da je konstantan priraลกtaj u jedinici vremena ๐ = ๐พ โ ๐ฟ. Na osnovu toga, ako se sa ๐ ๐ก oznaฤi veliฤina populacije u trenutku ๐ก, posle vremena ๐ฅ๐ก, pri ฤemu je ๐ฅ๐ก malo, imamo
๐ ๐ก + ๐ฅ๐ก = ๐ ๐ก + ๐๐ ๐ก ๐ฅ๐ก.
Prelaskom na limes kad ฮ๐ก โ 0, dobijamo
๐โฒ ๐ก = ๐๐ ๐ก (1)
๐ 0 = ๐0
odakle dobijamo:
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
3
๐๐ ๐ก
๐๐ก= ๐๐ ๐ก
๐๐ ๐ก
๐ ๐ก = ๐๐๐ก
๐๐ ๐ ๐ก = ๐๐ก + ๐
๐ ๐ก = ๐ถ๐๐๐ก .
Iz poฤetnog uslova imamo da je ๐ถ = ๐0, odakle sledi da je๐ ๐ก = ๐0๐๐๐ก , odnosno da veliฤina
populacije eksponencijalno zavisi od vremena. Ovakav model se naziva Maltusov populacioni model. [20]
Slika 1. Maltusov populacioni model
Glavni nedostatak ovog modela je taj ลกto se pretpostavlja da je stopa rasta populacije konstantna ฤime se, bez obzira na to kolika je ta konstanta, za kratko vreme moลพe dostidi nerealna veliฤina populacije.
2.2 Logistiฤki Verhulstov model
Pjer Fransoa Verhulst (Pierre Francois Verhulst) je oko 1830. godine modifikovao Maltusov populacioni model, a skoro vek kasnije taj isti model su pronaลกli ameriฤki nauฤnici Loel Rid (Lowell Jacob Reed) i Rejmond Perl (Raymond Pearl). [8] Smatrajudi da nijedna sredina ne moลพe da odrลพava neograniฤen rast populacije, Verhulst je napravio model u kome su resursi ograniฤeni, pa samim
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
4
tim je i rast populacije ograniฤen konstantom. Osnovna razlika u odnosu na Maltusov model je u tome ลกto stope nataliteta i mortaliteta nisu konstantne, ved zavise od veliฤine populacije i date su sa:
๐พ ๐ก = ๐พ0 โ ๐พ1๐ ๐ก
๐ฟ ๐ก = ๐ฟ0 + ๐ฟ1๐ ๐ก ,
gde su ๐พ0, ๐พ1, ๐ฟ0 i ๐ฟ1 nenegativne konstante. U ovom modelu se smanjuje brzina raฤanja i povedava brzina umiranja.
Oznaฤimo sa ๐ = ๐พ0 โ ๐ฟ0 maksimalan priraลกtaj populacije i neka je ๐ = ๐พ1 โ ๐ฟ1, ๐, ๐ > 0. Tada imamo da priraลกtaj ๐ iznosi
๐ ๐ก = ๐พ0 โ ๐ฟ0 โ ๐พ1 + ๐ฟ1 ๐ ๐ก ,
odnosno
๐ ๐ก = ๐ โ ๐๐ ๐ก .
Poฤetni problem 1 sada se transformiลกe u
๐โฒ ๐ก = ๐ โ ๐๐ ๐ก ๐ ๐ก
๐โฒ ๐ก = ๐๐ ๐ก โ ๐๐ ๐ก 2
๐โฒ ๐ก = ๐ 1 โ๐
๐๐ ๐ก ๐ ๐ก
๐โฒ ๐ก = ๐ 1 โ1
๐พ๐ ๐ก ๐ ๐ก ,
uz uslov
๐ 0 = ๐0.
Na osnovu prethodne jednaฤine moลพe se zakljuฤiti da veliฤina populacije na poฤetku raste eksponencijalno sa stopom rasta ๐, odnosno ponaลกa se u skladu sa Maltusovim modelom, a kasnije
se taj rast smanjuje kako se veliฤina populacije pribliลพava svom ograniฤenju ๐พ =๐
๐ jer izraz u
zagradi teลพi nuli. Konstanta ๐พ se naziva maksimalni kapacitet populacije. Za ljudsku populaciju je izraฤunato da je ๐ = 0.029, ๐ = 2.695 โ 10โ12 , odnosno da je ๐พ โ 10,76 โ 109. Osim na ljudsku ovaj model se moลพe primeniti i na ลพivotinjsku i biljnu populaciju. Poznat je ฤuveni eksperiment
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
5
nemaฤkog biologa Gausa (Gause) koji je stavio pet jedinki Paramecium Caudatum-a u epruvetu u odgovarajadu sredinu, zbog ฤega je doลกlo do zasidenja posle ฤetiri dana.
Primetimo da je:
๐๐๐พ โ ๐ ๐ก
๐ ๐ก
โฒ
= โ๐โฒ ๐ก
๐ ๐ก 1 โ๐ ๐ก
๐พ
.
Odatle sledi:
๐๐ ๐พ โ ๐ ๐ก
๐ ๐ก = โ๐๐ก โ ๐
๐พ
๐ ๐ก โ 1 = ๐ถ๐โ๐๐ก .
Iz poฤetnog uslova sledi da je ๐ถ =๐พโ๐0
๐0, pa na osnovu toga reลกenje sistema je dato sa:
๐ ๐ก =
๐
๐
1 +๐โ๐๐0
๐๐0๐โ๐๐ก
=๐พ
1 + ๐ถ๐โ๐๐ก.
Ova kriva je poznata pod nazivom logistiฤka kriva a prepoznatljiva je po svom S-obliku zbog ฤega se joลก naziva i S-kriva (slika 2).
Slika 2. Logistiฤki Verhulstov model
Ako je 0 < ๐0 < ๐พ, tada je stopa rasta pozitivna, pa populacija raste kako raste ๐ก. Kada ๐ก โ โ, kriva ๐ ๐ก ima horizontalnu asimptotu ๐ ๐ก = ๐พ. Sluฤaj ๐0 > ๐พ se u praksi retko deลกava a oznaฤava smanjenje populacije jer je tada ๐ ๐ก negativno. Kod ljudske populacije to je posledica
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
6
vanrednih situacija kao ลกto su ratovi, ekonomske krize, velike epidemije, loลกi klimatski uslovi i sliฤno, koji dovode do velikog manjka hrane.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
7
3 Logistiฤka regresija
3.1 Regresija
Prilikom analiziranja podataka neophodno je nadioblik povezanosti izmeฤu zavisne (kriterijumske) i nezavisnih (prediktorskih) promenljivih. Povezavnost izmeฤu promenljivih se analizira regresijom. Reฤ regresija potiฤe od latinske reฤi regressio koja znaฤi vradanje, opadanje, odstupanje. U statistiku je dospela 1855. godine kada je Fransis Galton (Francis Galton) objavio publikaciju pod nazivom Regression towards mediocrity in hereditary stature u kojoj je analizirao visinu sinova u zavisnosti od visine oฤeva. Zakljuฤak ove studije bio je da sinovi ekstremno visokih oฤeva nisu toliko visoki, odnosno da teลพe ka proseku.
Regresija podrazumeva zavisnost jedne sluฤajne promenljive od druge ili viลกe njih. [6] Opลกti model zavisnosti je
๐ = ๐ ๐ + ํ,
gde je ํ sluฤajna promenljiva nezavisna od ๐, pri ฤemu ๐ moลพe biti skalarna ili vektorska veliฤina. [10] Ako je๐ skalarna veliฤina, radi se o jednostrukoj regresiji, inaฤe se radi o viลกestrukoj. Funkcija ๐ opisuje povezanost izmeฤu ๐ i ๐.
Karakteristike povezanosti izmeฤu promenljivih su
- smer koji moลพe biti pozitivan ili negativan u zavisnosti od toga da li rastom jedne promenljive raste ili opada druga promenljiva
- stepen (jaฤina) povezanosti koji uzima vrednosti izmeฤu -1 i 1. Ako je apsolutna vrednost stepena povezanosti bliska jedinici, govorimo o jakoj vezi izmeฤu promenljivih, a ako je bliska nuli, govorimo o slaboj
- oblik (forma) koji moลพe biti linearan ili nelinearan u zavisnosti od toga da li se veza izmeฤu promenljivih moลพe opisati linearnom ili nelinearnom funkcijom. Ako je promenljiva ๐
vektorska promenljiva ๐1, ๐2, โฆ , ๐๐ , tada je linearni model zadat jednaฤinom
๐ = ๐ฝ0 + ๐ฝ1๐1 + ๐ฝ2๐2 + โฏ + ๐ฝ๐๐๐ , gde su ๐ฝ๐๐ = 0, โฆ , ๐koeficijenti linearne regresije.
Joลก jedan pokazatelj povezanosti izmeฤu promenljivih je dijagram rasturanja (povezanosti). Svaka taฤka na dijagramu rasturanja predstavlja par podataka o jednoj statistiฤkoj jedinici. Sa dijagrama se moลพe mnogo toga zakljuฤiti o vezi izmeฤu promenljivih. Na primer, ako su taฤke rasprลกene bez ikakvog pravila, onda se na osnovu dijagrama zakljuฤuje da ne postoji veza izmeฤu njih. Takoฤe, ako je prava linija na dijagramu rasturanja najprihvatljivija za date opservacije onda postoji linearan odnos izmeฤu promenljivih.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
8
Cilj analize podataka je nalaลพenje funkcije koja ih najbolje aproksimira. Takav postupak se ฤesto naziva odreฤivanje regresione linije. Na osnovu analize podatakase moลพe utvrditi koliko je jaka zavisnost izmeฤu ๐ i ๐, kolika je relativna vaลพnost svake nezavisne promenljive u objaลกnjavanju zavisne, koja je najbolja predviฤena vrednost zavisne promenljive za bilo koju kombinaciju nezavisnih promenljivih i koji se obim promene zavisne promenljive moลพe oฤekivati za svaku jedinicu promene svake nezavisne promenljive. Upotrebom regresionih metoda takoฤe moลพemo za poznate vrednosti promenljive ๐ predvideti vrednosti promenljive ๐.
3.2 Uopลกteni linearni modeli
Uopลกteni linearni modeli (general linear models) predstavljaju uopลกtenje linearne regresije tako ลกto dopuลกtaju obeleลพju da ima raspodelu iz eksponencijalne familije raspodela: binomne, normalne,Puasonove,gama raspodelei sliฤno.Za sluฤajnu promenljivu ๐ se kaลพe da pripada eksponencijalnoj familiji raspodela ako se njena gustina ili raspodela verovatnoda moลพe napisati na slededi naฤin:
๐ ๐ฆ, ๐ = ๐ ๐ฆ ๐ก ๐ ๐๐ ๐ฆ ๐ ๐ = ๐๐ ๐ฆ ๐ ๐ +ln(๐ ๐ฆ )+ln(๐ก ๐ ),
gde je ๐ parametar od koga zavisi raspodela, a ๐, ๐, ๐ i ๐กrealne funkcije.
Osnovne karakteristike uopลกtenog linearnog modela su komponenta sluฤajnsoti, komponenta sistematiฤnosti i funkcija veze. [14], [11]
- Komponenta sluฤajnosti definiลกe uslovnu raspodelu obeleลพja ๐๐ (za ๐-tu od ๐ nezavisnih vrednosti) za date vrednosti nezavisnih promenljivih u modelu.
- Komponenta sistematiฤnosti (linearno predviฤanje, prediktor) predstavlja linearnu funkciju nezavisnih promenljivih i data je sa
๐๐ = ๐ฝ0 + ๐ฝ1๐๐1 + ๐ฝ2๐๐2 + โฏ + ๐ฝ๐๐๐๐ .
- Funkcija veze je funkcija koja povezuje komponentu sistematiฤnosti sa funkcijom ๐๐ = ๐ธ ๐๐ i data je sa
๐ ๐๐ = ๐๐ = ๐ฝ0 + ๐ฝ1๐๐1 + ๐ฝ2๐๐2 + โฏ + ๐ฝ๐๐๐๐ .
Zbog invertibilnosti funkcije veze vaลพi da je [7]
๐๐ = ๐โ1 ๐๐ = ๐โ1 ๐ฝ0 + ๐ฝ1๐๐1 + ๐ฝ2๐๐2 + โฏ + ๐ฝ๐๐๐๐ ,
pa se uopลกteni linearni modeli mogu posmatrati i kao linearni modeli transformacija srednje vrednosti obeleลพja ili kao nelinearni regresioni modeli obeleลพja.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
9
3.3 Logistiฤka regresija
Logistiฤka regresija je jedan od modela uopลกtene linearne regresije u kome zavisna promenljiva uzima samo dve vrednosti (binarna promenljiva), a reฤe viลกe od dve, dok nezavisne promenljive mogu biti numeriฤke, kategorijalne ili njihova kombinacija. Zbog prirode zavisne promenljive, logistiฤki regresioni model se naziva joลก i binarni logistiฤki regresioni model (Binary Logistic Regression Model). Zavisna promenljiva se kodira tako ลกto se jednom ishodu dodeljuje 1, a drugom 0, pri ฤemu je svejedno koji se ishod kodira jedinicom, a koji nulom. Na primer, zavisna promenljiva moลพe biti da li je kupljen proizvod A ili proizvod B, da li je proizvod proลกao kontrolu kvaliteta ili ne, da li je pacijent izleฤen ili ne i sliฤno. Zbog svoje prirode, ovakav vid regresije je pogodan u mnogim marketinลกkim, ekonomskim i demografskim istraลพivanjima.
Na primer, ako je zavisna promenljiva da li je proizvod proลกao kontrolu proizvoda, onda se sa 0 moลพe kodirati - proizvod nije proลกao kontrolu proizvoda, a sa 1 - proizvod je proลกao kontrolu proizvoda. Kao nezavisne promenljive moลพemo imati temperaturu, kvalitet materijala, vreme pravljenja i sliฤno.
Slededim primerom demo pokazati nedostatak primene linearne regresije kod binarne zavisne promenljive.
Primer 1 (Podaci su uzeti iz literature [23].): U tabeli 1 su dati podaci koji govore o tome da li odreฤena osoba u zavisnosti od starosti boluje od poviลกenog krvnog pritiska ili ne. Rezultujuda promenljiva je binarna i uzima vrednost 0 ako osoba ne boluje od poviลกenog krvnog pritiska i vrednost 1 ako osoba boluje od poviลกenog krvnog pritiska. U ispitivanju su uฤestvovale 33 osobe.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
10
starost bolest starost bolest starost bolest
22 0 40 0 54 0
23 0 41 1 55 1
24 0 46 0 58 1
27 0 47 0 60 1
28 0 48 0 60 0
30 0 49 1 62 1
30 0 49 0 65 1
32 0 50 1 67 1
33 0 51 0 71 1
35 1 51 1 77 1
38 0 52 0 81 1
Tabela 1.
U sluฤaju da je rezultujuda promenljiva neprekidna, dobija se slededi grafik zavisnosti postojanja poviลกenog krvnog pritiska u odnosu na godine.
Slika 3. Veza izmeฤu starosti i bolesti
Sa grafika se jasno vidi da sve taฤke pripadaju jednoj od dve paralelne prave koje predstavljaju prisustvo (bolest=1) odnosno odsustvo (bolest=0) poviลกenog krvnog pritiska. Grafik ne daje jasnu sliku o vezi izmeฤu starosti i pojave poviลกenog krvnog pritiska, ali se moลพe zakljuฤiti da su starije osobe sklonije tom oboljenju od mlaฤih. Da bi se dala jasnija slika o ovoj zavisnosti, isptanici se dele u grupe prema starosti, odnosno formiraju se intervali za nezavisnu promenljivu i
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
11
raฤunaju se proporcije za rezultujudu promenljivu ๐๐๐๐ ๐๐ ๐๐๐ ๐ ๐ ๐๐๐ฃ๐ ลก๐๐ ๐๐ ๐๐๐ฃ๐๐๐ ๐๐๐๐ก๐๐ ๐๐๐
๐ข๐๐ข๐๐๐ ๐๐๐๐ ๐๐ ๐๐๐ ๐ข ๐๐๐ก๐๐ ๐๐๐ข๐๐ . Na taj naฤin
se dobijaju podaci koji su dati u tabeli 2.
Tabela 2.
Na slici 4 je prikazan grafik sa koga se jasno vidi da se povedanjem godina povedava i rizik od poviลกenog krvnog pritiska.
Slika 4. Veza izmeฤu starosti i bolesti
starost veliฤina grupe
broj obolelih
broj obolelih u procentima
20 โ 29 5 0 0
30 โ 39 6 1 17
40 โ 49 7 2 29
50 โ 59 7 4 57
60 โ 69 5 4 80
70 โ 79 2 2 100
80 โ 89 1 1 100
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
12
3.4 Logit transformacija
Logistiฤka ili logit transformacija se koristi za predviฤanje verovatnode nastupanja pojave koja je kodirana jedinicom. [6] Na primer, ako je jedinicom kodirana kupovina proizvoda A, a nulom kupovina proizvoda B, traลพi se verovatnoda da de odreฤeni kupac kupiti proizvod A. Primenom (viลกestruke) linearne regresije se dobija reลกenje u kojem de zavisna promenljiva uzeti vrednost izmeฤu 0 i 1. Ako je ta vrednost bliลพa jedinici, tada se moลพe zakljuฤiti da de kupac kupiti priizvod A. Meฤutim, ฤesto se deลกava da se primenom linearne regresije dobiju i vrednosti van opsega 0, 1 . Poลกto se ovakve vrednosti ne mogu tumaฤiti kao verovatnoda, linearna regresija u ovakvim situacijama nije dobro reลกenje.
Da bi se dobio logistiฤki regresioni model, potrebno je izvrลกiti odreฤenu transformaciju zavisne promenljive,koja se naziva logit transformacija. Od velikog znaฤaja za logit transformaciju je oฤekivana vrednost zavisne promenljive u odnosu na datu vrednost nezavisne promenljive ๐,๐ธ ๐ ๐ . U opลกtem sluฤaju ๐ธ ๐ ๐ uzima vrednost izmeฤu โโ i +โ, ali kako je promenljiva ๐binarna, ๐ธ ๐ ๐ uzima vrednosti ne manje od 0 i ne vede od 1. Promena u ๐ธ ๐ ๐ po jedinici promene za ๐ postaje progresivno manja kako uslovna sredina postaje bliลพa 0 ili 1. [2]
Poลกto je zavisna promenljiva ๐ dihotomna, promenljiva ๐|๐ฅtakoฤeuzimadvevrednosti. [11] Neka je raspodela promenljive ๐ data na slededi naฤin:
๐: 0 1
1 โ ๐ ๐ ,
gde je 0 โค ๐ โค 1. Tada je sluฤajna promenljiva ๐|๐ฅ odreฤena raspodelom:
๐|๐: 0 1
1 โ ๐ ๐ ๐ ๐ ,
a njeno matematiฤko oฤekivanje je:
๐ธ ๐ ๐ = 0 โ 1 โ ๐ ๐ + ๐ ๐ = ๐ ๐ .
U modelu logistiฤke regresije odnos izmeฤu verovatnode ๐ i promenljive ๐ se predstavlja na slededi naฤin:
๐ ๐ =๐๐ฝ0+ ๐ฝ๐๐ฅ๐
1 + ๐๐ฝ0+ ๐ฝ๐๐ฅ๐. 2
Funkcija ๐ ๐ ima pozitivan prvi izvod, pa je rastuda na svom domenu i ima horizontalnu asimptotu ๐ ๐ = 1, odnosno ima S-oblik. Takoฤe, funkcija je nelinearna po parametrima
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
13
๐ฝ0, ๐ฝ1, โฆ , ๐ฝ๐ , alise odreฤenom logit transformacijom moลพe dovesti do linearnog oblika. Vaลพi
sledede: [3], [4]
๐ ๐ = ๐ ๐ฅ1, ๐ฅ2, โฆ , ๐ฅ๐ = ๐ ๐ = 1 ๐1 = ๐ฅ1, ๐2 = ๐ฅ2, โฆ , ๐๐ = ๐ฅ๐ =๐๐ฝ0+ ๐ฝ๐๐ฅ๐
1 + ๐๐ฝ0+ ๐ฝ๐๐ฅ๐
1 โ ๐ ๐ = 1 โ ๐ ๐ฅ1, ๐ฅ2, โฆ , ๐ฅ๐ = ๐ ๐ = 0 ๐1 = ๐ฅ1, ๐2 = ๐ฅ2, โฆ , ๐๐ = ๐ฅ๐ =1
1 + ๐๐ฝ0+ ๐ฝ๐๐ฅ๐
๐ ๐
1 โ ๐ ๐ = ๐๐ฝ0+ ๐ฝ๐๐ฅ๐
๐ ๐ = ๐๐ ๐ ๐
1 โ ๐ ๐ = ๐ฝ0 + ๐ฝ1๐ฅ1 + โฏ + ๐ฝ๐๐ฅ๐ .
Funkcija ๐๐ ๐ ๐
1โ๐ ๐ se naziva logit transformacija ili logit funkcija. Kako vrednost ๐ ๐
pripada intervalu 0,1 , vrednost logit funkcije se krede od โโ do +โ. [1], [7]
Kod logistiฤke regresije vrednost rezultujude promenljive๐ za dato ๐ se moลพe izraziti kao ๐|๐ = ๐ ๐ + ํ. Najฤeลกdi je sluฤaj da promenljiva ํ ima normalnu raspodelu sa matematiฤkim oฤekivanjem koje je jednako nuli I konstantnom varijansom. Meฤutim, poลกto je sluฤajna promenljiva ๐binarna, ํ ima binarnu raspodelu. Iz ฤinjenice da je ๐|๐ โ ๐ ๐ = ํ sledi da promenljiva ํ uzima vrednost 1 โ ๐ ๐ sa verovatnodom ๐ ๐ (kada je ๐ฆ = 1) i vrednost โ๐ ๐ sa verovatnodom 1 โ ๐ ๐ (kada je ๐ฆ = 0). Dakle, promenljiva ํ ima slededu raspodelu:
ํ: 1 โ ๐ ๐ โ๐ ๐
๐ ๐ 1 โ ๐ ๐
a njeno matemetiฤko oฤekivanje i varijansa iznose ๐ธ ํ = 0 i ๐ท ํ = ๐ ๐ 1 โ ๐ ๐ .
3.5 Verovatnoฤa i ลกansa dogaฤaja
Posmatrajmo binarnu promenljivu ๐ koja uzima vrednost 1 ako se posmatrani dogaฤaj desio i vrednost 0 ako se dogaฤaj nije desio. Srednja vrednost promenljive ๐ predstavlja verovatnodu ostvarenih dogaฤaja tj. ๐ = ๐ ๐ = 1 . Na primer, ako je ๐ = 0.83, tada se od svih posmatranih dogaฤaja ostvarilo njih 83%.[4]
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
14
ล ansa dogaฤaja (odds) predstavlja koliฤnik verovatnode da se dogaฤaj desio i verovatnode da se dogaฤaj nije desio. [8] Ako sa ๐ oznaฤimo verovatnodu da se dogaฤaj desio, tada ลกansa dogaฤaja iznosi:
๐๐๐๐ =๐
1 โ ๐. 3
Na primer, ako je verovatnoda da se dogaฤaj desi 0.83, tada je ลกansa dogaฤaja ๐๐๐๐ = 0.83 0.17 = 4.88, ลกto znaฤi da dogaฤaj ima 4.88 puta vede ลกanse da se desi nego da se ne desi. Iz formule 3 se vidi da ลกansa dogaฤaja rastuda funkcija jer je prvi izvod ลกanse pozitivna funkcija.
Ako je poznata ลกansa dogaฤaja, verovatnoda dogaฤaja se moลพe izraฤunati kao
๐ =๐๐๐๐
1 + ๐๐๐๐ .
U sluฤaju da je verovatnoda ostvarenja dogaฤaja 0.5, tada je ลกansa dogaฤaja 1 i jednaka je ลกansi komplementarnog dogaฤaja. ล to je ลกansa nekog dogaฤaja veda, veda je i verovatnoda da se taj dogaฤaj desi, pa na taj naฤin moลพemo videti da li je veda verovatnoda da se desi neki dogaฤaj ili njemu komplementarni dogaฤaj.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
15
4 Parametri logistiฤke regresije
4.1 Znaฤenje parametara
Posmatrajmo logistiฤki model u kome je sluฤajna promenljiva ๐ jednodimenzionalna, odnosno funkcija ๐ ๐ฅ je definisana na slededi naฤin:
๐ ๐ฅ =๐๐ฝ0+๐ฝ1๐ฅ
1 + ๐๐ฝ0+๐ฝ1๐ฅ.
Koeficijent๐ฝ1se naziva koeficijent nagiba i ukazuje na stopu rasta ili opadanja funkcije ๐ ๐ฅ u zavisnosti od toga da li je ๐ฝ1 pozitivna ili negativna konstanta.[8] Ako je ๐ฝ1 = 0, tada je ๐ ๐ฅ konstantna za sve vrednosti ๐ฅ, pa kriva logistiฤke regresije prelazi u horizontalnu pravu. Nagib
tangente logistiฤke krive je dat izrazom ๐ฝ1๐ ๐ฅ 1 โ ๐ ๐ฅ . Ako je, na primer, ๐ ๐ฅ = 0.5 tangenta
logistiฤke krive ima nagib 0.25๐ฝ1, a ako je ๐ ๐ฅ = 0.9 ili ๐ ๐ฅ = 0.1, taj nagib iznosi 0.09๐ฝ1. Nagib se pribliลพava vrednosti 0, kako se ๐ ๐ฅ pribliลพava 0 ili 1. Najvedi nagib tangente se postiลพe kada je ๐ ๐ฅ = 0.5. [4]
Koeficijent ๐ฝ1 se moลพe izraziti kao razlika logita u taฤkama ๐ฅ + 1 i ๐ฅ, pa se moลพe protumaฤiti kao promena zavisne promenljive koja odgovara jediniฤnoj logita, odnosno๐ฝ1 = ๐ ๐ฅ + 1 โ ๐ ๐ฅ . [7]
Slika 5. S-kriva i njena tangenta
Neka je dat model sa dvodimenzionalnom sluฤajnom promeljivom๐u kome se analizira da li su graฤani za ili protiv zakonodavstva u zavisnosti od pola i stepena privrลพenosti jednoj od dve ideologije: konzervatizmu ili liberalizmu. Pol ๐1 je binarna promenljiva koja uzima vrednost 0 ako je ispitanik ลพensko, odnosno 1 ako je muลกko. Stepen privrลพenosti ideologiji ๐2 moลพe da uzme
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
16
vrednosti od โ3 do 3. Ukoliko je negativan, ispitanik je okrenut viลกe ka konzervatizmu, a ukoliko je pozitivan, okrenut je viลกe ka liberalizmu. Stepen 0 govori da ispitanik nije okrenut nijednoj ideologiji.Zavisna promenljiva uzima vrednost 0, ako ispitanik ne podrลพava zakonodavstvo, a u suprotnom uzima vrednost 1. Pretpostavimo da je logit zadat formulom:
๐ ๐ = ๐๐๐ ๐
1 โ ๐ ๐ = 1.555 โ 1.712๐ฅ1 โ 0.513๐ฅ2.
Na primer, predviฤena vrednost logita za muลกkarca kod koga je stepen privrลพenosti ideologiji2 iznosi
๐ 1,2 = 1.555 โ 1.712 โ 1 โ 0.513 โ 2 = โ1.183.
Eksponencijalnom transformacijom ove vrednosti dobija se ๐โ1.183 = 0.306 ลกto znaฤi da je predviฤena ลกansa za glasanje u korist zakonodavstva kod ovakvog profila ljudi (muลกkarac, stepen privrลพenosti ideologiji iznosi 2) pribliลพno 1 3 . Na sliฤan naฤin se mogu odrediti i ostale ลกanse.
Slobodan koeficijent koji u ovom modelu iznosi 1.555 predstavlja vrednost logita u taฤki 0,0 . Promenljiva pol uzima vrednost 0, ako je osoba ลพenskog pola, pa tako kod osoba ลพenskog pola ฤiji je stepen privrลพenosti ideologiji0, logit uzima vrednost 1.555. Ako je posmatrana osoba muลกkog pola sa istom stepenom privrลพenosti ideologiji, njen logit iznosi โ0.157. Eksponencijalnom transformacijom ovih vrednosti, dobijaju se predviฤene vrednosti ลกansi za muลกki pol ๐โ0.157 =
0.855 i za ลพenski pol ๐1.555 = 4.735. Odnos ลกansi u ovom sluฤaju iznosi 0.855
4.735= 0.1805, ลกto znaฤi da
kod osoba koje nisu okrenute nijednoj od ove dve ideologije muลกkarci imaju 0.1805 puta vede ลกanse da glasaju za zakonodavstvo od ลพena.
Koeficijent uz promenljivu koja oznaฤava pol je โ1.712. Njegovom eksponencijalnom transformacijom se dobija ๐โ1.712 = 0.1805 ลกto je u stvari prethodno izraฤunata vrednost. Dakle, za binarnu promenljivu koja uzima vrednosti 0 i 1 vaลพi da se, ako su ostale vrednosti promenljivih fiksirane, eksponencijalnom transformacijom koeficijenta koji stoji uz nju u jednaฤini logita, dobija odnos ลกansi kod binarne promenljive.
Ukoliko se fiksira vrednost promenljive koja oznaฤava pol (na primer, ๐1 = 0), moลพemo
izraฤunati vrednosti ๐ ๐ i ลกanse glasanja u korist zakonodavstva๐๐ ๐ฅ za razliฤite vrednosti ideologije.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
17
vrednosti promenljive ๐2 ๐ ๐ ๐๐ ๐ฅ 3 0.016 1.017 2 0.529 1.697 1 1.042 2.835 0 1.555 4.735
โ1 2.068 7.909 โ2 2.581 13.21 โ3 3.094 22.065
Tabela 3
U tabeli 3 moลพemo da uoฤimo pravilo po kojem se raฤunaju ลกanse glasanja u korist zakonodavstva. Prilikom povedanja vrednosti promenljive ๐2 za jednu jedinicu, vrednost ลกanse se pomnoลพi faktorom0.599. Na primer, ako se vrednost ลกanse koja je dobijena za vrednost ๐ฅ2 = โ3 pomnoลพi sa 0.599, dobija se 22.065 โ 0.599 = 13.21 ลกto je vrednost ลกanse koja se dobije za vrednost ๐ฅ2 = โ2. Eksponencijalnom transformacijom koeficijenta koji stoji uz promenljivu ๐2, dobija se vrednost ๐โ0.513 = 0.599, ลกto je upravo koeficijent kojim smo mnoลพili vrednosti ลกanse. Kod kvantitativne promenljive, ako su ostale promenljive fiksirane, eksponencijalnom transformacijom koeficijenta koji stoji uz tu promenljivu u jednaฤini logita, dobija se multiplikativni faktor kojim se,ako se pomnoลพi vrednost ลกanse, dobija vrednost ลกanse u taฤki te promenljive povedane za jednu jedinicu. [4]
4.2 Ocenjivanje parametara
Za ocenjivanje nepoznatih parametara kod viลกestruke linearne regresije se koristi metod najmanjih kvadrata koji minimizira sumu kvadrata odstupanja registrovanih vrednosti od predviฤenih vrednosti dobijenih na osnovu modela. Na taj naฤin se dobijaju ocene nepoznatih parametara koje poseduju osobine nepristrasnosti,efikasnosti i osobine BLUE (best linear unbiased estimator โ najbolja linearna nepristrasna ocena) za mali broj podataka i osobine asimptotske nepristrasnosti, asimptotske efikasnosti i konzistentnosti za veliki broj podataka. Kada bi se metod najmanjih kvadrata primenio na binarni model, ocene ne bi imale ove karakteristike.
Prilikom ocenjivanja parametara logistiฤke regresije koristi se metod maksimalne verodostojnosti. Ovaj metod daje vrednosti parametara ๐ฝ๐ , ๐ = 0, โฆ , ๐ koje maksimiziraju verovatnodu dobijanja registrovanog skupa podataka. Funkcija verodostojnosti โ ๐ท =
โ ๐ฝ0, ๐ฝ2, โฆ , ๐ฝ๐ koja se javlja u ovom metodu je funkcija nepoznatih parametara koja predstavlja
verovatnodu koja kombinuje doprinose svih subjekata u ispitivanju. Da bi se naลกle ocene nepoznatih parametara pomodu metode maksimalne verodostojnosti, potrebno je nadi maksimum funkcije verodostojnosti. Pod uslovom da je diferencijabilna, traลพe se one vrednosti parametara
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
18
koje su reลกenje jednaฤine ๐โ ๐ท
๐๐ท= 0. Kako je logaritamska funkcija monotono rastuda na svom
domenu, reลกenja jednaฤina๐โ ๐ท
๐๐ท= 0 se poklapaju sa reลกenjima jednaฤine
๐๐๐ โ ๐ท
๐๐ท= 0, pa je nekad
jednostavnije posmatrati funkciju ๐๐๐โ ๐ท . Neka je dat uzorak od ๐ nezavisnih registrovanih
vrednosti parova ๐๐, ๐ฆ๐ , gde je ๐๐ = ๐ฅ1๐ , ๐ฅ2๐ , โฆ , ๐ฅ๐๐ , a ๐ฆ๐ uzima vrednost 0 ili 1 za svako
๐ = 1, โฆ , ๐.
Neka je raspodela za ๐ data sa
๐: 0 1
1 โ ๐ ๐ .
Na osnovu naลกeg modela imamo da je:
๐ ๐๐ = ๐ ๐ = 1 ๐๐ = ๐๐ =๐๐ฝ0+ ๐ฝ๐๐ฅ๐๐
1 + ๐๐ฝ0+ ๐ฝ๐๐ฅ๐๐
1 โ ๐ ๐๐ = ๐ ๐ = 0 ๐๐ = ๐๐ =1
1 + ๐๐ฝ0+ ๐ฝ๐๐ฅ๐๐
za svako ๐ = 1, โฆ , ๐. Ako je ๐ฆ๐ = 1, doprinos para ๐๐, ๐ฆ๐ funkciji verodostojnosti je ๐ ๐๐ , a ako je ๐ฆ๐ = 0, onda je doprinos jednak 1 โ ๐ ๐๐ , pa je doprinos para ๐๐, ๐ฆ๐ funkciji verodostojnosti
๐ ๐๐ ๐ฆ๐ 1 โ ๐ ๐๐
1โ๐ฆ๐.
Registrovane vrednosti parova su meฤusobno nezavisne pa je funkcija verodostojnosti jednaka proizvodu pojedinaฤnih doprinosa parova ๐๐, ๐ฆ๐ za svako ๐ = 1, โฆ , ๐, odnosno: [11]
โ ๐ท = ๐ ๐ฆ1, ๐ฆ2,, โฆ , ๐ฆ๐ = ๐ ๐ฆ1 โ ๐ ๐ฆ2 โ โฏ โ ๐ ๐ฆ๐
โ ๐ท = ๐ ๐๐ ๐ฆ๐ 1 โ ๐ ๐๐
1โ๐ฆ๐
๐
๐=1
โ ๐ท = ๐ ๐๐
1 โ ๐ ๐๐
๐ฆ๐
1 โ ๐ ๐๐
๐
๐=1
.
Radi jednostavnosti, posmatrademo logaritam funkcije verodostojnosti.
๐๐โ ๐ท = ๐ฆ๐๐๐ ๐ ๐๐
1 โ ๐ ๐๐ + ๐๐ 1 โ ๐ ๐๐
๐
๐=1
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
19
๐๐โ ๐ท = ๐ฆ๐๐๐๐ป๐ท โ ๐๐ 1 + ๐๐๐
๐ป๐ท
๐
๐=1
.
Izjednaฤavanjem izvoda funkcije ๐๐โ ๐ท sa nulom se dobija
๐๐๐โ ๐ท
๐๐ท= ๐ฆ๐ โ
๐๐๐๐ป๐ท
1 + ๐๐๐๐ป๐ท
๐
๐=1
๐๐๐ป = 0. (4)
Kako je sistem jednaฤina (4) nelinearan po ๐ท, reลกenje sistema ๐ท se moลพe nadi nekom iteratvinom metodom. [3] Sistem se moลพe napisati i u ekvivalentnom obliku:
๐๐๐โ ๐ท
๐๐ท= ๐๐ ๐ โ ๐ฌ ๐ = ๐๐ ๐ โ ๐ ,
gde je๐vektor generisan sa ๐๐ = ๐ ๐ = 1 ๐๐ = ๐ ๐๐ = ๐๐ =๐๐๐
๐ป๐ท
1+๐๐๐๐ป๐ท
i ๐ =
1 ๐11 โฏ ๐1๐
1 ๐21 โฏ ๐2๐
โฎ1
โฎ๐๐1
โฑโฏ
โฎ๐๐๐
.
Ako sa ๐oznaฤimo dijagonalnu matricu ๐ = ๐1 1 โ ๐1
โฑ๐๐ 1 โ ๐๐
, tada je Hesijanova
matrica (kvadratna matrica generisana drugim parcijalnim izvodima) logaritma funkcije
verodostojnosti data sa ๐2๐๐โ ๐ท
๐๐ท2= โ๐๐๐๐. Iterativna jednaฤina za dobijanje ocene ๐ท nepoznatog
parametra ๐ทje:
๐ท ๐+1 = ๐ท ๐ + ๐๐๐ ๐ ๐ โ1
๐๐ ๐ โ ๐ ๐ , 5
pa tako za poฤetne vrednosti parametra ๐ฝ = ๐ฝ 0 nalazi se vrednost parametra ๐ฝ = ๐ฝ 1 :
๐ท 1 = ๐ท 0 + ๐๐๐ 0 ๐ โ1
๐๐ ๐ โ ๐ 0 ,
odnosno:
๐ท ๐ = ๐ท ๐ + โ๐2๐๐โ ๐ท ๐
๐๐ท ๐ ๐
โ๐๐๐๐โ ๐ท ๐
๐๐ท ๐ .
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
20
Sliฤno, zamenom u jednaฤinu (5), mogu se nadi i vrednosti ๐ท ๐ , ๐ท ๐ ... Ove vrednosti konvergiraju
ka oceni nepoznatog parametra ๐ท, ๐ท = ๐ฝ 1, ๐ฝ 2, โฆ , ๐ฝ ๐ . Posledica jednakosti (5) je da vaลพi
๐๐ = ๐ ๐๐๐=๐
๐๐=๐ , gde je gde je ๐ ๐ = ๐ ๐๐ ocena dobijena na osnovu metode maksimalne
verodostojnosti, odnosno da je suma registrovanih vrednosti za ๐ jednaka sumi predviฤenih
(oฤekivanih) vrednosti na osnovu modela. Za dovoljno velik uzorak vaลพi da
๐ท ~๐ต ๐ท, โ๐2๐๐โ ๐ท
๐๐ท 2 โ๐
. [3]
Matrica ๐ผ = ๐๐๐๐ se naziva informaciona matrica. Inverz te matrice, tj. ๐ผโ1 =
๐๐๐ ๐ท predstavlja kovarijacionu matricu na ฤijoj se dijagonali nalaze elementi Var(๐ท ๐), a van
dijagonale vrednosti kovarijacija๐ถ๐๐ฃ ๐ฝ ๐ , ๐ฝ ๐ .
4.2.1 GSK metod
GSK metod (Grizzle, Starmer, Koch metod) je zasnovan na neiterativnom metodu najmanjih kvadrata sa teลพinama. [3] Glavno ograniฤenje ovog metoda je to ลกto zahteva da ocena verovatnode ๐๐ za vedinu vrednosti ๐ฅ๐ ne bude 0 ili 1. Podelom uzorka prema vrednosti zavisne promenljive, dobijaju se dve grupe za ๐ฆ = 0 i ๐ฆ = 1 . Ako nezavisna promenljiva ima asimpotski normalnu raspodelu na svakoj od tih grupa sa razliฤitim matematiฤkim oฤekivanjima i jednakim disperzijama, tj.
๐|๐~๐ ๐๐ , ๐2 , ๐ = 0,1
tada su logistiฤki koeficijenti dati sa:
๐ฝ0 = ๐๐๐1
๐0
โ0.5 ๐1
2 โ ๐02
๐2
๐ฝ1 =๐1 โ ๐0
๐2,
gde je ๐๐ = ๐ ๐ = ๐ , za ๐ = 0,1. Da bi se izraฤunale vrednosti ๐ฝ0 i ๐ฝ1, potrebno je iz uzorka oceniti
parametre ๐0, ๐1, ๐0, ๐1 i ๐2. Parametar ๐๐ se ocenjuje kao sredina odgovarajude podgrupe
(formirane u zavisnosti od vrednosti ๐ฆ) tj. ๐ ๐ = ๐ฅ๐ , za ๐ = 0,1, ๐ 1 = ๐1 ๐ ,๐ 0 = 1 โ ๐ 1 i
๐ 2 = ๐0 โ 1 ๐ 0
2 + ๐1 โ 1 ๐ 12
๐0 + ๐1 โ 2,
gde je ๐ ๐2 nepristrasna ocena ๐2 izraฤunata u odgovarajudoj podgrupi za ๐ฆ = ๐, ๐ = 0,1, a ๐0 i ๐1
veliฤine odgovarajudih grupa.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
21
Ovaj metod se moลพe primeniti i kod viลกestruke logistiฤke regresije. Sliฤno kao u jednodimenzionalnoj logistiฤkoj regresiji uzorak se deli u dve grupe u zavisnosti od ishoda zavisne promenljive. Pretpostavlja se da je uslovna raspodela๐ฟ u svakoj od tih podgrupa p-dimenzionalna normalna raspodela sa vektorom matematiฤkih oฤekivanja koji zavisi od vrednosti๐ฆ i kovarijacionom matricom koja ne zavisi od vrednosti๐ฆ, tj:
๐ฟ|๐~๐ ๐๐ , ฮฃ , ๐ = 0,1
gde je ๐๐ p-dimenzioni vektor matematiฤkih oฤekivanja za ๐ = 0,1, a ฮฃ kovarijaciona matrica
dimenzije ๐ ร ๐. Tada su koeficijenti dati jednaฤinama:
๐ฝ0 = ๐๐๐1
๐0
โ 0.5 ๐๐ โ ๐๐ ๐ฮฃโ1 ๐๐ + ๐๐
๐ฝโ = ๐๐ โ ๐๐ ๐ฮฃโ1
gde je ๐ทโ = ๐ฝ1, ๐ฝ2, โฆ , ๐ฝ๐ i ๐๐ = ๐ ๐ = ๐ , za ๐ = 0,1. Za ocenjivanje ๐ฝ0 i ๐ฝโ moraju se najpre
oceniti parametri ๐๐, ๐๐, ๐0, ๐1 i ฮฃ. Matematiฤko oฤekivanje ๐๐ se ocenjuje odgovarajudom
sredinom podgrupe, tj. ๐ ๐ = ๐๐. Parametri ๐0 i ๐1 se ocenjuju kao i u jednodimenzionalnom
sluฤaju. Ocena kovarijacione matrice je data sa:
๐ = ๐0 โ 1 ๐0 + ๐1 โ 1 ๐1
๐0 + ๐1 โ 2
gde su ๐๐ nepristrasne ocene kovarijacionih matrica dimenzije ๐ ร ๐, izraฤunate u odgovarajudoj
podgrupi.
Primer 2: Ako je uzorak isti kao u primeru 1, naฤimo ocene nepoznatih parametara ๐ฝ0 i ๐ฝ1. Prikazademo postupak ocenjivanja parametara u programskom jeziku R.
podaci<-read.table("C:/Users/User/Desktop/podaci.txt", header=T) #ucitavamo podatke model<-glm(bolest~starost, data=podaci, family="binomial") #pravimo logisticki model summary(model) Call: glm(formula = bolest ~ starost, family = "binomial", data = podaci) Deviance Residuals: Min 1Q Median 3Q Max -1.7025 -0.6497 -0.2377 0.6508 2.1075
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
22
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -6.70846 2.35397 -2.850 0.00437 ** starost 0.13150 0.04634 2.838 0.00454 ** --- Signif. codes: 0 โ***โ 0.001 โ**โ 0.01 โ*โ 0.05 โ.โ 0.1 โ โ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 44.987 on 32 degrees of freedom Residual deviance: 28.672 on 31 degrees of freedom AIC: 32.672 Number of Fisher Scoring iterations: 5
Iz priloลพenog se moลพe zakljuฤiti da je ocenakoeficijenta ๐ฝ1 koji stoji uz promenljivu
starost๐ฝ 1=0.13150, dok je ๐ฝ 0=-6.70846.
4.3 Testiranje znaฤajnosti parametara
Nakon ocenjivanja parametara viลกestruke logistiฤke regresije, potrebno je nadi najbolji model, odnosno model koji najbolje opisuje zavisnu promenljivu. Ovo ukljuฤuje formulisanje i testiranje statistiฤkih hipoteza za odreฤivanje da li su nezavisne promenljive u modelu znaฤajno povezane sa zavisnom promenljivom, tj. da li znaฤajno utiฤu na ponaลกanje zavisne promenljive. Testira se hipoteza ๐ป0: promenljiva nije znaฤajna protiv alternative ๐ป1: promenljiva je znaฤajna. Prilikom takvog testiranja treba porediti registrovane vrednosti rezultujude promenljive sa vrednostima dobijenih pomodu dva modela, od kojih jedan sadrลพi a drugi ne sadrลพi promenljivu ฤija se znaฤajnost testira. Ako su predviฤene vrednosti na osnovu modela koji sadrลพi tu promenljivu bolje ili taฤnije nego vrednosti koje su predviฤene na osnovu modela koji ne sadrลพi tu promenljivu, tada je promenljiva u modelu znaฤajna i model koji sadrลพi tu promenljivu se smatra boljim od modela koji je ne sadrลพi.
Postoji mnogo naฤina za testiranje znaฤajnosti parametara a kao najefikasniji se pokazao test koliฤnika verodostojnosti (likelihood ratio test).
4.3.1 Test koliฤnika verodostojnosti
U logistiฤkoj regresiji poreฤenjeregistrovaneipredviฤenevrednostidobijeneizmodelakojisadrลพinezavisnupromenljivuimod
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
23
elakojijenesadrลพi, baziranojenalogaritmufunkcijeverodostojnosti. Pri tome se smatra da je registrovana vrednost zavisne promenljive ona predviฤena vrednost koja se dobija na osnovu zasidenog modela. Zasiden, potpun ili kompletan model (saturated model) je onaj model koji ima onoliko parametara koliko i registrovanih vrednosti, tj. ๐. On reprodukuje podatke taฤno, bez pojednostavljivanja, pa prema tome nije previลกe pogodan za interpretaciju. Najjednostavniji primer zasidenog modela je model proste linearne regresije koji ima samo dve taฤke (๐ = 2).
Za poreฤenje registrovanih sa predviฤenim vrednostima koristi se funkcija verodostojnosti:
๐ท = โ2๐๐โ
โ๐ ๐๐ก
= โ2 ๐ฆ๐๐๐๐ ๐
๐ฆ๐
+ 1 โ ๐ฆ๐ ๐๐1 โ ๐ ๐
1 โ ๐ฆ๐
๐
๐=1
,
gde je โ๐ ๐๐ก funkcija verodostojnosti zasidenog modela. Statistika โ
โ๐ ๐๐ก se naziva koliฤnik
verodostojnosti. Za statistiku โ2๐๐โ
โ๐ ๐๐กse koristi i naziv devijacija, pa se zbog toga ta statistika
oznaฤava sa ๐ท. Dobija se da statistika ๐ท iznosi: [11]
๐ท = 2๐๐โ๐ ๐๐ก
โ= 2๐๐โ๐ ๐๐ก โ 2๐๐โ. 6
Iz definicije zasidnog modela sledi da je ๐ ๐ = ๐ฆ๐ , pa je funkcija verodostojnosti
โ๐ ๐๐ก = ๐ฆ๐๐ฆ๐ 1 โ ๐ฆ๐
1โ๐ฆ๐
๐
๐=1
= 1
odakle sledi da je ๐ท = โ2๐๐โ.
Pri ispitivanju znaฤajnosti nezavisne promenljive posmatraju se modeli sa i bez nezavisne
promenljive. Oznaฤimo sa ๐บ promenu koja nastaje u ๐ท prilikom ukljuฤivanja nezavisne
promenljive, odnosno: [9]
๐บ = ๐ท ๐๐๐๐๐ ๐๐๐ง ๐๐๐ง๐๐ฃ๐๐ ๐๐ ๐๐๐๐๐๐๐๐๐๐ฃ๐ โ ๐ท ๐๐๐๐๐ ๐ ๐ ๐๐๐ง๐๐ฃ๐๐ ๐๐๐ ๐๐๐๐๐๐๐๐๐๐ฃ๐๐
๐บ = โ2๐๐ ๐ฃ๐๐๐๐๐๐ ๐ก๐๐๐๐๐ ๐ก ๐๐๐๐๐๐ ๐๐๐ง ๐๐๐ง๐๐ฃ๐๐ ๐๐ ๐๐๐๐๐๐๐๐๐๐ฃ๐
+2๐๐ ๐ฃ๐๐๐๐๐๐ ๐ก๐๐๐๐๐ ๐ก ๐๐๐๐๐๐ ๐ ๐ ๐๐๐ง๐๐ฃ๐๐ ๐๐๐ ๐๐๐๐๐๐๐๐๐๐ฃ๐๐
๐บ = โ2๐๐๐ฃ๐๐๐๐๐๐ ๐ก๐๐๐๐๐ ๐ก ๐๐๐๐๐๐ ๐๐๐ง ๐๐๐ง๐๐ฃ๐๐ ๐๐ ๐๐๐๐๐๐๐๐๐๐ฃ๐
๐ฃ๐๐๐๐๐๐ ๐ก๐๐๐๐๐ ๐ก ๐๐๐๐๐๐ ๐ ๐ ๐๐๐ง๐๐ฃ๐๐ ๐๐๐ ๐๐๐๐๐๐๐๐๐๐ฃ๐๐.
Ako koristimo sledede oznake:๐1 = ๐ฆ๐ , a ๐0 = ๐ โ ๐ฆ๐ , statistika ๐บ je data sa:
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
24
๐บ = โ2๐๐
๐1
๐
๐1
๐0
๐
๐0
๐ ๐๐ฆ๐ 1 โ ๐ ๐
1โ๐ฆ๐๐๐=1
,
odnosno
๐บ = 2 ๐ฆ๐๐๐๐ ๐ + 1 โ ๐ฆ๐ ๐๐๐ ๐ โ ๐1๐๐๐1 + ๐0๐๐๐0 โ ๐๐๐๐
๐
๐=1
.
Pod hipotezom da je ๐ฝ1 jednako nuli, statistika ๐บima hi-kvadrat raspodelu sa jednim stepenom slobode.
4.3.2 Wald-ov test
Dva asimptotski ekvivalentna testa koja se koriste za proveru znaฤajnosti koeficijenata su Wald-ov test i score test. [3] Wald-ov test za jednodimenzionalnu logistiฤku regresiju koristi
statistiku koja je jednaka kvadratu koliฤnika ocene maksimalne verodostojnosti parametra ๐ฝ1, ๐ฝ 1 i
njene standardne greลกke ๐๐ธ๐ฝ 1 = ๐๐๐ ๐ฝ ๐ . Pod pretpostavkom da je ๐ฝ1 = 0, statistika ๐ =๐ฝ 1
๐๐ธ๐ฝ 1
ima pribliลพno normalnu ๐ 0,1 raspodelu. Wald statistika jednodimenzione logistiฤke regresije je [19]:
๐2 =๐ฝ 1
2
๐๐ธ๐ฝ 12 : ๐1.
2
Ako se odbaci nulta hipoteza, tada se moลพe zakljuฤiti da de uklanjanje te promenljive iz modela znaฤajno promeniti model, odnosno da je ta promenljiva statistiฤki znaฤajna.
Isti princip testiranja se primenjuje kod viลกestruke logistiฤke regresije uz odreฤenu modifikaciju test statistike. Takoฤe, u sluฤaju viลกestruke logistiฤke regresije moลพe se koristiti statistika
๐ = ๐ท ๐ป ๐๐๐ ๐ท โ1
๐ท = ๐ท ๐ป๐๐๐๐๐ท ,
ako ลพelimo da testiramo znaฤajnost svih ๐ + 1 primenljivih. Statistika ๐ pod pretpostavkom da su svih ๐ + 1 koeficijenata jednaki 0, ima ๐๐+1
2 raspodelu. Ukoliko ne ลพelimo da testiramo znaฤajnost
koeficijenta ๐ฝ0, tada se statistika ๐ transformiลกe tako ลกto se iz vektora ๐ท eliminiลกe ๐ฝ 0 a iz matrica ๐ i ๐ odgovarajude kolone i vrste. U tom sluฤaju statistika ๐ ima ๐๐
2 raspodelu.
Za velike uzorke, Wald test i test koliฤnika maksimalne verodostojnosti daju pribliลพno iste rezultate. Meฤutim, za male uzorke se pokazalo da se rezultati mogu razlikovati i da u tim
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
25
situacijama test koliฤnika verodostojnosti daje taฤnije rezultate.Takoฤe, kod viลกestruke logistiฤke regresije Wald-ov test ฤesto ne odbacuje nultu hipotezu iako su koeficijenti znaฤajni.
4.3.3 Score test
Score test je zasnovan na prvom izvodu logaritma funkcije verodostojnosti i prilikom testiranja znaฤajnosti koeficijenata ne zahteva njihovo prethodno ocenjivanje. Test je jednostavan za primenu, ali se, za razliku od Wald-ovog testa, ne nalazi u mnogim softverskim paketima, pa se zbog toga retko koristi. [5]
Radi jednostavnosti, posmatrademo sluฤaj jednostruke logistiฤke regresije. Verovatnode ๐ ๐ฅ๐ i 1 โ ๐ ๐ฅ๐ su zadate na slededi naฤin:
๐ ๐ฅ๐ =๐๐ฝ0+๐ฝ1๐ฅ๐
1 + ๐๐ฝ0+๐ฝ1๐ฅ๐
1 โ ๐ ๐ฅ๐ =1
1 + ๐๐ฝ0+๐ฝ1๐ฅ๐.
Logaritam funkcije maksimalne verodostojnosti je dat sa:
๐๐โ ๐ท = ๐ฆ๐ ๐ฝ0 + ๐ฝ1๐ฅ๐ โ ๐๐ 1 + ๐๐ฝ0+๐ฝ1๐ฅ๐
๐
๐=1
.
Diferenciranjem logaritma funkcije maksimalne verodostojnosti po parametrima ๐ฝ0 i ๐ฝ1 dobijaju se jednaฤine verodostojnosti:
๐ฆ๐ โ ๐ ๐ฅ๐ = 0
๐
๐=1
๐ฅ๐ ๐ฆ๐ โ ๐ ๐ฅ๐ = 0
๐
๐=1
. 7
Score test koristi vrednosti ovih sumaizraฤunatih za ๐ฝ0 = ๐๐ ๐1 ๐0 i ๐ฝ1 = 0. Koristedi ocene ๐ = ๐1 ๐ = ๐ฆleva strana jednaฤine (7) postaje ๐ฅ๐ ๐ฆ๐ โ ๐ฆ ๐
๐=1 . Ocena varijanse je data formulom
๐ฆ 1 โ ๐ฆ ๐ฅ๐ โ ๐ฅ 2๐๐=1 gde je ๐ฅ =
1
๐ ๐ฅ๐
๐๐=1 , a statistika koju koristi score test je data sa
๐๐ = ๐ฅ๐ ๐ฆ๐ โ ๐ฆ ๐
๐=1
๐ฆ 1 โ ๐ฆ ๐ฅ๐ โ ๐ฅ 2๐๐=1
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
26
i ima normalnu๐ 0,1 raspodelu. [3]
4.4 Intervali poverenja za parametre
Interval poverenja (pouzdanosti) nepoznatog parametra je interval koji sa verovatnodom 1 โ ๐ผ 100% sadrลพi taj parametar, gde je ๐ผ nivo znaฤajanosti. Za nivo znaฤajnosti se obiฤno biraju vrednosti bliske 0: 0.1, 0.05, 0.01. Na primer, ako je nivo znaฤajnosti 0.1, tada je pouzdanost da de nepoznati parametar biti sadrลพan u intervalu 90%. Interval poverenja je odreฤen na slededi naฤin:
๐๐๐๐๐๐๐๐ ๐ฃ๐๐๐๐๐๐ ๐ก ๐๐๐๐๐๐๐ก๐๐ โ ๐๐๐ลก๐๐, ๐๐๐๐๐๐๐๐ ๐ฃ๐๐๐๐๐๐ ๐ก ๐๐๐๐๐๐๐ก๐๐ + ๐๐๐ลก๐๐ .
Kod proste logistiฤke regresije intervali poverenja nepoznatih parametara se baziraju na ocenama koje su dobijene Wald-ovim testom (Wald-based confidence intervals). Intervali poverenja za koeficijente ๐ฝ0 i ๐ฝ1sa nivoom znaฤajnosti ๐ผsu zadati sa:
๐ฝ 0 โ ๐ง1โ๐ผ2 ๐๐ธ ๐ฝ 0 , ๐ฝ 0 + ๐ง1โ๐ผ
2 ๐๐ธ ๐ฝ 0
๐ฝ 1 โ ๐ง1โ๐ผ2 ๐๐ธ ๐ฝ 1 , ๐ฝ 1 + ๐ง1โ๐ผ
2 ๐๐ธ ๐ฝ 1
gde je ๐๐ธ โ ocena standardne greลกke odgovarajudeg parametra iz modela koji se koristi kao bazni,
a ๐ง1โ๐ผ2 tabliฤna vrednost standardne normalne raspodele za koju vaลพi ๐ ๐ฝ ๐ โค ๐ง1โ๐ผ
2 = 1 โ ๐ผ,
za ๐ = 0 ili ๐ = 1.
Takoฤe, na ovaj naฤin se moลพe nadi i interval poverenja linearne funkcije koja povezuje promenljive, tj. interval poverenja za logit funkciju. Ocena za logit funkciju je data sa
๐ ๐ฅ = ๐ฝ 0 + ๐ฝ 1๐ฅ.
Da bi se naลกao interval poverenja za logit, potrebno je oceniti disperziju prethodne sume:
๐๐๐ ๐ ๐ฅ = ๐๐๐ ๐ฝ 0 + ๐ฅ2๐๐๐ ๐ฝ 1 + 2๐ฅ๐ถ๐๐ฃ ๐ฝ 0, ๐ฝ 1
Interval poverenja sa nivoom znaฤajnosti๐ผ za logit je dat sa: [3]
๐ ๐ฅ โ ๐ง1โ๐ผ2 ๐๐ธ ๐ ๐ฅ , ๐ ๐ฅ + ๐ง1โ๐ผ
2 ๐๐ธ ๐ ๐ฅ
gde je ๐๐ธ ๐ ๐ฅ pozitivan koren od ocene za ๐๐๐ ๐ ๐ฅ .
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
27
Na osnovu ocene za logit moลพe se nadi ocena logistiฤke verovatnode ๐๐ i njen interval poverenja. Ocena logistiฤke verovatnode iznosi:
๐ ๐ =๐๐ ๐ฅ๐
1 + ๐๐ ๐ฅ๐ ,
a interval poverenja sa nivoom znaฤajnosti ๐ผ logistiฤke verovatnode iznosi:
๐
๐ ๐ฅ โ๐ง1โ๐ผ2 ๐๐ธ ๐ ๐ฅ
1 + ๐๐ ๐ฅ โ๐ง1โ๐ผ
2 ๐๐ธ ๐ ๐ฅ ,
๐๐ ๐ฅ +๐ง1โ๐ผ
2 ๐๐ธ ๐ ๐ฅ
1 + ๐๐ ๐ฅ +๐ง1โ๐ผ
2 ๐๐ธ ๐ ๐ฅ .
Kod viลกestruke logistiฤke regresije intervali poverenja za nepoznati parametar se dobijaju na isti naฤin kao i kod jednostruke logistiฤke regresije. Ocena logita se dobija pomodu formule
๐ ๐ฅ = ๐ฝ 0 + ๐ฝ 1๐ฅ1 + ๐ฝ 2๐ฅ2 + โฏ + ๐ฝ ๐๐ฅ๐ = ๐ฅ๐๐ฝ
gde je ๐ฝ ๐ = ๐ฝ 0, ๐ฝ 1, โฆ , ๐ฝ ๐ , a ๐ฅ๐ = 1, ๐ฅ1, โฆ , ๐ฅ๐ , tj. ๐ฅ0 = 1.
Ocena varijanse logita je:
๐๐๐ ๐ ๐ฅ = ๐ฅ๐2
๐
๐ =0
๐๐๐ ๐ฝ ๐ + 2
๐
๐=๐+1
๐
๐ =๐
๐ฅ๐๐ฅ๐๐ถ๐๐ฃ ๐ฝ ๐ , ๐ฝ ๐ .
Koristedi jednakost ๐๐๐ ๐ฝ = ๐๐๐ ๐ โ1
, ๐๐๐ ๐ ๐ฅ se moลพe da zapisati u slededem obliku:
๐๐๐ ๐ ๐ฅ = ๐ฅ๐๐๐๐ ๐ฝ ๐ฅ = ๐ฅ๐ ๐๐๐ ๐ โ1
๐ฅ
Dalja izraฤunavanje se vrลกe analogno jednostrukoj logistiฤkoj regresiji.
5 Tumaฤenje modela
Pod pretpostavkom da su promenljive u modelu znaฤajne, ลพelimo da izvedemo zakljuฤak o modelu na osnovu koeficijenata. Radi jednostavnosti posmatrajmo model jednodimenzione logistiฤke regresije ฤiji je logit zadat formulom ๐ ๐ฅ = ๐ฝ0 + ๐ฝ1๐ฅ.
Prilikom tumaฤenja modela posmatraju se dva problema a to su:
- odreฤivanje funkcionalne veze izmeฤu zavisne i nezavisne promenljive
- definisanje jedinice promene za nezavisnu promenljivu.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
28
5.1 Binarna nezavisna promenljiva
Sluฤaj binarne nezavisne promenljive predstavlja teorijsku osnovu za ostale sluฤajeve โ sa polihotomnom i neprekidnom nezavisnom promenljivom. [3] Pretpostavimo da je promenljiva ๐ฟ kodirana nulom i jedinicom. Tada koeficijent nagiba ๐ฝ1moลพemo izraziti kao promenu logita po jedinici promene nezavisne promenljive, odnosno:
๐ 1 โ ๐ 0 = ๐ฝ0 + ๐ฝ1 โ ๐ฝ0 = ๐ฝ1.
Da bismo bolje interpretirali koeficijent nagiba, izraฤunademo ลกanse u zavisnosti od vrednosti nezavisne promenljive. Uzimajudi u obzir da je raspodela za ๐|๐ data sa:
๐|๐ฅ: 0 1
1 โ ๐ ๐ฅ ๐ ๐ฅ ,
pa primenom formule (3) vaลพi da je ลกansa da zavisna promenljiva uzme vrednost 1, kada nezavisna promenljiva uzme vrednost 0 je data sa
๐ ๐ = 1 ๐ = 0
1 โ ๐ ๐ = 1 ๐ = 0 =
๐ ๐ = 1 ๐ = 0
๐ ๐ = 0 ๐ = 0 =
๐ 0
1 โ ๐ 0 .
ล ansa da zavisna promenljiva uzme vrednost 1, kada nezavisna promenljiva uzme vrednost 1 je data sa
๐ ๐ = 1 ๐ = 1
1 โ ๐ ๐ = 1 ๐ = 1 =
๐ ๐ = 1 ๐ = 1
๐ ๐ = 0 ๐ = 1 =
๐ 1
1 โ ๐ 1 .
Odnos ลกansi (odds ratio) je pozitivna konstanta data sa:
๐๐ =
๐ 1
1โ๐ 1
๐ 0
1โ๐ 0
8
i predstavlja odnos ลกansi ostvarenja dogaฤaja u grupi u kojoj nezavisna promenljiva uzima vrednost 1 i u grupi u kojoj nezavisna promenljiva uzima vrednost 0.
Koristedi to da je ๐ 1 =๐๐ฝ0+๐ฝ1
1+๐๐ฝ0+๐ฝ1 i ๐ 0 =
๐๐ฝ0
1+๐๐ฝ0, daljim izraฤunavanjem se dobija:
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
29
๐๐ =
๐๐ฝ0+๐ฝ1
1+๐๐ฝ0+๐ฝ1
1
1+๐๐ฝ0+๐ฝ1
๐๐ฝ0
1+๐๐ฝ0
1
1+๐๐ฝ0
=๐๐ฝ0+๐ฝ1
๐๐ฝ0= ๐๐ฝ1 .
Dakle, ako je nezavisna promenljiva binarna, koeficijent ๐ฝ1 je jednak prirodnom logaritmu odnosa ลกansi.[9]Takoฤe, moลพemo nadi i interval poverenja sluฤajne promenljive ๐๐ . Raspodela promenljive ๐๐๐๐ = ๐ฝ1 je normalna, a za velike uzorke i๐๐ ima normalnu raspodelu. Interval poverenja za๐๐ sa nivoom znaฤajnosti ๐ผ dat je sa:
๐๐ฝ 1โ๐ง1โ๐ผ 2 ๐๐ธ ๐ฝ 1 , ๐๐ฝ 1+๐ง1โ๐ผ 2 ๐๐ธ ๐ฝ 1
gde je ๐๐ธ ๐ฝ 1 standardno odstupanje sluฤajne promenljive ๐๐๐๐ . Njegova vrednost se moลพe
izraฤunati iz kovarijacione matrice, ali kako je sluฤajna promenljiva ๐ jednodimenzionalna i uzima samo dve vrednosti, ono se moลพe izraฤunati i na slededi naฤin:
๐๐ธ ๐ฝ 1 = 1
1 โ ๐ 0 +
1
๐ 0 +
1
1 โ ๐ 1 +
1
๐ 1 .
Primer 3(Podaci su uzeti iz literature [20].): U ispitivanju povezanosti konzumiranja alkohola i raka jednjaka je uฤestvovalo 975 osoba. Nezavisna promenljiva oznaฤava konzumiranje alkohola i kodirana je sa 0 ako osoba ne konzumira alkohol, a sa 1 ako konzimira. Zavisna promenljiva je kodirana sa 0 ako osoba ne boluje od raka jednjaka, a sa 1 ako osoba boluje. Na osnovu istraลพivanja, dobijeni su slededi rezultati:
prisustvo raka jednjaka
konzumiranje alkohola ukupno
da ne
da 96 104 200 ne 109 666 775
ukupno 205 770 975
Tabela 4
Pomodu formule za odnos ลกansi izraฤunademo koliko puta vedu ลกansu da dobiju rak jednjaka imaju alkoholiฤari.
๐๐ =96 109
104 666 = 5.64.
Dakle, osobe koje konzumiraju alkohol imaju 5.64 puta vede ลกanse da obole od raka jednjaka nego osobe koje ne konzumiraju alkohol. Koeficijent ๐ฝ1 i standardno odstupanje
promenljive ๐๐๐๐ iznose ๐ฝ1 = ๐๐๐๐ = 1.7299, ๐๐ธ ๐๐๐๐ = 0.1752.Interval poverenja sa
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
30
nivoom znaฤajnosti ๐ผ = 0.05 za 1 je ๐1.7299โ1.96โ0.1752 = 4, 7.95 , a interval poverenja sa nivoom
znaฤajnosti ๐ผ = 0.1 je ๐1.7299โ1.645โ0.1752 = 4.23, 7.52 .
Relativni rizik (relative risk) predstavlja odnos verovatnoda uspeha u okviru dve grupe.
๐ ๐ =๐ ๐ = 1 ๐ = 1
๐ ๐ = 1 ๐ = 0 =
๐ 1
๐ 0 =
1 โ ๐ 1
1 โ ๐ 0 ๐๐ .
U sluฤaju kada 1โ๐ 1
1โ๐ 0 โ 1, relativni rizik i odnos ลกansi imaju pribliลพno jednake vrednosti. To
se deลกava u sluฤaju kada su verovatnode uspeha u obe grupa pribliลพne, odnosno kad je verovatnoda ๐ ๐ฅ mala bilo da je ๐ฅ = 0 ili ๐ฅ = 1. U praksi ova situacija se javlja kod ispitivanja retkih bolesti. Ukoliko je vrednost ๐ ๐ > 1, vedu verovatnodu ostvarenja posmatrani dogaฤaj ima u grupi u kojoj nezavisna promenljiva uzima vrednost 1, a ako vaลพi ๐ ๐ < 1, tada vedu verovatnodu ostvarenja ima u grupi u kojoj nezavisna promenljiva uzima vrednost 0.
Prilikom utvrฤivanja intervala poverenja za relativni rizik, koristi se statistka ๐๐๐ ๐ koja ima normalnu raspodelu. Interval poverenja sa nivoom znaฤajnosti ๐ผ je dat sa
๐๐๐๐ ๐ โ๐ง1โ๐ผ 2 ๐๐ธ ๐๐๐ ๐ , ๐๐๐๐ ๐ +๐ง1โ๐ผ 2 ๐๐ธ ๐๐๐ ๐
gde je ๐๐ธ ๐๐๐ ๐ standardno odstupanje ๐๐๐ ๐ dato formulom
๐๐ธ ๐๐๐ ๐ = 1
๐0๐ 0 +
1
๐1๐ 1 +
1
๐0
+1
๐1
,
gde je ๐1 = ๐ฅ๐ , a sa ๐0 = ๐ โ ๐ฅ๐ .
Primer 4 (Podaci su uzeti iz literature [5]): Ispitujemo povezanost starosti (nezavisna promenljiva) sa postojanjem HIV virusa (zavisna promenljiva). U istraลพivanju je uฤestvovalo 1496 osoba koje su podeljene u dve starosne grupe โ mlaฤe (kodirano sa 0) i starije od 30 godina (kodirano sa 1). Podaci su dati u tabeli 6.
๐ ๐ mlaฤi od 30 godina 30 godina i stariji ukupno
HIV negativni 623 816 1439
HIV pozitivni 18 39 57
ukupno 641 855 1496
Tabela 5
Relativnim rizikom uporeฤujemo verovatnodu oboljenja od HIV-a u ove dve grupe.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
31
๐ ๐ =39 855
18 641 = 1.62
Na osnovu ovoga moลพe se zakljuฤiti da osobe koje imaju 30 godina i viลกe imaju vedu verovatnodu
oboljenja od HIV-a.Posle raฤunanja se dobija da je ๐๐๐ ๐ = 0.48,
๐๐ธ ๐๐๐ ๐ = 1
18+
1
39+
1
641+
1
855= 0.29, pa je interval poverenja sa nivoom znaฤajnosti
๐ผ = 0.05dat sa๐0.48โ1.96โ0.29 = 0.915, 2.853 .
5.2 Politohomna nezavisna promenljiva
U logistiฤkoj regresiji se ฤesto javljaju kategorijalne (kvalitativne) promenljive, tj. promenljive koje se mogu meriti samo u smislu pripadanja nekoj grupi (kategoriji), pri ฤemu su te grupe disjunktne. Najฤeลกdi primeri takvih promenljivih su rasa, pol, stepen obrazovanja, opลกtina boravka u republici... Da bi se izuฤavala kategorijalna promenljiva koja ima viลกe od 2 kategorije, ona se pretvara u niz indikatora. Koeficijent za svaki takav indikator predstavlja efekat te kategorije uporeฤene sa kategorijom koja nije ukljuฤena u taj model (referentna kategorija). Kada se prave indikatori, jedna od najvaลพnijih stavki je izbor referentne kategorije. Uglavnom se bira onakategorija koja je opravdana sa bioloลกkog stanoviลกta (tj. kategorija za koju postoji opravdanje da bude referentni nivo) i ona koja ima prihvatljiv broj posmatranja. [9]. Cilj ovakvog istraลพivanja je da se uporede ลกanse odreฤene grupe u odnosu na referentnu grupu.
Primer 5 (Podaci su uzeti iz literature [22].): U slededoj tabeli su dati podaci koji govore o
tome da li je student poloลพio izabrani kurs iz prvog pokuลกaja ili nije. Student bira jedan od tri kursa koje smo oznaฤili sa kurs_1, kurs_2 i kurs_3. Ukupno je ispitano 394 studenta.
status izabrani kurs
kurs_1 kurs_2 kurs_3 ukupno
nije poloลพio 27 7 124 236
poloลพio 8 24 204 158
ukupno 35 31 328 394
๐๐ 0.1801 2.0840 1
๐๐๐๐ -1.7142 0.7343 0
Tabela 6
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
32
Kao referentnu promenljivu izabrademo kurs_3. Dizajn promenljiva je data u tabeli 7.Na primer,
ลกansa za kurs_1 iznosi ๐๐ = 8/27 204/124 = 0.1801,ลกto znaฤi da studenti koji su izabrali kurs_1 imaju 0.1801 puta vede ลกanse da poloลพe iz prve nego studenti koji su izabrali kurs_3.
izabrani kurs (kod) izabrani_kurs_1 izabrani_kurs_2
kurs_1 1 0
kurs_2 0 1
kurs_3 0 0
Tabela 7
U programskom jeziku R demo oceniti koeficijente slededeg logistiฤkog modela:
status=๐ฝ1 โizabrani_kurs_1+๐ฝ2 โizabrani_kurs_2+๐ฝ0
gde promenljiva status moลพe da uzme vrednost 0 (ako kurs nije poloลพen iz prve) i vrednost 1 (ako je kurs poloลพen iz prve).
Kod programa je slededi:
podaci1<-read.table("C:/Users/User/Desktop/podaci1.txt", header=T) model<-glm(status~izabrani_kurs_1 + izabrani_kurs_2, data=podaci1, family="binomial") summary(model) Call: glm(formula = status ~ izabrani_kurs_1 + izabrani_kurs_2, family = "binomial", data = podaci1) Deviance Residuals: Min 1Q Median 3Q Max -1.7251 -1.3948 0.9746 0.9746 1.7181 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.4978 0.1139 4.372 1.23e-05 *** izabrani_kurs_1 -1.7142 0.4183 -4.098 4.17e-05 *** izabrani_kurs_2 0.7343 0.4444 1.652 0.0985 . --- Signif. codes: 0 โ***โ 0.001 โ**โ 0.01 โ*โ 0.05 โ.โ 0.1 โ โ 1 (Dispersion parameter for binomial family taken to be 1)
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
33
Null deviance: 530.66 on 393 degrees of freedom Residual deviance: 505.74 on 391 degrees of freedom AIC: 511.74 Number of Fisher Scoring iterations: 4
Ocene koeficijenata i njihovo standardno odstupanje su dati sa:
promenljiva ocena koeficijenta standardno odstupanje
izabrani_kurs_1 โ1.7142 0.4183
izabrani_kurs_2 0.7343 0.4444
slobodan koeficijent 0.4978 0.1139
Tabela 8.
Ocene koeficijenata smo mogli da naฤemo i na slededi naฤin:
๐๐ ๐๐ ๐๐ง๐๐๐๐๐๐_๐๐ข๐๐ _1, ๐๐ข๐๐ _3 = ๐ฝ 1 = โ1.7142
๐๐ ๐๐ ๐๐ง๐๐๐๐๐๐_๐๐ข๐๐ _2, ๐๐ข๐๐ _3 = ๐ฝ 2 = 0.7343.
Sada demo pokazati da ovo vaลพi zbog naฤina na koji smo kreirali dizajn promenljivu. Za primer demo uzeti ๐๐ง๐๐๐๐๐๐_๐๐ข๐๐ _1 i ๐๐ข๐๐ _3.
๐๐ ๐๐ ๐๐ง๐๐๐๐๐๐_๐๐ข๐๐ _1, ๐๐ข๐๐ _3 = ๐ ๐๐ง๐๐๐๐๐๐_๐๐ข๐๐ _1 โ ๐ ๐๐ข๐๐ 3 =
๐ฝ 0 + ๐ฝ 1 โ ๐๐ง๐๐๐๐๐๐_๐๐ข๐๐ _1 = 1 + ๐ฝ 2 โ ๐๐ง๐๐๐๐๐๐_๐๐ข๐๐ _2 = 0 โ
๐ฝ 0 + ๐ฝ 1 โ ๐๐ง๐๐๐๐๐๐_๐๐ข๐๐ _1 = 0 + ๐ฝ 2 โ ๐๐ง๐๐๐๐๐๐_๐๐ข๐๐ _2 = 0 = ๐ฝ 1
Na osnovu standardnog odstupanja i vrednosti koeficijenata, mogu se nadi intervali poverenja ลกto je prikazano u prethodnom primeru.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
34
5.3 Neprekidna nezavisna promenljiva
Opลกti postupak oceneodnosa ลกansi za jednu jedinicu priraลกtaja promenljive ๐ฟ je data je u slededim koracima:
1. iz jednaฤine za logit ๐ ๐ฅ = ๐ฝ0 + ๐ฝ1 ๐ฅ dobija se ๐ ๐ฅ + 1 = ๐ฝ0 + ๐ฝ1 ๐ฅ + 1
2. ocena koeficijenta ๐ฝ1 na osnovu logita je ๐ฝ 1 = ๐ ๐ฅ + 1 โ ๐ ๐ฅ
3. ocena odnosa ลกansi je data sa ๐๐ = ๐๐ฝ 1 .
Meฤutim, u sluฤaju neprekidne promenljive promena za jednu jedinicu nije previลกe interesantna. Na primer, povedanje telesne teลพine za jedan kilogram kod odraslih osoba je od manjeg znaฤaja nego povedanje teลพine za 10 kilograma. Ili, ako je opseg sluฤajne promenljive interval 0,1 , promena za jednu jedinicu je suviลกe velika i realnije je posmatrati promenu za 0.01 ili 0.05.
Da bi se obezbedila pravilna interpretacija, metod procene odnosa ลกansi se prilagoฤava taฤkama intervala na kome je definisana promenljiva ๐. Taj interval se deli na odreฤeni broj jedinica. Ako se desila promena od ๐ jedinica, razlika ocene logita u taฤkama ๐ฅ + ๐ i ๐ฅ iznosi:
๐ ๐ฅ + ๐ โ ๐ ๐ฅ = ๐ฝ 0 + ๐ฝ 1 ๐ฅ + ๐ โ ๐ฝ 0 โ ๐ฝ 1๐ฅ = ๐๐ฝ 1.
Na osnovu toga, ocena odnosa ลกansi je data sa ๐๐ = ๐๐ ๐ฅ + ๐, ๐ฅ = ๐๐๐ฝ 1 . Za ocenu
standardnog odstupanja ๐๐ฝ 1 vaลพi ๐๐ธ ๐๐ฝ 1 = ๐ ๐๐ธ ๐ฝ 1 . Interval poverenja sa nivoom znaฤajnosti
๐ผ za ๐๐ ๐ฅ + ๐, ๐ฅ je dat sa
๐๐๐ฝ 1โ๐ง1โ๐ผ 2 ๐ ๐๐ธ ๐ฝ 1 , ๐๐๐ฝ 1+๐ง1โ๐ผ 2 ๐ ๐๐ธ ๐ฝ 1 .
Primer 6 (Podaci su uzeti iz literature [3]): Neka zavisna promenljiva predstavlja prisustvo ili odsustvo srฤanog oboljenja, a nezavisna promenljiva ๐ starost pacijenta i neka je logit ocenjen sa
๐ ๐ฅ = โ1.44 + 0.038๐ฅ. Ocenjeni odnos ลกansi ima slededi oblik: ๐๐ ๐ฅ + ๐, ๐ฅ = ๐0.038๐Ako bismo hteli da vidimo kako povedanje starosti od 10 godina utiฤe na pojavu srฤane bolesti u prethodnom
izrazu ๐ demo zameniti sa 10 i dobiti๐๐ 10 = ๐0.038โ10 = 1.46. Dakle, sa svakim povedanjem starosti od 10 godina rizik za pojavu srฤanog oboljenja se povedava 1.46puta.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
35
5.4 Interakcija izmeฤu promenljivih
Ukoliko je uticaj nezavisne promenljive na zavisnu posredan, odnosno zavisi od vrednosti neke trede promenljive, tada kaลพemo da su takve promenljive u meฤusobnoj interakciji, a promenljivu koja utiฤe na promenu odnosa izmeฤu promenljivih nazivamo uticajna promenljiva (moderator variable) i oznaฤavamo sa ๐.Na primer, ako psihoterapija smanjuje depresiju kod muลกkaraca viลกe nego kod ลพena, kaลพemo da polutiฤe na vezu izmeฤu psihoterapije i depresije. [13]
Pretpostavimo da je dat model sa dve nezavisnepromenljive, od kojih je jedna neprekidna ๐ , a druga binarna ๐ , ฤiji je logit zadat slededom jednaฤinom:
๐ ๐ฅ, ๐ง = ๐ฝ0 + ๐ผ๐ฅ + ๐ฝ2๐ง. 9
Ako se uticaj promenljive ๐ na zavisnu promenljivu razlikuje u zavisnosti od vrednosti promenljive ๐, onda kaลพemo da se javlja efekat interakcije izmeฤu promenljivih. [4] Koeficijent koji odraลพava efekat delovanja promenljive ๐ na zavisnu promeljivu je linearna funkcija od ๐ i zadat je jednaฤinom:
๐ผ = ๐ฝ1 + ๐ฝ3๐ง.
Prema ovoj formulaciji, pri promeni promenljive ๐ za jednu jedinicu, vrednost koeficijenta ๐ฝ1 se promeni za ๐ฝ3 jedinica. Zamenom u izraz 9 dobija se
๐ ๐ฅ, ๐ง = ๐ฝ0 + ๐ฝ1 + ๐ฝ3๐ง ๐ฅ + ๐ฝ2๐ง
= ๐ฝ0 + ๐ฝ1๐ฅ + ๐ฝ3๐ฅ๐ง + ๐ฝ2๐ง
= ๐ฝ0 + ๐ฝ1๐ฅ + ๐ฝ2๐ง + ๐ฝ3๐ฅ๐ง
gde je sa ๐ฅ๐ง oznaฤena vrednost interakcije izmeฤu promenljivih ๐ i ๐.
Da bismo ocenili odnos ลกansi, posmatrademo logite za oba vrednosti binarne promenljive. Eksponencijalnom transformacijom njihove razlike, dobija se ocena odnosa ลกansi.
Logit ovog modela dat je jednaฤinom
๐ ๐ฅ, ๐ง = ๐ฝ0 + ๐ฝ1๐ฅ + ๐ฝ2๐ง + ๐ฝ3๐ฅ๐ง.
Ako sa ๐ง0 i ๐ง1oznaฤimo vrednosti binarne promenljive, tada se zamenom u prethodnu jednaฤinu dobija:
๐ ๐ฅ, ๐ง0 = ๐ฝ0 + ๐ฝ1๐ฅ + ๐ฝ2๐ง0 + ๐ฝ3๐ฅ๐ง0
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
36
๐ ๐ฅ, ๐ง1 = ๐ฝ0 + ๐ฝ1๐ฅ + ๐ฝ2๐ง1 + ๐ฝ3๐ฅ๐ง1.
Raฤunanjem razlike ova dva izraza, dobija se logaritam odnosa ลกansi.
๐ ๐ฅ, ๐ง1 โ ๐ ๐ฅ, ๐ง0 = ๐ฝ0 + ๐ฝ1๐ฅ + ๐ฝ2๐ง0 + ๐ฝ3๐ฅ๐ง0 โ ๐ฝ0 + ๐ฝ1๐ฅ + ๐ฝ2๐ง1 + ๐ฝ3๐ฅ๐ง1 =
๐ฝ2 ๐ง1 โ ๐ง0 + ๐ฝ3๐ฅ ๐ง1 โ ๐ง0
๐๐ = ๐๐ฝ2 ๐ง1โ๐ง0 +๐ฝ3๐ฅ ๐ง1โ๐ง0 .
Da bismo naลกli interval poverenja, potrebno je nadi varijansu ocene ๐๐๐๐
๐๐๐ ๐๐๐๐ = ๐ง1 โ ๐ง0 2๐๐๐ ๐ฝ 2 + ๐ฅ2 ๐ง1 โ ๐ง0 2๐๐๐ ๐ฝ 3 + 2๐ฅ ๐ง1 โ ๐ง0
2๐ถ๐๐ฃ ๐ฝ 2, ๐ฝ 3 .
Interval poverenja za ๐๐ sa nivoom znaฤajnosti ๐ผ je dat sa
๐๐ฝ 2 ๐ง1โ๐ง0 +๐ฝ 3๐ฅ ๐ง1โ๐ง0 โ๐ง1โ๐ผ 2 ๐๐ธ ๐๐๐๐ , ๐๐ฝ 2 ๐ง1โ๐ง0 +๐ฝ 3๐ฅ ๐ง1โ๐ง0 +๐ง1โ๐ผ 2 ๐๐ธ ๐๐๐๐ .
gde je ๐๐ธ ๐๐๐๐ pozitivan koren veliฤine ๐๐๐ ๐๐๐๐ .
5.5 Identifikacija vaลพnih opservacija
5.5.1 Autlajeri
Autlajeri predstavljaju ekstremne vrednosti u uzorku, tj. vrednosti koje vidljivo odstupaju od drugih. Statistiฤari na razliฤite naฤine definiลกu autlajere, u zavisnosti od strukture podataka. Hokins (Hawkins, 1980) definiลกe autlajer kao opaลพanje koje mnogo odstupa od drugih opaลพanja pod sumnjom da su generisani razliฤitim mehanizmom. Barnet i Luis (Barnett i Lewis, 1994) ukazuju da udaljeno opaลพanje, ili autlajer, je opaลพanje koje deluje da odstupa upadljivo od drugih ฤlanova posmatranog uzorka. Dลพonson (Johnson, 1992) definiลกe autlajer kao opaลพanje u skupu podataka koje deluje da je nekonzistentno sa ostatkom skupa podataka. [5]
Autlajeri se ฤesto smatraju greลกkom merenja, mada to ne moraju biti. To mogu biti podaci dobijeni za neke ekstremne vrednosti nezavisne promenljive. U logistiฤkoj regresiji najฤeลกde nastaju kao pogreลกna vrednost zavisne promenljive. Neotkriveni autlajeri mogu voditi ka pogreลกnoj specifikaciji modela, pristrasnoj oceni parametara, smanjenju znaฤajnosti promenljivih i netaฤnim rezultatima. Stoga je vaลพno identifikovati autlajere pre analize podataka. Autlajeri nekad mogu nositi vaลพnu informaciju o modelu, pa bi njihovo uklanjanje povlaฤilo gubitak te informacije. Pre uklanjanja autlajera potrebno je ispitati njihov uticaj na model, kao i detaljnu proveru modela sa i bez autlajera (broj promenljivih, znaฤajnost koeficijenata i standardne greลกke) i odabrati najbolji model.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
37
Ako model sadrลพi jednu ili dve nezavisne promenljive, autlajer se moลพe identifikovati grafiฤkom metodom. Nakon kreiranja modela koji opisuje podatke i njegovim grafiฤkim predstavljanjem, potrebno je pronadi taฤke koje su izdvojene od drugih. Takve podatke smatramo mogudim autlajerima. U sluฤaju da model sadrลพi viลกe od dve nezavisne promenljive, ova metoda nije primenljiva.
Jedan od najpopularnijih naฤina utvrฤivanja da li je neลกto autlajer ili ne je Kukovo rastojanje (Cookโs distance). [21] Kukovo rastojanje se raฤuna po formuli
๐ถ๐ท๐ = ๐ท โ๐ โ ๐ท
๐ ๐๐๐๐ ๐ท โ๐ โ ๐ท
๐ + 1 ๐ 2 ๐ = 1, โฆ , ๐
gde je ๐ท โ๐ ocena vektora ๐ท bez i-te opservacija, a ๐ pozitivan koren srednjekvadratne greลกke
ocenjivanja, tj. ๐ = 1
๐ ๐ฆ๐ โ ๐ฆ ๐
2๐๐=1 . Ukoliko je ๐ถ๐ท๐ โฅ
4
๐โ ๐+1 , tada se ๐-ta opservacija moลพe
smatrati autlajerom.
U mnogim statistiฤkim softverima postoji ugraฤena funkcija koja prema Kukovom rastojanju izdvaja autlajere.
5.5.2 Delta-beta statistika
Statistika delta-beta (deletion displacement) meri promenu izazvanu brisanjem svih zapaลพanja koja se poklapaju saodabranimelementom iz skupa vrednosti nezavisnih promenljivih i koristi se za otkrivanje zapaลพanja koje imaju jak uticaj na procenu modela. [16] Na ovaj naฤin se moลพe utvrditi da li uklanjanje nekog od elemenata skupa vrednosti nezavisnih promenljivih ima znaฤajnog uticaja na ocene odnosa ลกansi i koeficijenata u modelu.
Pretpostavimo da model sadrลพi ๐ razliฤitih nezavisnih promenljivih ๐๐ป = ๐ฅ1, ๐ฅ2, โฆ , ๐ฅ๐ i
neka se uzorak sastoji od ๐ elemenata. Neka je ๐๐ , ๐ = 1, โฆ , ๐ฝ broj elemenata koji imaju iste
vrednosti nezavisnih promenljivih kao odreฤen element skupa vrednosti nezavisne promenljive, a ๐ฆ๐ broj elemenata za koje zavisna promenljiva uzima vrednost 1 meฤu ๐๐ elemenata i neka je
๐ฆ๐ = ๐1. [1]
Da bismo ovo objasnili, posmatrajmo primer sa nezavisnim promenljivama koje oznaฤavaju pol, rasu i visinu. Veliฤina uzorka je ๐ = 8, dok je broj razliฤitih vrednosti nezavisnih promenljivih ๐ฝ = 6. Podelom u grupe prema razliฤitim vrednostima imamo:
- jednu belkinju visine 167, ๐1 = 1 - jednog belca visine 202, ๐2 = 1 - dve crnkinje visine 156, ๐3 = 2 - jednog crnca visine 189, ๐4 = 1 - dva belca visine 139, ๐5 = 2
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
38
- jednu crnkinju visine 142, ๐6 = 1.
Promena koja se deลกava prilikom izbacivanja svih opservacija koje se poklapaju sa ๐ โim elementom skupa vrednosti nezavisne promenljive se izraฤunava kao [15]:
ฮ๐ฝ๐ =๐ ๐ฆ๐ , ๐ ๐
2๐๐๐
1 โ ๐๐๐
,
gde je ๐๐๐ j-ta dijagonalna vrednost matrice๐ป = ๐1 2 ๐ ๐๐๐๐ โ1๐๐๐1 2 , asa ๐ dijagonalna
matrica koja je generisana elementom ๐ค๐๐ = ๐๐ ๐ ๐ 1 โ ๐ ๐ ,a sa ๐ ๐ฆ๐ , ๐ ๐ Pirsonov rezidual
(Pearsonโs residual) koji se definiลกe kao [15]:
๐ ๐ฆ๐ , ๐ ๐ ๐ฆ๐ โ ๐๐๐ ๐
๐๐ ๐ ๐ 1 โ ๐ ๐
, ๐ = 1, โฆ , ๐ฝ.
Matrica ๐1 2 je generisana elementima ๐ค๐๐1 2 . Umesto delta-beta vrednosti, moลพe se koristiti i
standardizovana delta-beta vrednost (standardized deletion displacement) koja se izraฤunava na slededi naฤin:
ฮ๐ฝ๐ ๐ =๐๐ ๐ฆ๐ , ๐ ๐
2๐๐๐
1 โ ๐๐๐
,
gde je sa๐๐ ๐ฆ๐ , ๐ ๐ , ๐ = 1, โฆ , ๐ฝ oznaฤenstandardizovan Pirsonov rezidual koji se definiลกe na slededi
naฤin:
๐๐ ๐ฆ๐ , ๐ ๐ ๐ ๐ฆ๐ , ๐ ๐
1 โ ๐๐๐
.
Vede vrednosti ovih veliฤina ukazuju na znaฤajnost posmatranog elementa skupa vrednosti nezavisnih promenljivihza model.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
39
6 Kreiranje modela i procena slaganja modela sa podacima
6.1 Izbor promenljivih u model
Proces izgradnje logistiฤkog regresionog modela je sliฤan procesu izgradnje modela linearne regresije. Prilikom ovakve analize potrebno je meฤusobno uporeฤivanje modela i izbor modela koji najbolje objaลกnjava date podatke. Takav model bi trebalo da ima ลกto manje promenljivih jer povedanje broja promenljivih povlaฤi sa sobom povedanje standardnih greลกaka ocena, pa model postaje numeriฤki nestabilan. Izbor promenljivih koje najbolje opisuju podatke demo prikazati kroz nekoliko koraka. [12]
Korak 1. Deskriptivna analiza
Tokom deskriptivne analize potrebno je utvrditi raspodelu svake od promenjivih, na primer konstrukcijom ลกtapidastih dijagramaili kreiranjem histograma ili box-plot-ova. Takoฤe, neophodno je proveriti disperziju i matematiฤko oฤekivanje svake promenljive u zavisnosti od ishoda zavisne promenljive. Ukoliko promenljiva ima malu disperziju ili veliki broj nedostajudih podataka, najbolje bi bilo izostaviti je iz modela.
Korak 2. Jednodimenziona analiza svake promenljive
Jednodimenzionom analizom se testira odnos jedne promenljive sa zavisnom promenljivom (ishodom), bez obzira na ostale promenljive koje se javljaju u modelu. Cilj ovakve analize je priprema modela za viลกedimenzionu analizu i smanjenje broja promenljivih i ovaj korak je posebno vaลพan ako model sadrลพi veliki broj promenljivih.Hi-kvadrat testom koliฤnika verodostojnosti ili nekim drugim testom neophodno je oceniti koeficijente a zatim testirati njihovu znaฤajnost (na primer Wald-testom) i oceniti standardne greลกke i intervale poverenja. Ukoliko promenljiva ne pokazuje veliki stepen povezanosti sa zavisnom promenljivom, tj. nije znaฤajna za model, treba je izbaciti iz modela. Za promenljivu se moลพe redi da je znaฤajna ukoliko je p-vrednost testa manja od 0.25. Posebnu paลพnju treba obratiti na autlajere i testirati model sa i bez observacija koje se smatraju autlajerima. Takoฤe, potrebno je oceniti pojedinaฤni odnos ลกansi promenljivih sa zavisnom promenljivom. Ukoliko je odnos ลกansi 1, moลพe se zakljuฤiti da ne postoji povezanost. Ako je odnos ลกansi manji ili vedi od 1, onda postoji negativna, odnosno pozitivna povezanost sa ishodom.
Korak 3. Viลกedimenziona analiza
Jednodimenziona analiza ignoriลกe mogudnost da skup promenljivih, od kojih je svaka slabo povezana sa zavisnom promenljivom, moลพe postati vaลพan prediktor ukoliko ih uzmemo zajedno u razmatranje. Viลกedimenzionom analizom se bira podskup promenljivih koje najbolje opisuju date podatke. Postoje dva naฤina na koji se moลพe obaviti multivarijantna analiza. Prvi naฤin za
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
40
izborpromenljivih poฤinje od modela sa jednom promenljivom, njenom analizom, dodavanjem joลก jedne promenljive i analizom takvog modela, itd. Drugi naฤin podrazumeva analiziranje modela koji ukljuฤuje sve promenljive i postepenim uklanjanjem promenljivih iz modela. Ova tehnika se zove joลก i tehnika najboljeg podskupa.
Korak 4. Verifikacija znaฤajnosti promenljivih ukljuฤenih u model
Nakon viลกedimenzione analize potrebno jeopet ispitati znaฤajnost svake promenljive u modelu. Promenljive koje nisu znaฤajne za model treba izbaciti, a zatim testom koliฤnika maksimalne verodostojnosti uporediti nov model sa modelom koji sadrลพi tu promenljivu. Ovaj postupak treba primenjivati sve dok se ne pokaลพe da promenljive koje su izbaฤene iz modela statistiฤki nisu znaฤajne. Za neprekidne promenljive je takoฤe potrebno proveriti pretpostavku o linearnosti logita. Ukoliko logit nije linearan, potrebno je izvrลกiti odgovarajudu transformaciju promenljive.
6.2 Procena slaganja modela sa podacima
ฤesto se deลกava da prilikom analiziranja podataka i traลพenja najboljeg modela imamo viลกe od jednog modela za koje smatramo da dobro opisuju podatke. Da bismo odabrali najbolji od njih, proveravamo koliko se svaki od njih uklapa u rezultujudu promenljivu i uporeฤujemo rezultate. Pretpostavimo da smo iz modela uklonili sve promenljive koje nisu znaฤajno uticale na rezultujudu i da su promenljive koje su ostale u modelu unete u korektnom funkcionalnom obliku. Provera uklapanja modela sa rezultujudom promenljivom se naziva test slaganja (goodness of fit test).
Pre provere korektnosti i uklapanja modela moramo navesti osnovne kriterijume koji ukazuju na to ลกta se podrazumeva pod dobrim modelom. Pretpostavimo da smo ishode zavisne promenljive i njene ocene predstavili u vektorskom obliku, tj. da smo sa ๐๐ป = ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ๐
oznaฤili vrednosti zavisne promenljive a sa ๐ ๐ป = ๐ฆ 1, ๐ฆ 2, โฆ , ๐ฆ ๐ procenjene (fitovane) vrednosti vektora ๐๐ป. Model se smatra prilagoฤenim podacima ako zadovoljava dva uslova:
- sveukupna mera rastojanja izmeฤu๐i ๐ je zanemarljivo mala - doprinos svakog para ๐ฆ๐ , ๐ฆ ๐ , ๐ = 1, โฆ , ๐je mali u odnosu na greลกku modela.
Prilikom procene modela neophodno je merenje rastojanja izmeฤu vektora ๐ i ๐ , kao i merenje rastojanja izmeฤu pojedinaฤnih komponenti. Osim raฤunskim putem, mnogi zakljuฤci o slaganju modela sa podacima se mogu dobiti i primenom grafiฤke metode.
Testom slaganja se testira nulta hipoteza ๐ป0:model je korektan protiv alternative ๐ป1:model nije korektan. [12] Kako je idealan model koji ne sadrลพi greลกke merenja i koji se uklapa u sve opservacije praktiฤno nemogude nadi, ovim testiranjem u zavisnosti od praga
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
41
znaฤajnostiodbacujemo ili prihvatamo nultu hipotezu i traลพimo onaj model za koji za ลกto manji nivo znaฤajnosti ne odbacuje nultu hipotezu.Ovaj testse bazira na grupisanju vrednosti odreฤenih pomodu vrednosti nezavisnih promenljivih u modelu.
Ako se broj vrednosti koje uzimaju nezavisne promenljivepovedava sa povedanjem veliฤine uzoraka, tada svaka od vrednosti ๐๐ ima tendenciju da bude mala. Za takve raspodele koje su
dobijene pod pretpostavkom da ๐ uzima dovoljno velike vrednosti, kaลพemo da su n-asimptotske raspodele. U prethodnom primeru ako imamo veliki uzorak, kako je visina neprekidna promenljiva, velike su ลกanse da demo imati i veliki broj razliฤitih vrednosti. Ako se fiksira broj grupa, tada se sa povedanjem obima uzorka povedava i broj elemenata u svakoj od tih grupa. Odnosno, ako je ๐ฝ < ๐ fiksirana vrednost, tada povedanjem veliฤine ๐, povedavaju se i veliฤine ๐๐ . Takve raspodele se
nazivaju m-asimptotske. Primer ovakvih raspodela je model koji sadrลพi dve nezavisne promenljive โ pol i rasu.
Posmatrajudi neki model, prilikom testiranja testom slaganja pretpostavljamo da je ๐ฑ โ ๐. Ovakvi sluฤajevi su ฤesti i javljaju se kad u modelu postoji bar jedna neprekidna promenljiva. Razmotridemo nekoliko naฤina kojima se moลพe ustanoviti slaganje modela sa podacima.
6.2.1Pirsonov ๐๐ test i odstupanje
Da bi model bio dobar, potrebno je da reziduali (razlika izmeฤu stvarnih i ocenjenih vrednosti zavisne promenljive๐ โ ๐ ) budu ลกto manji. U logistiฤkoj regresiji ocenjene vrednosti zavisne promenljive se mogu predstaviti kao
๐ฆ ๐ = ๐๐ ๐ ๐ = ๐๐
๐๐ ๐ฅ๐
1 + ๐๐ ๐ฅ๐ , ๐ = 1, โฆ , ๐ฝ
gde je ๐ ๐ฅ๐ = ๐ฝ 0 + ๐ฝ 1๐ฅ1 + โฏ + ๐ฝ ๐๐ฅ๐ ocena logita za odreฤenu vrednost iz skupa vrednosti
nezavisne promenljive. Funkciju maksimalne verodostojnosti i njen logaritam moลพemo napisati na slededi naฤin:
โ ๐ฝ = ๐๐
๐ฆ๐ ๐ ๐ฅ๐
๐ฆ๐
1 โ ๐ ๐ฅ๐ ๐ ๐โ๐ฆ๐
๐ฝ
๐=1
๐๐โ ๐ฝ = ๐๐ ๐๐
๐ฆ๐ + ๐ฆ๐๐ฅ๐
๐๐ฝ โ ๐๐ ๐๐ 1 + ๐๐ฅ๐๐๐ฝ
๐ฝ
๐=1
.
Devijaciju๐ท datu formulom (6) moลพemo predstaviti kao
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
42
๐ท = 2 ๐ฆ๐ ๐๐๐ฆ๐ ๐๐
๐ฆ ๐ ๐๐ + ๐๐ โ ๐ฆ๐ ๐๐
1 โ ๐ฆ๐ ๐๐
1 โ ๐ฆ ๐ ๐๐ =
๐ฝ
๐ =1
2 ๐ฆ๐ ๐๐๐ฆ๐
๐ฆ ๐+ ๐๐ โ ๐ฆ๐ ๐๐
๐๐ โ ๐ฆ๐
๐๐ โ ๐ฆ ๐
๐ฝ
๐ =1
.
Devijaciju takoฤe moลพemo izraziti pomodu reziduala odstupanja (deviance residual) definisanih na slededi naฤin: [5]
๐ ๐ฆ๐ , ๐ ๐ =
โ 2๐๐ ๐๐ 1 โ ๐ ๐ za๐ฆ๐ = 0
2 ๐ฆ๐ ๐๐๐ฆ๐
๐๐๐ ๐
+ ๐๐ โ ๐ฆ๐ ๐๐๐๐ โ ๐ฆ๐
๐๐ 1 โ ๐ ๐ za 0 < ๐ฆ๐ < ๐๐ , ๐ฆ๐ ๐๐ > ๐ ๐
โ 2 ๐ฆ๐ ๐๐๐ฆ๐
๐๐ ๐ ๐
+ ๐๐ โ ๐ฆ๐ ๐๐๐๐ โ ๐ฆ๐
๐๐ 1 โ ๐ ๐ za 0 < ๐ฆ๐ < ๐๐ , ๐ฆ๐ ๐๐ < ๐ ๐
2๐๐ ๐๐๐ ๐ za๐ฆ๐ = ๐๐
Statistika testa saglasnosti se definiลกe kao
๐ท = ๐ ๐ฆ๐ , ๐ ๐ 2
๐ฝ
๐ =1
.
Joลก jedna statistika za procenu slaganja modela sa podacima je Pirsonova ๐2 statistika testa saglasnosti koja je bazirana na Pirsonovim rezidualima je data sa [12]
๐2 = ๐ ๐ฆ๐ , ๐ ๐ 2
๐ฝ
๐ =1
.
Pod pretpostavkom da je fitovan model korektan, statistike ๐ท i ๐2 imaju ๐๐ฝโ ๐+1 2
raspodelu.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
43
7 Zakljuฤak
U ovom radu je obraฤen pojam logistiฤke regresije koja sluลพi za opisivanje zavisne binarne promenljive i nalaลพenje najbolje veze izmeฤu zavisne i skupa nezavisnih promenljivih.
Rad se sastoji iz pet poglavlja. U prvom poglavlju smo se upoznali sa populacionim modelima, poreklom logistiฤke krive i njenim oblikom. U drugom poglavlju smo objasnili pojam zavisnosti promenljivih i karakterisike te zavisnosti i detaljnije se upoznali sa logistiฤkom regresijom.
U slededem poglavlju upoznali smo se sa parametrima logistiฤke regresije i njihovim znaฤenjem, metodama ocenjivanja parametara i testovima kojim se moลพe utvrditi da li neka promenljiva utiฤe na promenu nezavisne promenljive i u kojoj meri. Takoฤe smo se upoznali i sa intervalima poverenja (pouzdanosti) za parametre.
Poslednja dva poglavlja govore o kreiranju modela. U njima smo se detaljnije upoznali sa nezavisnom promenljivom i opservacijama koje mogu da dovedu do pogreลกnih rezultata prilikom testiranja. Videli smo, takoฤe, na koji naฤin moลพemo da izaberemo promenljive u model i koliko se izabrani model slaลพe sa podacima.
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs
44
8 Literatura
[1] Hallet D., Goodness of fit tests in logistic regression University of Toronto, 1999 [2] HarrellF., Regression Modeling Strategies, Springer, 2001 [3] Hosmer D, Lemeshow S, Studirvant R, Applied logistic regression 3rd ed., Wiley, 2013 [4] Jaccard J., Interaction Effects in Logistic Regression, Sage publications, 2001 [5] Kleinbaum D., Klein M., Logistic Regression, Springer, 2010 [6] Liu W, Simultaneous Inference In Regression, CRC Press, 2011 [7] Loader C, Local Regression and Likelihood, Springer, 1999 [8] Malthus T., An Essay on the Principle of Population, Paulโs church-yard, 1798 [9] Pampel C. Fred, Logistic regression: A Primer, Sage publications, 2000 [10] Stivenson M., An Introduction to Logistic Regression, Massey University, 2012 [11] Seber G., Wild C, Nonlinear Regression, Wiley, 1989 [12] Ying L., On goodness of fit of logistic regression model, Kansas, 2007 [13] http://www.medicine.mcgill.ca/epidemiology/joseph/courses/epib-
621/logistic2.pdf [14] http://sydney.edu.au/vetscience/biostat/macros/logistic_tut_model1.shtml [15] http://www.medicine.mcgill.ca/epidemiology/joseph/courses/epib-621/logfit.pdf [16] http://davidakenny.net/cm/moderation.htm [17] http://www.sagepub.com/upm-data/21121_Chapter_15.pdf [18] http://www.statsdirect.com/help/default.htm#regression_and_correlation/logistic.
htm [19] http://support.minitab.com/en-us/minitab/17/topic-library/modeling-
statistics/regression-and-correlation/logistic-regression/what-are-delta-statistics/ [20] http://www.artnit.net/druลกtvo/item/638-tomas-robert-maltus-porast-
stanovniลกtva.html [21] http://www.model.u-
szeged.hu/cd/content/Interreg_2008/Development%20in%20teaching%20science.pdf [22] http://stats.stackexchange.com/questions/59085/how-to-test-for-simultaneous-
equality-of-choosen-coefficients-in-logit-or-probit [23] http://www.iarc.fr/en/publications/pdfs-online/stat/sp32/SP32_vol1-6.pdf
Vir
tual
Lib
rary
of
Fac
ulty
of
Mat
hem
atic
s -
Uni
vers
ity
of B
elgr
ade
elib
rary
.mat
f.bg
.ac.
rs