tema - university of belgrade

48
Matematiฤki fakultet Univerzitet u Beogradu Tema Logistiฤka regresija Student: Sanja Paลกanjski 1107/2013 Mentor: Slobodanka Jankoviฤ‡ Virtual Library of Faculty of Mathematics - University of Belgrade elibrary.matf.bg.ac.rs

Upload: others

Post on 23-Nov-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Matematiฤki fakultet

Univerzitet u Beogradu

Tema

Logistiฤka regresija

Student: Sanja Paลกanjski 1107/2013

Mentor: Slobodanka Jankoviฤ‡

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

Sadrลพaj

1 Uvod .......................................................................................................................................... 1

2 Logistiฤka funkcija ..................................................................................................................... 2

2.1 Maltusov populacioni model ............................................................................................. 2

2.2 Logistiฤki Verhulstov model .............................................................................................. 3

3 Logistiฤka regresija .................................................................................................................... 7

3.1 Regresija ............................................................................................................................ 7

3.2 Uopลกteni linearni modeli ................................................................................................... 8

3.3 Logistiฤka regresija ............................................................................................................ 9

3.4 Logit transformacija ........................................................................................................ 12

3.5 Verovatnoda i ลกansa dogaฤ‘aja ........................................................................................ 13

4 Parametri logistiฤke regresije .................................................................................................. 15

4.1 Znaฤenje parametara ..................................................................................................... 15

4.2 Ocenjivanje parametara .................................................................................................. 17

4.2.1 GSK metod ..................................................................................................................... 20

4.3 Testiranje znaฤajnosti parametara .................................................................................. 22

4.3.1Test koliฤnika verodostojnosti ........................................................................................ 22

4.3.2Wald-ov test .................................................................................................................... 24

4.3.3Score test......................................................................................................................... 25

4.4 Intervali poverenja za parametre .................................................................................... 26

5 Tumaฤenje modela .................................................................................................................. 27

5.1 Binarna nezavisna promenljiva ....................................................................................... 28

5.2 Politohomna nezavisna promenljiva ............................................................................... 31

5.3 Neprekidna nezavisna promenljiva ................................................................................. 34

5.4 Interakcija izmeฤ‘u promenljivih ..................................................................................... 35

5.5 Identifikacija vaลพnih opservacija ..................................................................................... 36

5.5.1Autlajeri ........................................................................................................................... 36

5.5.2Delta-beta statistika ........................................................................................................ 37

6 Kreiranje modela i procena slaganja modela sa podacima..................................................... 39

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

6.1 Izbor promenljivih u model ............................................................................................. 39

6.2 Procena slaganja modela sa podacima ........................................................................... 40

6.2.1 Pirsonov๐Œ๐Ÿ test i odstupanje .................................................................................. 41

7 Zakljuฤak .................................................................................................................................. 43

8 Literatura ................................................................................................................................. 44

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

1

1 Uvod

Regresija se koristi za opisivanje i predviฤ‘anje zavisne promenljive na osnovu skupa nezavisnih

i prvi put se pojavila krajem 19. veka. Ukoliko je zavisna promenljiva binarna, tada logistiฤka

regresija daje bolje rezultate od linearne, pa se ฤeลกde i koristi.

Kako se binarne promenljive pojavljuju u mnogim sferama ลพivota, logistiฤka regresija ima ลกiroku primenu. Prvi put se pojavila sredinom 20. veka a do danas je naลกla primene u medicini, biologiji, maลกinskom kodiranju, marketingu i raznim drugim istraลพivanjima. Na osnovu nje se moลพe prouฤiti efikasnost leka, koji su spoljni uticaji na bolesti, da li se dati tekst i u kojoj meri poklapa sa proizvoljnim drugim tekstom, da li su ispitanici zainteresovani za kupovinu proizvoda i sliฤno. Logistiฤka funkcija je prepoznatljiva po svom S-obliku pomodu koga se najlakลกe moลพe proceniti stopa rasta neke populacije ili odnos broja starosedelaca u odnosu na broj doseljenika nekog grada.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

2

2 Logistiฤka funkcija

2.1 Maltusov populacioni model

Tomas Robert Maltus (Thomas Robert Malthus) je u svom poznatom delu An essay on the principle of population as it affects the future improvement of society objavljenom 1789. godine, izneo svoje populacionistiฤko glediลกte koje je povezao sa bioloลกko-evolucionistiฤkim i organistiฤkim shvatanjem ฤoveka i druลกtva ipokuลกao da skrene paลพnju javnosti na problem prenaseljenosti. Maltus je tvrdio da ฤoveฤanstvo moลพe opstati samo ako rast populacije bude povremeno prekidan povedanjem smrtnosti โ€“ epidemijama, ratovima, oskudicama, ograniฤenim raฤ‘anjem i katastrofama.[20] Prema njemu, sa povedanjem broja stanovnika, povedava se i potrebna koliฤina hrane i drugih resursa neophodnih za preลพivljavanje, ali to povedanje raste aritmetiฤkom progresijom jer je zemlja proizvodni resurs sa ograniฤenim kapacitetom, dok broj stanovnika raste geometrijskom progresijom. Kako se broj stanovnika povedava brลพe od koliฤine resursa, posle izvesnog vremena zavladade oskudice. Takvo stanje se naziva Maltusova (demografska) katastrofa.

Ako broj stanovnika na planeti u nekom trenutku ๐‘ก0 oznaฤimo sa ๐‘ƒ 0 , a sa ๐‘Ÿ oznaฤimo parametar koji opisuje priraลกtaj stanovniลกtva, tada imamo da de u slededem trenutku broj stanovniลกtva biti ๐‘ƒ 1 = ๐‘Ÿ๐‘ƒ 0 . Pod pretpostavkom da su vremenski intervali jednake duลพine u slededem trenutku dobijamo da broj stanovnika iznosi ๐‘ƒ 2 = ๐‘Ÿ๐‘ƒ 1 = ๐‘Ÿ2๐‘ƒ 0 ... Posle ๐‘› vremenskih intervala dobijamo da broj stanovnika na planeti iznosi ๐‘ƒ ๐‘› = ๐‘Ÿ๐‘›๐‘ƒ 0 . Kako je parametar priraลกtaja ๐‘Ÿ > 1, populacija se povedava i broj stanovnika, bez obzira na poฤetnu vrednost ๐‘ƒ 0 , teลพi beskonaฤnosti.

Ako se sa๐›พ oznaฤikonstantna brzina raฤ‘anja u jedinici vremena (stopa nataliteta), a sa ๐›ฟ konstantna brzina umiranja(stopa mortaliteta), tada vaลพi da je konstantan priraลกtaj u jedinici vremena ๐œ† = ๐›พ โˆ’ ๐›ฟ. Na osnovu toga, ako se sa ๐‘ƒ ๐‘ก oznaฤi veliฤina populacije u trenutku ๐‘ก, posle vremena ๐›ฅ๐‘ก, pri ฤemu je ๐›ฅ๐‘ก malo, imamo

๐‘ƒ ๐‘ก + ๐›ฅ๐‘ก = ๐‘ƒ ๐‘ก + ๐œ†๐‘ƒ ๐‘ก ๐›ฅ๐‘ก.

Prelaskom na limes kad ฮ”๐‘ก โ†’ 0, dobijamo

๐‘ƒโ€ฒ ๐‘ก = ๐œ†๐‘ƒ ๐‘ก (1)

๐‘ƒ 0 = ๐‘ƒ0

odakle dobijamo:

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

3

๐‘‘๐‘ƒ ๐‘ก

๐‘‘๐‘ก= ๐œ†๐‘ƒ ๐‘ก

๐‘‘๐‘ƒ ๐‘ก

๐‘ƒ ๐‘ก = ๐œ†๐‘‘๐‘ก

๐‘™๐‘› ๐‘ƒ ๐‘ก = ๐œ†๐‘ก + ๐‘

๐‘ƒ ๐‘ก = ๐ถ๐‘’๐œ†๐‘ก .

Iz poฤetnog uslova imamo da je ๐ถ = ๐‘ƒ0, odakle sledi da je๐‘ƒ ๐‘ก = ๐‘ƒ0๐‘’๐œ†๐‘ก , odnosno da veliฤina

populacije eksponencijalno zavisi od vremena. Ovakav model se naziva Maltusov populacioni model. [20]

Slika 1. Maltusov populacioni model

Glavni nedostatak ovog modela je taj ลกto se pretpostavlja da je stopa rasta populacije konstantna ฤime se, bez obzira na to kolika je ta konstanta, za kratko vreme moลพe dostidi nerealna veliฤina populacije.

2.2 Logistiฤki Verhulstov model

Pjer Fransoa Verhulst (Pierre Francois Verhulst) je oko 1830. godine modifikovao Maltusov populacioni model, a skoro vek kasnije taj isti model su pronaลกli ameriฤki nauฤnici Loel Rid (Lowell Jacob Reed) i Rejmond Perl (Raymond Pearl). [8] Smatrajudi da nijedna sredina ne moลพe da odrลพava neograniฤen rast populacije, Verhulst je napravio model u kome su resursi ograniฤeni, pa samim

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

4

tim je i rast populacije ograniฤen konstantom. Osnovna razlika u odnosu na Maltusov model je u tome ลกto stope nataliteta i mortaliteta nisu konstantne, ved zavise od veliฤine populacije i date su sa:

๐›พ ๐‘ก = ๐›พ0 โˆ’ ๐›พ1๐‘ƒ ๐‘ก

๐›ฟ ๐‘ก = ๐›ฟ0 + ๐›ฟ1๐‘ƒ ๐‘ก ,

gde su ๐›พ0, ๐›พ1, ๐›ฟ0 i ๐›ฟ1 nenegativne konstante. U ovom modelu se smanjuje brzina raฤ‘anja i povedava brzina umiranja.

Oznaฤimo sa ๐‘Ž = ๐›พ0 โˆ’ ๐›ฟ0 maksimalan priraลกtaj populacije i neka je ๐‘ = ๐›พ1 โˆ’ ๐›ฟ1, ๐‘Ž, ๐‘ > 0. Tada imamo da priraลกtaj ๐œ† iznosi

๐œ† ๐‘ก = ๐›พ0 โˆ’ ๐›ฟ0 โˆ’ ๐›พ1 + ๐›ฟ1 ๐‘ƒ ๐‘ก ,

odnosno

๐œ† ๐‘ก = ๐‘Ž โˆ’ ๐‘๐‘ƒ ๐‘ก .

Poฤetni problem 1 sada se transformiลกe u

๐‘ƒโ€ฒ ๐‘ก = ๐‘Ž โˆ’ ๐‘๐‘ƒ ๐‘ก ๐‘ƒ ๐‘ก

๐‘ƒโ€ฒ ๐‘ก = ๐‘Ž๐‘ƒ ๐‘ก โˆ’ ๐‘๐‘ƒ ๐‘ก 2

๐‘ƒโ€ฒ ๐‘ก = ๐‘Ž 1 โˆ’๐‘

๐‘Ž๐‘ƒ ๐‘ก ๐‘ƒ ๐‘ก

๐‘ƒโ€ฒ ๐‘ก = ๐‘Ž 1 โˆ’1

๐พ๐‘ƒ ๐‘ก ๐‘ƒ ๐‘ก ,

uz uslov

๐‘ƒ 0 = ๐‘ƒ0.

Na osnovu prethodne jednaฤine moลพe se zakljuฤiti da veliฤina populacije na poฤetku raste eksponencijalno sa stopom rasta ๐‘Ž, odnosno ponaลกa se u skladu sa Maltusovim modelom, a kasnije

se taj rast smanjuje kako se veliฤina populacije pribliลพava svom ograniฤenju ๐พ =๐‘Ž

๐‘ jer izraz u

zagradi teลพi nuli. Konstanta ๐พ se naziva maksimalni kapacitet populacije. Za ljudsku populaciju je izraฤunato da je ๐‘Ž = 0.029, ๐‘ = 2.695 โˆ™ 10โˆ’12 , odnosno da je ๐พ โ‰ˆ 10,76 โˆ™ 109. Osim na ljudsku ovaj model se moลพe primeniti i na ลพivotinjsku i biljnu populaciju. Poznat je ฤuveni eksperiment

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

5

nemaฤkog biologa Gausa (Gause) koji je stavio pet jedinki Paramecium Caudatum-a u epruvetu u odgovarajadu sredinu, zbog ฤega je doลกlo do zasidenja posle ฤetiri dana.

Primetimo da je:

๐‘™๐‘›๐พ โˆ’ ๐‘ƒ ๐‘ก

๐‘ƒ ๐‘ก

โ€ฒ

= โˆ’๐‘ƒโ€ฒ ๐‘ก

๐‘ƒ ๐‘ก 1 โˆ’๐‘ƒ ๐‘ก

๐พ

.

Odatle sledi:

๐‘™๐‘› ๐พ โˆ’ ๐‘ƒ ๐‘ก

๐‘ƒ ๐‘ก = โˆ’๐‘Ž๐‘ก โˆ’ ๐‘

๐พ

๐‘ƒ ๐‘ก โˆ’ 1 = ๐ถ๐‘’โˆ’๐‘Ž๐‘ก .

Iz poฤetnog uslova sledi da je ๐ถ =๐พโˆ’๐‘ƒ0

๐‘ƒ0, pa na osnovu toga reลกenje sistema je dato sa:

๐‘ƒ ๐‘ก =

๐‘Ž

๐‘

1 +๐‘Žโˆ’๐‘๐‘ƒ0

๐‘๐‘ƒ0๐‘’โˆ’๐‘Ž๐‘ก

=๐พ

1 + ๐ถ๐‘’โˆ’๐‘Ž๐‘ก.

Ova kriva je poznata pod nazivom logistiฤka kriva a prepoznatljiva je po svom S-obliku zbog ฤega se joลก naziva i S-kriva (slika 2).

Slika 2. Logistiฤki Verhulstov model

Ako je 0 < ๐‘ƒ0 < ๐พ, tada je stopa rasta pozitivna, pa populacija raste kako raste ๐‘ก. Kada ๐‘ก โ†’ โˆž, kriva ๐‘ƒ ๐‘ก ima horizontalnu asimptotu ๐‘ƒ ๐‘ก = ๐พ. Sluฤaj ๐‘ƒ0 > ๐พ se u praksi retko deลกava a oznaฤava smanjenje populacije jer je tada ๐œ† ๐‘ก negativno. Kod ljudske populacije to je posledica

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

6

vanrednih situacija kao ลกto su ratovi, ekonomske krize, velike epidemije, loลกi klimatski uslovi i sliฤno, koji dovode do velikog manjka hrane.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

7

3 Logistiฤka regresija

3.1 Regresija

Prilikom analiziranja podataka neophodno je nadioblik povezanosti izmeฤ‘u zavisne (kriterijumske) i nezavisnih (prediktorskih) promenljivih. Povezavnost izmeฤ‘u promenljivih se analizira regresijom. Reฤ regresija potiฤe od latinske reฤi regressio koja znaฤi vradanje, opadanje, odstupanje. U statistiku je dospela 1855. godine kada je Fransis Galton (Francis Galton) objavio publikaciju pod nazivom Regression towards mediocrity in hereditary stature u kojoj je analizirao visinu sinova u zavisnosti od visine oฤeva. Zakljuฤak ove studije bio je da sinovi ekstremno visokih oฤeva nisu toliko visoki, odnosno da teลพe ka proseku.

Regresija podrazumeva zavisnost jedne sluฤajne promenljive od druge ili viลกe njih. [6] Opลกti model zavisnosti je

๐‘Œ = ๐‘“ ๐‘‹ + ํœ€,

gde je ํœ€ sluฤajna promenljiva nezavisna od ๐‘‹, pri ฤemu ๐‘‹ moลพe biti skalarna ili vektorska veliฤina. [10] Ako je๐‘‹ skalarna veliฤina, radi se o jednostrukoj regresiji, inaฤe se radi o viลกestrukoj. Funkcija ๐‘“ opisuje povezanost izmeฤ‘u ๐‘‹ i ๐‘Œ.

Karakteristike povezanosti izmeฤ‘u promenljivih su

- smer koji moลพe biti pozitivan ili negativan u zavisnosti od toga da li rastom jedne promenljive raste ili opada druga promenljiva

- stepen (jaฤina) povezanosti koji uzima vrednosti izmeฤ‘u -1 i 1. Ako je apsolutna vrednost stepena povezanosti bliska jedinici, govorimo o jakoj vezi izmeฤ‘u promenljivih, a ako je bliska nuli, govorimo o slaboj

- oblik (forma) koji moลพe biti linearan ili nelinearan u zavisnosti od toga da li se veza izmeฤ‘u promenljivih moลพe opisati linearnom ili nelinearnom funkcijom. Ako je promenljiva ๐‘‹

vektorska promenljiva ๐‘‹1, ๐‘‹2, โ€ฆ , ๐‘‹๐‘ , tada je linearni model zadat jednaฤinom

๐‘Œ = ๐›ฝ0 + ๐›ฝ1๐‘‹1 + ๐›ฝ2๐‘‹2 + โ‹ฏ + ๐›ฝ๐‘๐‘‹๐‘ , gde su ๐›ฝ๐‘–๐‘– = 0, โ€ฆ , ๐‘›koeficijenti linearne regresije.

Joลก jedan pokazatelj povezanosti izmeฤ‘u promenljivih je dijagram rasturanja (povezanosti). Svaka taฤka na dijagramu rasturanja predstavlja par podataka o jednoj statistiฤkoj jedinici. Sa dijagrama se moลพe mnogo toga zakljuฤiti o vezi izmeฤ‘u promenljivih. Na primer, ako su taฤke rasprลกene bez ikakvog pravila, onda se na osnovu dijagrama zakljuฤuje da ne postoji veza izmeฤ‘u njih. Takoฤ‘e, ako je prava linija na dijagramu rasturanja najprihvatljivija za date opservacije onda postoji linearan odnos izmeฤ‘u promenljivih.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

8

Cilj analize podataka je nalaลพenje funkcije koja ih najbolje aproksimira. Takav postupak se ฤesto naziva odreฤ‘ivanje regresione linije. Na osnovu analize podatakase moลพe utvrditi koliko je jaka zavisnost izmeฤ‘u ๐‘‹ i ๐‘Œ, kolika je relativna vaลพnost svake nezavisne promenljive u objaลกnjavanju zavisne, koja je najbolja predviฤ‘ena vrednost zavisne promenljive za bilo koju kombinaciju nezavisnih promenljivih i koji se obim promene zavisne promenljive moลพe oฤekivati za svaku jedinicu promene svake nezavisne promenljive. Upotrebom regresionih metoda takoฤ‘e moลพemo za poznate vrednosti promenljive ๐‘‹ predvideti vrednosti promenljive ๐‘Œ.

3.2 Uopลกteni linearni modeli

Uopลกteni linearni modeli (general linear models) predstavljaju uopลกtenje linearne regresije tako ลกto dopuลกtaju obeleลพju da ima raspodelu iz eksponencijalne familije raspodela: binomne, normalne,Puasonove,gama raspodelei sliฤno.Za sluฤajnu promenljivu ๐‘Œ se kaลพe da pripada eksponencijalnoj familiji raspodela ako se njena gustina ili raspodela verovatnoda moลพe napisati na slededi naฤin:

๐‘“ ๐‘ฆ, ๐œƒ = ๐‘  ๐‘ฆ ๐‘ก ๐œƒ ๐‘’๐‘Ž ๐‘ฆ ๐‘ ๐œƒ = ๐‘’๐‘Ž ๐‘ฆ ๐‘ ๐œƒ +ln(๐‘  ๐‘ฆ )+ln(๐‘ก ๐œƒ ),

gde je ๐œƒ parametar od koga zavisi raspodela, a ๐‘Ž, ๐‘, ๐‘  i ๐‘กrealne funkcije.

Osnovne karakteristike uopลกtenog linearnog modela su komponenta sluฤajnsoti, komponenta sistematiฤnosti i funkcija veze. [14], [11]

- Komponenta sluฤajnosti definiลกe uslovnu raspodelu obeleลพja ๐‘Œ๐‘– (za ๐‘–-tu od ๐‘› nezavisnih vrednosti) za date vrednosti nezavisnih promenljivih u modelu.

- Komponenta sistematiฤnosti (linearno predviฤ‘anje, prediktor) predstavlja linearnu funkciju nezavisnih promenljivih i data je sa

๐œ‚๐‘– = ๐›ฝ0 + ๐›ฝ1๐‘‹๐‘–1 + ๐›ฝ2๐‘‹๐‘–2 + โ‹ฏ + ๐›ฝ๐‘๐‘‹๐‘–๐‘ .

- Funkcija veze je funkcija koja povezuje komponentu sistematiฤnosti sa funkcijom ๐œ‡๐‘– = ๐ธ ๐‘Œ๐‘– i data je sa

๐‘” ๐œ‡๐‘– = ๐œ‚๐‘– = ๐›ฝ0 + ๐›ฝ1๐‘‹๐‘–1 + ๐›ฝ2๐‘‹๐‘–2 + โ‹ฏ + ๐›ฝ๐‘๐‘‹๐‘–๐‘ .

Zbog invertibilnosti funkcije veze vaลพi da je [7]

๐œ‡๐‘– = ๐‘”โˆ’1 ๐œ‚๐‘– = ๐‘”โˆ’1 ๐›ฝ0 + ๐›ฝ1๐‘‹๐‘–1 + ๐›ฝ2๐‘‹๐‘–2 + โ‹ฏ + ๐›ฝ๐‘๐‘‹๐‘–๐‘ ,

pa se uopลกteni linearni modeli mogu posmatrati i kao linearni modeli transformacija srednje vrednosti obeleลพja ili kao nelinearni regresioni modeli obeleลพja.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

9

3.3 Logistiฤka regresija

Logistiฤka regresija je jedan od modela uopลกtene linearne regresije u kome zavisna promenljiva uzima samo dve vrednosti (binarna promenljiva), a reฤ‘e viลกe od dve, dok nezavisne promenljive mogu biti numeriฤke, kategorijalne ili njihova kombinacija. Zbog prirode zavisne promenljive, logistiฤki regresioni model se naziva joลก i binarni logistiฤki regresioni model (Binary Logistic Regression Model). Zavisna promenljiva se kodira tako ลกto se jednom ishodu dodeljuje 1, a drugom 0, pri ฤemu je svejedno koji se ishod kodira jedinicom, a koji nulom. Na primer, zavisna promenljiva moลพe biti da li je kupljen proizvod A ili proizvod B, da li je proizvod proลกao kontrolu kvaliteta ili ne, da li je pacijent izleฤen ili ne i sliฤno. Zbog svoje prirode, ovakav vid regresije je pogodan u mnogim marketinลกkim, ekonomskim i demografskim istraลพivanjima.

Na primer, ako je zavisna promenljiva da li je proizvod proลกao kontrolu proizvoda, onda se sa 0 moลพe kodirati - proizvod nije proลกao kontrolu proizvoda, a sa 1 - proizvod je proลกao kontrolu proizvoda. Kao nezavisne promenljive moลพemo imati temperaturu, kvalitet materijala, vreme pravljenja i sliฤno.

Slededim primerom demo pokazati nedostatak primene linearne regresije kod binarne zavisne promenljive.

Primer 1 (Podaci su uzeti iz literature [23].): U tabeli 1 su dati podaci koji govore o tome da li odreฤ‘ena osoba u zavisnosti od starosti boluje od poviลกenog krvnog pritiska ili ne. Rezultujuda promenljiva je binarna i uzima vrednost 0 ako osoba ne boluje od poviลกenog krvnog pritiska i vrednost 1 ako osoba boluje od poviลกenog krvnog pritiska. U ispitivanju su uฤestvovale 33 osobe.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

10

starost bolest starost bolest starost bolest

22 0 40 0 54 0

23 0 41 1 55 1

24 0 46 0 58 1

27 0 47 0 60 1

28 0 48 0 60 0

30 0 49 1 62 1

30 0 49 0 65 1

32 0 50 1 67 1

33 0 51 0 71 1

35 1 51 1 77 1

38 0 52 0 81 1

Tabela 1.

U sluฤaju da je rezultujuda promenljiva neprekidna, dobija se slededi grafik zavisnosti postojanja poviลกenog krvnog pritiska u odnosu na godine.

Slika 3. Veza izmeฤ‘u starosti i bolesti

Sa grafika se jasno vidi da sve taฤke pripadaju jednoj od dve paralelne prave koje predstavljaju prisustvo (bolest=1) odnosno odsustvo (bolest=0) poviลกenog krvnog pritiska. Grafik ne daje jasnu sliku o vezi izmeฤ‘u starosti i pojave poviลกenog krvnog pritiska, ali se moลพe zakljuฤiti da su starije osobe sklonije tom oboljenju od mlaฤ‘ih. Da bi se dala jasnija slika o ovoj zavisnosti, isptanici se dele u grupe prema starosti, odnosno formiraju se intervali za nezavisnu promenljivu i

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

11

raฤunaju se proporcije za rezultujudu promenljivu ๐‘๐‘Ÿ๐‘œ๐‘— ๐‘œ๐‘ ๐‘œ๐‘๐‘Ž ๐‘ ๐‘Ž ๐‘๐‘œ๐‘ฃ๐‘– ลก๐‘’๐‘› ๐‘–๐‘š ๐‘˜๐‘Ÿ๐‘ฃ๐‘›๐‘–๐‘š ๐‘๐‘Ÿ๐‘–๐‘ก๐‘–๐‘ ๐‘˜๐‘œ๐‘š

๐‘ข๐‘˜๐‘ข๐‘๐‘Ž๐‘› ๐‘๐‘Ÿ๐‘œ๐‘— ๐‘œ๐‘ ๐‘œ๐‘๐‘Ž ๐‘ข ๐‘‘๐‘Ž๐‘ก๐‘œ๐‘— ๐‘”๐‘Ÿ๐‘ข๐‘๐‘– . Na taj naฤin

se dobijaju podaci koji su dati u tabeli 2.

Tabela 2.

Na slici 4 je prikazan grafik sa koga se jasno vidi da se povedanjem godina povedava i rizik od poviลกenog krvnog pritiska.

Slika 4. Veza izmeฤ‘u starosti i bolesti

starost veliฤina grupe

broj obolelih

broj obolelih u procentima

20 โ€“ 29 5 0 0

30 โ€“ 39 6 1 17

40 โ€“ 49 7 2 29

50 โ€“ 59 7 4 57

60 โ€“ 69 5 4 80

70 โ€“ 79 2 2 100

80 โ€“ 89 1 1 100

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

12

3.4 Logit transformacija

Logistiฤka ili logit transformacija se koristi za predviฤ‘anje verovatnode nastupanja pojave koja je kodirana jedinicom. [6] Na primer, ako je jedinicom kodirana kupovina proizvoda A, a nulom kupovina proizvoda B, traลพi se verovatnoda da de odreฤ‘eni kupac kupiti proizvod A. Primenom (viลกestruke) linearne regresije se dobija reลกenje u kojem de zavisna promenljiva uzeti vrednost izmeฤ‘u 0 i 1. Ako je ta vrednost bliลพa jedinici, tada se moลพe zakljuฤiti da de kupac kupiti priizvod A. Meฤ‘utim, ฤesto se deลกava da se primenom linearne regresije dobiju i vrednosti van opsega 0, 1 . Poลกto se ovakve vrednosti ne mogu tumaฤiti kao verovatnoda, linearna regresija u ovakvim situacijama nije dobro reลกenje.

Da bi se dobio logistiฤki regresioni model, potrebno je izvrลกiti odreฤ‘enu transformaciju zavisne promenljive,koja se naziva logit transformacija. Od velikog znaฤaja za logit transformaciju je oฤekivana vrednost zavisne promenljive u odnosu na datu vrednost nezavisne promenljive ๐‘‹,๐ธ ๐‘Œ ๐’™ . U opลกtem sluฤaju ๐ธ ๐‘Œ ๐’™ uzima vrednost izmeฤ‘u โˆ’โˆž i +โˆž, ali kako je promenljiva ๐‘Œbinarna, ๐ธ ๐‘Œ ๐’™ uzima vrednosti ne manje od 0 i ne vede od 1. Promena u ๐ธ ๐‘Œ ๐’™ po jedinici promene za ๐‘‹ postaje progresivno manja kako uslovna sredina postaje bliลพa 0 ili 1. [2]

Poลกto je zavisna promenljiva ๐‘Œ dihotomna, promenljiva ๐‘Œ|๐‘ฅtakoฤ‘euzimadvevrednosti. [11] Neka je raspodela promenljive ๐‘Œ data na slededi naฤin:

๐‘Œ: 0 1

1 โˆ’ ๐œ‹ ๐œ‹ ,

gde je 0 โ‰ค ๐œ‹ โ‰ค 1. Tada je sluฤajna promenljiva ๐‘Œ|๐‘ฅ odreฤ‘ena raspodelom:

๐‘Œ|๐’™: 0 1

1 โˆ’ ๐œ‹ ๐’™ ๐œ‹ ๐’™ ,

a njeno matematiฤko oฤekivanje je:

๐ธ ๐‘Œ ๐’™ = 0 โˆ™ 1 โˆ’ ๐œ‹ ๐’™ + ๐œ‹ ๐’™ = ๐œ‹ ๐’™ .

U modelu logistiฤke regresije odnos izmeฤ‘u verovatnode ๐œ‹ i promenljive ๐‘‹ se predstavlja na slededi naฤin:

๐œ‹ ๐’™ =๐‘’๐›ฝ0+ ๐›ฝ๐‘˜๐‘ฅ๐‘˜

1 + ๐‘’๐›ฝ0+ ๐›ฝ๐‘˜๐‘ฅ๐‘˜. 2

Funkcija ๐œ‹ ๐’™ ima pozitivan prvi izvod, pa je rastuda na svom domenu i ima horizontalnu asimptotu ๐œ‹ ๐’™ = 1, odnosno ima S-oblik. Takoฤ‘e, funkcija je nelinearna po parametrima

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

13

๐›ฝ0, ๐›ฝ1, โ€ฆ , ๐›ฝ๐‘ , alise odreฤ‘enom logit transformacijom moลพe dovesti do linearnog oblika. Vaลพi

sledede: [3], [4]

๐œ‹ ๐’™ = ๐œ‹ ๐‘ฅ1, ๐‘ฅ2, โ€ฆ , ๐‘ฅ๐‘ = ๐‘ƒ ๐‘Œ = 1 ๐‘‹1 = ๐‘ฅ1, ๐‘‹2 = ๐‘ฅ2, โ€ฆ , ๐‘‹๐‘ = ๐‘ฅ๐‘ =๐‘’๐›ฝ0+ ๐›ฝ๐‘˜๐‘ฅ๐‘˜

1 + ๐‘’๐›ฝ0+ ๐›ฝ๐‘˜๐‘ฅ๐‘˜

1 โˆ’ ๐œ‹ ๐’™ = 1 โˆ’ ๐œ‹ ๐‘ฅ1, ๐‘ฅ2, โ€ฆ , ๐‘ฅ๐‘ = ๐‘ƒ ๐‘Œ = 0 ๐‘‹1 = ๐‘ฅ1, ๐‘‹2 = ๐‘ฅ2, โ€ฆ , ๐‘‹๐‘ = ๐‘ฅ๐‘ =1

1 + ๐‘’๐›ฝ0+ ๐›ฝ๐‘˜๐‘ฅ๐‘˜

๐œ‹ ๐’™

1 โˆ’ ๐œ‹ ๐’™ = ๐‘’๐›ฝ0+ ๐›ฝ๐‘˜๐‘ฅ๐‘˜

๐‘” ๐’™ = ๐‘™๐‘› ๐œ‹ ๐’™

1 โˆ’ ๐œ‹ ๐’™ = ๐›ฝ0 + ๐›ฝ1๐‘ฅ1 + โ‹ฏ + ๐›ฝ๐‘๐‘ฅ๐‘ .

Funkcija ๐‘™๐‘› ๐œ‹ ๐’™

1โˆ’๐œ‹ ๐’™ se naziva logit transformacija ili logit funkcija. Kako vrednost ๐œ‹ ๐’™

pripada intervalu 0,1 , vrednost logit funkcije se krede od โˆ’โˆž do +โˆž. [1], [7]

Kod logistiฤke regresije vrednost rezultujude promenljive๐‘Œ za dato ๐’™ se moลพe izraziti kao ๐‘Œ|๐’™ = ๐œ‹ ๐’™ + ํœ€. Najฤeลกdi je sluฤaj da promenljiva ํœ€ ima normalnu raspodelu sa matematiฤkim oฤekivanjem koje je jednako nuli I konstantnom varijansom. Meฤ‘utim, poลกto je sluฤajna promenljiva ๐‘Œbinarna, ํœ€ ima binarnu raspodelu. Iz ฤinjenice da je ๐‘Œ|๐’™ โˆ’ ๐œ‹ ๐’™ = ํœ€ sledi da promenljiva ํœ€ uzima vrednost 1 โˆ’ ๐œ‹ ๐’™ sa verovatnodom ๐œ‹ ๐’™ (kada je ๐‘ฆ = 1) i vrednost โˆ’๐œ‹ ๐’™ sa verovatnodom 1 โˆ’ ๐œ‹ ๐’™ (kada je ๐‘ฆ = 0). Dakle, promenljiva ํœ€ ima slededu raspodelu:

ํœ€: 1 โˆ’ ๐œ‹ ๐’™ โˆ’๐œ‹ ๐’™

๐œ‹ ๐’™ 1 โˆ’ ๐œ‹ ๐’™

a njeno matemetiฤko oฤekivanje i varijansa iznose ๐ธ ํœ€ = 0 i ๐ท ํœ€ = ๐œ‹ ๐’™ 1 โˆ’ ๐œ‹ ๐’™ .

3.5 Verovatnoฤ‡a i ลกansa dogaฤ‘aja

Posmatrajmo binarnu promenljivu ๐‘Œ koja uzima vrednost 1 ako se posmatrani dogaฤ‘aj desio i vrednost 0 ako se dogaฤ‘aj nije desio. Srednja vrednost promenljive ๐‘Œ predstavlja verovatnodu ostvarenih dogaฤ‘aja tj. ๐œ‡ = ๐‘ƒ ๐‘Œ = 1 . Na primer, ako je ๐œ‡ = 0.83, tada se od svih posmatranih dogaฤ‘aja ostvarilo njih 83%.[4]

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

14

ล ansa dogaฤ‘aja (odds) predstavlja koliฤnik verovatnode da se dogaฤ‘aj desio i verovatnode da se dogaฤ‘aj nije desio. [8] Ako sa ๐‘ƒ oznaฤimo verovatnodu da se dogaฤ‘aj desio, tada ลกansa dogaฤ‘aja iznosi:

๐‘œ๐‘‘๐‘‘๐‘  =๐‘ƒ

1 โˆ’ ๐‘ƒ. 3

Na primer, ako je verovatnoda da se dogaฤ‘aj desi 0.83, tada je ลกansa dogaฤ‘aja ๐‘œ๐‘‘๐‘‘๐‘  = 0.83 0.17 = 4.88, ลกto znaฤi da dogaฤ‘aj ima 4.88 puta vede ลกanse da se desi nego da se ne desi. Iz formule 3 se vidi da ลกansa dogaฤ‘aja rastuda funkcija jer je prvi izvod ลกanse pozitivna funkcija.

Ako je poznata ลกansa dogaฤ‘aja, verovatnoda dogaฤ‘aja se moลพe izraฤunati kao

๐‘ƒ =๐‘œ๐‘‘๐‘‘๐‘ 

1 + ๐‘œ๐‘‘๐‘‘๐‘ .

U sluฤaju da je verovatnoda ostvarenja dogaฤ‘aja 0.5, tada je ลกansa dogaฤ‘aja 1 i jednaka je ลกansi komplementarnog dogaฤ‘aja. ล to je ลกansa nekog dogaฤ‘aja veda, veda je i verovatnoda da se taj dogaฤ‘aj desi, pa na taj naฤin moลพemo videti da li je veda verovatnoda da se desi neki dogaฤ‘aj ili njemu komplementarni dogaฤ‘aj.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

15

4 Parametri logistiฤke regresije

4.1 Znaฤenje parametara

Posmatrajmo logistiฤki model u kome je sluฤajna promenljiva ๐‘‹ jednodimenzionalna, odnosno funkcija ๐œ‹ ๐‘ฅ je definisana na slededi naฤin:

๐œ‹ ๐‘ฅ =๐‘’๐›ฝ0+๐›ฝ1๐‘ฅ

1 + ๐‘’๐›ฝ0+๐›ฝ1๐‘ฅ.

Koeficijent๐›ฝ1se naziva koeficijent nagiba i ukazuje na stopu rasta ili opadanja funkcije ๐œ‹ ๐‘ฅ u zavisnosti od toga da li je ๐›ฝ1 pozitivna ili negativna konstanta.[8] Ako je ๐›ฝ1 = 0, tada je ๐œ‹ ๐‘ฅ konstantna za sve vrednosti ๐‘ฅ, pa kriva logistiฤke regresije prelazi u horizontalnu pravu. Nagib

tangente logistiฤke krive je dat izrazom ๐›ฝ1๐œ‹ ๐‘ฅ 1 โˆ’ ๐œ‹ ๐‘ฅ . Ako je, na primer, ๐œ‹ ๐‘ฅ = 0.5 tangenta

logistiฤke krive ima nagib 0.25๐›ฝ1, a ako je ๐œ‹ ๐‘ฅ = 0.9 ili ๐œ‹ ๐‘ฅ = 0.1, taj nagib iznosi 0.09๐›ฝ1. Nagib se pribliลพava vrednosti 0, kako se ๐œ‹ ๐‘ฅ pribliลพava 0 ili 1. Najvedi nagib tangente se postiลพe kada je ๐œ‹ ๐‘ฅ = 0.5. [4]

Koeficijent ๐›ฝ1 se moลพe izraziti kao razlika logita u taฤkama ๐‘ฅ + 1 i ๐‘ฅ, pa se moลพe protumaฤiti kao promena zavisne promenljive koja odgovara jediniฤnoj logita, odnosno๐›ฝ1 = ๐‘” ๐‘ฅ + 1 โˆ’ ๐‘” ๐‘ฅ . [7]

Slika 5. S-kriva i njena tangenta

Neka je dat model sa dvodimenzionalnom sluฤajnom promeljivom๐‘‹u kome se analizira da li su graฤ‘ani za ili protiv zakonodavstva u zavisnosti od pola i stepena privrลพenosti jednoj od dve ideologije: konzervatizmu ili liberalizmu. Pol ๐‘‹1 je binarna promenljiva koja uzima vrednost 0 ako je ispitanik ลพensko, odnosno 1 ako je muลกko. Stepen privrลพenosti ideologiji ๐‘‹2 moลพe da uzme

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

16

vrednosti od โˆ’3 do 3. Ukoliko je negativan, ispitanik je okrenut viลกe ka konzervatizmu, a ukoliko je pozitivan, okrenut je viลกe ka liberalizmu. Stepen 0 govori da ispitanik nije okrenut nijednoj ideologiji.Zavisna promenljiva uzima vrednost 0, ako ispitanik ne podrลพava zakonodavstvo, a u suprotnom uzima vrednost 1. Pretpostavimo da je logit zadat formulom:

๐‘” ๐’™ = ๐‘™๐‘›๐œ‹ ๐’™

1 โˆ’ ๐œ‹ ๐’™ = 1.555 โˆ’ 1.712๐‘ฅ1 โˆ’ 0.513๐‘ฅ2.

Na primer, predviฤ‘ena vrednost logita za muลกkarca kod koga je stepen privrลพenosti ideologiji2 iznosi

๐‘” 1,2 = 1.555 โˆ’ 1.712 โˆ™ 1 โˆ’ 0.513 โˆ™ 2 = โˆ’1.183.

Eksponencijalnom transformacijom ove vrednosti dobija se ๐‘’โˆ’1.183 = 0.306 ลกto znaฤi da je predviฤ‘ena ลกansa za glasanje u korist zakonodavstva kod ovakvog profila ljudi (muลกkarac, stepen privrลพenosti ideologiji iznosi 2) pribliลพno 1 3 . Na sliฤan naฤin se mogu odrediti i ostale ลกanse.

Slobodan koeficijent koji u ovom modelu iznosi 1.555 predstavlja vrednost logita u taฤki 0,0 . Promenljiva pol uzima vrednost 0, ako je osoba ลพenskog pola, pa tako kod osoba ลพenskog pola ฤiji je stepen privrลพenosti ideologiji0, logit uzima vrednost 1.555. Ako je posmatrana osoba muลกkog pola sa istom stepenom privrลพenosti ideologiji, njen logit iznosi โˆ’0.157. Eksponencijalnom transformacijom ovih vrednosti, dobijaju se predviฤ‘ene vrednosti ลกansi za muลกki pol ๐‘’โˆ’0.157 =

0.855 i za ลพenski pol ๐‘’1.555 = 4.735. Odnos ลกansi u ovom sluฤaju iznosi 0.855

4.735= 0.1805, ลกto znaฤi da

kod osoba koje nisu okrenute nijednoj od ove dve ideologije muลกkarci imaju 0.1805 puta vede ลกanse da glasaju za zakonodavstvo od ลพena.

Koeficijent uz promenljivu koja oznaฤava pol je โˆ’1.712. Njegovom eksponencijalnom transformacijom se dobija ๐‘’โˆ’1.712 = 0.1805 ลกto je u stvari prethodno izraฤunata vrednost. Dakle, za binarnu promenljivu koja uzima vrednosti 0 i 1 vaลพi da se, ako su ostale vrednosti promenljivih fiksirane, eksponencijalnom transformacijom koeficijenta koji stoji uz nju u jednaฤini logita, dobija odnos ลกansi kod binarne promenljive.

Ukoliko se fiksira vrednost promenljive koja oznaฤava pol (na primer, ๐‘‹1 = 0), moลพemo

izraฤunati vrednosti ๐‘” ๐’™ i ลกanse glasanja u korist zakonodavstva๐‘’๐‘” ๐‘ฅ za razliฤite vrednosti ideologije.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

17

vrednosti promenljive ๐‘‹2 ๐‘” ๐’™ ๐‘’๐‘” ๐‘ฅ 3 0.016 1.017 2 0.529 1.697 1 1.042 2.835 0 1.555 4.735

โˆ’1 2.068 7.909 โˆ’2 2.581 13.21 โˆ’3 3.094 22.065

Tabela 3

U tabeli 3 moลพemo da uoฤimo pravilo po kojem se raฤunaju ลกanse glasanja u korist zakonodavstva. Prilikom povedanja vrednosti promenljive ๐‘‹2 za jednu jedinicu, vrednost ลกanse se pomnoลพi faktorom0.599. Na primer, ako se vrednost ลกanse koja je dobijena za vrednost ๐‘ฅ2 = โˆ’3 pomnoลพi sa 0.599, dobija se 22.065 โˆ™ 0.599 = 13.21 ลกto je vrednost ลกanse koja se dobije za vrednost ๐‘ฅ2 = โˆ’2. Eksponencijalnom transformacijom koeficijenta koji stoji uz promenljivu ๐‘‹2, dobija se vrednost ๐‘’โˆ’0.513 = 0.599, ลกto je upravo koeficijent kojim smo mnoลพili vrednosti ลกanse. Kod kvantitativne promenljive, ako su ostale promenljive fiksirane, eksponencijalnom transformacijom koeficijenta koji stoji uz tu promenljivu u jednaฤini logita, dobija se multiplikativni faktor kojim se,ako se pomnoลพi vrednost ลกanse, dobija vrednost ลกanse u taฤki te promenljive povedane za jednu jedinicu. [4]

4.2 Ocenjivanje parametara

Za ocenjivanje nepoznatih parametara kod viลกestruke linearne regresije se koristi metod najmanjih kvadrata koji minimizira sumu kvadrata odstupanja registrovanih vrednosti od predviฤ‘enih vrednosti dobijenih na osnovu modela. Na taj naฤin se dobijaju ocene nepoznatih parametara koje poseduju osobine nepristrasnosti,efikasnosti i osobine BLUE (best linear unbiased estimator โ€“ najbolja linearna nepristrasna ocena) za mali broj podataka i osobine asimptotske nepristrasnosti, asimptotske efikasnosti i konzistentnosti za veliki broj podataka. Kada bi se metod najmanjih kvadrata primenio na binarni model, ocene ne bi imale ove karakteristike.

Prilikom ocenjivanja parametara logistiฤke regresije koristi se metod maksimalne verodostojnosti. Ovaj metod daje vrednosti parametara ๐›ฝ๐‘– , ๐‘– = 0, โ€ฆ , ๐‘ koje maksimiziraju verovatnodu dobijanja registrovanog skupa podataka. Funkcija verodostojnosti โ„’ ๐œท =

โ„’ ๐›ฝ0, ๐›ฝ2, โ€ฆ , ๐›ฝ๐‘ koja se javlja u ovom metodu je funkcija nepoznatih parametara koja predstavlja

verovatnodu koja kombinuje doprinose svih subjekata u ispitivanju. Da bi se naลกle ocene nepoznatih parametara pomodu metode maksimalne verodostojnosti, potrebno je nadi maksimum funkcije verodostojnosti. Pod uslovom da je diferencijabilna, traลพe se one vrednosti parametara

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

18

koje su reลกenje jednaฤine ๐‘‘โ„’ ๐œท

๐‘‘๐œท= 0. Kako je logaritamska funkcija monotono rastuda na svom

domenu, reลกenja jednaฤina๐‘‘โ„’ ๐œท

๐‘‘๐œท= 0 se poklapaju sa reลกenjima jednaฤine

๐‘‘๐‘™๐‘› โ„’ ๐œท

๐‘‘๐œท= 0, pa je nekad

jednostavnije posmatrati funkciju ๐‘‘๐‘™๐‘›โ„’ ๐œท . Neka je dat uzorak od ๐‘› nezavisnih registrovanih

vrednosti parova ๐’™๐’Š, ๐‘ฆ๐‘– , gde je ๐’™๐’Š = ๐‘ฅ1๐‘– , ๐‘ฅ2๐‘– , โ€ฆ , ๐‘ฅ๐‘๐‘– , a ๐‘ฆ๐‘– uzima vrednost 0 ili 1 za svako

๐‘– = 1, โ€ฆ , ๐‘›.

Neka je raspodela za ๐‘Œ data sa

๐‘Œ: 0 1

1 โˆ’ ๐œ‹ ๐œ‹ .

Na osnovu naลกeg modela imamo da je:

๐œ‹ ๐’™๐’Š = ๐‘ƒ ๐‘Œ = 1 ๐‘‹๐‘– = ๐’™๐’Š =๐‘’๐›ฝ0+ ๐›ฝ๐‘˜๐‘ฅ๐‘˜๐‘–

1 + ๐‘’๐›ฝ0+ ๐›ฝ๐‘˜๐‘ฅ๐‘˜๐‘–

1 โˆ’ ๐œ‹ ๐’™๐’Š = ๐‘ƒ ๐‘Œ = 0 ๐‘‹๐‘– = ๐’™๐’Š =1

1 + ๐‘’๐›ฝ0+ ๐›ฝ๐‘˜๐‘ฅ๐‘˜๐‘–

za svako ๐‘– = 1, โ€ฆ , ๐‘›. Ako je ๐‘ฆ๐‘– = 1, doprinos para ๐’™๐’Š, ๐‘ฆ๐‘– funkciji verodostojnosti je ๐œ‹ ๐’™๐’Š , a ako je ๐‘ฆ๐‘– = 0, onda je doprinos jednak 1 โˆ’ ๐œ‹ ๐’™๐’Š , pa je doprinos para ๐’™๐’Š, ๐‘ฆ๐‘– funkciji verodostojnosti

๐œ‹ ๐’™๐’Š ๐‘ฆ๐‘– 1 โˆ’ ๐œ‹ ๐’™๐’Š

1โˆ’๐‘ฆ๐‘–.

Registrovane vrednosti parova su meฤ‘usobno nezavisne pa je funkcija verodostojnosti jednaka proizvodu pojedinaฤnih doprinosa parova ๐’™๐’Š, ๐‘ฆ๐‘– za svako ๐‘– = 1, โ€ฆ , ๐‘›, odnosno: [11]

โ„’ ๐œท = ๐‘ƒ ๐‘ฆ1, ๐‘ฆ2,, โ€ฆ , ๐‘ฆ๐‘› = ๐‘ƒ ๐‘ฆ1 โˆ™ ๐‘ƒ ๐‘ฆ2 โˆ™ โ‹ฏ โˆ™ ๐‘ƒ ๐‘ฆ๐‘

โ„’ ๐œท = ๐œ‹ ๐’™๐’Š ๐‘ฆ๐‘– 1 โˆ’ ๐œ‹ ๐’™๐’Š

1โˆ’๐‘ฆ๐‘–

๐‘›

๐‘–=1

โ„’ ๐œท = ๐œ‹ ๐’™๐’Š

1 โˆ’ ๐œ‹ ๐’™๐’Š

๐‘ฆ๐‘–

1 โˆ’ ๐œ‹ ๐’™๐’Š

๐‘›

๐‘–=1

.

Radi jednostavnosti, posmatrademo logaritam funkcije verodostojnosti.

๐‘™๐‘›โ„’ ๐œท = ๐‘ฆ๐‘–๐‘™๐‘› ๐œ‹ ๐’™๐’Š

1 โˆ’ ๐œ‹ ๐’™๐’Š + ๐‘™๐‘› 1 โˆ’ ๐œ‹ ๐’™๐’Š

๐‘›

๐‘–=1

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

19

๐‘™๐‘›โ„’ ๐œท = ๐‘ฆ๐‘–๐’™๐’Š๐‘ป๐œท โˆ’ ๐‘™๐‘› 1 + ๐‘’๐’™๐’Š

๐‘ป๐œท

๐‘›

๐‘–=1

.

Izjednaฤavanjem izvoda funkcije ๐‘™๐‘›โ„’ ๐œท sa nulom se dobija

๐‘‘๐‘™๐‘›โ„’ ๐œท

๐‘‘๐œท= ๐‘ฆ๐‘– โˆ’

๐‘’๐’™๐’Š๐‘ป๐œท

1 + ๐‘’๐’™๐’Š๐‘ป๐œท

๐‘›

๐‘–=1

๐’™๐’Š๐‘ป = 0. (4)

Kako je sistem jednaฤina (4) nelinearan po ๐œท, reลกenje sistema ๐œท se moลพe nadi nekom iteratvinom metodom. [3] Sistem se moลพe napisati i u ekvivalentnom obliku:

๐‘‘๐‘™๐‘›โ„’ ๐œท

๐‘‘๐œท= ๐‘‹๐‘‡ ๐’š โˆ’ ๐‘ฌ ๐’€ = ๐‘‹๐‘‡ ๐’š โˆ’ ๐’‘ ,

gde je๐’‘vektor generisan sa ๐‘๐‘– = ๐‘ƒ ๐‘Œ = 1 ๐’™๐’Š = ๐œ‹ ๐’™๐’Š = ๐œ‹๐‘– =๐‘’๐’™๐’Š

๐‘ป๐œท

1+๐‘’๐’™๐’Š๐‘ป๐œท

i ๐‘‹ =

1 ๐‘‹11 โ‹ฏ ๐‘‹1๐‘

1 ๐‘‹21 โ‹ฏ ๐‘‹2๐‘

โ‹ฎ1

โ‹ฎ๐‘‹๐‘›1

โ‹ฑโ‹ฏ

โ‹ฎ๐‘‹๐‘›๐‘

.

Ako sa ๐‘‰oznaฤimo dijagonalnu matricu ๐‘‰ = ๐œ‹1 1 โˆ’ ๐œ‹1

โ‹ฑ๐œ‹๐‘› 1 โˆ’ ๐œ‹๐‘›

, tada je Hesijanova

matrica (kvadratna matrica generisana drugim parcijalnim izvodima) logaritma funkcije

verodostojnosti data sa ๐‘‘2๐‘™๐‘›โ„’ ๐œท

๐‘‘๐œท2= โˆ’๐‘‹๐‘‡๐‘‰๐‘‹. Iterativna jednaฤina za dobijanje ocene ๐œท nepoznatog

parametra ๐œทje:

๐œท ๐‘š+1 = ๐œท ๐‘š + ๐‘‹๐‘‡๐‘‰ ๐‘š ๐‘‹ โˆ’1

๐‘‹๐‘‡ ๐’š โˆ’ ๐’‘ ๐‘š , 5

pa tako za poฤetne vrednosti parametra ๐›ฝ = ๐›ฝ 0 nalazi se vrednost parametra ๐›ฝ = ๐›ฝ 1 :

๐œท 1 = ๐œท 0 + ๐‘‹๐‘‡๐‘‰ 0 ๐‘‹ โˆ’1

๐‘‹๐‘‡ ๐’š โˆ’ ๐’‘ 0 ,

odnosno:

๐œท ๐Ÿ = ๐œท ๐ŸŽ + โˆ’๐‘‘2๐‘™๐‘›โ„’ ๐œท ๐ŸŽ

๐‘‘๐œท ๐ŸŽ ๐Ÿ

โˆ’๐Ÿ๐‘‘๐‘™๐‘›โ„’ ๐œท ๐ŸŽ

๐‘‘๐œท ๐ŸŽ .

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

20

Sliฤno, zamenom u jednaฤinu (5), mogu se nadi i vrednosti ๐œท ๐Ÿ , ๐œท ๐Ÿ‘ ... Ove vrednosti konvergiraju

ka oceni nepoznatog parametra ๐œท, ๐œท = ๐›ฝ 1, ๐›ฝ 2, โ€ฆ , ๐›ฝ ๐‘ . Posledica jednakosti (5) je da vaลพi

๐’š๐’Š = ๐… ๐’Š๐’๐’Š=๐Ÿ

๐’๐’Š=๐Ÿ , gde je gde je ๐… ๐’Š = ๐… ๐’™๐’Š ocena dobijena na osnovu metode maksimalne

verodostojnosti, odnosno da je suma registrovanih vrednosti za ๐’š jednaka sumi predviฤ‘enih

(oฤekivanih) vrednosti na osnovu modela. Za dovoljno velik uzorak vaลพi da

๐œท ~๐‘ต ๐œท, โˆ’๐‘‘2๐‘™๐‘›โ„’ ๐œท

๐‘‘๐œท 2 โˆ’๐Ÿ

. [3]

Matrica ๐ผ = ๐‘‹๐‘‡๐‘‰๐‘‹ se naziva informaciona matrica. Inverz te matrice, tj. ๐ผโˆ’1 =

๐‘‰๐‘Ž๐‘Ÿ ๐œท predstavlja kovarijacionu matricu na ฤijoj se dijagonali nalaze elementi Var(๐œท ๐’Š), a van

dijagonale vrednosti kovarijacija๐ถ๐‘œ๐‘ฃ ๐›ฝ ๐‘– , ๐›ฝ ๐‘— .

4.2.1 GSK metod

GSK metod (Grizzle, Starmer, Koch metod) je zasnovan na neiterativnom metodu najmanjih kvadrata sa teลพinama. [3] Glavno ograniฤenje ovog metoda je to ลกto zahteva da ocena verovatnode ๐œ‹๐‘– za vedinu vrednosti ๐‘ฅ๐‘– ne bude 0 ili 1. Podelom uzorka prema vrednosti zavisne promenljive, dobijaju se dve grupe za ๐‘ฆ = 0 i ๐‘ฆ = 1 . Ako nezavisna promenljiva ima asimpotski normalnu raspodelu na svakoj od tih grupa sa razliฤitim matematiฤkim oฤekivanjima i jednakim disperzijama, tj.

๐‘‹|๐‘Œ~๐‘ ๐œ‡๐‘— , ๐œŽ2 , ๐‘— = 0,1

tada su logistiฤki koeficijenti dati sa:

๐›ฝ0 = ๐‘™๐‘›๐œƒ1

๐œƒ0

โˆ’0.5 ๐œ‡1

2 โˆ’ ๐œ‡02

๐œŽ2

๐›ฝ1 =๐œ‡1 โˆ’ ๐œ‡0

๐œŽ2,

gde je ๐œƒ๐‘— = ๐‘ƒ ๐‘Œ = ๐‘— , za ๐‘— = 0,1. Da bi se izraฤunale vrednosti ๐›ฝ0 i ๐›ฝ1, potrebno je iz uzorka oceniti

parametre ๐œƒ0, ๐œƒ1, ๐œ‡0, ๐œ‡1 i ๐œŽ2. Parametar ๐œ‡๐‘— se ocenjuje kao sredina odgovarajude podgrupe

(formirane u zavisnosti od vrednosti ๐‘ฆ) tj. ๐œ‡ ๐‘— = ๐‘ฅ๐‘— , za ๐‘— = 0,1, ๐œƒ 1 = ๐‘›1 ๐‘› ,๐œƒ 0 = 1 โˆ’ ๐œƒ 1 i

๐œŽ 2 = ๐‘›0 โˆ’ 1 ๐‘ 0

2 + ๐‘›1 โˆ’ 1 ๐‘ 12

๐‘›0 + ๐‘›1 โˆ’ 2,

gde je ๐‘ ๐‘—2 nepristrasna ocena ๐œŽ2 izraฤunata u odgovarajudoj podgrupi za ๐‘ฆ = ๐‘—, ๐‘— = 0,1, a ๐‘›0 i ๐‘›1

veliฤine odgovarajudih grupa.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

21

Ovaj metod se moลพe primeniti i kod viลกestruke logistiฤke regresije. Sliฤno kao u jednodimenzionalnoj logistiฤkoj regresiji uzorak se deli u dve grupe u zavisnosti od ishoda zavisne promenljive. Pretpostavlja se da je uslovna raspodela๐‘ฟ u svakoj od tih podgrupa p-dimenzionalna normalna raspodela sa vektorom matematiฤkih oฤekivanja koji zavisi od vrednosti๐‘ฆ i kovarijacionom matricom koja ne zavisi od vrednosti๐‘ฆ, tj:

๐‘ฟ|๐‘Œ~๐‘ ๐œ‡๐‘— , ฮฃ , ๐‘— = 0,1

gde je ๐๐’‹ p-dimenzioni vektor matematiฤkih oฤekivanja za ๐‘— = 0,1, a ฮฃ kovarijaciona matrica

dimenzije ๐‘ ร— ๐‘. Tada su koeficijenti dati jednaฤinama:

๐›ฝ0 = ๐‘™๐‘›๐œƒ1

๐œƒ0

โˆ’ 0.5 ๐๐Ÿ โˆ’ ๐๐ŸŽ ๐‘‡ฮฃโˆ’1 ๐๐Ÿ + ๐๐ŸŽ

๐›ฝโˆ— = ๐๐Ÿ โˆ’ ๐๐ŸŽ ๐‘‡ฮฃโˆ’1

gde je ๐œทโˆ— = ๐›ฝ1, ๐›ฝ2, โ€ฆ , ๐›ฝ๐‘ i ๐œƒ๐‘— = ๐‘ƒ ๐‘Œ = ๐‘— , za ๐‘— = 0,1. Za ocenjivanje ๐›ฝ0 i ๐›ฝโˆ— moraju se najpre

oceniti parametri ๐๐ŸŽ, ๐๐Ÿ, ๐œƒ0, ๐œƒ1 i ฮฃ. Matematiฤko oฤekivanje ๐œ‡๐‘— se ocenjuje odgovarajudom

sredinom podgrupe, tj. ๐ ๐’‹ = ๐’™๐’‹. Parametri ๐œƒ0 i ๐œƒ1 se ocenjuju kao i u jednodimenzionalnom

sluฤaju. Ocena kovarijacione matrice je data sa:

๐‘† = ๐‘›0 โˆ’ 1 ๐‘†0 + ๐‘›1 โˆ’ 1 ๐‘†1

๐‘›0 + ๐‘›1 โˆ’ 2

gde su ๐‘†๐‘— nepristrasne ocene kovarijacionih matrica dimenzije ๐‘ ร— ๐‘, izraฤunate u odgovarajudoj

podgrupi.

Primer 2: Ako je uzorak isti kao u primeru 1, naฤ‘imo ocene nepoznatih parametara ๐›ฝ0 i ๐›ฝ1. Prikazademo postupak ocenjivanja parametara u programskom jeziku R.

podaci<-read.table("C:/Users/User/Desktop/podaci.txt", header=T) #ucitavamo podatke model<-glm(bolest~starost, data=podaci, family="binomial") #pravimo logisticki model summary(model) Call: glm(formula = bolest ~ starost, family = "binomial", data = podaci) Deviance Residuals: Min 1Q Median 3Q Max -1.7025 -0.6497 -0.2377 0.6508 2.1075

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

22

Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -6.70846 2.35397 -2.850 0.00437 ** starost 0.13150 0.04634 2.838 0.00454 ** --- Signif. codes: 0 โ€˜***โ€™ 0.001 โ€˜**โ€™ 0.01 โ€˜*โ€™ 0.05 โ€˜.โ€™ 0.1 โ€˜ โ€™ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 44.987 on 32 degrees of freedom Residual deviance: 28.672 on 31 degrees of freedom AIC: 32.672 Number of Fisher Scoring iterations: 5

Iz priloลพenog se moลพe zakljuฤiti da je ocenakoeficijenta ๐›ฝ1 koji stoji uz promenljivu

starost๐›ฝ 1=0.13150, dok je ๐›ฝ 0=-6.70846.

4.3 Testiranje znaฤajnosti parametara

Nakon ocenjivanja parametara viลกestruke logistiฤke regresije, potrebno je nadi najbolji model, odnosno model koji najbolje opisuje zavisnu promenljivu. Ovo ukljuฤuje formulisanje i testiranje statistiฤkih hipoteza za odreฤ‘ivanje da li su nezavisne promenljive u modelu znaฤajno povezane sa zavisnom promenljivom, tj. da li znaฤajno utiฤu na ponaลกanje zavisne promenljive. Testira se hipoteza ๐ป0: promenljiva nije znaฤajna protiv alternative ๐ป1: promenljiva je znaฤajna. Prilikom takvog testiranja treba porediti registrovane vrednosti rezultujude promenljive sa vrednostima dobijenih pomodu dva modela, od kojih jedan sadrลพi a drugi ne sadrลพi promenljivu ฤija se znaฤajnost testira. Ako su predviฤ‘ene vrednosti na osnovu modela koji sadrลพi tu promenljivu bolje ili taฤnije nego vrednosti koje su predviฤ‘ene na osnovu modela koji ne sadrลพi tu promenljivu, tada je promenljiva u modelu znaฤajna i model koji sadrลพi tu promenljivu se smatra boljim od modela koji je ne sadrลพi.

Postoji mnogo naฤina za testiranje znaฤajnosti parametara a kao najefikasniji se pokazao test koliฤnika verodostojnosti (likelihood ratio test).

4.3.1 Test koliฤnika verodostojnosti

U logistiฤkoj regresiji poreฤ‘enjeregistrovaneipredviฤ‘enevrednostidobijeneizmodelakojisadrลพinezavisnupromenljivuimod

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

23

elakojijenesadrลพi, baziranojenalogaritmufunkcijeverodostojnosti. Pri tome se smatra da je registrovana vrednost zavisne promenljive ona predviฤ‘ena vrednost koja se dobija na osnovu zasidenog modela. Zasiden, potpun ili kompletan model (saturated model) je onaj model koji ima onoliko parametara koliko i registrovanih vrednosti, tj. ๐‘›. On reprodukuje podatke taฤno, bez pojednostavljivanja, pa prema tome nije previลกe pogodan za interpretaciju. Najjednostavniji primer zasidenog modela je model proste linearne regresije koji ima samo dve taฤke (๐‘› = 2).

Za poreฤ‘enje registrovanih sa predviฤ‘enim vrednostima koristi se funkcija verodostojnosti:

๐ท = โˆ’2๐‘™๐‘›โ„’

โ„’๐‘ ๐‘Ž๐‘ก

= โˆ’2 ๐‘ฆ๐‘–๐‘™๐‘›๐œ‹ ๐‘–

๐‘ฆ๐‘–

+ 1 โˆ’ ๐‘ฆ๐‘– ๐‘™๐‘›1 โˆ’ ๐œ‹ ๐‘–

1 โˆ’ ๐‘ฆ๐‘–

๐‘›

๐‘–=1

,

gde je โ„’๐‘ ๐‘Ž๐‘ก funkcija verodostojnosti zasidenog modela. Statistika โ„’

โ„’๐‘ ๐‘Ž๐‘ก se naziva koliฤnik

verodostojnosti. Za statistiku โˆ’2๐‘™๐‘›โ„’

โ„’๐‘ ๐‘Ž๐‘กse koristi i naziv devijacija, pa se zbog toga ta statistika

oznaฤava sa ๐ท. Dobija se da statistika ๐ท iznosi: [11]

๐ท = 2๐‘™๐‘›โ„’๐‘ ๐‘Ž๐‘ก

โ„’= 2๐‘™๐‘›โ„’๐‘ ๐‘Ž๐‘ก โˆ’ 2๐‘™๐‘›โ„’. 6

Iz definicije zasidnog modela sledi da je ๐œ‹ ๐‘– = ๐‘ฆ๐‘– , pa je funkcija verodostojnosti

โ„’๐‘ ๐‘Ž๐‘ก = ๐‘ฆ๐‘–๐‘ฆ๐‘– 1 โˆ’ ๐‘ฆ๐‘–

1โˆ’๐‘ฆ๐‘–

๐‘›

๐‘–=1

= 1

odakle sledi da je ๐ท = โˆ’2๐‘™๐‘›โ„’.

Pri ispitivanju znaฤajnosti nezavisne promenljive posmatraju se modeli sa i bez nezavisne

promenljive. Oznaฤimo sa ๐บ promenu koja nastaje u ๐ท prilikom ukljuฤivanja nezavisne

promenljive, odnosno: [9]

๐บ = ๐ท ๐‘š๐‘œ๐‘‘๐‘’๐‘™ ๐‘๐‘’๐‘ง ๐‘›๐‘’๐‘ง๐‘Ž๐‘ฃ๐‘–๐‘ ๐‘›๐‘’ ๐‘๐‘Ÿ๐‘œ๐‘š๐‘’๐‘›๐‘™๐‘—๐‘–๐‘ฃ๐‘’ โˆ’ ๐ท ๐‘š๐‘œ๐‘‘๐‘’๐‘™ ๐‘ ๐‘Ž ๐‘›๐‘’๐‘ง๐‘Ž๐‘ฃ๐‘–๐‘ ๐‘›๐‘œ๐‘š ๐‘๐‘Ÿ๐‘œ๐‘š๐‘’๐‘›๐‘™๐‘—๐‘–๐‘ฃ๐‘œ๐‘š

๐บ = โˆ’2๐‘™๐‘› ๐‘ฃ๐‘’๐‘Ÿ๐‘œ๐‘‘๐‘œ๐‘ ๐‘ก๐‘œ๐‘—๐‘›๐‘œ๐‘ ๐‘ก ๐‘š๐‘œ๐‘‘๐‘’๐‘™๐‘Ž ๐‘๐‘’๐‘ง ๐‘›๐‘’๐‘ง๐‘Ž๐‘ฃ๐‘–๐‘ ๐‘›๐‘’ ๐‘๐‘Ÿ๐‘œ๐‘š๐‘’๐‘›๐‘™๐‘—๐‘–๐‘ฃ๐‘’

+2๐‘™๐‘› ๐‘ฃ๐‘’๐‘Ÿ๐‘œ๐‘‘๐‘œ๐‘ ๐‘ก๐‘œ๐‘—๐‘›๐‘œ๐‘ ๐‘ก ๐‘š๐‘œ๐‘‘๐‘’๐‘™๐‘Ž ๐‘ ๐‘Ž ๐‘›๐‘’๐‘ง๐‘Ž๐‘ฃ๐‘–๐‘ ๐‘›๐‘œ๐‘š ๐‘๐‘Ÿ๐‘œ๐‘š๐‘’๐‘›๐‘™๐‘—๐‘–๐‘ฃ๐‘œ๐‘š

๐บ = โˆ’2๐‘™๐‘›๐‘ฃ๐‘’๐‘Ÿ๐‘œ๐‘‘๐‘œ๐‘ ๐‘ก๐‘œ๐‘—๐‘›๐‘œ๐‘ ๐‘ก ๐‘š๐‘œ๐‘‘๐‘’๐‘™๐‘Ž ๐‘๐‘’๐‘ง ๐‘›๐‘’๐‘ง๐‘Ž๐‘ฃ๐‘–๐‘ ๐‘›๐‘’ ๐‘๐‘Ÿ๐‘œ๐‘š๐‘’๐‘›๐‘™๐‘—๐‘–๐‘ฃ๐‘’

๐‘ฃ๐‘’๐‘Ÿ๐‘œ๐‘‘๐‘œ๐‘ ๐‘ก๐‘œ๐‘—๐‘›๐‘œ๐‘ ๐‘ก ๐‘š๐‘œ๐‘‘๐‘’๐‘™๐‘Ž ๐‘ ๐‘Ž ๐‘›๐‘’๐‘ง๐‘Ž๐‘ฃ๐‘–๐‘ ๐‘›๐‘œ๐‘š ๐‘๐‘Ÿ๐‘œ๐‘š๐‘’๐‘›๐‘™๐‘—๐‘–๐‘ฃ๐‘œ๐‘š.

Ako koristimo sledede oznake:๐‘›1 = ๐‘ฆ๐‘– , a ๐‘›0 = ๐‘› โˆ’ ๐‘ฆ๐‘– , statistika ๐บ je data sa:

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

24

๐บ = โˆ’2๐‘™๐‘›

๐‘›1

๐‘›

๐‘›1

๐‘›0

๐‘›

๐‘›0

๐œ‹ ๐‘–๐‘ฆ๐‘– 1 โˆ’ ๐œ‹ ๐‘–

1โˆ’๐‘ฆ๐‘–๐‘›๐‘–=1

,

odnosno

๐บ = 2 ๐‘ฆ๐‘–๐‘™๐‘›๐œ‹ ๐‘– + 1 โˆ’ ๐‘ฆ๐‘– ๐‘™๐‘›๐œ‹ ๐‘– โˆ’ ๐‘›1๐‘™๐‘›๐‘›1 + ๐‘›0๐‘™๐‘›๐‘›0 โˆ’ ๐‘›๐‘™๐‘›๐‘›

๐‘›

๐‘–=1

.

Pod hipotezom da je ๐›ฝ1 jednako nuli, statistika ๐บima hi-kvadrat raspodelu sa jednim stepenom slobode.

4.3.2 Wald-ov test

Dva asimptotski ekvivalentna testa koja se koriste za proveru znaฤajnosti koeficijenata su Wald-ov test i score test. [3] Wald-ov test za jednodimenzionalnu logistiฤku regresiju koristi

statistiku koja je jednaka kvadratu koliฤnika ocene maksimalne verodostojnosti parametra ๐›ฝ1, ๐›ฝ 1 i

njene standardne greลกke ๐‘†๐ธ๐›ฝ 1 = ๐‘‰๐‘Ž๐‘Ÿ ๐›ฝ ๐‘– . Pod pretpostavkom da je ๐›ฝ1 = 0, statistika ๐‘ =๐›ฝ 1

๐‘†๐ธ๐›ฝ 1

ima pribliลพno normalnu ๐‘ 0,1 raspodelu. Wald statistika jednodimenzione logistiฤke regresije je [19]:

๐‘2 =๐›ฝ 1

2

๐‘†๐ธ๐›ฝ 12 : ๐œ’1.

2

Ako se odbaci nulta hipoteza, tada se moลพe zakljuฤiti da de uklanjanje te promenljive iz modela znaฤajno promeniti model, odnosno da je ta promenljiva statistiฤki znaฤajna.

Isti princip testiranja se primenjuje kod viลกestruke logistiฤke regresije uz odreฤ‘enu modifikaciju test statistike. Takoฤ‘e, u sluฤaju viลกestruke logistiฤke regresije moลพe se koristiti statistika

๐‘Š = ๐œท ๐‘ป ๐‘‰๐‘Ž๐‘Ÿ ๐œท โˆ’1

๐œท = ๐œท ๐‘ป๐‘‹๐‘‡๐‘‰๐‘‹๐œท ,

ako ลพelimo da testiramo znaฤajnost svih ๐‘ + 1 primenljivih. Statistika ๐‘Š pod pretpostavkom da su svih ๐‘ + 1 koeficijenata jednaki 0, ima ๐œ’๐‘+1

2 raspodelu. Ukoliko ne ลพelimo da testiramo znaฤajnost

koeficijenta ๐›ฝ0, tada se statistika ๐‘Š transformiลกe tako ลกto se iz vektora ๐œท eliminiลกe ๐›ฝ 0 a iz matrica ๐‘‹ i ๐‘‰ odgovarajude kolone i vrste. U tom sluฤaju statistika ๐‘Š ima ๐œ’๐‘

2 raspodelu.

Za velike uzorke, Wald test i test koliฤnika maksimalne verodostojnosti daju pribliลพno iste rezultate. Meฤ‘utim, za male uzorke se pokazalo da se rezultati mogu razlikovati i da u tim

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

25

situacijama test koliฤnika verodostojnosti daje taฤnije rezultate.Takoฤ‘e, kod viลกestruke logistiฤke regresije Wald-ov test ฤesto ne odbacuje nultu hipotezu iako su koeficijenti znaฤajni.

4.3.3 Score test

Score test je zasnovan na prvom izvodu logaritma funkcije verodostojnosti i prilikom testiranja znaฤajnosti koeficijenata ne zahteva njihovo prethodno ocenjivanje. Test je jednostavan za primenu, ali se, za razliku od Wald-ovog testa, ne nalazi u mnogim softverskim paketima, pa se zbog toga retko koristi. [5]

Radi jednostavnosti, posmatrademo sluฤaj jednostruke logistiฤke regresije. Verovatnode ๐œ‹ ๐‘ฅ๐‘– i 1 โˆ’ ๐œ‹ ๐‘ฅ๐‘– su zadate na slededi naฤin:

๐œ‹ ๐‘ฅ๐‘– =๐‘’๐›ฝ0+๐›ฝ1๐‘ฅ๐‘–

1 + ๐‘’๐›ฝ0+๐›ฝ1๐‘ฅ๐‘–

1 โˆ’ ๐œ‹ ๐‘ฅ๐‘– =1

1 + ๐‘’๐›ฝ0+๐›ฝ1๐‘ฅ๐‘–.

Logaritam funkcije maksimalne verodostojnosti je dat sa:

๐‘™๐‘›โ„’ ๐œท = ๐‘ฆ๐‘– ๐›ฝ0 + ๐›ฝ1๐‘ฅ๐‘– โˆ’ ๐‘™๐‘› 1 + ๐‘’๐›ฝ0+๐›ฝ1๐‘ฅ๐‘–

๐‘›

๐‘–=1

.

Diferenciranjem logaritma funkcije maksimalne verodostojnosti po parametrima ๐›ฝ0 i ๐›ฝ1 dobijaju se jednaฤine verodostojnosti:

๐‘ฆ๐‘– โˆ’ ๐œ‹ ๐‘ฅ๐‘– = 0

๐‘›

๐‘–=1

๐‘ฅ๐‘– ๐‘ฆ๐‘– โˆ’ ๐œ‹ ๐‘ฅ๐‘– = 0

๐‘›

๐‘–=1

. 7

Score test koristi vrednosti ovih sumaizraฤunatih za ๐›ฝ0 = ๐‘™๐‘› ๐‘›1 ๐‘›0 i ๐›ฝ1 = 0. Koristedi ocene ๐œ‹ = ๐‘›1 ๐‘› = ๐‘ฆleva strana jednaฤine (7) postaje ๐‘ฅ๐‘– ๐‘ฆ๐‘– โˆ’ ๐‘ฆ ๐‘›

๐‘–=1 . Ocena varijanse je data formulom

๐‘ฆ 1 โˆ’ ๐‘ฆ ๐‘ฅ๐‘– โˆ’ ๐‘ฅ 2๐‘›๐‘–=1 gde je ๐‘ฅ =

1

๐‘› ๐‘ฅ๐‘–

๐‘›๐‘–=1 , a statistika koju koristi score test je data sa

๐‘†๐‘‡ = ๐‘ฅ๐‘– ๐‘ฆ๐‘– โˆ’ ๐‘ฆ ๐‘›

๐‘–=1

๐‘ฆ 1 โˆ’ ๐‘ฆ ๐‘ฅ๐‘– โˆ’ ๐‘ฅ 2๐‘›๐‘–=1

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

26

i ima normalnu๐‘ 0,1 raspodelu. [3]

4.4 Intervali poverenja za parametre

Interval poverenja (pouzdanosti) nepoznatog parametra je interval koji sa verovatnodom 1 โˆ’ ๐›ผ 100% sadrลพi taj parametar, gde je ๐›ผ nivo znaฤajanosti. Za nivo znaฤajnosti se obiฤno biraju vrednosti bliske 0: 0.1, 0.05, 0.01. Na primer, ako je nivo znaฤajnosti 0.1, tada je pouzdanost da de nepoznati parametar biti sadrลพan u intervalu 90%. Interval poverenja je odreฤ‘en na slededi naฤin:

๐‘œ๐‘๐‘’๐‘›๐‘—๐‘’๐‘›๐‘Ž ๐‘ฃ๐‘Ÿ๐‘’๐‘‘๐‘›๐‘œ๐‘ ๐‘ก ๐‘๐‘Ž๐‘Ÿ๐‘Ž๐‘š๐‘’๐‘ก๐‘Ÿ๐‘Ž โˆ’ ๐‘”๐‘Ÿ๐‘’ลก๐‘˜๐‘Ž, ๐‘œ๐‘๐‘’๐‘›๐‘—๐‘’๐‘›๐‘Ž ๐‘ฃ๐‘Ÿ๐‘’๐‘‘๐‘›๐‘œ๐‘ ๐‘ก ๐‘๐‘Ž๐‘Ÿ๐‘Ž๐‘š๐‘’๐‘ก๐‘Ÿ๐‘Ž + ๐‘”๐‘Ÿ๐‘’ลก๐‘˜๐‘Ž .

Kod proste logistiฤke regresije intervali poverenja nepoznatih parametara se baziraju na ocenama koje su dobijene Wald-ovim testom (Wald-based confidence intervals). Intervali poverenja za koeficijente ๐›ฝ0 i ๐›ฝ1sa nivoom znaฤajnosti ๐›ผsu zadati sa:

๐›ฝ 0 โˆ’ ๐‘ง1โˆ’๐›ผ2 ๐‘†๐ธ ๐›ฝ 0 , ๐›ฝ 0 + ๐‘ง1โˆ’๐›ผ

2 ๐‘†๐ธ ๐›ฝ 0

๐›ฝ 1 โˆ’ ๐‘ง1โˆ’๐›ผ2 ๐‘†๐ธ ๐›ฝ 1 , ๐›ฝ 1 + ๐‘ง1โˆ’๐›ผ

2 ๐‘†๐ธ ๐›ฝ 1

gde je ๐‘†๐ธ โˆ™ ocena standardne greลกke odgovarajudeg parametra iz modela koji se koristi kao bazni,

a ๐‘ง1โˆ’๐›ผ2 tabliฤna vrednost standardne normalne raspodele za koju vaลพi ๐‘ƒ ๐›ฝ ๐‘– โ‰ค ๐‘ง1โˆ’๐›ผ

2 = 1 โˆ’ ๐›ผ,

za ๐‘– = 0 ili ๐‘– = 1.

Takoฤ‘e, na ovaj naฤin se moลพe nadi i interval poverenja linearne funkcije koja povezuje promenljive, tj. interval poverenja za logit funkciju. Ocena za logit funkciju je data sa

๐‘” ๐‘ฅ = ๐›ฝ 0 + ๐›ฝ 1๐‘ฅ.

Da bi se naลกao interval poverenja za logit, potrebno je oceniti disperziju prethodne sume:

๐‘‰๐‘Ž๐‘Ÿ ๐‘” ๐‘ฅ = ๐‘‰๐‘Ž๐‘Ÿ ๐›ฝ 0 + ๐‘ฅ2๐‘‰๐‘Ž๐‘Ÿ ๐›ฝ 1 + 2๐‘ฅ๐ถ๐‘œ๐‘ฃ ๐›ฝ 0, ๐›ฝ 1

Interval poverenja sa nivoom znaฤajnosti๐›ผ za logit je dat sa: [3]

๐‘” ๐‘ฅ โˆ’ ๐‘ง1โˆ’๐›ผ2 ๐‘†๐ธ ๐‘” ๐‘ฅ , ๐‘” ๐‘ฅ + ๐‘ง1โˆ’๐›ผ

2 ๐‘†๐ธ ๐‘” ๐‘ฅ

gde je ๐‘†๐ธ ๐‘” ๐‘ฅ pozitivan koren od ocene za ๐‘‰๐‘Ž๐‘Ÿ ๐‘” ๐‘ฅ .

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

27

Na osnovu ocene za logit moลพe se nadi ocena logistiฤke verovatnode ๐œ‹๐‘– i njen interval poverenja. Ocena logistiฤke verovatnode iznosi:

๐œ‹ ๐‘– =๐‘’๐‘” ๐‘ฅ๐‘–

1 + ๐‘’๐‘” ๐‘ฅ๐‘– ,

a interval poverenja sa nivoom znaฤajnosti ๐›ผ logistiฤke verovatnode iznosi:

๐‘’

๐‘” ๐‘ฅ โˆ’๐‘ง1โˆ’๐›ผ2 ๐‘†๐ธ ๐‘” ๐‘ฅ

1 + ๐‘’๐‘” ๐‘ฅ โˆ’๐‘ง1โˆ’๐›ผ

2 ๐‘†๐ธ ๐‘” ๐‘ฅ ,

๐‘’๐‘” ๐‘ฅ +๐‘ง1โˆ’๐›ผ

2 ๐‘†๐ธ ๐‘” ๐‘ฅ

1 + ๐‘’๐‘” ๐‘ฅ +๐‘ง1โˆ’๐›ผ

2 ๐‘†๐ธ ๐‘” ๐‘ฅ .

Kod viลกestruke logistiฤke regresije intervali poverenja za nepoznati parametar se dobijaju na isti naฤin kao i kod jednostruke logistiฤke regresije. Ocena logita se dobija pomodu formule

๐‘” ๐‘ฅ = ๐›ฝ 0 + ๐›ฝ 1๐‘ฅ1 + ๐›ฝ 2๐‘ฅ2 + โ‹ฏ + ๐›ฝ ๐‘๐‘ฅ๐‘ = ๐‘ฅ๐‘‡๐›ฝ

gde je ๐›ฝ ๐‘‡ = ๐›ฝ 0, ๐›ฝ 1, โ€ฆ , ๐›ฝ ๐‘ , a ๐‘ฅ๐‘‡ = 1, ๐‘ฅ1, โ€ฆ , ๐‘ฅ๐‘ , tj. ๐‘ฅ0 = 1.

Ocena varijanse logita je:

๐‘‰๐‘Ž๐‘Ÿ ๐‘” ๐‘ฅ = ๐‘ฅ๐‘—2

๐‘

๐‘— =0

๐‘‰๐‘Ž๐‘Ÿ ๐›ฝ ๐‘— + 2

๐‘

๐‘˜=๐‘—+1

๐‘

๐‘— =๐‘œ

๐‘ฅ๐‘—๐‘ฅ๐‘˜๐ถ๐‘œ๐‘ฃ ๐›ฝ ๐‘— , ๐›ฝ ๐‘˜ .

Koristedi jednakost ๐‘‰๐‘Ž๐‘Ÿ ๐›ฝ = ๐‘‹๐‘‡๐‘‰ ๐‘‹ โˆ’1

, ๐‘‰๐‘Ž๐‘Ÿ ๐‘” ๐‘ฅ se moลพe da zapisati u slededem obliku:

๐‘‰๐‘Ž๐‘Ÿ ๐‘” ๐‘ฅ = ๐‘ฅ๐‘‡๐‘‰๐‘Ž๐‘Ÿ ๐›ฝ ๐‘ฅ = ๐‘ฅ๐‘‡ ๐‘‹๐‘‡๐‘‰ ๐‘‹ โˆ’1

๐‘ฅ

Dalja izraฤunavanje se vrลกe analogno jednostrukoj logistiฤkoj regresiji.

5 Tumaฤenje modela

Pod pretpostavkom da su promenljive u modelu znaฤajne, ลพelimo da izvedemo zakljuฤak o modelu na osnovu koeficijenata. Radi jednostavnosti posmatrajmo model jednodimenzione logistiฤke regresije ฤiji je logit zadat formulom ๐‘” ๐‘ฅ = ๐›ฝ0 + ๐›ฝ1๐‘ฅ.

Prilikom tumaฤenja modela posmatraju se dva problema a to su:

- odreฤ‘ivanje funkcionalne veze izmeฤ‘u zavisne i nezavisne promenljive

- definisanje jedinice promene za nezavisnu promenljivu.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

28

5.1 Binarna nezavisna promenljiva

Sluฤaj binarne nezavisne promenljive predstavlja teorijsku osnovu za ostale sluฤajeve โ€“ sa polihotomnom i neprekidnom nezavisnom promenljivom. [3] Pretpostavimo da je promenljiva ๐‘ฟ kodirana nulom i jedinicom. Tada koeficijent nagiba ๐›ฝ1moลพemo izraziti kao promenu logita po jedinici promene nezavisne promenljive, odnosno:

๐‘” 1 โˆ’ ๐‘” 0 = ๐›ฝ0 + ๐›ฝ1 โˆ’ ๐›ฝ0 = ๐›ฝ1.

Da bismo bolje interpretirali koeficijent nagiba, izraฤunademo ลกanse u zavisnosti od vrednosti nezavisne promenljive. Uzimajudi u obzir da je raspodela za ๐‘Œ|๐‘‹ data sa:

๐‘Œ|๐‘ฅ: 0 1

1 โˆ’ ๐œ‹ ๐‘ฅ ๐œ‹ ๐‘ฅ ,

pa primenom formule (3) vaลพi da je ลกansa da zavisna promenljiva uzme vrednost 1, kada nezavisna promenljiva uzme vrednost 0 je data sa

๐‘ƒ ๐‘Œ = 1 ๐‘‹ = 0

1 โˆ’ ๐‘ƒ ๐‘Œ = 1 ๐‘‹ = 0 =

๐‘ƒ ๐‘Œ = 1 ๐‘‹ = 0

๐‘ƒ ๐‘Œ = 0 ๐‘‹ = 0 =

๐œ‹ 0

1 โˆ’ ๐œ‹ 0 .

ล ansa da zavisna promenljiva uzme vrednost 1, kada nezavisna promenljiva uzme vrednost 1 je data sa

๐‘ƒ ๐‘Œ = 1 ๐‘‹ = 1

1 โˆ’ ๐‘ƒ ๐‘Œ = 1 ๐‘‹ = 1 =

๐‘ƒ ๐‘Œ = 1 ๐‘‹ = 1

๐‘ƒ ๐‘Œ = 0 ๐‘‹ = 1 =

๐œ‹ 1

1 โˆ’ ๐œ‹ 1 .

Odnos ลกansi (odds ratio) je pozitivna konstanta data sa:

๐‘‚๐‘… =

๐œ‹ 1

1โˆ’๐œ‹ 1

๐œ‹ 0

1โˆ’๐œ‹ 0

8

i predstavlja odnos ลกansi ostvarenja dogaฤ‘aja u grupi u kojoj nezavisna promenljiva uzima vrednost 1 i u grupi u kojoj nezavisna promenljiva uzima vrednost 0.

Koristedi to da je ๐œ‹ 1 =๐‘’๐›ฝ0+๐›ฝ1

1+๐‘’๐›ฝ0+๐›ฝ1 i ๐œ‹ 0 =

๐‘’๐›ฝ0

1+๐‘’๐›ฝ0, daljim izraฤunavanjem se dobija:

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

29

๐‘‚๐‘… =

๐‘’๐›ฝ0+๐›ฝ1

1+๐‘’๐›ฝ0+๐›ฝ1

1

1+๐‘’๐›ฝ0+๐›ฝ1

๐‘’๐›ฝ0

1+๐‘’๐›ฝ0

1

1+๐‘’๐›ฝ0

=๐‘’๐›ฝ0+๐›ฝ1

๐‘’๐›ฝ0= ๐‘’๐›ฝ1 .

Dakle, ako je nezavisna promenljiva binarna, koeficijent ๐›ฝ1 je jednak prirodnom logaritmu odnosa ลกansi.[9]Takoฤ‘e, moลพemo nadi i interval poverenja sluฤajne promenljive ๐‘‚๐‘…. Raspodela promenljive ๐‘™๐‘›๐‘‚๐‘… = ๐›ฝ1 je normalna, a za velike uzorke i๐‘‚๐‘… ima normalnu raspodelu. Interval poverenja za๐‘‚๐‘… sa nivoom znaฤajnosti ๐›ผ dat je sa:

๐‘’๐›ฝ 1โˆ’๐‘ง1โˆ’๐›ผ 2 ๐‘†๐ธ ๐›ฝ 1 , ๐‘’๐›ฝ 1+๐‘ง1โˆ’๐›ผ 2 ๐‘†๐ธ ๐›ฝ 1

gde je ๐‘†๐ธ ๐›ฝ 1 standardno odstupanje sluฤajne promenljive ๐‘™๐‘›๐‘‚๐‘…. Njegova vrednost se moลพe

izraฤunati iz kovarijacione matrice, ali kako je sluฤajna promenljiva ๐‘‹ jednodimenzionalna i uzima samo dve vrednosti, ono se moลพe izraฤunati i na slededi naฤin:

๐‘†๐ธ ๐›ฝ 1 = 1

1 โˆ’ ๐œ‹ 0 +

1

๐œ‹ 0 +

1

1 โˆ’ ๐œ‹ 1 +

1

๐œ‹ 1 .

Primer 3(Podaci su uzeti iz literature [20].): U ispitivanju povezanosti konzumiranja alkohola i raka jednjaka je uฤestvovalo 975 osoba. Nezavisna promenljiva oznaฤava konzumiranje alkohola i kodirana je sa 0 ako osoba ne konzumira alkohol, a sa 1 ako konzimira. Zavisna promenljiva je kodirana sa 0 ako osoba ne boluje od raka jednjaka, a sa 1 ako osoba boluje. Na osnovu istraลพivanja, dobijeni su slededi rezultati:

prisustvo raka jednjaka

konzumiranje alkohola ukupno

da ne

da 96 104 200 ne 109 666 775

ukupno 205 770 975

Tabela 4

Pomodu formule za odnos ลกansi izraฤunademo koliko puta vedu ลกansu da dobiju rak jednjaka imaju alkoholiฤari.

๐‘‚๐‘… =96 109

104 666 = 5.64.

Dakle, osobe koje konzumiraju alkohol imaju 5.64 puta vede ลกanse da obole od raka jednjaka nego osobe koje ne konzumiraju alkohol. Koeficijent ๐›ฝ1 i standardno odstupanje

promenljive ๐‘™๐‘›๐‘‚๐‘… iznose ๐›ฝ1 = ๐‘™๐‘›๐‘‚๐‘… = 1.7299, ๐‘†๐ธ ๐‘™๐‘›๐‘‚๐‘… = 0.1752.Interval poverenja sa

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

30

nivoom znaฤajnosti ๐›ผ = 0.05 za 1 je ๐‘’1.7299โˆ“1.96โˆ™0.1752 = 4, 7.95 , a interval poverenja sa nivoom

znaฤajnosti ๐›ผ = 0.1 je ๐‘’1.7299โˆ“1.645โˆ™0.1752 = 4.23, 7.52 .

Relativni rizik (relative risk) predstavlja odnos verovatnoda uspeha u okviru dve grupe.

๐‘…๐‘… =๐‘ƒ ๐‘Œ = 1 ๐‘‹ = 1

๐‘ƒ ๐‘Œ = 1 ๐‘‹ = 0 =

๐œ‹ 1

๐œ‹ 0 =

1 โˆ’ ๐œ‹ 1

1 โˆ’ ๐œ‹ 0 ๐‘‚๐‘….

U sluฤaju kada 1โˆ’๐œ‹ 1

1โˆ’๐œ‹ 0 โ†’ 1, relativni rizik i odnos ลกansi imaju pribliลพno jednake vrednosti. To

se deลกava u sluฤaju kada su verovatnode uspeha u obe grupa pribliลพne, odnosno kad je verovatnoda ๐œ‹ ๐‘ฅ mala bilo da je ๐‘ฅ = 0 ili ๐‘ฅ = 1. U praksi ova situacija se javlja kod ispitivanja retkih bolesti. Ukoliko je vrednost ๐‘…๐‘… > 1, vedu verovatnodu ostvarenja posmatrani dogaฤ‘aj ima u grupi u kojoj nezavisna promenljiva uzima vrednost 1, a ako vaลพi ๐‘…๐‘… < 1, tada vedu verovatnodu ostvarenja ima u grupi u kojoj nezavisna promenljiva uzima vrednost 0.

Prilikom utvrฤ‘ivanja intervala poverenja za relativni rizik, koristi se statistka ๐‘™๐‘›๐‘…๐‘… koja ima normalnu raspodelu. Interval poverenja sa nivoom znaฤajnosti ๐›ผ je dat sa

๐‘’๐‘™๐‘›๐‘…๐‘… โˆ’๐‘ง1โˆ’๐›ผ 2 ๐‘†๐ธ ๐‘™๐‘›๐‘…๐‘… , ๐‘’๐‘™๐‘›๐‘…๐‘… +๐‘ง1โˆ’๐›ผ 2 ๐‘†๐ธ ๐‘™๐‘›๐‘…๐‘…

gde je ๐‘†๐ธ ๐‘™๐‘›๐‘…๐‘… standardno odstupanje ๐‘™๐‘›๐‘…๐‘… dato formulom

๐‘†๐ธ ๐‘™๐‘›๐‘…๐‘… = 1

๐‘0๐œ‹ 0 +

1

๐‘1๐œ‹ 1 +

1

๐‘0

+1

๐‘1

,

gde je ๐‘1 = ๐‘ฅ๐‘– , a sa ๐‘0 = ๐‘ โˆ’ ๐‘ฅ๐‘– .

Primer 4 (Podaci su uzeti iz literature [5]): Ispitujemo povezanost starosti (nezavisna promenljiva) sa postojanjem HIV virusa (zavisna promenljiva). U istraลพivanju je uฤestvovalo 1496 osoba koje su podeljene u dve starosne grupe โ€“ mlaฤ‘e (kodirano sa 0) i starije od 30 godina (kodirano sa 1). Podaci su dati u tabeli 6.

๐‘Œ ๐‘‹ mlaฤ‘i od 30 godina 30 godina i stariji ukupno

HIV negativni 623 816 1439

HIV pozitivni 18 39 57

ukupno 641 855 1496

Tabela 5

Relativnim rizikom uporeฤ‘ujemo verovatnodu oboljenja od HIV-a u ove dve grupe.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

31

๐‘…๐‘… =39 855

18 641 = 1.62

Na osnovu ovoga moลพe se zakljuฤiti da osobe koje imaju 30 godina i viลกe imaju vedu verovatnodu

oboljenja od HIV-a.Posle raฤunanja se dobija da je ๐‘™๐‘›๐‘…๐‘… = 0.48,

๐‘†๐ธ ๐‘™๐‘›๐‘…๐‘… = 1

18+

1

39+

1

641+

1

855= 0.29, pa je interval poverenja sa nivoom znaฤajnosti

๐›ผ = 0.05dat sa๐‘’0.48โˆ“1.96โˆ™0.29 = 0.915, 2.853 .

5.2 Politohomna nezavisna promenljiva

U logistiฤkoj regresiji se ฤesto javljaju kategorijalne (kvalitativne) promenljive, tj. promenljive koje se mogu meriti samo u smislu pripadanja nekoj grupi (kategoriji), pri ฤemu su te grupe disjunktne. Najฤeลกdi primeri takvih promenljivih su rasa, pol, stepen obrazovanja, opลกtina boravka u republici... Da bi se izuฤavala kategorijalna promenljiva koja ima viลกe od 2 kategorije, ona se pretvara u niz indikatora. Koeficijent za svaki takav indikator predstavlja efekat te kategorije uporeฤ‘ene sa kategorijom koja nije ukljuฤena u taj model (referentna kategorija). Kada se prave indikatori, jedna od najvaลพnijih stavki je izbor referentne kategorije. Uglavnom se bira onakategorija koja je opravdana sa bioloลกkog stanoviลกta (tj. kategorija za koju postoji opravdanje da bude referentni nivo) i ona koja ima prihvatljiv broj posmatranja. [9]. Cilj ovakvog istraลพivanja je da se uporede ลกanse odreฤ‘ene grupe u odnosu na referentnu grupu.

Primer 5 (Podaci su uzeti iz literature [22].): U slededoj tabeli su dati podaci koji govore o

tome da li je student poloลพio izabrani kurs iz prvog pokuลกaja ili nije. Student bira jedan od tri kursa koje smo oznaฤili sa kurs_1, kurs_2 i kurs_3. Ukupno je ispitano 394 studenta.

status izabrani kurs

kurs_1 kurs_2 kurs_3 ukupno

nije poloลพio 27 7 124 236

poloลพio 8 24 204 158

ukupno 35 31 328 394

๐‘‚๐‘… 0.1801 2.0840 1

๐‘™๐‘›๐‘‚๐‘… -1.7142 0.7343 0

Tabela 6

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

32

Kao referentnu promenljivu izabrademo kurs_3. Dizajn promenljiva je data u tabeli 7.Na primer,

ลกansa za kurs_1 iznosi ๐‘‚๐‘… = 8/27 204/124 = 0.1801,ลกto znaฤi da studenti koji su izabrali kurs_1 imaju 0.1801 puta vede ลกanse da poloลพe iz prve nego studenti koji su izabrali kurs_3.

izabrani kurs (kod) izabrani_kurs_1 izabrani_kurs_2

kurs_1 1 0

kurs_2 0 1

kurs_3 0 0

Tabela 7

U programskom jeziku R demo oceniti koeficijente slededeg logistiฤkog modela:

status=๐›ฝ1 โˆ™izabrani_kurs_1+๐›ฝ2 โˆ™izabrani_kurs_2+๐›ฝ0

gde promenljiva status moลพe da uzme vrednost 0 (ako kurs nije poloลพen iz prve) i vrednost 1 (ako je kurs poloลพen iz prve).

Kod programa je slededi:

podaci1<-read.table("C:/Users/User/Desktop/podaci1.txt", header=T) model<-glm(status~izabrani_kurs_1 + izabrani_kurs_2, data=podaci1, family="binomial") summary(model) Call: glm(formula = status ~ izabrani_kurs_1 + izabrani_kurs_2, family = "binomial", data = podaci1) Deviance Residuals: Min 1Q Median 3Q Max -1.7251 -1.3948 0.9746 0.9746 1.7181 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.4978 0.1139 4.372 1.23e-05 *** izabrani_kurs_1 -1.7142 0.4183 -4.098 4.17e-05 *** izabrani_kurs_2 0.7343 0.4444 1.652 0.0985 . --- Signif. codes: 0 โ€˜***โ€™ 0.001 โ€˜**โ€™ 0.01 โ€˜*โ€™ 0.05 โ€˜.โ€™ 0.1 โ€˜ โ€™ 1 (Dispersion parameter for binomial family taken to be 1)

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

33

Null deviance: 530.66 on 393 degrees of freedom Residual deviance: 505.74 on 391 degrees of freedom AIC: 511.74 Number of Fisher Scoring iterations: 4

Ocene koeficijenata i njihovo standardno odstupanje su dati sa:

promenljiva ocena koeficijenta standardno odstupanje

izabrani_kurs_1 โˆ’1.7142 0.4183

izabrani_kurs_2 0.7343 0.4444

slobodan koeficijent 0.4978 0.1139

Tabela 8.

Ocene koeficijenata smo mogli da naฤ‘emo i na slededi naฤin:

๐‘™๐‘› ๐‘‚๐‘… ๐‘–๐‘ง๐‘Ž๐‘๐‘Ÿ๐‘Ž๐‘›๐‘–_๐‘˜๐‘ข๐‘Ÿ๐‘ _1, ๐‘˜๐‘ข๐‘Ÿ๐‘ _3 = ๐›ฝ 1 = โˆ’1.7142

๐‘™๐‘› ๐‘‚๐‘… ๐‘–๐‘ง๐‘Ž๐‘๐‘Ÿ๐‘Ž๐‘›๐‘–_๐‘˜๐‘ข๐‘Ÿ๐‘ _2, ๐‘˜๐‘ข๐‘Ÿ๐‘ _3 = ๐›ฝ 2 = 0.7343.

Sada demo pokazati da ovo vaลพi zbog naฤina na koji smo kreirali dizajn promenljivu. Za primer demo uzeti ๐‘–๐‘ง๐‘Ž๐‘๐‘Ÿ๐‘Ž๐‘›๐‘–_๐‘˜๐‘ข๐‘Ÿ๐‘ _1 i ๐‘˜๐‘ข๐‘Ÿ๐‘ _3.

๐‘™๐‘› ๐‘‚๐‘… ๐‘–๐‘ง๐‘Ž๐‘๐‘Ÿ๐‘Ž๐‘›๐‘–_๐‘˜๐‘ข๐‘Ÿ๐‘ _1, ๐‘˜๐‘ข๐‘Ÿ๐‘ _3 = ๐‘” ๐‘–๐‘ง๐‘Ž๐‘๐‘Ÿ๐‘Ž๐‘›๐‘–_๐‘˜๐‘ข๐‘Ÿ๐‘ _1 โˆ’ ๐‘” ๐‘˜๐‘ข๐‘Ÿ๐‘ 3 =

๐›ฝ 0 + ๐›ฝ 1 โˆ™ ๐‘–๐‘ง๐‘Ž๐‘๐‘Ÿ๐‘Ž๐‘›๐‘–_๐‘˜๐‘ข๐‘Ÿ๐‘ _1 = 1 + ๐›ฝ 2 โˆ™ ๐‘–๐‘ง๐‘Ž๐‘๐‘Ÿ๐‘Ž๐‘›๐‘–_๐‘˜๐‘ข๐‘Ÿ๐‘ _2 = 0 โˆ’

๐›ฝ 0 + ๐›ฝ 1 โˆ™ ๐‘–๐‘ง๐‘Ž๐‘๐‘Ÿ๐‘Ž๐‘›๐‘–_๐‘˜๐‘ข๐‘Ÿ๐‘ _1 = 0 + ๐›ฝ 2 โˆ™ ๐‘–๐‘ง๐‘Ž๐‘๐‘Ÿ๐‘Ž๐‘›๐‘–_๐‘˜๐‘ข๐‘Ÿ๐‘ _2 = 0 = ๐›ฝ 1

Na osnovu standardnog odstupanja i vrednosti koeficijenata, mogu se nadi intervali poverenja ลกto je prikazano u prethodnom primeru.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

34

5.3 Neprekidna nezavisna promenljiva

Opลกti postupak oceneodnosa ลกansi za jednu jedinicu priraลกtaja promenljive ๐‘ฟ je data je u slededim koracima:

1. iz jednaฤine za logit ๐‘” ๐‘ฅ = ๐›ฝ0 + ๐›ฝ1 ๐‘ฅ dobija se ๐‘” ๐‘ฅ + 1 = ๐›ฝ0 + ๐›ฝ1 ๐‘ฅ + 1

2. ocena koeficijenta ๐›ฝ1 na osnovu logita je ๐›ฝ 1 = ๐‘” ๐‘ฅ + 1 โˆ’ ๐‘” ๐‘ฅ

3. ocena odnosa ลกansi je data sa ๐‘‚๐‘… = ๐‘’๐›ฝ 1 .

Meฤ‘utim, u sluฤaju neprekidne promenljive promena za jednu jedinicu nije previลกe interesantna. Na primer, povedanje telesne teลพine za jedan kilogram kod odraslih osoba je od manjeg znaฤaja nego povedanje teลพine za 10 kilograma. Ili, ako je opseg sluฤajne promenljive interval 0,1 , promena za jednu jedinicu je suviลกe velika i realnije je posmatrati promenu za 0.01 ili 0.05.

Da bi se obezbedila pravilna interpretacija, metod procene odnosa ลกansi se prilagoฤ‘ava taฤkama intervala na kome je definisana promenljiva ๐‘‹. Taj interval se deli na odreฤ‘eni broj jedinica. Ako se desila promena od ๐‘ jedinica, razlika ocene logita u taฤkama ๐‘ฅ + ๐‘ i ๐‘ฅ iznosi:

๐‘” ๐‘ฅ + ๐‘ โˆ’ ๐‘” ๐‘ฅ = ๐›ฝ 0 + ๐›ฝ 1 ๐‘ฅ + ๐‘ โˆ’ ๐›ฝ 0 โˆ’ ๐›ฝ 1๐‘ฅ = ๐‘๐›ฝ 1.

Na osnovu toga, ocena odnosa ลกansi je data sa ๐‘‚๐‘… = ๐‘‚๐‘… ๐‘ฅ + ๐‘, ๐‘ฅ = ๐‘’๐‘๐›ฝ 1 . Za ocenu

standardnog odstupanja ๐‘๐›ฝ 1 vaลพi ๐‘†๐ธ ๐‘๐›ฝ 1 = ๐‘ ๐‘†๐ธ ๐›ฝ 1 . Interval poverenja sa nivoom znaฤajnosti

๐›ผ za ๐‘‚๐‘… ๐‘ฅ + ๐‘, ๐‘ฅ je dat sa

๐‘’๐‘๐›ฝ 1โˆ’๐‘ง1โˆ’๐›ผ 2 ๐‘ ๐‘†๐ธ ๐›ฝ 1 , ๐‘’๐‘๐›ฝ 1+๐‘ง1โˆ’๐›ผ 2 ๐‘ ๐‘†๐ธ ๐›ฝ 1 .

Primer 6 (Podaci su uzeti iz literature [3]): Neka zavisna promenljiva predstavlja prisustvo ili odsustvo srฤanog oboljenja, a nezavisna promenljiva ๐‘‹ starost pacijenta i neka je logit ocenjen sa

๐‘” ๐‘ฅ = โˆ’1.44 + 0.038๐‘ฅ. Ocenjeni odnos ลกansi ima slededi oblik: ๐‘‚๐‘… ๐‘ฅ + ๐‘, ๐‘ฅ = ๐‘’0.038๐‘Ako bismo hteli da vidimo kako povedanje starosti od 10 godina utiฤe na pojavu srฤane bolesti u prethodnom

izrazu ๐‘ demo zameniti sa 10 i dobiti๐‘‚๐‘… 10 = ๐‘’0.038โˆ™10 = 1.46. Dakle, sa svakim povedanjem starosti od 10 godina rizik za pojavu srฤanog oboljenja se povedava 1.46puta.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

35

5.4 Interakcija izmeฤ‘u promenljivih

Ukoliko je uticaj nezavisne promenljive na zavisnu posredan, odnosno zavisi od vrednosti neke trede promenljive, tada kaลพemo da su takve promenljive u meฤ‘usobnoj interakciji, a promenljivu koja utiฤe na promenu odnosa izmeฤ‘u promenljivih nazivamo uticajna promenljiva (moderator variable) i oznaฤavamo sa ๐’.Na primer, ako psihoterapija smanjuje depresiju kod muลกkaraca viลกe nego kod ลพena, kaลพemo da polutiฤe na vezu izmeฤ‘u psihoterapije i depresije. [13]

Pretpostavimo da je dat model sa dve nezavisnepromenljive, od kojih je jedna neprekidna ๐‘‹ , a druga binarna ๐‘ , ฤiji je logit zadat slededom jednaฤinom:

๐‘” ๐‘ฅ, ๐‘ง = ๐›ฝ0 + ๐›ผ๐‘ฅ + ๐›ฝ2๐‘ง. 9

Ako se uticaj promenljive ๐‘‹ na zavisnu promenljivu razlikuje u zavisnosti od vrednosti promenljive ๐‘, onda kaลพemo da se javlja efekat interakcije izmeฤ‘u promenljivih. [4] Koeficijent koji odraลพava efekat delovanja promenljive ๐‘‹ na zavisnu promeljivu je linearna funkcija od ๐‘ i zadat je jednaฤinom:

๐›ผ = ๐›ฝ1 + ๐›ฝ3๐‘ง.

Prema ovoj formulaciji, pri promeni promenljive ๐‘ za jednu jedinicu, vrednost koeficijenta ๐›ฝ1 se promeni za ๐›ฝ3 jedinica. Zamenom u izraz 9 dobija se

๐‘” ๐‘ฅ, ๐‘ง = ๐›ฝ0 + ๐›ฝ1 + ๐›ฝ3๐‘ง ๐‘ฅ + ๐›ฝ2๐‘ง

= ๐›ฝ0 + ๐›ฝ1๐‘ฅ + ๐›ฝ3๐‘ฅ๐‘ง + ๐›ฝ2๐‘ง

= ๐›ฝ0 + ๐›ฝ1๐‘ฅ + ๐›ฝ2๐‘ง + ๐›ฝ3๐‘ฅ๐‘ง

gde je sa ๐‘ฅ๐‘ง oznaฤena vrednost interakcije izmeฤ‘u promenljivih ๐‘‹ i ๐‘.

Da bismo ocenili odnos ลกansi, posmatrademo logite za oba vrednosti binarne promenljive. Eksponencijalnom transformacijom njihove razlike, dobija se ocena odnosa ลกansi.

Logit ovog modela dat je jednaฤinom

๐‘” ๐‘ฅ, ๐‘ง = ๐›ฝ0 + ๐›ฝ1๐‘ฅ + ๐›ฝ2๐‘ง + ๐›ฝ3๐‘ฅ๐‘ง.

Ako sa ๐‘ง0 i ๐‘ง1oznaฤimo vrednosti binarne promenljive, tada se zamenom u prethodnu jednaฤinu dobija:

๐‘” ๐‘ฅ, ๐‘ง0 = ๐›ฝ0 + ๐›ฝ1๐‘ฅ + ๐›ฝ2๐‘ง0 + ๐›ฝ3๐‘ฅ๐‘ง0

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

36

๐‘” ๐‘ฅ, ๐‘ง1 = ๐›ฝ0 + ๐›ฝ1๐‘ฅ + ๐›ฝ2๐‘ง1 + ๐›ฝ3๐‘ฅ๐‘ง1.

Raฤunanjem razlike ova dva izraza, dobija se logaritam odnosa ลกansi.

๐‘” ๐‘ฅ, ๐‘ง1 โˆ’ ๐‘” ๐‘ฅ, ๐‘ง0 = ๐›ฝ0 + ๐›ฝ1๐‘ฅ + ๐›ฝ2๐‘ง0 + ๐›ฝ3๐‘ฅ๐‘ง0 โˆ’ ๐›ฝ0 + ๐›ฝ1๐‘ฅ + ๐›ฝ2๐‘ง1 + ๐›ฝ3๐‘ฅ๐‘ง1 =

๐›ฝ2 ๐‘ง1 โˆ’ ๐‘ง0 + ๐›ฝ3๐‘ฅ ๐‘ง1 โˆ’ ๐‘ง0

๐‘‚๐‘… = ๐‘’๐›ฝ2 ๐‘ง1โˆ’๐‘ง0 +๐›ฝ3๐‘ฅ ๐‘ง1โˆ’๐‘ง0 .

Da bismo naลกli interval poverenja, potrebno je nadi varijansu ocene ๐‘™๐‘›๐‘‚๐‘…

๐‘‰๐‘Ž๐‘Ÿ ๐‘™๐‘›๐‘‚๐‘… = ๐‘ง1 โˆ’ ๐‘ง0 2๐‘‰๐‘Ž๐‘Ÿ ๐›ฝ 2 + ๐‘ฅ2 ๐‘ง1 โˆ’ ๐‘ง0 2๐‘‰๐‘Ž๐‘Ÿ ๐›ฝ 3 + 2๐‘ฅ ๐‘ง1 โˆ’ ๐‘ง0

2๐ถ๐‘œ๐‘ฃ ๐›ฝ 2, ๐›ฝ 3 .

Interval poverenja za ๐‘‚๐‘… sa nivoom znaฤajnosti ๐›ผ je dat sa

๐‘’๐›ฝ 2 ๐‘ง1โˆ’๐‘ง0 +๐›ฝ 3๐‘ฅ ๐‘ง1โˆ’๐‘ง0 โˆ’๐‘ง1โˆ’๐›ผ 2 ๐‘†๐ธ ๐‘™๐‘›๐‘‚๐‘… , ๐‘’๐›ฝ 2 ๐‘ง1โˆ’๐‘ง0 +๐›ฝ 3๐‘ฅ ๐‘ง1โˆ’๐‘ง0 +๐‘ง1โˆ’๐›ผ 2 ๐‘†๐ธ ๐‘™๐‘›๐‘‚๐‘… .

gde je ๐‘†๐ธ ๐‘™๐‘›๐‘‚๐‘… pozitivan koren veliฤine ๐‘‰๐‘Ž๐‘Ÿ ๐‘™๐‘›๐‘‚๐‘… .

5.5 Identifikacija vaลพnih opservacija

5.5.1 Autlajeri

Autlajeri predstavljaju ekstremne vrednosti u uzorku, tj. vrednosti koje vidljivo odstupaju od drugih. Statistiฤari na razliฤite naฤine definiลกu autlajere, u zavisnosti od strukture podataka. Hokins (Hawkins, 1980) definiลกe autlajer kao opaลพanje koje mnogo odstupa od drugih opaลพanja pod sumnjom da su generisani razliฤitim mehanizmom. Barnet i Luis (Barnett i Lewis, 1994) ukazuju da udaljeno opaลพanje, ili autlajer, je opaลพanje koje deluje da odstupa upadljivo od drugih ฤlanova posmatranog uzorka. Dลพonson (Johnson, 1992) definiลกe autlajer kao opaลพanje u skupu podataka koje deluje da je nekonzistentno sa ostatkom skupa podataka. [5]

Autlajeri se ฤesto smatraju greลกkom merenja, mada to ne moraju biti. To mogu biti podaci dobijeni za neke ekstremne vrednosti nezavisne promenljive. U logistiฤkoj regresiji najฤeลกde nastaju kao pogreลกna vrednost zavisne promenljive. Neotkriveni autlajeri mogu voditi ka pogreลกnoj specifikaciji modela, pristrasnoj oceni parametara, smanjenju znaฤajnosti promenljivih i netaฤnim rezultatima. Stoga je vaลพno identifikovati autlajere pre analize podataka. Autlajeri nekad mogu nositi vaลพnu informaciju o modelu, pa bi njihovo uklanjanje povlaฤilo gubitak te informacije. Pre uklanjanja autlajera potrebno je ispitati njihov uticaj na model, kao i detaljnu proveru modela sa i bez autlajera (broj promenljivih, znaฤajnost koeficijenata i standardne greลกke) i odabrati najbolji model.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

37

Ako model sadrลพi jednu ili dve nezavisne promenljive, autlajer se moลพe identifikovati grafiฤkom metodom. Nakon kreiranja modela koji opisuje podatke i njegovim grafiฤkim predstavljanjem, potrebno je pronadi taฤke koje su izdvojene od drugih. Takve podatke smatramo mogudim autlajerima. U sluฤaju da model sadrลพi viลกe od dve nezavisne promenljive, ova metoda nije primenljiva.

Jedan od najpopularnijih naฤina utvrฤ‘ivanja da li je neลกto autlajer ili ne je Kukovo rastojanje (Cookโ€™s distance). [21] Kukovo rastojanje se raฤuna po formuli

๐ถ๐ท๐‘– = ๐œท โˆ’๐’Š โˆ’ ๐œท

๐‘‡ ๐‘‹๐‘‡๐‘‰๐‘‹ ๐œท โˆ’๐’Š โˆ’ ๐œท

๐‘ + 1 ๐œŽ 2 ๐‘– = 1, โ€ฆ , ๐‘›

gde je ๐œท โˆ’๐’Š ocena vektora ๐œท bez i-te opservacija, a ๐œŽ pozitivan koren srednjekvadratne greลกke

ocenjivanja, tj. ๐œŽ = 1

๐‘› ๐‘ฆ๐‘– โˆ’ ๐‘ฆ ๐‘–

2๐‘›๐‘–=1 . Ukoliko je ๐ถ๐ท๐‘– โ‰ฅ

4

๐‘›โˆ’ ๐‘+1 , tada se ๐‘–-ta opservacija moลพe

smatrati autlajerom.

U mnogim statistiฤkim softverima postoji ugraฤ‘ena funkcija koja prema Kukovom rastojanju izdvaja autlajere.

5.5.2 Delta-beta statistika

Statistika delta-beta (deletion displacement) meri promenu izazvanu brisanjem svih zapaลพanja koja se poklapaju saodabranimelementom iz skupa vrednosti nezavisnih promenljivih i koristi se za otkrivanje zapaลพanja koje imaju jak uticaj na procenu modela. [16] Na ovaj naฤin se moลพe utvrditi da li uklanjanje nekog od elemenata skupa vrednosti nezavisnih promenljivih ima znaฤajnog uticaja na ocene odnosa ลกansi i koeficijenata u modelu.

Pretpostavimo da model sadrลพi ๐‘ razliฤitih nezavisnih promenljivih ๐’™๐‘ป = ๐‘ฅ1, ๐‘ฅ2, โ€ฆ , ๐‘ฅ๐‘ i

neka se uzorak sastoji od ๐‘› elemenata. Neka je ๐‘š๐‘— , ๐‘— = 1, โ€ฆ , ๐ฝ broj elemenata koji imaju iste

vrednosti nezavisnih promenljivih kao odreฤ‘en element skupa vrednosti nezavisne promenljive, a ๐‘ฆ๐‘— broj elemenata za koje zavisna promenljiva uzima vrednost 1 meฤ‘u ๐‘š๐‘— elemenata i neka je

๐‘ฆ๐‘— = ๐‘›1. [1]

Da bismo ovo objasnili, posmatrajmo primer sa nezavisnim promenljivama koje oznaฤavaju pol, rasu i visinu. Veliฤina uzorka je ๐‘› = 8, dok je broj razliฤitih vrednosti nezavisnih promenljivih ๐ฝ = 6. Podelom u grupe prema razliฤitim vrednostima imamo:

- jednu belkinju visine 167, ๐‘š1 = 1 - jednog belca visine 202, ๐‘š2 = 1 - dve crnkinje visine 156, ๐‘š3 = 2 - jednog crnca visine 189, ๐‘š4 = 1 - dva belca visine 139, ๐‘š5 = 2

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

38

- jednu crnkinju visine 142, ๐‘š6 = 1.

Promena koja se deลกava prilikom izbacivanja svih opservacija koje se poklapaju sa ๐‘— โˆ’im elementom skupa vrednosti nezavisne promenljive se izraฤunava kao [15]:

ฮ”๐›ฝ๐‘— =๐‘Ÿ ๐‘ฆ๐‘— , ๐œ‹ ๐‘—

2๐‘•๐‘—๐‘—

1 โˆ’ ๐‘•๐‘—๐‘—

,

gde je ๐‘•๐‘—๐‘— j-ta dijagonalna vrednost matrice๐ป = ๐‘Š1 2 ๐‘‹ ๐‘‹๐‘‡๐‘Š๐‘‹ โˆ’1๐‘‹๐‘‡๐‘Š1 2 , asa ๐‘Š dijagonalna

matrica koja je generisana elementom ๐‘ค๐‘—๐‘— = ๐‘š๐‘— ๐œ‹ ๐‘— 1 โˆ’ ๐œ‹ ๐‘— ,a sa ๐‘Ÿ ๐‘ฆ๐‘— , ๐œ‹ ๐‘— Pirsonov rezidual

(Pearsonโ€™s residual) koji se definiลกe kao [15]:

๐‘Ÿ ๐‘ฆ๐‘— , ๐œ‹ ๐‘— ๐‘ฆ๐‘— โˆ’ ๐‘š๐‘—๐œ‹ ๐‘—

๐‘š๐‘— ๐œ‹ ๐‘— 1 โˆ’ ๐œ‹ ๐‘—

, ๐‘— = 1, โ€ฆ , ๐ฝ.

Matrica ๐‘Š1 2 je generisana elementima ๐‘ค๐‘—๐‘—1 2 . Umesto delta-beta vrednosti, moลพe se koristiti i

standardizovana delta-beta vrednost (standardized deletion displacement) koja se izraฤunava na slededi naฤin:

ฮ”๐›ฝ๐‘ ๐‘— =๐‘Ÿ๐‘  ๐‘ฆ๐‘— , ๐œ‹ ๐‘—

2๐‘•๐‘—๐‘—

1 โˆ’ ๐‘•๐‘—๐‘—

,

gde je sa๐‘Ÿ๐‘  ๐‘ฆ๐‘— , ๐œ‹ ๐‘— , ๐‘— = 1, โ€ฆ , ๐ฝ oznaฤenstandardizovan Pirsonov rezidual koji se definiลกe na slededi

naฤin:

๐‘Ÿ๐‘  ๐‘ฆ๐‘— , ๐œ‹ ๐‘— ๐‘Ÿ ๐‘ฆ๐‘— , ๐œ‹ ๐‘—

1 โˆ’ ๐‘•๐‘—๐‘—

.

Vede vrednosti ovih veliฤina ukazuju na znaฤajnost posmatranog elementa skupa vrednosti nezavisnih promenljivihza model.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

39

6 Kreiranje modela i procena slaganja modela sa podacima

6.1 Izbor promenljivih u model

Proces izgradnje logistiฤkog regresionog modela je sliฤan procesu izgradnje modela linearne regresije. Prilikom ovakve analize potrebno je meฤ‘usobno uporeฤ‘ivanje modela i izbor modela koji najbolje objaลกnjava date podatke. Takav model bi trebalo da ima ลกto manje promenljivih jer povedanje broja promenljivih povlaฤi sa sobom povedanje standardnih greลกaka ocena, pa model postaje numeriฤki nestabilan. Izbor promenljivih koje najbolje opisuju podatke demo prikazati kroz nekoliko koraka. [12]

Korak 1. Deskriptivna analiza

Tokom deskriptivne analize potrebno je utvrditi raspodelu svake od promenjivih, na primer konstrukcijom ลกtapidastih dijagramaili kreiranjem histograma ili box-plot-ova. Takoฤ‘e, neophodno je proveriti disperziju i matematiฤko oฤekivanje svake promenljive u zavisnosti od ishoda zavisne promenljive. Ukoliko promenljiva ima malu disperziju ili veliki broj nedostajudih podataka, najbolje bi bilo izostaviti je iz modela.

Korak 2. Jednodimenziona analiza svake promenljive

Jednodimenzionom analizom se testira odnos jedne promenljive sa zavisnom promenljivom (ishodom), bez obzira na ostale promenljive koje se javljaju u modelu. Cilj ovakve analize je priprema modela za viลกedimenzionu analizu i smanjenje broja promenljivih i ovaj korak je posebno vaลพan ako model sadrลพi veliki broj promenljivih.Hi-kvadrat testom koliฤnika verodostojnosti ili nekim drugim testom neophodno je oceniti koeficijente a zatim testirati njihovu znaฤajnost (na primer Wald-testom) i oceniti standardne greลกke i intervale poverenja. Ukoliko promenljiva ne pokazuje veliki stepen povezanosti sa zavisnom promenljivom, tj. nije znaฤajna za model, treba je izbaciti iz modela. Za promenljivu se moลพe redi da je znaฤajna ukoliko je p-vrednost testa manja od 0.25. Posebnu paลพnju treba obratiti na autlajere i testirati model sa i bez observacija koje se smatraju autlajerima. Takoฤ‘e, potrebno je oceniti pojedinaฤni odnos ลกansi promenljivih sa zavisnom promenljivom. Ukoliko je odnos ลกansi 1, moลพe se zakljuฤiti da ne postoji povezanost. Ako je odnos ลกansi manji ili vedi od 1, onda postoji negativna, odnosno pozitivna povezanost sa ishodom.

Korak 3. Viลกedimenziona analiza

Jednodimenziona analiza ignoriลกe mogudnost da skup promenljivih, od kojih je svaka slabo povezana sa zavisnom promenljivom, moลพe postati vaลพan prediktor ukoliko ih uzmemo zajedno u razmatranje. Viลกedimenzionom analizom se bira podskup promenljivih koje najbolje opisuju date podatke. Postoje dva naฤina na koji se moลพe obaviti multivarijantna analiza. Prvi naฤin za

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

40

izborpromenljivih poฤinje od modela sa jednom promenljivom, njenom analizom, dodavanjem joลก jedne promenljive i analizom takvog modela, itd. Drugi naฤin podrazumeva analiziranje modela koji ukljuฤuje sve promenljive i postepenim uklanjanjem promenljivih iz modela. Ova tehnika se zove joลก i tehnika najboljeg podskupa.

Korak 4. Verifikacija znaฤajnosti promenljivih ukljuฤenih u model

Nakon viลกedimenzione analize potrebno jeopet ispitati znaฤajnost svake promenljive u modelu. Promenljive koje nisu znaฤajne za model treba izbaciti, a zatim testom koliฤnika maksimalne verodostojnosti uporediti nov model sa modelom koji sadrลพi tu promenljivu. Ovaj postupak treba primenjivati sve dok se ne pokaลพe da promenljive koje su izbaฤene iz modela statistiฤki nisu znaฤajne. Za neprekidne promenljive je takoฤ‘e potrebno proveriti pretpostavku o linearnosti logita. Ukoliko logit nije linearan, potrebno je izvrลกiti odgovarajudu transformaciju promenljive.

6.2 Procena slaganja modela sa podacima

ฤŒesto se deลกava da prilikom analiziranja podataka i traลพenja najboljeg modela imamo viลกe od jednog modela za koje smatramo da dobro opisuju podatke. Da bismo odabrali najbolji od njih, proveravamo koliko se svaki od njih uklapa u rezultujudu promenljivu i uporeฤ‘ujemo rezultate. Pretpostavimo da smo iz modela uklonili sve promenljive koje nisu znaฤajno uticale na rezultujudu i da su promenljive koje su ostale u modelu unete u korektnom funkcionalnom obliku. Provera uklapanja modela sa rezultujudom promenljivom se naziva test slaganja (goodness of fit test).

Pre provere korektnosti i uklapanja modela moramo navesti osnovne kriterijume koji ukazuju na to ลกta se podrazumeva pod dobrim modelom. Pretpostavimo da smo ishode zavisne promenljive i njene ocene predstavili u vektorskom obliku, tj. da smo sa ๐’š๐‘ป = ๐‘ฆ1, ๐‘ฆ2, โ€ฆ , ๐‘ฆ๐‘›

oznaฤili vrednosti zavisne promenljive a sa ๐’š ๐‘ป = ๐‘ฆ 1, ๐‘ฆ 2, โ€ฆ , ๐‘ฆ ๐‘› procenjene (fitovane) vrednosti vektora ๐’š๐‘ป. Model se smatra prilagoฤ‘enim podacima ako zadovoljava dva uslova:

- sveukupna mera rastojanja izmeฤ‘u๐’ši ๐’š je zanemarljivo mala - doprinos svakog para ๐‘ฆ๐‘– , ๐‘ฆ ๐‘– , ๐‘– = 1, โ€ฆ , ๐‘›je mali u odnosu na greลกku modela.

Prilikom procene modela neophodno je merenje rastojanja izmeฤ‘u vektora ๐’š i ๐’š , kao i merenje rastojanja izmeฤ‘u pojedinaฤnih komponenti. Osim raฤunskim putem, mnogi zakljuฤci o slaganju modela sa podacima se mogu dobiti i primenom grafiฤke metode.

Testom slaganja se testira nulta hipoteza ๐ป0:model je korektan protiv alternative ๐ป1:model nije korektan. [12] Kako je idealan model koji ne sadrลพi greลกke merenja i koji se uklapa u sve opservacije praktiฤno nemogude nadi, ovim testiranjem u zavisnosti od praga

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

41

znaฤajnostiodbacujemo ili prihvatamo nultu hipotezu i traลพimo onaj model za koji za ลกto manji nivo znaฤajnosti ne odbacuje nultu hipotezu.Ovaj testse bazira na grupisanju vrednosti odreฤ‘enih pomodu vrednosti nezavisnih promenljivih u modelu.

Ako se broj vrednosti koje uzimaju nezavisne promenljivepovedava sa povedanjem veliฤine uzoraka, tada svaka od vrednosti ๐‘š๐‘— ima tendenciju da bude mala. Za takve raspodele koje su

dobijene pod pretpostavkom da ๐‘› uzima dovoljno velike vrednosti, kaลพemo da su n-asimptotske raspodele. U prethodnom primeru ako imamo veliki uzorak, kako je visina neprekidna promenljiva, velike su ลกanse da demo imati i veliki broj razliฤitih vrednosti. Ako se fiksira broj grupa, tada se sa povedanjem obima uzorka povedava i broj elemenata u svakoj od tih grupa. Odnosno, ako je ๐ฝ < ๐‘› fiksirana vrednost, tada povedanjem veliฤine ๐‘›, povedavaju se i veliฤine ๐‘š๐‘— . Takve raspodele se

nazivaju m-asimptotske. Primer ovakvih raspodela je model koji sadrลพi dve nezavisne promenljive โ€“ pol i rasu.

Posmatrajudi neki model, prilikom testiranja testom slaganja pretpostavljamo da je ๐‘ฑ โ‰ˆ ๐’. Ovakvi sluฤajevi su ฤesti i javljaju se kad u modelu postoji bar jedna neprekidna promenljiva. Razmotridemo nekoliko naฤina kojima se moลพe ustanoviti slaganje modela sa podacima.

6.2.1Pirsonov ๐Œ๐Ÿ test i odstupanje

Da bi model bio dobar, potrebno je da reziduali (razlika izmeฤ‘u stvarnih i ocenjenih vrednosti zavisne promenljive๐’š โˆ’ ๐’š ) budu ลกto manji. U logistiฤkoj regresiji ocenjene vrednosti zavisne promenljive se mogu predstaviti kao

๐‘ฆ ๐‘— = ๐‘š๐‘— ๐œ‹ ๐‘— = ๐‘š๐‘—

๐‘’๐‘” ๐‘ฅ๐‘—

1 + ๐‘’๐‘” ๐‘ฅ๐‘— , ๐‘— = 1, โ€ฆ , ๐ฝ

gde je ๐‘” ๐‘ฅ๐‘— = ๐›ฝ 0 + ๐›ฝ 1๐‘ฅ1 + โ‹ฏ + ๐›ฝ ๐‘๐‘ฅ๐‘ ocena logita za odreฤ‘enu vrednost iz skupa vrednosti

nezavisne promenljive. Funkciju maksimalne verodostojnosti i njen logaritam moลพemo napisati na slededi naฤin:

โ„’ ๐›ฝ = ๐‘š๐‘—

๐‘ฆ๐‘— ๐œ‹ ๐‘ฅ๐‘—

๐‘ฆ๐‘—

1 โˆ’ ๐œ‹ ๐‘ฅ๐‘— ๐‘š ๐‘—โˆ’๐‘ฆ๐‘—

๐ฝ

๐‘—=1

๐‘™๐‘›โ„’ ๐›ฝ = ๐‘™๐‘› ๐‘š๐‘—

๐‘ฆ๐‘— + ๐‘ฆ๐‘—๐‘ฅ๐‘—

๐‘‡๐›ฝ โˆ’ ๐‘š๐‘— ๐‘™๐‘› 1 + ๐‘’๐‘ฅ๐‘—๐‘‡๐›ฝ

๐ฝ

๐‘—=1

.

Devijaciju๐ท datu formulom (6) moลพemo predstaviti kao

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

42

๐ท = 2 ๐‘ฆ๐‘— ๐‘™๐‘›๐‘ฆ๐‘— ๐‘š๐‘—

๐‘ฆ ๐‘— ๐‘š๐‘— + ๐‘š๐‘— โˆ’ ๐‘ฆ๐‘— ๐‘™๐‘›

1 โˆ’ ๐‘ฆ๐‘— ๐‘š๐‘—

1 โˆ’ ๐‘ฆ ๐‘— ๐‘š๐‘— =

๐ฝ

๐‘— =1

2 ๐‘ฆ๐‘— ๐‘™๐‘›๐‘ฆ๐‘—

๐‘ฆ ๐‘—+ ๐‘š๐‘— โˆ’ ๐‘ฆ๐‘— ๐‘™๐‘›

๐‘š๐‘— โˆ’ ๐‘ฆ๐‘—

๐‘š๐‘— โˆ’ ๐‘ฆ ๐‘—

๐ฝ

๐‘— =1

.

Devijaciju takoฤ‘e moลพemo izraziti pomodu reziduala odstupanja (deviance residual) definisanih na slededi naฤin: [5]

๐‘‘ ๐‘ฆ๐‘— , ๐œ‹ ๐‘— =

โˆ’ 2๐‘š๐‘— ๐‘™๐‘› 1 โˆ’ ๐œ‹ ๐‘— za๐‘ฆ๐‘— = 0

2 ๐‘ฆ๐‘— ๐‘™๐‘›๐‘ฆ๐‘—

๐‘š๐‘—๐œ‹ ๐‘—

+ ๐‘š๐‘— โˆ’ ๐‘ฆ๐‘— ๐‘™๐‘›๐‘š๐‘— โˆ’ ๐‘ฆ๐‘—

๐‘š๐‘— 1 โˆ’ ๐œ‹ ๐‘— za 0 < ๐‘ฆ๐‘— < ๐‘š๐‘— , ๐‘ฆ๐‘— ๐‘š๐‘— > ๐œ‹ ๐‘—

โˆ’ 2 ๐‘ฆ๐‘— ๐‘™๐‘›๐‘ฆ๐‘—

๐‘š๐‘— ๐œ‹ ๐‘—

+ ๐‘š๐‘— โˆ’ ๐‘ฆ๐‘— ๐‘™๐‘›๐‘š๐‘— โˆ’ ๐‘ฆ๐‘—

๐‘š๐‘— 1 โˆ’ ๐œ‹ ๐‘— za 0 < ๐‘ฆ๐‘— < ๐‘š๐‘— , ๐‘ฆ๐‘— ๐‘š๐‘— < ๐œ‹ ๐‘—

2๐‘š๐‘— ๐‘™๐‘›๐œ‹ ๐‘— za๐‘ฆ๐‘— = ๐‘š๐‘—

Statistika testa saglasnosti se definiลกe kao

๐ท = ๐‘‘ ๐‘ฆ๐‘— , ๐œ‹ ๐‘— 2

๐ฝ

๐‘— =1

.

Joลก jedna statistika za procenu slaganja modela sa podacima je Pirsonova ๐œ’2 statistika testa saglasnosti koja je bazirana na Pirsonovim rezidualima je data sa [12]

๐œ’2 = ๐‘Ÿ ๐‘ฆ๐‘— , ๐œ‹ ๐‘— 2

๐ฝ

๐‘— =1

.

Pod pretpostavkom da je fitovan model korektan, statistike ๐ท i ๐œ’2 imaju ๐œ’๐ฝโˆ’ ๐‘+1 2

raspodelu.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

43

7 Zakljuฤak

U ovom radu je obraฤ‘en pojam logistiฤke regresije koja sluลพi za opisivanje zavisne binarne promenljive i nalaลพenje najbolje veze izmeฤ‘u zavisne i skupa nezavisnih promenljivih.

Rad se sastoji iz pet poglavlja. U prvom poglavlju smo se upoznali sa populacionim modelima, poreklom logistiฤke krive i njenim oblikom. U drugom poglavlju smo objasnili pojam zavisnosti promenljivih i karakterisike te zavisnosti i detaljnije se upoznali sa logistiฤkom regresijom.

U slededem poglavlju upoznali smo se sa parametrima logistiฤke regresije i njihovim znaฤenjem, metodama ocenjivanja parametara i testovima kojim se moลพe utvrditi da li neka promenljiva utiฤe na promenu nezavisne promenljive i u kojoj meri. Takoฤ‘e smo se upoznali i sa intervalima poverenja (pouzdanosti) za parametre.

Poslednja dva poglavlja govore o kreiranju modela. U njima smo se detaljnije upoznali sa nezavisnom promenljivom i opservacijama koje mogu da dovedu do pogreลกnih rezultata prilikom testiranja. Videli smo, takoฤ‘e, na koji naฤin moลพemo da izaberemo promenljive u model i koliko se izabrani model slaลพe sa podacima.

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs

44

8 Literatura

[1] Hallet D., Goodness of fit tests in logistic regression University of Toronto, 1999 [2] HarrellF., Regression Modeling Strategies, Springer, 2001 [3] Hosmer D, Lemeshow S, Studirvant R, Applied logistic regression 3rd ed., Wiley, 2013 [4] Jaccard J., Interaction Effects in Logistic Regression, Sage publications, 2001 [5] Kleinbaum D., Klein M., Logistic Regression, Springer, 2010 [6] Liu W, Simultaneous Inference In Regression, CRC Press, 2011 [7] Loader C, Local Regression and Likelihood, Springer, 1999 [8] Malthus T., An Essay on the Principle of Population, Paulโ€™s church-yard, 1798 [9] Pampel C. Fred, Logistic regression: A Primer, Sage publications, 2000 [10] Stivenson M., An Introduction to Logistic Regression, Massey University, 2012 [11] Seber G., Wild C, Nonlinear Regression, Wiley, 1989 [12] Ying L., On goodness of fit of logistic regression model, Kansas, 2007 [13] http://www.medicine.mcgill.ca/epidemiology/joseph/courses/epib-

621/logistic2.pdf [14] http://sydney.edu.au/vetscience/biostat/macros/logistic_tut_model1.shtml [15] http://www.medicine.mcgill.ca/epidemiology/joseph/courses/epib-621/logfit.pdf [16] http://davidakenny.net/cm/moderation.htm [17] http://www.sagepub.com/upm-data/21121_Chapter_15.pdf [18] http://www.statsdirect.com/help/default.htm#regression_and_correlation/logistic.

htm [19] http://support.minitab.com/en-us/minitab/17/topic-library/modeling-

statistics/regression-and-correlation/logistic-regression/what-are-delta-statistics/ [20] http://www.artnit.net/druลกtvo/item/638-tomas-robert-maltus-porast-

stanovniลกtva.html [21] http://www.model.u-

szeged.hu/cd/content/Interreg_2008/Development%20in%20teaching%20science.pdf [22] http://stats.stackexchange.com/questions/59085/how-to-test-for-simultaneous-

equality-of-choosen-coefficients-in-logit-or-probit [23] http://www.iarc.fr/en/publications/pdfs-online/stat/sp32/SP32_vol1-6.pdf

Vir

tual

Lib

rary

of

Fac

ulty

of

Mat

hem

atic

s -

Uni

vers

ity

of B

elgr

ade

elib

rary

.mat

f.bg

.ac.

rs