1. uvodzlc/fajlovi/lr2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno...

43
1 1. UVOD 1.1 POREKLO LOGISTIČKE FUNKCIJE - POPULACIONI MODEL Poznati demograf iz Engleske, Tomas Maltus je 1789. godine u svom radu „Put u katastrofu“, pokušao da skrene pažnju svetske javnosti na problem prenaseljenosti iznoseći svoju „mračnu teoriju“ da čovečanstvo može opstati samo ako eksponencijalni rast populacije bude povremeno prekidan epidemijama i katastrofama . Maltus je rezonovao ovako: zamislimo da prebrojavanjem dođemo do podatka da u nekom trenutku živo p(0) ljudi. Populacija u sledećem trenutku je srazmerna populaciji u prethodnom, odnosno p(1) = rp(0), gde je r parametar koji opisuje neto priraštaj stanovništva i može se dobiti iz postojećih podataka na osnovi toga što će u tom vremenskom intervalu između dva brojenja, neki ljudi da umru (ratovi, siromaštvo, bolest), neki će da se rode. Ako se sa γ označi konstantna brzina rođenja u jedinici vremena po jedinki (stopa nataliteta), a sa δ konstantna brzina umiranja u jedinici vremena po jedinki (stopa mortaliteta), tada važi da je konstantan priraštaj λ γ δ = - . Ako je sa p(t) označen broj jedinki u trenutku t, onda je on posle vremenskog intervala t Δ jednak ( ) () () pt t pt pt t λ = + Δ Vidimo da je rast srazmeran postojećoj populaciji i vremenu. Diferencna jednačina vodi ka Cauchy-evom problemu za običnu diferencijalnu jednačinu () () pt pt λ = , (1) 0 (0) p p = Rešavanjem ove diferencijelne jednačinu dobijamo:

Upload: others

Post on 31-Dec-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

1

1. UVOD

1.1 POREKLO LOGISTIČKE FUNKCIJE - POPULACIONI MODEL

Poznati demograf iz Engleske, Tomas Maltus je 1789. godine u svom radu „Put u

katastrofu“, pokušao da skrene pažnju svetske javnosti na problem prenaseljenosti

iznoseći svoju „mračnu teoriju“ da čovečanstvo može opstati samo ako eksponencijalni

rast populacije bude povremeno prekidan epidemijama i katastrofama .

Maltus je rezonovao ovako: zamislimo da prebrojavanjem dođemo do podatka da

u nekom trenutku živo p(0) ljudi. Populacija u sledećem trenutku je srazmerna populaciji

u prethodnom, odnosno p(1) = rp(0), gde je r parametar koji opisuje neto priraštaj

stanovništva i može se dobiti iz postojećih podataka na osnovi toga što će u tom

vremenskom intervalu između dva brojenja, neki ljudi da umru (ratovi, siromaštvo,

bolest), neki će da se rode.

Ako se sa γ označi konstantna brzina rođenja u jedinici vremena po jedinki

(stopa nataliteta), a sa δ konstantna brzina umiranja u jedinici vremena po jedinki (stopa

mortaliteta), tada važi da je konstantan priraštaj λ γ δ= − .

Ako je sa p(t) označen broj jedinki u trenutku t, onda je on posle vremenskog

intervala t∆ jednak

( ) ( ) ( )p t t p t p t tλ+ ∆ = + ∆ Vidimo da je rast srazmeran postojećoj populaciji i vremenu.

Diferencna jednačina vodi ka Cauchy-evom problemu za običnu diferencijalnu jednačinu ( ) ( )p t p tλ′ = , (1)

0(0)p p=

Rešavanjem ove diferencijelne jednačinu dobijamo:

Page 2: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

2

( )

( )

ln ( )

( )

( )

t C

t

dp tdt

p t

p t t C

p t e e

p t Ae

λ

λ

λ

λ

=

= +

=

=

Konstantu A određujemo, jer znamo početnu populaciju 0(0)p p= .

Važi da je 00(0)p p Ae A= = = , pa je rešenje jednačine (1)

0( ) tp t p eλ= (2)

Ovaj model se naziva osnovni (Maltusov) populacioni model .

Međutim osnovne pretpostavke Maltusovog populacionog modela su razumne za

populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje

postoje neograničeni resursi, odgovarajuća ishrana, nepostojanje bolesti, nepostojanje

prirodnih neprijatelja i sl.

Uprkos ovome ovaj model je imao ogroman uticaj na demografe i mislioce toga

vremena. Naime, sa povećanjem broja stanovnika povećava se i količina proizvedenih

resursa, hrane i slično, ali ovo povećanje, prema tadašnjim podacima, raste aritmetičkom

progresijom. Broj stanovnika raste brže nego količina resursa. Posle određenog broja

godina, dakle, resursa će biti manje, a stanovnika koji će ih koristiti više, pa će tako

zavladati oskudice. I ovo stanje će se vremenom pogoršavati. Ovo stanje je dobilo i

naziv-demografska (Maltusova) katastrofa. Pa su zato mislioci tog vremena došli do

zaključka da je jedini način da se izbegne izbegne ili odloži katastrofa smanjenjem

priraštaja, što se može postići povećanjem smrtnosti - namerno izazvanim ratovima,

bolestima, oskudicama, ili ograničenim rađanjem.

Page 3: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

3

1.2 POPRAVKA MODELA

Maltusov model ima bitan nedostatak: nijedna realna sredina ne može da održava na sebi

neograničeno veliki broj ljudi. Kako Maltusov model ima manu, to jest neograničen rast,

moguće je napraviti model za p(t) koji ne daje apsurdna rešenja, i ograničava rast do neke

maksimalne fiksne vrednosti specifične za sitem koji se posmatra. Dakle, jasno da

Maltusov eksponencijalni populacioni model nije realan, jer ograničeni resursi (hrana,

voda, vazduh) usporavaju rast populacije. Populacija teži ka graničnom zasićenju. Drugi

nedostatak je taj što linearne brzine rađanja i umiranja nisu konstantne kao u

pretpostavci Maltusovog modela već su date sa:

0 1( ) ( )t p tγ γ γ= −

0 1( ) ( )t p tδ δ δ= +

0 0 1 10, , 0γ δ γ δ> > >

i smanjuju brzinu rađanja, a uvećavaju brzinu umiranja

I neka je maksimalni priraštaj označen sa a , gde je

0a γ δ0= −

Sada važi da je prirodni priraštaj

0 0 1 1( ) ( ) ( ) ( ) ( )t p t a bp tλ γ β γ β= − − + = −

gde smo sa b označili 1 1b γ β= +

Jednačina sada ima oblik

2

0

( ) ( ) ( )

( ) ( )

1 ( ) ( )

0, (0)

p t t p t

ap t bp t

ba p t p t

a

a b p p

λ′ =

= −

= −

> > =

(3)

Prirodni sistemi najčešće zbog svojih ograničenja ne mogu prihvatiti neograničenu

populaciju. Stoga je čest sledeći slučaj: populacija P u početku raste eksponencijalno sa

stopom rasta a, ali se taj rast smanjuje kako se populacija približava maksimalnom

Page 4: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

4

(nosivom) kapacitetu sistema a

Kb

= . Matematički takvo ponašanje možemo modelirati

logističkom jednačinom:

( )( ) 1

dp t pap t

dt K

= −

0(0)p p=

Mehanizam jednačine je sledeći: kada ja populacija P mala u odnosu na kapacitet K ,

tada je izraz u zagradi približno jednak jedan, i populacija se ponaša prema Maltusovom

populacionom modelu. Kada se populacija približi maksimalnom kapacitetu, tada izraz u

zagradi teži nula što koči rast populacije. Rešimo jednačinu:

( )( ) 1

1

1

1 1

ln ln

ln

1

at C

at

dp t pap t

dt K

dp at Cp

pK

dp at Cp K p

p K p at C

K pat C

p

K pe e

p

KAe

p

− −

= −

= +

+ = +

− − = +

−= − −

−=

− =

Opšte rešenje ove jednačine je logistička funkcija.

Kad uvrstimo i početni uslov, dobijamo:

( ) ,1 at

Kp t

Ae−=

+ (4)

0

0

0

(0) / (1 )p p K A

K pA

p

= = +

−=

Rešenje logističke jednačine možemo prikazati u ekvivalentnom obliku

Page 5: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

5

0

0 0

( )( ) at

app t

bp a bp e−=

+ − , ili:

0

0 0

( )( ) at

Kpp t

p K p e−=

+ − (5)

Kriva ( )p t ima S-oblik i naziva se logistička kriva.

1.3 SIGMOID FUNKCIJA

Postoje različiti oblici logističke funkcije a jedan od specijalnih slučajeva je

sigmoid funkcija ili sigmoid kriva koja je još poznata i pod nazivom standardna

logistička funkcija ili osnovna logistička funkcija i data je sa:

1( )

1 tP te−

=+

(6)

Ona se često se sreće u mnogim oblastima tehnike, naročito u veštačkim

neuronskim mrežama kao transfer funkcija.

Standardna sigmoid funkcija se dobija kao rešenje nelinearne diferencijalne

jednačine prvog reda:

(1 )dP

P Pdt

= −

(0) 1/ 2P = .

Ona je strogo rastuća funkcija koja se može prikazati i u sledećem obliku:

1

( )1 ae− ν

ϕ ν =+

gde je a parametar nagiba sigmoidne funkcije. Menjajući vrednost parametra a , dobijaju

se različiti oblici, što je prikazano na slici 1. .

Page 6: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

6

Slika 1. Sigmoidna funkcija

Posmatrajmo izraz (6). P-predstavlja verovatnoću da se neki događaj desi, pod

uticajem nekih nezavisnih rizičnih faktora, promenljiva t se definiše kao:

0 1 1 ... k kx xβ β β+ + + , gde se , 1...i i kβ = regresioni koeficijenti koji opisuju veličinu

doprinosa odgovarajućeg rizičnog faktora ix . Kada su regresioni koeficijenti pozitivni

tada nezavisne promenljive ix povećavaju verovatnoći pozitivnog ishoda, a kada su

negativni, onda smanjuju tu verovatnoću.

Primer1.

Ispitujemo verovatnoću da osoba u narednih 10 godina umre od bolesti srca,

posamtrajući rizične faktore: 1x = godine preko 50, 2x -pol(muško-0, žensko-1), 3x -nivo

holesterola preko 5 mmol/l. Neka su nam regresioni koeficijenti dati sa:

0 1 2 35, 2, 1, 1.2β β β β= − = = − = .

Posmatrajmo: Muškarca koji ima 50 godina i 7 mmol/l holesterola u krvi.

Verovatnoća da on umre u nsrednih 10 godina je tada data sa:

0 1 1 2 2 3 3( )

1( )

1 x x xP te +− β +β +β β

=+

( 5 2(50 50) 1 0 1.2(7 5)) 0.071

( )1

P te +− − + − − −

==+ �

Odnosno verovatnoća da ova osoba umre u narednih 10 godina je 7%.

Page 7: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

7

1.4 PRIMENA LOGISTIČKE KRIVE

Iako je logistička kriva često kritikovana, u smislu da je primenjivana na sisteme

gde nije odgovarajuća, ona se pokazala korisnom u modeliranju širokog opsega pojava. U

literaturi se može pronaći veliki broj radova koji su pokušali da uspostave transcedentalni

"Zakon logističkog rasta“ u oblasti ljudske populacije, kolonija bakterija, razvoja

železnice itd.

Značaj logističke raspodele je ostavio traga u mnogim oblastima ljudskih

nastojanja. Verhulst je 1845. godine koristio u ekonomskim i demografskim

istraživanjima. Berkson je koristio logističku raspodelu u analiziranju bio-assay i

kvalitativnih odgovora.

Mnogi postupci u biologiji i drugim poljima koriste S-krivu rasta. Biološka

funkcija rasta po kojoj se obnavlja brojnost populacije riba, ptica, pa čak i količine vode u

podzemnim rezervoarima odgovara tzv. logističkoj funkciji rasta. Logistički model rasta

je prvi primenio u analizi ribarstva Schaffer (1957). U biologiji, logistička funkcija

opisuje populacioni rast u ograničenom okruženju, kao što je bakterija u petrievoj šolji.

Ima primenu u populacionom rastu vrsta koje rastu tako da su blizu zasićenja njegovih

ekosistema. Kingsland je dao kroz istoriju primene logističke krive u populacionoj

ekologiji, njene uspehe i neuspehe.

Logističke funkcije su dobar model u marketingu, gde prikazuju prodaju novih

proizvoda u tokom vremena, mogu da opisuju krive potražnje: opadanje potražnje za

proizvodom kao funkcija povećanja cene.

Wofford i drugi su proučavali kontinuirano nasilje u porodici, u nacionalnom

uzorku mladih oba pola, starosti od 18 do 27 godina. Dvadeset šest prediktora, baziranih

na podacima iz literature o nasilju u domaćinstvu su uklučene u ovu analizu. Kao deo

studije, ispitanici koji su saopštili da su žrtve ili izvršioci nasilja u porodici 1984. su

ponovo intervjuisani 1987.godine da bi se utvrdilo da li nasilje u porodici nastavilo ili je

prekinuto od momenta prvog intervjuisanja 1984. godine.

Marchetti i kolege u IIASA kao i mnogi drugi, su prikazali stotine primera,

uglavnom u socio-tehnološkim sistemima. Young je anketirao i uporedio krive rasta

korišćene za tehnološka predviđanja, uključujući logističku funkciju.

Page 8: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

8

Logistička kriva je igrala značajnu ulogu i u sociološkim istraživanjima, na primer

u teoriji transformacije George Land, koji je koristio koncept S-krive za procenu

pogodnog zanimanja u različitim fazama tehnološkog razvoja. White, Pearson, Wilson

(1999) su ispitivali ostvarenje proizvodne prakse u datom momentu, korišćenjem

logističkih regresionih modela. Palma, Beja, and Rodrigues (1999) su modelirali „light

sightings“, naročito u savremenoj primeni. Fong, Hu, Heisey (1999) su koristili logističku

regresiju za predikciju „cache worthiness“ objekata na World Wide Web . Sigmoidna

funkcija (standardna logistička funkcija) je difrencijabilna, što je veoma važno za

primenu u neuronskim mrežama.

Logistička kriva, ili tzv. S kriva ima izuzetno široku primenu u prognoziranju

broja korisnika telekomunikacionih servisa. Posebno dobri rezultati se postižu u

prognoziranju glavnih telefonskih priključaka (GTP). U prvoj fazi uvođenja servisa

zahtevi rastu sporo, u drugoj fazi kada je servis prihvaćen na tržištu, dolazi do rapidnog

rasta broja zahteva. U trećoj fazi dolazi do zasićenja tržišta (broj zahteva ili uopšte ne

raste ili raste vrlo sporo). Gustina zasićenja se procenjuje posebno i obično se razlikuje za

svaku zemlju ili pojedine njene delove.

Kako je logistički regresioni model našao primenu u populacionim istraživanjima

u oblasti medicine kod nas, govori istraživanje sprovedeno 2003. godine među odraslim

stanovništvom Vojvodine (stariji od 45 godina). Cilj istraživanja je bio da se utvrde rizici

za masovne nezaarzne bolesti, a logistički regresioni model je primenjen da bi se utvrdila

povezanost hiperglikemije sa potencijalnim faktorima rizika. Kao nezavisne promenljive

su posmatrani pol, mesto stanovanja (urbano/ruralno), starost, obim struka, gojaznost.

Page 9: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

9

2. LOGISTIČKI REGRESIONI MODEL

Regresionе metode su sastavni deo svake analize podataka koja se bavi

opisivanjem veze između zavisnih promenljivih i eksplanatornih, nezavisnih,

promenljivih. Cilj analize koja koristi ovaj metod je naći model koji je najbolje

prilagođen (fitovan) podacima, ujedno i najekonomičniji, ali model koji je ima fizičko

značenje, koj opisuje vezu između zavisne (rezultujuće) promenljivih i skupa nezavisnih

eksplanatornih promenljivih. Kada se kaže najekonomičniji model misli se na model koji

će imati, u neku ruku, optimalan broj promenljivih, odnosno model koji će sadržati samo

one nezavisne promenljive koje imaju uticaja na ishod zavisne promenljive. Nezavisne

promenljive se često nazivaju i kovarijate (covatiate).

Najpoznatiji primer modeliranja je linearni regresioni model gde se za zavisnu

promenljivu pretpostavlja da je neprekidna. Međutim, čest je slučaj da je rezultujuća

promenljiva diskretna, sa dve ili više mogućih vrednosti. Ovakva situacija se sreće u

medicini, kada zavisna promenljiva predstavlja prisustvo ili odsustvo neke osobine,

bolesti. Standardna metoda analize u ovakvoj situaciji je logistički regresioni model kako

u medicini, tako i u mnogim drugim oblastima (biologija, ekonomija, marketing,

telekomunikacije, itd).

Ono što se u logističkoj regresiji razlikuje od linearne regresije je to da je zavisna

promenljiva diskretna, obično binarna (Binarni logistički regresioni model), a u ređim

slučajevima može da ima više od dve kategorije. Ova razlika između logističke i linearne

regresije se ogleda kako u izboru parametara, tako i u pretpostavkama U zavisnosti od

merne skale zavisne varijable, govorimo o Nominalnim, odnosno Ordinalnim logističkim

regresionim modelima. Zajednički naziv im je Multinomni, ili Politomni. (Nezavisne

varijable mogu biti kategorijalne, ili kombinacija kategorijalnih i neprekidnih, pri čemu u

logističkoj regresiji ne postoje pretpostavke o raspodeli za ove varijable.

Logistička regresija se koristi za:

- predviđanje zavisne promenljive na osnovu vrednosti nezavisnih promenljivih

- rangiranje nezavisnih promenljivih po važnosti

Page 10: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

10

- procenu efekta interakcije.

Zavisna promenljiva može biti da li je pacijent izlečen ili ne; da li je neki

proizvod prošao kontrolu kvaliteta ili ne; da li je životinja na kojoj se vršio neki

eksperiment preživela isti ili ne itd. Kao što vidimo, zavisna promenljiva uzima samo dve

vrednosti, tj. dihotomna je. Upravo zbog toga se kodira sa 0 i 1, gde 0 označava

„neuspeh“ ili odsustvo neke karakteristike, a 1 „uspeh“ odnosno prisustvo neke

karakteristike. Na primer, ukoliko je pacijent izlečen, ishod je „uspeh“, a ako nije ishod je

„neuspeh“; ako proizvod prođe kontrolu kvaliteta ishod je „uspeh“, u suprotnom

„neuspeh“. Ukoliko zavisna promenljiva označava to da li je osoba zdrava ili ne, onda

bismo sa 0 kodirali - osoba nije zdrava, a sa 1 – osoba je zdrava.

Zavisnu promenljivu označavamo sa Y, doke nezavisne označavamo sa X.

Vrednosti nezavisnih promenljivih ćemo označavati sa x.

Primera radi, da li će pacijent biti izlečen ili ne, može zavisiti od medicinskog

tretmana kom je podvrgnut, od pola, godina starosti pacijenta itd.; da li će proizvod proći

kontrolu kvaliteta može zavisiti od temperature, kvaliteta sirovog materijala od kog se

pravio proizvod itd. Često je potrebno izvršiti grupisanje podataka, tako da se u okviru

jedne grupe nalaze svi subjekti koji imaju iste vrednosti nezavisnih promenljivih. Kada su

podaci grupisani, lakše je zabeležiti broj „uspeha“, odnosno broj „neuspeha“, jer ih

beležimo za svaku grupu posebno, dok bismo u slučaju negrupisanih podataka dobijali

dugačke nizove 0 i 1.

Primer 1. Posmatramo starost izraženu u godinama (STAROST), i prisustvo ili

odsustvo koronarnog srčanog oboljenja (CHD) za 100 subjekata izabranih da učestvuju u

istraživanju, gde je starost prikazana i kao grupisana promenljiva (STAR_KAT).

Rezultujuća promenljiva je CHD, koja je kodirana sa 0 i 1, označava odsustvo, a 1

prisustvo srčane bolesti. Želimo da ispitamo u kakvoj su vezi promenljive CHD i Starost,

odnosno da vidimo u kojoj meri starost subjekata utiče na pojavu oboljenja.

Ako bi rezultujuća promenljiva bila neprekidna, a ne binarna, koristili bismo

dijagram rasipanja rezultata u odnosu na nezavisnu promenljivu, za obezbeđivanje utiska

Page 11: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

11

o prirodi i snazi veze između ishoda i nezavisne promenljive. Dijagram rasipanja za naše

podatkeje dat na slici 2.

0

0,2

0,4

0,6

0,8

1

1,2

20 30 40 50 60 70 80

Starost (godine)

CH

D

Slika 2.

Na ovom dijagramu sve tačke pripadaju jednoj od dve paralelne prave koje

predstavljaju prisustvo CHD (y = 1), odnosno odsustvo CHD (y = 0). Sa slike se vidi da

postoji tendencija da su pojedinci koji nemaju koronarno srčano oboljenje mlađi od onih

koji imaju oboljenje. Mada ovaj grafikon prikazuje dihotomnu prirodu rezultujuće

promenljive prilično jasno, ipak ne daje jasnu sliku o prirodi veze između CHD i starosti.

Problem sa dijagramom na slici 2 je da je varijabilnost za promenljivu CHD za sve

starosti velika, te je zbog toga teško opisati funkcionalnu vezu između starosti i CHD.

Opšti metod eliminisanja nekih promenljivih, sa ciljem održavanja strukture veze između

rezultata i nezavisne promenljive obuhvata kreiranje intervala za nezavisnu promenljivu i

računanje sredine rezultujuće promenljive unutar svake grupe. Ovaj postupak je

sproveden korišćenjem starosnih kategorija kao grupisane promenljive, STAR_KAT u

tabeli 1, i izračunavanjem sredine rezultujuće promenljive unutar svake grupe, tj.

verovatnoću da osoba iz odgovarajuće grupe oboli.

Page 12: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

12

Tabela 1. Tabela frekvencija za starosne grupe u odnosu na CHD

CHD sredina STAR_KAT n odsutan prisutan (proporcija)

20-29 10 9 1 0.10 30-34 15 13 2 0.13 35-39 12 9 3 0.25 40-44 15 10 5 0.33 45-49 13 7 6 0.46 50-54 8 3 5 0.63 55-59 17 4 13 0.76 60-69 10 2 8 0.80

Ukupno 100 57 43 0.43

Analiziranjem ove tabele, jasno je da se sa povećanjem starosti, povećava

proporcija subjekata koji imaju koronarno srčano oboljenje. Podaci u tabeli 1. su

prikazani na slici 3, gde je predstavljen grafikon proporcije osoba sa registrovanim CHD

u odnosu na sredinu svakog intervala za starosne grupe. Sa datog grafika se može uočiti

da se sa povećanjem starosti, povećava i proporcija subjekata koji imaju srčano oboljenje.

Iako ovaj grafikon obezbeđuje značajan uvid u vezu između prisustva koronarnog

srčanog oboljenja i starosti u ovom istraživanju, potrebno je opisati funkcionalnu formu

za ovu vezu. Ovaj grafikon je sličan onome što bismo mogli dobiti ako bi se isti proces

grupisanja i određivanje proseka izvelo u linearnoj regresiji.

Page 13: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

13

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

20 25 30 35 40 45 50 55 60 65 70

Starosne grupe

Po

po

rcij

a p

ris

utn

og

CH

D

Slika 3. Proporcija subjekata sa CHD u odnosu na starosne kategorije

Možemo uočiti važne razlike između linearne i logističke regresije. Prva razlika

se tiče prirode veze između rezultujuće (zavisne) i nezavisne promenljive. U bilo kom

regresionom problemu ključna je očekivana vrednost zavisne promenljive, za datu

vrednost nezavisne promenljive, E(Y�x), gde Y označava zavisnu promenljivu, a x

nezavisnu promenljivu. U linearnoj regresiji se ova sredina može izraziti kao linearna

jednakost po x (ili nekim transformacijama x ili Y), tj.

0 1( )E Y x xβ β= + .

Ovaj izraz podrazumeva da E(Y�x) može da uzme bilo koju vrednost sve dok se x kreće

od -∞ do +∞.

Kolona, označena sa "sredina" u tabeli 1 daje ocenu za E(Y�x). Pretpostavimo, da

su ocenjene vrednosti na slici 3 dovoljno blizu pravih vrednosti E(Y�x) za obezbeđivanje

prihvatljive ocene za vezu između CHD i starosti. Sa dihotomnim podacima, za uslovnu

sredinu mora da važi 0 ≤ E(Y�x) ≤ 1. Ovo možemo videti na slici 3. Sem toga, grafikon

pokazuje da se u ovom slučju sredina postepeno priblizava 0 i 1. Promena u E(Y�x) po

Page 14: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

14

jedinici promene za x postaje progresivno manja kako uslovna sredina postaje bliža nuli

ili 1. Za ovu krivu se kaže da je S-oblika, i podseća na grafikon funkcije raspodele

slučajne promenljive. Iz tog razloga se mogu koristiti neke dobro poznate funkcije

raspodele za obezbeđivanje modela za E(Y�x) kada je Y dihotomna promenljiva.

Postoje dva osnovna razloga zbog kojih koristimo logističku krivu u analizi

dihotomne promenljive. Prvo, sa matematičke tačke gledišta, to je veoma fleksibilna

funkcija koja se jednostavno koristi, i kao drugo, omogućuje klinički razumljivu

interpretaciju. Da bismo pojednostavili zapis, koristimo veličinu π(x) = E(Y�x) za

prikazivanje uslovne sredine od Y za dato x kada se koristi logistička kriva.

Poseban oblik logističkog regresionog modela koji koristimo je:

0 1

0 1( )

1

x

xex

e

β β

β βπ

+

+=

+ (1)

Za razliku od link funkcije (funkcije veze) u linearnom regresionom modelu, gde je to

funkcija identiteta, u logističkoj regresiji je to logit transformacija, definisana kao odnos

šansi:

g(x) = ln ( )( )

− xx

π

π

1= β0 + β1x .

Transformacija g(x) ima mnogo poželjnih osobina linearnog regresionog modela. Logit,

g(x), je linearan po svojim parametrima, može biti neprekidan, i, može se kretati od -∞ do

+∞, što zavisi od x.

Logite su stasitičari koristili u različite svrhe. Postoji takozvani "logit model" čiji je

najjednostavniji oblik: logit(pi) = a + bxi , gde je xi neka veličina od koje uspeh ili neuspeh u i-tom nizu

Bernulijevih proba može da zavisi, a pi je verovatnoća uspeha u i-tom slučaju. Koncept logita je takođe

centralan u probabilističkom Rasch modelu za merenje, koji ima primenu u psihologiji i obrazovnoj

proceni, među drugim oblastima

Druga važna razlika između linearnih i logističkih regresionih modela tiče se

uslovne raspodele za rezultujuću promenljivu. U linearnom regresionom modelu,

pretpostavljamo da se opservacija rezultujuće promenljive može izraziti sa Y=E(Y�x)+ε,

gde je ε greška i predstavlja jedno odstupanje registrovane vrednosti od uslovne sredine.

Najopštija pretpostavka je da ε ima normalnu raspodelu sa sredinom nula, i nekom

varijansom koja je konstantna za sve nivoe nezavisne promenljive. To znači da će

uslovna raspodela rezultujuće promenljive za dato x biti normalna, sa sredinom E(Y│x) i

Page 15: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

15

varijansom koja je konstantna. Međutim, ovo ne važi u slučaju kada je rezultujuća

promenljiva dihotomna. U ovoj situaciji, možemo izraziti vrednost rezultujuće

promenljive za dato x kao:

( )Y xπ ε= + .

Kako je zavisna promenljiva dihotomna i uzima vrednosti 0 i 1, uzećemo da uzima

vrednost 1 sa verovatnoćom π , a vrednost 0 sa verovatnoćom π−1 , tj.

− ππ1

10:Y .

Slučajna promenljiva Y�x će takođe uzimati vrednosti 0 i 1, sa verovatnoćama

)(,)(1 xx ππ− redom, tj.

− )()(1

10:|

xxxY

ππ. Očekivana vrednost od Y za dato x,

je:

)()(1))(1(0)|( xxxxYE πππ =⋅+−⋅=

Sledi da je uslovna raspodela rezultujuće promenljive binomna raspodelu sa

verovatnoćom datom uslovnom sredinom, ( )xπ .

Ovde veličina ε može uzeti jednu od dve moguće vrednosti. Za 1y = , važi da je

1 ( )xε π= − sa verovatnoćom ( )xπ , dok je za 0, ( )y xε π= = − sa verovatnoćom

1 ( )xπ− . Dakle, ε ima raspodelu sa sredinom nula i varijansom jednakom

( )(1 ( ))x xπ π− ,

−−

)()(1

)(1)(:

xx

xx

ππ

ππε .

Ukratko, može se videti da u regresionoj analizi kada je rezultujuća promenljiva

dihotomna, važi sledeće:

(1) Uslovna sredina E(Y│x) mora biti u granicama između 0 i 1. Logistički

regresioni model, )(xπ dat u jednakosti (1) zadovoljava ovo ograničenje.

(2) Pomoću binomne, a ne normalne raspodele objašnjava se raspodela grešaka.

(3) Vodeći principi koji se koriste u linearnoj regresiji, takođe važe i za

logističku regresiju

Page 16: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

16

2.1 SLAGANJE LOGISTIČKOG REGRESIONOG MODELA SA

PODACIMA

Pretpostavimo da imamo uzorak od n nezavisnih registrovanih vrednosti parova

niyx ii ...2,1,),( = , gde iy označava vrednost rezultujuće dihotomne promenljive koja je

kodirana sa 0 i 1, gde 0 predstavlja odsustvo, a 1 prisustvo neke karakteristike. ix

označava registrovanu vrednost nezavisne promenljive za i -ti subjekat. Dalje,

pretpostavimo da je rezultujuća promenljiva kodirana sa 0, ili 1, koje predstavlja odsustvo

ili prisustvo karakteristike, redom. Fitovanje logističkog regresionog modela u jednakosti

0 1

0 1( )

1

x

xex

e

β β

β βπ

+

+=

+

za skup podataka zahteva da ocenimo vrednosti za nepoznate parametre, β0 i β1. Da

bismo objasnili šta znači pojam „fitovanje modela“, posmatraćemo najednostavniji

logistički regresioni model koji sadrži samo jednu nezavisnu promenljivu, tj.

U linearnoj regresiji, najčešće korišćen metod za ocenjivanje nepoznatih

parametara je metod najmanjih kvadrata. U tom metodu, biramo one vrednosti β0 i β1,

koje minimiziraju sumu kvadrata odstupanja registrovane vrednosti za Y od predviđene

vrednosti dobijene na osnovu modela. Pod uobičajenim pretpostavkama za linearnu

regresiju, metod najmanjih kvadrata daje ocene sa mnoštvom poželjnih statističkih

svojstava. Međutim, kada se metod najmanjih kvadrata primeni na model sa dihotomnim

ishodom, ocene više nemaju te iste osobine.

Opšti metod ocenjivanja koji vodi do funkcije najmanjih kvadrata za

linearni regresioni model (kada greške imaju normalnu raspodelu) je metod maksimalne

verodostojnosti, i on će obezbediti osnovu za naš pristup ocenjivanja pomoću logističkog

regresionog modela. U vrlo opšem smislu, metod maksimalne verodostojnosti daje

vrednosti za nepoznate parametre koji maksimiziraju verovatnoću dobijanja

registrovanog skupa podataka. Da bismo mogli da primenimo ovaj metod, prvo moramo

da konstruišemo funkciju verodostojnosti koja izražava verovatnoću registrovanih

podataka u funkciji nepoznatih parametara. Ocene maksimalne verodostojnosti ovih

parametara su izabrane tako to budu one vrednosti koje maksimiziraju ovu funkciju.

Dakle, rezultujuće ocene su one, koje se najviše slažu, tj. najbliže su registrovanim

Page 17: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

17

podacima. Mi ćemo sada opisati kako naći ove vrednosti iz logističkog regresionog

modela.

Fitovanje datog logističkog regresionog modela za neki skup podataka podrazumeva

ocenu vrednosti nepoznatih parametara 0β i 1β .

Vrednosti nepoznatih parametara ćemo oceniti koristeći metodu maksimalne

verodostojnosti. Da bismo, uopšte, mogli koristiti pomenutu metodu, prvo moramo

konstruisati funkciju verodostojnosti.

Ako je zavisna promenljiva

− ππ1

10:Y tada izraz

x

x

ie

ex

10

10

1)(

ββ

ββ

π+

+

+= , za

proizvoljnu vrednost ),( 10 βββ = , daje uslovnu verovatnoću )(}|1{ xxYP π== i

)(1}|0{ xxYP π−== .

Za one parove ),( ii yx gde je 1=iy doprinos funkciji verodostojnosti je )( ixπ , a

za one parove ),( ii yx gde je 0=iy doprinos funkciji verodostojnosti je )(1 ixπ− , gde

)( ixπ označava vrednost funkcije )(xπ za konkretno ix . Dakle, za par ),( ii yx doprinos

funkciji verodostojnosti je dat sledećim izrazom:

(2)

S obzirom da radimo pod pretpostavkom da su registrovane vrednosti nezavisne, funkcija

verodostojnosti je dobijena kao proizvod izraza u (2), tj.

Radi jednostavnosti koristićemo logaritam ove funkcije, tj. logaritam verodostojnosti:

( ){ }1

( ) ln ( ) ln ( ) 1 ln 1 ( )n

i ii ii

L l y yx xπ π=

= = + − −∑β β (3)

Koristeći informacije koje imamo o izgledu logističkog regresionog modela

x

x

ie

ex

10

10

1)(

ββ

ββ

π+

+

+= možemo izračunati

0 1ln1

ii

i

β β xπ

π

+−

= i 0 1expln 1 ln 1 ( )( ) ii β β xπ + +− = − .

ii yi

yi xx −− 1))(1()( ππ

∏=

−−=n

i

yi

yi

ii xxl1

1))(1()()( ππβ

Page 18: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

18

pa logaritam verodostojnosti možemo zapisati na sledeći način:

(4)

Ocene parametara tražimo tako da maksimiziraju funkciju verodostojnosti. Da

bismo našli ),( 10 βββ = koji maksimizira funkciju )(βL diferenciraćemo )(βL u

odnosu na 0β i 1β i dobijene jednačine ćemo izjednačiti sa nulom.

∑ ∑= =

+

+

−=+

−=∂

∂=

n

i

n

iiix

x

i xye

ey

L

1 10

))((]1

[0)5(10

10

πβ ββ

ββ

∑ ∑= =

+

+

−=+

−=∂

∂=

n

i

n

iiiix

x

iii xyxe

exxy

L

1 11

))((]1

[0)6(10

10

πβ ββ

ββ

Ove jednačine su nelinearne po 0β i 1β , pa se rešavaju nekim od iterativnih postupaka.

Vrednost ),( 10 βββ = koja se dobije kao rešenje ovih jednačina se naziva ocena

maksimalne verodostojnosti i označava se sa ),(^

1

^

0

^

βββ = .

Posledica jednakosti (5) je da važi ∑ ∑= =

=n

i

n

iii xy

1 1

)(π odnosno vidimo da je suma

registrovanih vrednosti za y jednaka sumi predviđenih (očekivanih) vrednosti na osnovu

modela.

Dakle, da sumiramo:

Želimo da odredimo očekivanu vrednost )(xπ za zavisnu promenljivu y , za neko

konkretno x . Da bismo to mogli izvesti potrebno je da odredimo vrednosti nepoznatih

parametara β , do kojih dolazimo metodom maksimalne verodostojnosti. Nakon

određivanja β , možemo dobiti i očekivanu vrednost ^

)(xπ zamenom vrednosti β sa ^

β u

logističkom regresionom modelu )(xπ .

Kao primer, posmatramo podatke, sa opisom promenljivih dat u primeru 1. Korišćenjem

logističke regresije, sa neprekidnom nezavisnom promenljivom STAROST, i CHD kao

∑=

++−+=n

i

xi exyL

110 )]1ln()([)( 10 βββββ

Page 19: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

19

zavisnom promenljivom, dobijamo tabelu 2. Ocene maksimalne verodostojnosti za β0 i

β1 su β0= -1.440, β1

= 0.038. Fitovane vrednosti se dobijaju iz jednakosti:

ee

xg

xg

x)(ˆ

)(ˆ

1)(ˆ

+=π , (7)

gde je ocenjeni logit )(ˆ xg dat jednakošću

)(ˆ xg = -5.309+ 0.111× STAROST (8)

Tabela 2. Rezultati fitovanja logističkog regresionog modela za podatke iz Tabele 1

Promenljiva Koeficijent Stand.greška z P>│z│ STAROST 0.111 0.0241 4.61 0.000 Konstanta -5.309 1.1337 -4.68 0.000

Log-verodostojnosti = -53.67656 (9)

Log-verodostojnosti dat u Tabeli 2. je vrednost dobijena korišćenjem jednakosti (4), a

koja je izračunata korišćenjem β0 i β1

.

U Tabeli 2. su prikazane još tri kolone. Jedna sadrži ocene standardnih grešaka ocenjenih

koeficijenata, sledeća prikazuje količnik ocenjenog koeficijenta i odgovarajuće

standardne greške, i poslednja vrednost je p-vrednost.

Page 20: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

20

3. TESTIRANJE ZNAČAJNOSTI KOEFICIJENATA

Nakon ocenjivanja koeficijenata, dalje razmatranje fitovanog modela se uopšteno

odnosi na ocenjivanje značajnosti promenljivih u modelu. Ovo obično uključuje

formulisanje i testiranje statističkih hipoteza za određivanje da li su nezavisne

promenljive u modelu "značajno" povezane sa rezultujućom promenljivom.

Pitanje koje ovde postavljamo je sledeće: Da li nam model koji sadrži

promenljivu, govori više o rezultujućoj promenljivoj nego model koji ne sadrži tu

promenljivu?

Odgovor na ovo pitanje je dobijen upoređivanjem registrovane vrednosti

rezultujuće promenljive sa predviđenom vrednosti pomoću svakog od dva modela; prvi

sa, i drugi bez te promenljive. Ako su predviđene vrednosti na osnovu modela koji sadrži

tu promenljivu bolje, ili tačnije u nekom smislu, nego vrednosti koje su predviđene na

osnovu modela koji ne sadrža tu promenljivu, tada je promenljiva u modelu "značajna".

postavljeno u relativnom smislu.

U linearnoj regresiji, ocenjivanje značajnosti koeficijenta nagiba je izvršeno

korišćenjem analize varijanse. Totalna sumu kvadrata odstupanja registrovanih vrednosti

od njihove sredine se sastoji iz dva dela dela:

(1) suma kvadrata odstupanja registrovanih vrednosti oko regresione prave, tzv.

rezidualna suma kvadrata (SSE )

(2) suma kvadrata odstupanja predviđenih vrednosti na osnovu regresionog modela

od sredine zavisne promenljive, tzv. regresiona suma kvadrata (SSR).

Ako yi označava registrovanu vrednost, i yiˆ označava predviđenu vrednost na osnovu

modela za i-ti subjekt, tada se za rešavanje problema koristi sledeća statistika:

2

1

ˆ( )n

i ii

SSE y y=

= −∑ (10)

Ukoliko model ne sadrži nezavisnu promenljivu, jedini parametar je β0, i β0 = y , sredina

rezultujuće promenljive. U tom slučaju, yiˆ = y , i SSE je jednako totalnoj varijansi. Kada

uključimo nezavisnu promenljivu u model, smanjenje SSE se javlja zbog činjenice da

koeficijent nagiba za nezavisnu promenljivu nije jednak nuli. Promena vrednosti SSE je

određena regresionim izvorom varijabilnosti, koji je označen sa SSR.

Page 21: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

21

2 2

1 1

ˆ( ) ( )n n

i i iii i

SSR y y yy= =

= − − −∑ ∑ .

Velike vrednosti SSR sugerišu da je nezavisna promenljiva značajna, dok male vrednosti

sugerišu da nezavisna promenljiva nije korisna u predviđanju ishoda.

3.1 TEST KOLIČNIKA VERODOSTOJNOSTI

U logističkoj regresiji, poređenje registrovane i predviđene vrednosti dobijene iz

modela koji sadrži nezavisnu promenljivu i modela koji je ne sadrži, je bazirano na

logaritmu funkcije verodostojnosti, kao što je definisano u jednakosti (4). Pri tome se

smatra da je registrovana vrednost zavisne promenljive ona predviđena vrednost koja se

dobija na osnovu zasićenog modela. Zasićen model je onaj koji sadrži toliko mnogo

parametara koliko ima podataka. Za poređenje registrovanih sa predviđenim vrednostima

na osnovu modela koristimo funkcije verodostojnosti.

( )( )verodostojnost fitovanog modela

2 lnverodostojnost zasićenog modela

D

= −

(11)

Izraz unutar uglastih zagrada u izrazu (11) je količnik verodostojnosti. Korišćenje -2ln

je neophodno zbog dobijanja veličine čija je raspodela poznata i može se koristiti za

testiranje hipoteza. Ovaj test je poznat pod nazivom test količnika verodostojnosti.

Koristeći jednakost (4), jednakost (11) postaje:

1

1ˆ ˆ2 ln (1 ) ln

1

ni i

i ii i i

D y yy yπ π

=

−= − + −

−∑ (12)

gde je π i = π (xi).

Statistika D, u jednakosti (12) se naziva odstupanje, a poznata je i kao

logaritam test statistika količnika verodostojnosti.

U cilju procenjivanja značajnosti nezavisne promenljive, upoređujemo vrednost D

za model koji sadrži nezavisnu promenljivu i model koji je ne sadrži. Promena u D koja

nastaje zbog uključivanja nezavisne promenljive u model je data sa:

Page 22: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

22

G = D (model bez nezavisne promenljive) – D (model sa nezavisnom promenljivom)

Kako obe vrednosti D imaju isti imenilac (verodostojnost zasićenog modela), G se

može se izraziti kao:

( )

( )verodostojnost modela bez nezavisne promenljive

2 lnverodostojnost modela sa nezavisnom promenljivom

G

= −

Za specijalan slučaj jedne nezavisne promenljive, lako se pokazuje da kada

promenljiva nije u modelu, ocena maksimalne verodostojnosti za β0 je ln(n1/n0), gde je

n1 = Σyi, i n0 = Σ(1– yi), i predviđena vrednost je konstantna, n1/n.

U tom slučaju, vrednost G je:

01

01

(1 )

1

2ln

ˆ(1 )ˆii

nn

nyy

iii

nnn n

G

ππ−

=

= −

−∏

ili

1 1 0 01

2 ln( ) (1 )( ) ln( ) ln( ) ln( )ˆ ˆ1n

i iiii

G y n ny n n n nπ π=

= + − − + −−∑

Ukoliko je tačna hipoteza da je β1 jednako nuli, statistika G ima hi-kvadrat raspodelu sa

jednim stepenom slobode.

Testiranje hipoteza o vektoru parametara β može se vršiti i korišćenjem dva

statistički ekvivalentna testa : Wald testa ( 1

1

ˆ

ˆ( )W

SE

β

β= ) i Score testa.

Page 23: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

23

Wald-ov test je u univarijantnom slučaju dobijen upoređivanjem ocene

maksimalne verodostojnosti za parametar nagiba, β1, sa ocenom njene standardne greške.

Rezultujući količnik, pod hipotezom da je β1 = 0 ima standardnu normalnu raspodelu.

Wald test za logistički regresioni model je dobijen kao:

1

1

ˆ

ˆ( )W

SE

β

β=

i dvostrana p-vrednost, je P(|z|>W), gde z označava slučajnu promenljivu koja ima

standardnu normalnu raspodelu.

Na primer, Wald-ov test za logistički regresioni model u Tabeli 1 je

W =024.0

111.0=4.61,

i dvostrana p-vrednost, prikazana u Tabeli 2, je P(|z|>4.61), gde je z slučajna promenljiva

koja ima standardnu normalnu raspodelu. Međutim, Wald test često ima nedostatak da se

ne odbacuje nulta hipoteza kada su koeficijenti značajni

Page 24: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

24

4. INTERPRETACIJA LOGISTIČKOG REGRESIONOG

MODELA

Pretpostavimo sada da je logistički regresioni model prilagođen podacima, i da su

promenljive u modelu značajne, bilo u kliničkom ili statističkom smislu. Pod

interpretacijom bilo kog fitovanog modela podrazumeva se da izvedemo praktične

zaključke iz ocenjenih koeficijenata u modelu. Pitanje koje se postavlja je sledeće: Šta

nam ocenjeni koeficijenti u modelu govore o pitanjima zbog kojih je započeto

istraživanje? Ocenjeni koeficijenti za nezavisne promenljive predstavljaju nagib (stopu

promene) funkcije zavisne promenljive po jedinici promene za nezavisnu promenljivu.

Dakle, interpretacija modela uključuje dva problema: određivanje funkcionalne veze

između zavisne promenljive i nezavisne promenljive i prikladno definisanje jedinice

promene za nezavisnu promenljivu.

Prvi korak je određivanje koja će to funkcija zavisne promenljive dati linearnu

funkciju po nezavisnim promenljivim. U slučaju linearnog regresionog modela, to je

funkcija identiteta jer je zavisna promenljiva po definiciji, linearna po parametrima.

U logističkom regesionom modelu link funkcija (funkcija veze) je zapravo logit

transformacija:

g(x) = ln[π(x)/(1–π(x)] = β0 + β1x.

Podsetimo se da je za linearni regresioni model koeficijent nagiba, β1, jednak

razlici između vrednosti zavisne promenljive za x +1 i vrednosti zavisne promenljive za

x, za bilo koju vrednost x. Na primer, ako je y(x) = β0 + β1x, sledi da je

β1 = y(x +1) – y(x).

U tom slučaju interpretacija koeficijenta je relativno jasna, i izražava rezultujuću

promenu u mernoj skali zavisne promenljive za jedinicu promene u nezavisnoj

promenljivoj.

U logističkom regresionom modelu, koeficijent nagiba predstavlja promenu u

logitu po jedinici nezavisne promenljive, to jest važi:

β1 = g(x +1) – g(x).

Page 25: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

25

4.1 DIHOTOMNA NEZAVISNA PROMENLJIVA

Slučaj kada je nezavisna promenljiva u logističkom regresionom modelu

dihotomna predstavlja osnovu za druge slučajeve. Neka je nezavisna promenljiva x

kodirana sa nula ili jedan. Razlika u logitu za subjekte sa x = 1 i x = 0 je

g(1) – g(0) = [β0 + β1] – [ β0] = β1.

Da bi mogli interpretirati ovaj rezultat potrebno je da uvedemo i razmatramo meru

povezanosti koja se naziva odnos šansi (odds ratio)10.

Da bismo mogli interpretirati dobijeni rezultat uvešćemo pojam odnos šansi (odds

ratio), koji daje meru povezanosti nezavisne promenljive sa ishodom od interesa.

Šansa je odnos verovatnoća da se događaj desi prema verovatnoći da se događaj ne desi.

U našem slučaju nezavisna promenljiva je kodirana sa 0 i 1, pa ćemo posebno računati

šanse za oba slučaja.

Šansa da je zavisna promenljiva uzela vrednost 1, kada nezavisna promenljiva uzme

vrednost 1 je Odds = )1(1

)1(

)1|0(

)1|1(

π

π

−=

==

==

XYP

XYP .

Kada nezavisna promenljiva uzme vrednost 0, šansa je da je zavisna promenljiva uzela

vrednost 1 je Odds = )0(1

)0(

)0|0(

)0|1(

π

π

−=

==

==

XYP

XYP.

Odnos šansi, u oznaci OR, je definisan kao odnos ove dve šanse, tj.

)0(1

)0()1(1

)1(

π

π

π

π

−=OR

Moguće vrednosti verovatnoće u logističkom modelu se mogu predstaviti tablicom 22x

na sledeći način:

Page 26: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

26

Tabela 3.

Rezultujuća promenljiva

(Y)

Nezavisna promenljiva (X)

x = 1 x = 0

y = 1 0 1

0 1

(1)1

e

e

β β

β βπ

+

+=

+

0

0(0)

1e

e

β

βπ =

+

y = 0 0 1

11 (1)

1 eβ βπ

+− =

+

0

11 (0)

1 eβπ− =

+

Total 1 1

Ova tabela opravdava to što se odnos šansi OR još naziva i unakrsni odnos šansi,

jer vidimo da se OR dobija kao odnos unakrsnog proizvoda elemenata na glavnoj

dijagonali date tabele i elemenata na sporednoj dijagonali.

Zamenom izraza iz tabele u OR dobijamo:

0 1

0 1 0 1

0

0 0

0 11

0

11 1

11 1

ee eORe

e e

ee

e

β β

β β β β

β

β β

β ββ

β

+

+ +

+

= =

+ +=

+ +

Dakle, za logističku regresiju sa dihotomnom nezavisnom promenljivom koja je kodirana

sa 1 i 0 veza između odnosa šansi i regresionog koeficijenta je:

1

OR eβ

= .

Ocenjen odnos šansi dobijamo kada 1β zamenimo sa ^

1β odnosno

^

1

^βeOR =

Ova jednostavna veza između koeficijenta i odnosa šansi je osnovni razlog zašto se

logistička regresija pokazala kao moćan analitički alat.

Odnos šansi je mera povezanosti koja ima široku primenu, naročito u

epidemiologiji, gde aproksimira koliko je više verovatno (ili neverovatno) da je ishod

prisutan među onima sa x = 1 nego među onima kod kojih je x = 0.

Page 27: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

27

Na primer, ako Y označava prisustvo ili odsustvo kancera pluća, a X označava da li je

osoba pušač ili ne i recimo da je dobijeno da je 2^

=OR . To bi značilo da se kancer pluća

dvostruko verovatnije javlja među pušačima nego među nepušačima u posmatranoj

populaciji.

Kao drugi primer, pretpostavimo da Y označava prisustvo ili odsustvo srčanog

oboljenja, a da X označava da li je osoba fizički aktivna ili ne i da je dobijeno da je

5.0^

=OR , to znači da je upola manje verovatno da se srčano oboljenje javi kod fizički

aktivne, nego kod fizički neaktive osobe u posmatranoj populaciji.

Dakle, iz prethodna dva primera vidimo da odnos šansi OR može imati vrednosti

veće i vrednosti manje od jedan, u zavisnosti šta se postavi kao referentan ishod. U

prvom primeru referentan ishod je pojava kancera kod pušača, a u drugom pojava

srčanog oboljenja kod fizički aktivnih osoba.

Generalno je svejedno kako se posmatra, jer uvek, na osnovu dobijenog odnosa za jedan

ishod , možemo dobiti odnos za drugi ishod uzimanjem recipročne vrednosti.

Tako da, za prvi primer, možemo reći da je upola manje verovatno da nepušač dobije

kancer pluća ili za drugi primer da je dva puta verovatnije da će fizički neaktivna osoba

oboleti od srčanog oboljenja.

Uvešćemo još jedan pojam, a to je relativni rizik, u oznaci RR. Relativni rizik

predstavlja odnos verovatnoća uspeha u okviru dve grupe.

U našem slučaju )0(

)1(

)0|1(

)1|1(

π

π=

==

===

XYP

XYPRR .

Izraz za odnos šansi se može zapisati na sledeći način:

)1(1

)0(1

π

π

−= RROR

U mnogim primerima odnos šansi aproksimira relativni rizik. Iz prethodne jednakosti se

jasno vidi da će se to desiti kada 1)1(1

)0(1→

π

π, odnosno kada su verovatnoće neuspeha u

obe gurpe približno jednake. To se dešava kada je verovatnoća )(xπ dovoljno mala bilo

Page 28: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

28

da je 1=x ili 0=x . U praksi se srećemo sa ovom situacijom kod ispitivanja relativno

retkih bolesti, koje kao takve imaju malu verovatnoću pojave.

Sledeći primer pokazuje šta je to zapravo odnos šansi, relativni rizik i razliku između ova

dva pojma.

Dati su podaci u tabeli, koji se odnose na broj preživelih i poginulih putnika na

Titanku, gde je bilo ukupno 1313 putnika, od toga 462 žene i 851 muškarac.

Tabela 4.

Iz same tabele se vidi da je verovatnije da muškarac umre nego žena, pa ćemo smrt žene

uzeti kao referentan ishod, jer ćemo na taj način dobiti vrednost odnosa šansi veću od

jedan. Dakle, odnos šansi će porediti odnose šansi za smrt u okviru svake grupe, tj. među

muškarcima i ženama.

Šanse za smrt kod žena su

5.0308

154

462

308462

154

===ženeOdds .

Šanse za smrt kod muškaraca su

993.4142

709

851

142851

709

===muškarciOdds .

Dakle, odnos šansi je 986.95.0

993.4===

žene

muškarci

Odds

OddsOR , što znači da su skoro deset puta

veće šanse za smrt muškarca u odnosu na smrt žene. Relativni rizik poredi verovatnoće za smrt u okviru svake grupe, tj.

ženakodsmrtiaverovatnoć

muškaracakodsmrtiaverovatnoćRR =

žene muškarci preživeli 308 142 450 poginuli 154 709 863 ukupno 462 851 1313

Page 29: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

29

Verovatnoća smrti kod muškaraca je 8333.0851

709= , dok je verovatnoća smrt kod žena

3333.0462

154= . Zamenom ovih vrednosti dobijamo da je relativni rizik

5.23333.0

8333.0==RR , odnosno postoji 2.5 puta veća verovatnoća za smrt muškarca nego za

smrt žene.

3.2 NEPREKIDNA NEZAVISNA PROMENLJIVA

Sada ćemo posmatrati logistički regresioni model koji sadrži neprekidnu nezavisnu

promenljivu. U ovom slučaju promena od jedne jedinice nezavisne promenljive najčešće

nije interesantna. Na primer, rast sistolnog krvnog pritiska za 1 mmHg može biti suviše

mali da bismo ga smatrali važnim dok bi recimo rast od 10 jedinica predstavljao

značajniji podatak. Sa druge strane, ako se vrednosti koje nezavisna promenljiva može

uzeti kreću u inervalu od 0 do 1, tada bi promena od jedne jednice bila suviše velika, dok

bi promena od 0.01 jedinice bila realnija.

Dakle, da bismo obezbedili pravilnu interpretaciju modela smatraćemo da se desila

promena od c jedinica. Tada je promena u logitu sledeća:

cxcxxgcxg 11010 )()()( βββββ =−−++=−+

Sada je odnos šansi dat izrazom cecOR 1)( β= . Ocenu za odnos šansi možemo dobti

zamenom 1β sa njegovom ocenom dobijenom metodom maksimalne verodostojnosti ^

i tada je ocenjena vrednos odnosa šansi ^

1

^

)( cecOR β= . c može uzeti bilo koju vrednost,

pri čemu se mora voditi računa o tome da se na jasan način ukaže kako se menja rizik da

je ishod prisutan sa promenom nezavisne promenljive.

Na primer, neka zavisna promenljiva predstavlja prisustvo ili odsustvo srčanog oboljenja,

a nezavisna promenljiva predstavlja starost i recimo da je ocenjen logit

starostxg ⋅+−= 038.044.1)(^

.

Page 30: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

30

Tada ocenjen odnos šansi ima sledeći oblik cecOR 038.0^

)( = . Ako bismo hteli da vidimo kako povećanje starosti od 10 godina utiče na pojavu srčane

bolesti u prethodnom izrazu c ćemo zameniti sa 10 i dobiti 46.1)10( 10038.0^

== ⋅eOR .

Dakle, sa svakim povećanjem starosti od 10 godina rizik za pojavu srčanog oboljenja se

povećava 1.46 puta.

Osnovna razlika za ocenu odnosa šansi kod modela sa dihotomnom i modela sa

neprekidnom nezavisnom promenljivom leži upravo u načinu definisanja promene.

4. PROCENA SLAGANJA MODELA SA PODACIMA

4.1 UVOD

Počinjemo razmatranje metoda za procenjivanje slaganja ocenjenog logističkog

regresionog modela sa podacima, pretpostavkom da smo zadovoljni našim pokušajima na

nivou građenja modela. Odnosno, podrazumevamo da model sadrži one promenljive koje

treba da su u modelu, tj. koje su značajne i da su promenljive unete u korektnom

funkcionalnom obliku. Sada nas interesuje koliko efikasno naš model opisuje rezultujuću

(ishodnu) promenljivu (tzv. goodness-of-fit).

Neka su registrovane uzoračke vrednosti rezultujuće promenljive prikazane u

vektorskom obliku sa y, gde je y' = (y1, y2, . . . ,yn). Označimo vrednosti koje su

predviđene modelom, ili fitovane vrednosti, sa y , gde je y ' = ( y1 , y2 , ..., ynˆ ).

Možemo zaključiti da je model prilagođen podacima ako su:

(1) mere rastojanja između y i y male.

(2) doprinos svakog para (yi, yiˆ ) , i = 1, 2, 3, . . . , n ovim merama je nesistematski,

i mali u odnosu na grešku modela.

Dakle, kompletno procenjivanje fitovanog modela obuhvata kako izračunavanje mera

rastojanja između y i y , tako i ispitivanje pojedinačnih komponenti tih mera.

Page 31: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

31

4.2 OSNOVNE MERE ZA GOODNESS OF-FIT

Osnovne mere za goodness-of-fit predstavljaju opšti pokazatelj koliko dobro se

model slaže sa podacima. Ove statistike ne moraju da daju informaciju o pojedinim

komponentama modela. Mala vrednost neke od tih statistika ne uzima u obzir mogućnost

nekih bitnih, tj. interesantnih odstupanja od vrednosti dobijene na osnovu fitovanog

modela za nekoliko subjekata. Sa druge strane, velika vrednost neke od tih statistika

jasno ukazuje na stvarne probleme modela.

Pre razmatranja specifične goodness-of-fit statistike, moramo prvo razmotriti

efekat koji fitovan model ima na stepene slobode koji su dostupni za procenu učinka

modela. Koristićemo izraz covariate pattern za opisivanje odabranog skupa vrednosti za

kovarijate u modelu. Covariate patterns su opservacije sa istim vrednostima za sve

nezavisne promenljive. Na primer, ako imamo dve nezavisne promenljive 1X i 2X koje

označavaju pol i rasu redom, pri tome prva promenljiva može uzeti dve vrednosti muški i

ženski, a druga promenljiva bela i crna, tada imamo četiri covariate patterns i to

(muški,bela), (muški,crna), (ženski,bela), (ženski,crna).

Ukoliko bismo imali tri nezavisne promenljive 21, XX i 3X koje označavaju pol,

rasu, visinu redom i ako bismo posmatrali n subjekata, tada bismo mogli imati najviše n

covariate patterns jer je treća promenljiva neprekidna.

Na primer, ako bismo imali 10 ovakvih subjekata:

(ženski,bela,168),(ženski,bela,169),(ženski,bela,175),(ženski,crna,165), (ženski,crna,166),

(muški,crna,178),(muški,crna,180), (muški,crna,190), (muški,bela,182), (muški,bela,192).

Tada vidimo da svi oni imaju različite vrednosti nezavisnih promenljivih, odnosno

imamo 10 covariate patterns.

A ukoliko posmatramo 10 ovakvih subjekata:

(ženski,bela,168),(ženski,bela,168),(ženski,bela,175),(ženski,crna,165), (ženski,crna,165),

(muški,crna,178),(muški,crna,178), (muški,crna,190), (muški,bela,182), (muški,bela,192).

Tada imamo 7 covariate patterns.

Tokom razvijanja modela nije neophodno baviti se brojem covariate patterns. Stepeni

slobode za testove su bazirani na razlici u broju parametara za modele koji se upoređuju,

Page 32: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

32

a ne na broju covariate pattern. Međutim, kada je procenjeno koliko se model slaže sa

podacima, tada sporno pitanje može biti broj covariate pattern.

Goodness-of-fit se postiže preko grupisanja fitovanih vrednosti određenih pomoću

kovarijati u modelu, a ne ukupnog skupa kovarijati. Na primer, pretpostavimo da naš

fitovan model sadrži p nezavisnih promenljivih, x' = (x1, x2, x3, ..., xp), i neka J označava

broj različitih registrovanih vrednosti x. Ako neki subjekti imaju istu vrednost za x, tada

je J < n.

Označimo broj subjekata za koje je x = xj , sa mj , za j = 1, 2, 3, . . . J. Sledi da je

Σmj = n. Neka je sa yj označen broj pozitivnih odgovora, y = 1, među mj subjekata za

koje važi x = xj.

Da bismo bolje objasnili šta koja oznaka predstavlja vratićemo se na primer u kojem smo

posmatrali sledeće subjekte:

(ženski,bela,168),(ženski,bela,168),(ženski,bela,175),(ženski,crna,165), (ženski,crna,165),

(muški,crna,178),(muški,crna,178), (muški,crna,190), (muški,bela,182), (muški,bela,192).

U ovom primeru imamo deset subjekata, dakle n =10. Od tih deset, njih sedam ima

različite vrednosti tj. J = 7.

Vidimo da imamo:

• dve belkinje visine 168 i one čine jednu grupu tj. 21 =m

• jednu belkinju visine 175, ona čini drugu grupu tj. 12 =m

• dve crnkinje visine 165, one čine treću grupu tj. 23 =m

• dva crnca visine 178, oni čine četvrtu grupu tj. 24 =m

• po jednog crnca visine 190, belca visine 182 i belca visine 192 koji čine, redom,

petu, šestu i sedmu grupu tj. 15 =m 16 =m 17 =m

Raspodela za statistiku goodnes-of-fit se dobija, ako se stavi da je n je dovoljno veliko.

Ako se broj covariate patterns takođe povećava sa n, tada svaka vrednost mj teži da bude

mala. Za distribucione rezultate dobijene pod pretpostavkom da samo n postaje veliko

kažemo da su n-asimptotski. Primer n-asimptotskog ponašanja je prethodni primer, jer

Page 33: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

33

ukoliko posmatramo veliki broj subjekata i njihove visine, skoro je sigurno da ćemo

imati veliki broj različitih vrednosti, s obzirom da je visina neprekidna promenljiva.

Ako fiksiramo broj grupa i povećavamo obim uzorka onda će se povećavati broj

elemenata u svakoj grupi tj. matematički rečeno ako fiksiramo J < n i pustimo n da je

dovoljno veliko, tada svaka vrednost mj takođe teži da postane velika. Za raspodele gde

svako mj postaje veliko, kažemo da su m - asimptotske.

Pretpostavimo da je J ≈ n, kao što očekujemo kad god postoji bar jedna neprekidna

kovarijata u modelu. Ovo je slučaj koji se najčešće javlja u praksi, a takođe i predstavlja

najveći izazov u razvijanju raspodela goodness-of-fit statistike.

4.3 PIRSONOVA HI-KVADRAT STATISTIKA I ODSTUPANJE

U logističkoj regresiji postoji nekoliko mogućih načina za procenu razlike između

observirane i fitovane vrednosti. Za isticanje činjenice da su fitovane vrednosti u

logističkoj regresiji izračunate za svaki covariate pattern i da zavise od ocenjene

verovatnoće za taj covariate pattern, označavamo procenjenu, fitovanu vrednost za j-ti

covariate pattern sa y jˆ , i važi da je:

ˆ ( )

ˆ ( )ˆ ˆ

1

j

j

g x

j j j j g x

ey m me

π= =+

,

gde je )(ˆ xg j ocenjen logit.

Počinjemo razmatranjem dve mere rastojanja između registrovane i predviđene

vrednosti na osnovu modela, a to su: Pirsonov rezidual i rezidual odstupanja. Za određen

covariate pattern, Pirsonov rezidual je definisan na sledeći način:

( )

( )

j

j

ˆ( , )ˆ

1ˆ ˆm

jj

j

j j j

y mr y

ππ

π π

−=

− .

Statistika koja je bazirana na ovim rezidualima je Pirsonova hi-kvadrat statistika:

Χ2 = ( )∑

=

J

jjj

yr1

2ˆ,π .

Page 34: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

34

Rezidual odstupanja je definisan kao:

( )( )

1/ 2

( , ) ( ) 2 ln lnˆ1ˆ ˆ

jj jj jj jj j j

j j j j

y ymd sign y my y ym

m mπ

π π

− = − + − −

Statistika koja je bazirana na rezidualima odstupanja je odstupanje (Deviance).

D = ( )∑=

J

jjj

yd1

2ˆ,π .

Pod pretpostavkom da je fitovani model korektan za sve aspekte, statistike X2 i D imaju

hi-kvadrat raspodelu sa J – (p + 1) stepeni slobode. Za odstupanje ovo sledi iz činjenice

da je D test statistika količnika verodostojnosti zasićenog modela sa J parametara u

odnosu na fitovani model sa p + 1 parametara. Slična teorija daje nultu raspodelu za X2.

Problem nastaje kada je J ≈ n, jer je raspodela n-asimptotska, pa se broj parametara

povećava u istom odnosu kao veličina uzorka. Dakle, p-vrednosti, izračunate za ove dve

statistike kada je J ≈ n, a korišćenjem χ2(J – p – 1) raspodele su nekorektne.

Jedan način da se izbegnu navedene smetnje sa raspodelama za X2 i D, kada je J ≈

n je grupisanje podataka na takav način da se koristi m-asimptotska raspodela. Da bi se

razumelo obrazloženje za različite postupke grupisanja, korisno je smatrati X2

Pirsonovom i D kao logaritam verodostojnosti hi-kvadrat statistike koja se dobija iz

tabele 2 × J. Redovi tabele odgovaraju vrednostima rezultujuće promenljive, y = 1, 0, a J

kolona odgovara J mogućim vrednostima covariate patterns. Ocena očekivanih vrednosti

pod pretpostavkom da je logistički model u stvari korektan model za ćelije koje

odgovaraju y = 1 redu i j-toj koloni je mj . Sledi da je ocena očekivanih vrednosti za ćeliju

koja odgovara y = 0 i J-toj koloni mj (1 – π j ).

Kada su hi-kvadrat testovi izračunati iz tabele kontigencije, p-vrednosti su

korektne pod nultom hipotezom da su ocenjene vrednosti suviše "velike" u svakoj ćeliji.

Mada ovo previše pojednostavljuje situaciju, to je u suštini korektno. U gore opisanoj

tabeli 2 × J, očekivane vrednosti su uvek prilično male jer se broj kolona povećava kako

se n povećava. Da bi se izbegao ovaj problem, možemo smanjiti kolone u fiksiran broj

grupa, g, i tada računati registrovane i očekivane frekvencije. Fiksiranjem broja kolona,

ocenjene očekivane vrednosti postaju veće, sa povećanjem n.

Page 35: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

35

Često se sugeriše da je X2 bolje nego D zato što na D prekomerno utiču vrlo

male frekvencije. Ako su očekivane frekvencije suviše male (to jest manje od 1), obe

aproksimacije su verovatno vrlo slabe. Naročito, ako svaka observacija ima različit

covariate pattern pa je yi nula, ili jedan, ni D, ni X 2 ne daju upotrebljivu meru za fit. Ovo

se može desiti kada su nezavisne promenljive neprekidne. U takvim situacijama najčešće

se koristi Hosmer- Lemeshow pristup.

4.4 TABELE KLASIFIKACIJE

Jedan način za sažimanje rezultata fitovanog logističkog regresionog modela je pomoću

tabele klasifikacije, koja je rezulat ukrštanja rezultujuće promenljive sa dihotomnom

promenljivom čije su vrednosti izvedene iz ocenjenih logističkih verovatnoća.

Kreiramo tabelu klasifikacije 2×2 predviđenih vrednosti iz našeg modela za ishodnu

promenljivu nasuprot tačnoj vrednosti ishodne promenljive. Predviđanje zavisi od neke

cut-off verovatnoće c. Pri tome se uzima da je ˆ 1y = ukoliko je ci >^

π i ˆ 0y = ukoliko je

ci ≤^

π . Najčešće korišćena vrednost je 5.0=c .

Senzitivnost testa predstavlja verovatnoću da je predviđena vrednost zavisne promenljive

jedan, ukoliko je, zaista, zavisna promenljiva primila vrednost jedan tj. ˆ( 1 1)P y y= = .

Specifičnost testa je verovatnoća da je predviđena vrednost zavisne promenljive nula,

ako je njena stvarna vrednost nula tj. ˆ( 0 0)P y y= = .

Posmatrajmo sledeću tabelu klasifikacije :

Registrovano Klasifikovano GOJAZNOST = 0 GOJAZNOST = 1 Ukupno GOJAZNOST = 0 530 250 780 GOJAZNOST = 1 385 939 1324 Ukupno 915 1189 2104 Tabela 4.

Iz tabele se vidi da je ukupno posmatrano 2104 osobe, od kojih je 1189 gojazno.

Page 36: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

36

Od 1189 gojaznih dobro smo klasifikovali njih 939, dok je njih 250 pogrešno

klasifikovano. Od 915 negojaznih osoba 530 je dobro klasifikovano, dok je 385 osoba

pogrešno klasifikovano.

Senzitivnost testa je:

%97.781189

939}|{ ==gojaznazaistajeosobagojaznakaoanaklasifikovjeosobaP

Specifičnost testa je :

%92.57915

530}|{ ==negojaznazaistajeosobanegojaznakaoanaklasifikovjeosobaP

Dakle, tačno smo klasifikovali 78.97% osoba koje su gojazne i 57.92% osoba koje su

negojazne pa je ukupna stopa tačne klasifikacije %28.692104

939530=

+.

250 gojaznih osoba je klasifikovano kao negojazno tj. %03.211189

250= , dok je 385 osoba

koje nisu gojazne klasifikovano kao gojazno tj. %08.42915

385= .

Dakle, ukupno je pogrešno klasifikovano %18.302104

250385=

+ posmatranih osoba.

Klasifikacija je osetljiva na relativnu veličinu dve komponentne grupe i uvek favorizuje

klasifikaciju u veće grupe. Važan razlog zašto mere izvedene iz tabele klasifikacije 2 × 2

(kao što su senzitivnost i specifičnost) ne bismo trebali koristiti za procenu koliko je

model dobar, je taj da one veoma zavise od raspodele verovatnoća u uzorku Zbog

razmatranja koje sledi treba da razumemo smisao verovatnoće, a to je da se od n

subjekata koji imaju istu verovatnoću ishoda koji nas interesuje ( π ),očekuje se da će broj

onih koji će imati ishod od interesa biti n π , a broj onih za za koje se očekuje da neće

imati ishod od interesa je n(1– π ). Pretpostavimo da je korišćen cutpoint 0.50 u cilju

klasifikacije i pretpostavimo da je 100 subjekata imalo verovatnoću π = 0.51. Za sve ove

subjekte je predviđeno da će imati rezultat koji se posmatra, ali pretpostavljajući da je

model dobro podešen, 51 subjekat bi trebalo da zaista ima ishod od interesa, dok se za

njih 49 treba očekivati da neće imati ishod od interesa. Dakle, 49 od 100 pacijenata je

pogrešno klasifikovano.

Page 37: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

37

Ne mogu se upoređivati modeli na bazi mera izvedenih iz tabele klasifikacije 2×2, jer ove

mere ne možemo posmatrati nezavisno od raspodela verovatnoća u uzorcima na kojima

su bazirani. Isti model procenjen u dve populacije, korišćenjem mera senzitivnosti ili

specifičnosti bi mogao da da vrlo različite utiske o njegovom učinku.

Ukratko, tabela klasifikacije je najprikladnija kada je klasifikacija postavljena kao cilj

analize, inače bi trebala da bude samo dopuna mnogo strožijim metodama procene

slaganja modela sa podacima.

4.5 ROC KRIVA

Kao što smo rekli na osnovu ocena 0β i 1β dobijaju se ocene ( )ˆ ixπ za

verovatnoće ( )ixπ , 1, 2,...,i n= . Dalje se, na osnovu ovih ocena mogu dobiti i ocene ˆiy

za vrednosti zavisne promenljive iy , 1, 2,...,i n= , na sledeći način.: odabere se nivo

verovatnoće c , koji se naziva cutpoint, pa ako je ( )i cxπ ≥ uzima se da je ˆ 1iy = , a u

suprotnom ˆ 0iy = za svako 1, 2,...,i n= . Na taj način se subjekti u istraživanju klasifikuju

u dve grupe: oni koji prema modelu imaju osobinu ili ne. To znači da odluka da li neki

subjekat ima osobinu koja se posmatra ili ne zavisi od procene verovatnoće dobijene

modelom. Visinu nivoa verovatnoće, cutpoint, bira sam istraživač. Ovakav način

odlučivanja, klasifikovanja subjekata, često se naziva test.

Nameće se pitanje koliko je takav test dobar, koliko se slaže sa stvarnom

situacijom, tj. koliko dobro predviđa postojanje posmatrane osobine kod svakog

pojedinog subjekta, odnosno koliko dobro razdvaja posmatranu populaciju. Kvalitet testa

se meri njegovom senzitivnošću – verovatnoćom tačno predviđenog prisustva osobine, i

negovom specifičnošću - verovatnoćom tačno predviđenog odsustva osobine

Kada se senzitivnost i specifičnost testa izračunaju za čitav niz nivoa

verovatnoće, cutpoints, moguće je konstruisati ROC krivu (Receiver Operating

Characteristic Curve) koja povezuje senzitivnost (verovatnoću tačnog detektovanja

prisustva osobine) i 1– specifičnost, (verovatnoću netačnog detektovanja prisustva

osobine).

ROC kriva je prvi put korišćena tokom II svetskog rata za analizu radio signala

pre nego što je primenjena u teoriji detektovanja signala. Prateći napad na Perl Harbur

Page 38: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

38

1941, armija USA je počela novo istraživanje da poveća tačno predviđanje detektovanog

japanskog aviona korišćenjem njihovih radio signala.

1950. godine ROC kriva je primenjena u psihofizici da proceni ljudsku (i

povremeno životinjsku) detekciju slabih signala. U medicini se koristi u dijagnostičkom

testiranju za evaluaciju efikasnosti novog leka ili dijagnostičke metode nasuprot već

priznatoj, postojećoj.. U radiologiji, ROC analiza je opšta tehnika za evaluaciju novih

radioloških tehnika.

Često, klinički istraživač se sreće sa pitanjem koliko je određeni laboratorijski test

precizan u identifikovanju obolelih slučajeva. Sposobnost testa da razdvoji obolele

slučajve od normalnih slučajeva je procenjena korišćenjem ROC krive. Kada razmatramo

rezultate određenog testa u dve populacije, jednu populaciju sa oboljenjem, i drugu bez

oboljenja, retko ćemo dobiti perfektno razdvajanje između ove dve grupe. Umesto toga

raspodela rezultata testa će se preklapati, kao što je prikazano na slici 4.

Slika 4.

Za svaku moguću tačku cut-off, ili kritičnu vrednost koju smo izabrali da

razdvaja dve populacije, postojaće neki slučajevi sa oboljenjem koji su korektno

klasifikovani kao pozitivni, (TP = true positive fraction), ali će neki slučajevi sa

oboljenjem biti klasifikovani kao negativni, to jest lažno negativni (FN = false negative

fraction). Sa druge strane, neki slučajevi bez oboljenja će biti korektno klasifikovani kao

negativni (TN = True Negative fraction), dok će neki slučajevi bez oboljenja biti

Page 39: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

39

klasifikovani kao pozitivni, tj. lažno pozitivni (FP = False Positive fraction), što je

prikazano u tabeli 6.

Test Oboljenje

Ukupno Prisutno Odsutno

Pozitivan Tačno pozitivni (TP) a Lažno pozitivni (FP) c a+c Negativan Lažno negativni (FN) b Tačno negativni (TN) d b+d Ukupno a+b c+d a+b+c+d Tabela 6.

Prepostavimo da imao model za ocenjivanje verovatnoće da je osoba gojazna i da

nas interesuje predviđanje ishoda za svaku osobu. Pravilo koje je prikazano u Tabeli 5,

predviđa da će će osoba biti gojazna, ako je P(y = 1) ≥ 0.50, odnosno normalno uhranjena

ako je P(y = 0) < 0.50. Postoje neke statistički dobre osobine povezane sa korišćenjem

0.5, ali bi trebali razmatrati i šta se dešava kada koristimo druge vrednosti za cutpoints.

0

10

20

30

40

50

60

70

80

90

100

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

cutpoints

Senzitivnost (%)

Specifičnost (%)

Slika 5. Senzitivnost i specifičnost modela za sve moguće cutpoints

Ako je naš cilj izbor optimalnog cutpoint, a u cilju klasifikacije, mogli bismo

izabrati onaj za koji je maksimalna i senzitivnost i specifičnost. Na slici 5 prikazan je

Page 40: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

40

primer optimalanog izbora, za cutpoint = 0.6, gde se krive senzitivnosti i specifičnosti

seku.

Klasifikovano Registrovano Ukupno GOJAZNOST

= 0 GOJAZNOST =

1 GOJAZNOST = 0 730 539 1269 GOJAZNOST = 1 339 976 1315 Ukupno 1069 1515 2584

Tabela 7. Klasifikaciona tabela korišćenjem cutpoint 0.6

Senzitivnost = 976/1515 = 64.4%; Specifičnost = 730/1069 = 68.3%

Rezultati korišćenja cutpoint 0.6 su prikazani u Tabeli 7, ali ovo se može uraditi za bilo

koji mogući izbor cutpoint. Tabela 8 sumira rezultate biranja svih mogućih cutpoint

između 0.05 i 0.95 sa priraštajem od 0.05.

Cutpoint Senzitivnost (%)

Specifičnost (%)

1 – Specifičnost (%)

0.05 100.0 0.0 100.0 0.10 100.0 0.0 100.0 0.15 99.9 1.0 99.0 0.20 99.8 3.9 96.1 0.25 98.9 9.4 90.6 0.30 97.4 16.6 83.4 0.35 95.5 22.0 78.0 0.40 93.3 30.0 70.0 0.45 88.6 39.9 60.1 0.50 82.7 52.1 47.9 0.55 73.7 61.0 39.0 0.60 64.4 68.3 31.7 0.65 51.9 75.1 24.9 0.70 40.3 81.4 18.6 0.75 27.7 87.4 12.6 0.8 15.3 92.9 7.1

0.85 6.2 97 3.0 0.90 0.5 99.4 0.6 0.95 0 100 0.0

Tabela 8. Senzitivnost, specifičnost, i 1 – specifičnost za tabelu klasifikacije baziranu

na logističkom regresionom modelu korišćenjem cutpoint od 0.05 do 0.95 sa priraštajem

od 0.05

Page 41: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

41

Grafikon sezitivnosti u odnosu na 1 – specifičnost za sve moguće cutpoints je prikazan na

slici 6. Kriva koja je generisana pomoću svih tih tačaka je ROC kriva i površina ispod

ove krive daje meru razdvajanja koja je, u našem slučaju verovatnoća da će osobe koje su

gojazne imati veću ocenjenu verovatnoću (P(y =1)) nego oni koji nisu gojazni.

Slika 6. Primer ROC krive

Površina ispod ROC krive, koja se kreće od nule do jedan, je mera sposobnosti

modela u razdvajanju subjekata koji su iskusili događaj koji se posmatra u odnosu na one

koji nisu. Površina ispod ROC krive, u oznaci AUC (The Area Under the Curve), takođe

označena i kao indeks accuracy (A), ili indeks konkordancije, c (concordance index) je

prihvaćena tradicionalna izvedena mera za ROC krivu.

Kao opšte pravilo, koristimo sledeće:

Ako je AUC = 0.5 nema diskriminacije

Ako je 0.5 ≤ AUC < 0.7 loše razdvajanje

Page 42: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

42

Ako je 0.7 ≤ AUC < 0.8 prihvatljivo razdvajanje

Ako je 0.8 ≤ AUC < 0.9 odlično razdvajanje

Ako je AUC ≥ 0.9 izvanredno razdvajanje.

5. ZAKLJUČAK

Iako je logistička kriva često kritikovana, u smislu da je primenjivana na sisteme

gde nije odgovarajuća, ona se pokazala korisnom u modeliranju širokog opsega pojava.

Značaj logističke raspodele je ostavio traga u mnogim oblastima ljudskih

nastojanja. Verhulst je 1845. godine koristio u ekonomskim i demografskim

istraživanjima

Mnogi postupci u biologiji i drugim poljima koriste S-krivu rasta. Biološka

funkcija rasta po kojoj se obnavlja brojnost populacije riba, ptica, pa čak i količine vode u

podzemnim rezervoarima odgovara tzv. logističkoj funkciji rasta. Logistički model rasta

je prvi primenio u analizi ribarstva Schaffer (1957). U biologiji, logistička funkcija

opisuje populacioni rast u ograničenom okruženju, kao što je bakterija u petrievoj šolji.

Ima primenu u populacionom rastu vrsta koje rastu tako da su blizu zasićenja njegovih

ekosistema. Kingsland je dao kroz istoriju primene logističke krive u populacionoj

ekologiji, njene uspehe i neuspehe.

Logističke funkcije su dobar model u marketingu, gde prikazuju prodaju novih

proizvoda u tokom vremena, mogu da opisuju krive potražnje: opadanje potražnje za

proizvodom kao funkcija povećanja cene.

Wofford i drugi su proučavali kontinuirano nasilje u porodici, u nacionalnom

uzorku mladih oba pola, starosti od 18 do 27 godina . Dvadeset šest prediktora, baziranih

na podacima iz literature o nasilju u domaćinstvu su uklučene u ovu analizu. Kao deo

studije, ispitanici koji su saopštili da su žrtve ili izvršioci nasilja u porodici 1984. su

ponovo intervjuisani 1987.godine da bi se utvrdilo da li nasilje u porodici nastavilo ili je

prekinuto od momenta prvog intervjuisanja 1984. godine.

Logistička kriva je igrala značajnu ulogu i u sociološkim istraživanjima, na primer

u teoriji transformacije George Land, koji je koristio koncept S-krive za procenu

pogodnog zanimanja u različitim fazama tehnološkog razvoja. White, Pearson, Wilson su

Page 43: 1. UVODzlc/fajlovi/LR2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje postoje neograni čeni resursi, odgovaraju ća ishrana, nepostojanje

43

ispitivali ostvarenje proizvodne prakse u datom momentu, korišćenjem logističkih

regresionih modela.

Logistička kriva, ili tzv. S kriva ima izuzetno široku primenu u prognoziranju

broja korisnika telekomunikacionih servisa. Posebno dobri rezultati se postižu u

prognoziranju glavnih telefonskih priključaka (GTP). U prvoj fazi uvođenja servisa

zahtevi rastu sporo, u drugoj fazi kada je servis prihvaćen na tržištu, dolazi do rapidnog

rasta broja zahteva. U trećoj fazi dolazi do zasićenja tržišta (broj zahteva ili uopšte ne

raste ili raste vrlo sporo). Gustina zasićenja se procenjuje posebno i obično se razlikuje za

svaku zemlju ili pojedine njene delove.

LITERETURA [1] D.W. Hosmer, S. Lemeshow, Applied Logistic Regression,John Wiley & Sons, INC., 2000