1. uvodzlc/fajlovi/lr2013.pdf · populacije bakterija ili životinja u idealnim uslovima odnosno...
TRANSCRIPT
1
1. UVOD
1.1 POREKLO LOGISTIČKE FUNKCIJE - POPULACIONI MODEL
Poznati demograf iz Engleske, Tomas Maltus je 1789. godine u svom radu „Put u
katastrofu“, pokušao da skrene pažnju svetske javnosti na problem prenaseljenosti
iznoseći svoju „mračnu teoriju“ da čovečanstvo može opstati samo ako eksponencijalni
rast populacije bude povremeno prekidan epidemijama i katastrofama .
Maltus je rezonovao ovako: zamislimo da prebrojavanjem dođemo do podatka da
u nekom trenutku živo p(0) ljudi. Populacija u sledećem trenutku je srazmerna populaciji
u prethodnom, odnosno p(1) = rp(0), gde je r parametar koji opisuje neto priraštaj
stanovništva i može se dobiti iz postojećih podataka na osnovi toga što će u tom
vremenskom intervalu između dva brojenja, neki ljudi da umru (ratovi, siromaštvo,
bolest), neki će da se rode.
Ako se sa γ označi konstantna brzina rođenja u jedinici vremena po jedinki
(stopa nataliteta), a sa δ konstantna brzina umiranja u jedinici vremena po jedinki (stopa
mortaliteta), tada važi da je konstantan priraštaj λ γ δ= − .
Ako je sa p(t) označen broj jedinki u trenutku t, onda je on posle vremenskog
intervala t∆ jednak
( ) ( ) ( )p t t p t p t tλ+ ∆ = + ∆ Vidimo da je rast srazmeran postojećoj populaciji i vremenu.
Diferencna jednačina vodi ka Cauchy-evom problemu za običnu diferencijalnu jednačinu ( ) ( )p t p tλ′ = , (1)
0(0)p p=
Rešavanjem ove diferencijelne jednačinu dobijamo:
2
( )
( )
ln ( )
( )
( )
t C
t
dp tdt
p t
p t t C
p t e e
p t Ae
λ
λ
λ
λ
=
= +
=
=
Konstantu A određujemo, jer znamo početnu populaciju 0(0)p p= .
Važi da je 00(0)p p Ae A= = = , pa je rešenje jednačine (1)
0( ) tp t p eλ= (2)
Ovaj model se naziva osnovni (Maltusov) populacioni model .
Međutim osnovne pretpostavke Maltusovog populacionog modela su razumne za
populacije bakterija ili životinja u idealnim uslovima odnosno populaciju kod koje
postoje neograničeni resursi, odgovarajuća ishrana, nepostojanje bolesti, nepostojanje
prirodnih neprijatelja i sl.
Uprkos ovome ovaj model je imao ogroman uticaj na demografe i mislioce toga
vremena. Naime, sa povećanjem broja stanovnika povećava se i količina proizvedenih
resursa, hrane i slično, ali ovo povećanje, prema tadašnjim podacima, raste aritmetičkom
progresijom. Broj stanovnika raste brže nego količina resursa. Posle određenog broja
godina, dakle, resursa će biti manje, a stanovnika koji će ih koristiti više, pa će tako
zavladati oskudice. I ovo stanje će se vremenom pogoršavati. Ovo stanje je dobilo i
naziv-demografska (Maltusova) katastrofa. Pa su zato mislioci tog vremena došli do
zaključka da je jedini način da se izbegne izbegne ili odloži katastrofa smanjenjem
priraštaja, što se može postići povećanjem smrtnosti - namerno izazvanim ratovima,
bolestima, oskudicama, ili ograničenim rađanjem.
3
1.2 POPRAVKA MODELA
Maltusov model ima bitan nedostatak: nijedna realna sredina ne može da održava na sebi
neograničeno veliki broj ljudi. Kako Maltusov model ima manu, to jest neograničen rast,
moguće je napraviti model za p(t) koji ne daje apsurdna rešenja, i ograničava rast do neke
maksimalne fiksne vrednosti specifične za sitem koji se posmatra. Dakle, jasno da
Maltusov eksponencijalni populacioni model nije realan, jer ograničeni resursi (hrana,
voda, vazduh) usporavaju rast populacije. Populacija teži ka graničnom zasićenju. Drugi
nedostatak je taj što linearne brzine rađanja i umiranja nisu konstantne kao u
pretpostavci Maltusovog modela već su date sa:
0 1( ) ( )t p tγ γ γ= −
0 1( ) ( )t p tδ δ δ= +
0 0 1 10, , 0γ δ γ δ> > >
i smanjuju brzinu rađanja, a uvećavaju brzinu umiranja
I neka je maksimalni priraštaj označen sa a , gde je
0a γ δ0= −
Sada važi da je prirodni priraštaj
0 0 1 1( ) ( ) ( ) ( ) ( )t p t a bp tλ γ β γ β= − − + = −
gde smo sa b označili 1 1b γ β= +
Jednačina sada ima oblik
2
0
( ) ( ) ( )
( ) ( )
1 ( ) ( )
0, (0)
p t t p t
ap t bp t
ba p t p t
a
a b p p
λ′ =
= −
= −
> > =
(3)
Prirodni sistemi najčešće zbog svojih ograničenja ne mogu prihvatiti neograničenu
populaciju. Stoga je čest sledeći slučaj: populacija P u početku raste eksponencijalno sa
stopom rasta a, ali se taj rast smanjuje kako se populacija približava maksimalnom
4
(nosivom) kapacitetu sistema a
Kb
= . Matematički takvo ponašanje možemo modelirati
logističkom jednačinom:
( )( ) 1
dp t pap t
dt K
= −
0(0)p p=
Mehanizam jednačine je sledeći: kada ja populacija P mala u odnosu na kapacitet K ,
tada je izraz u zagradi približno jednak jedan, i populacija se ponaša prema Maltusovom
populacionom modelu. Kada se populacija približi maksimalnom kapacitetu, tada izraz u
zagradi teži nula što koči rast populacije. Rešimo jednačinu:
( )( ) 1
1
1
1 1
ln ln
ln
1
at C
at
dp t pap t
dt K
dp at Cp
pK
dp at Cp K p
p K p at C
K pat C
p
K pe e
p
KAe
p
− −
−
= −
= +
−
+ = +
−
− − = +
−= − −
−=
− =
∫
∫
Opšte rešenje ove jednačine je logistička funkcija.
Kad uvrstimo i početni uslov, dobijamo:
( ) ,1 at
Kp t
Ae−=
+ (4)
0
0
0
(0) / (1 )p p K A
K pA
p
= = +
−=
Rešenje logističke jednačine možemo prikazati u ekvivalentnom obliku
5
0
0 0
( )( ) at
app t
bp a bp e−=
+ − , ili:
0
0 0
( )( ) at
Kpp t
p K p e−=
+ − (5)
Kriva ( )p t ima S-oblik i naziva se logistička kriva.
1.3 SIGMOID FUNKCIJA
Postoje različiti oblici logističke funkcije a jedan od specijalnih slučajeva je
sigmoid funkcija ili sigmoid kriva koja je još poznata i pod nazivom standardna
logistička funkcija ili osnovna logistička funkcija i data je sa:
1( )
1 tP te−
=+
(6)
Ona se često se sreće u mnogim oblastima tehnike, naročito u veštačkim
neuronskim mrežama kao transfer funkcija.
Standardna sigmoid funkcija se dobija kao rešenje nelinearne diferencijalne
jednačine prvog reda:
(1 )dP
P Pdt
= −
(0) 1/ 2P = .
Ona je strogo rastuća funkcija koja se može prikazati i u sledećem obliku:
1
( )1 ae− ν
ϕ ν =+
gde je a parametar nagiba sigmoidne funkcije. Menjajući vrednost parametra a , dobijaju
se različiti oblici, što je prikazano na slici 1. .
6
Slika 1. Sigmoidna funkcija
Posmatrajmo izraz (6). P-predstavlja verovatnoću da se neki događaj desi, pod
uticajem nekih nezavisnih rizičnih faktora, promenljiva t se definiše kao:
0 1 1 ... k kx xβ β β+ + + , gde se , 1...i i kβ = regresioni koeficijenti koji opisuju veličinu
doprinosa odgovarajućeg rizičnog faktora ix . Kada su regresioni koeficijenti pozitivni
tada nezavisne promenljive ix povećavaju verovatnoći pozitivnog ishoda, a kada su
negativni, onda smanjuju tu verovatnoću.
Primer1.
Ispitujemo verovatnoću da osoba u narednih 10 godina umre od bolesti srca,
posamtrajući rizične faktore: 1x = godine preko 50, 2x -pol(muško-0, žensko-1), 3x -nivo
holesterola preko 5 mmol/l. Neka su nam regresioni koeficijenti dati sa:
0 1 2 35, 2, 1, 1.2β β β β= − = = − = .
Posmatrajmo: Muškarca koji ima 50 godina i 7 mmol/l holesterola u krvi.
Verovatnoća da on umre u nsrednih 10 godina je tada data sa:
0 1 1 2 2 3 3( )
1( )
1 x x xP te +− β +β +β β
=+
( 5 2(50 50) 1 0 1.2(7 5)) 0.071
( )1
P te +− − + − − −
==+ �
Odnosno verovatnoća da ova osoba umre u narednih 10 godina je 7%.
7
1.4 PRIMENA LOGISTIČKE KRIVE
Iako je logistička kriva često kritikovana, u smislu da je primenjivana na sisteme
gde nije odgovarajuća, ona se pokazala korisnom u modeliranju širokog opsega pojava. U
literaturi se može pronaći veliki broj radova koji su pokušali da uspostave transcedentalni
"Zakon logističkog rasta“ u oblasti ljudske populacije, kolonija bakterija, razvoja
železnice itd.
Značaj logističke raspodele je ostavio traga u mnogim oblastima ljudskih
nastojanja. Verhulst je 1845. godine koristio u ekonomskim i demografskim
istraživanjima. Berkson je koristio logističku raspodelu u analiziranju bio-assay i
kvalitativnih odgovora.
Mnogi postupci u biologiji i drugim poljima koriste S-krivu rasta. Biološka
funkcija rasta po kojoj se obnavlja brojnost populacije riba, ptica, pa čak i količine vode u
podzemnim rezervoarima odgovara tzv. logističkoj funkciji rasta. Logistički model rasta
je prvi primenio u analizi ribarstva Schaffer (1957). U biologiji, logistička funkcija
opisuje populacioni rast u ograničenom okruženju, kao što je bakterija u petrievoj šolji.
Ima primenu u populacionom rastu vrsta koje rastu tako da su blizu zasićenja njegovih
ekosistema. Kingsland je dao kroz istoriju primene logističke krive u populacionoj
ekologiji, njene uspehe i neuspehe.
Logističke funkcije su dobar model u marketingu, gde prikazuju prodaju novih
proizvoda u tokom vremena, mogu da opisuju krive potražnje: opadanje potražnje za
proizvodom kao funkcija povećanja cene.
Wofford i drugi su proučavali kontinuirano nasilje u porodici, u nacionalnom
uzorku mladih oba pola, starosti od 18 do 27 godina. Dvadeset šest prediktora, baziranih
na podacima iz literature o nasilju u domaćinstvu su uklučene u ovu analizu. Kao deo
studije, ispitanici koji su saopštili da su žrtve ili izvršioci nasilja u porodici 1984. su
ponovo intervjuisani 1987.godine da bi se utvrdilo da li nasilje u porodici nastavilo ili je
prekinuto od momenta prvog intervjuisanja 1984. godine.
Marchetti i kolege u IIASA kao i mnogi drugi, su prikazali stotine primera,
uglavnom u socio-tehnološkim sistemima. Young je anketirao i uporedio krive rasta
korišćene za tehnološka predviđanja, uključujući logističku funkciju.
8
Logistička kriva je igrala značajnu ulogu i u sociološkim istraživanjima, na primer
u teoriji transformacije George Land, koji je koristio koncept S-krive za procenu
pogodnog zanimanja u različitim fazama tehnološkog razvoja. White, Pearson, Wilson
(1999) su ispitivali ostvarenje proizvodne prakse u datom momentu, korišćenjem
logističkih regresionih modela. Palma, Beja, and Rodrigues (1999) su modelirali „light
sightings“, naročito u savremenoj primeni. Fong, Hu, Heisey (1999) su koristili logističku
regresiju za predikciju „cache worthiness“ objekata na World Wide Web . Sigmoidna
funkcija (standardna logistička funkcija) je difrencijabilna, što je veoma važno za
primenu u neuronskim mrežama.
Logistička kriva, ili tzv. S kriva ima izuzetno široku primenu u prognoziranju
broja korisnika telekomunikacionih servisa. Posebno dobri rezultati se postižu u
prognoziranju glavnih telefonskih priključaka (GTP). U prvoj fazi uvođenja servisa
zahtevi rastu sporo, u drugoj fazi kada je servis prihvaćen na tržištu, dolazi do rapidnog
rasta broja zahteva. U trećoj fazi dolazi do zasićenja tržišta (broj zahteva ili uopšte ne
raste ili raste vrlo sporo). Gustina zasićenja se procenjuje posebno i obično se razlikuje za
svaku zemlju ili pojedine njene delove.
Kako je logistički regresioni model našao primenu u populacionim istraživanjima
u oblasti medicine kod nas, govori istraživanje sprovedeno 2003. godine među odraslim
stanovništvom Vojvodine (stariji od 45 godina). Cilj istraživanja je bio da se utvrde rizici
za masovne nezaarzne bolesti, a logistički regresioni model je primenjen da bi se utvrdila
povezanost hiperglikemije sa potencijalnim faktorima rizika. Kao nezavisne promenljive
su posmatrani pol, mesto stanovanja (urbano/ruralno), starost, obim struka, gojaznost.
9
2. LOGISTIČKI REGRESIONI MODEL
Regresionе metode su sastavni deo svake analize podataka koja se bavi
opisivanjem veze između zavisnih promenljivih i eksplanatornih, nezavisnih,
promenljivih. Cilj analize koja koristi ovaj metod je naći model koji je najbolje
prilagođen (fitovan) podacima, ujedno i najekonomičniji, ali model koji je ima fizičko
značenje, koj opisuje vezu između zavisne (rezultujuće) promenljivih i skupa nezavisnih
eksplanatornih promenljivih. Kada se kaže najekonomičniji model misli se na model koji
će imati, u neku ruku, optimalan broj promenljivih, odnosno model koji će sadržati samo
one nezavisne promenljive koje imaju uticaja na ishod zavisne promenljive. Nezavisne
promenljive se često nazivaju i kovarijate (covatiate).
Najpoznatiji primer modeliranja je linearni regresioni model gde se za zavisnu
promenljivu pretpostavlja da je neprekidna. Međutim, čest je slučaj da je rezultujuća
promenljiva diskretna, sa dve ili više mogućih vrednosti. Ovakva situacija se sreće u
medicini, kada zavisna promenljiva predstavlja prisustvo ili odsustvo neke osobine,
bolesti. Standardna metoda analize u ovakvoj situaciji je logistički regresioni model kako
u medicini, tako i u mnogim drugim oblastima (biologija, ekonomija, marketing,
telekomunikacije, itd).
Ono što se u logističkoj regresiji razlikuje od linearne regresije je to da je zavisna
promenljiva diskretna, obično binarna (Binarni logistički regresioni model), a u ređim
slučajevima može da ima više od dve kategorije. Ova razlika između logističke i linearne
regresije se ogleda kako u izboru parametara, tako i u pretpostavkama U zavisnosti od
merne skale zavisne varijable, govorimo o Nominalnim, odnosno Ordinalnim logističkim
regresionim modelima. Zajednički naziv im je Multinomni, ili Politomni. (Nezavisne
varijable mogu biti kategorijalne, ili kombinacija kategorijalnih i neprekidnih, pri čemu u
logističkoj regresiji ne postoje pretpostavke o raspodeli za ove varijable.
Logistička regresija se koristi za:
- predviđanje zavisne promenljive na osnovu vrednosti nezavisnih promenljivih
- rangiranje nezavisnih promenljivih po važnosti
10
- procenu efekta interakcije.
Zavisna promenljiva može biti da li je pacijent izlečen ili ne; da li je neki
proizvod prošao kontrolu kvaliteta ili ne; da li je životinja na kojoj se vršio neki
eksperiment preživela isti ili ne itd. Kao što vidimo, zavisna promenljiva uzima samo dve
vrednosti, tj. dihotomna je. Upravo zbog toga se kodira sa 0 i 1, gde 0 označava
„neuspeh“ ili odsustvo neke karakteristike, a 1 „uspeh“ odnosno prisustvo neke
karakteristike. Na primer, ukoliko je pacijent izlečen, ishod je „uspeh“, a ako nije ishod je
„neuspeh“; ako proizvod prođe kontrolu kvaliteta ishod je „uspeh“, u suprotnom
„neuspeh“. Ukoliko zavisna promenljiva označava to da li je osoba zdrava ili ne, onda
bismo sa 0 kodirali - osoba nije zdrava, a sa 1 – osoba je zdrava.
Zavisnu promenljivu označavamo sa Y, doke nezavisne označavamo sa X.
Vrednosti nezavisnih promenljivih ćemo označavati sa x.
Primera radi, da li će pacijent biti izlečen ili ne, može zavisiti od medicinskog
tretmana kom je podvrgnut, od pola, godina starosti pacijenta itd.; da li će proizvod proći
kontrolu kvaliteta može zavisiti od temperature, kvaliteta sirovog materijala od kog se
pravio proizvod itd. Često je potrebno izvršiti grupisanje podataka, tako da se u okviru
jedne grupe nalaze svi subjekti koji imaju iste vrednosti nezavisnih promenljivih. Kada su
podaci grupisani, lakše je zabeležiti broj „uspeha“, odnosno broj „neuspeha“, jer ih
beležimo za svaku grupu posebno, dok bismo u slučaju negrupisanih podataka dobijali
dugačke nizove 0 i 1.
Primer 1. Posmatramo starost izraženu u godinama (STAROST), i prisustvo ili
odsustvo koronarnog srčanog oboljenja (CHD) za 100 subjekata izabranih da učestvuju u
istraživanju, gde je starost prikazana i kao grupisana promenljiva (STAR_KAT).
Rezultujuća promenljiva je CHD, koja je kodirana sa 0 i 1, označava odsustvo, a 1
prisustvo srčane bolesti. Želimo da ispitamo u kakvoj su vezi promenljive CHD i Starost,
odnosno da vidimo u kojoj meri starost subjekata utiče na pojavu oboljenja.
Ako bi rezultujuća promenljiva bila neprekidna, a ne binarna, koristili bismo
dijagram rasipanja rezultata u odnosu na nezavisnu promenljivu, za obezbeđivanje utiska
11
o prirodi i snazi veze između ishoda i nezavisne promenljive. Dijagram rasipanja za naše
podatkeje dat na slici 2.
0
0,2
0,4
0,6
0,8
1
1,2
20 30 40 50 60 70 80
Starost (godine)
CH
D
Slika 2.
Na ovom dijagramu sve tačke pripadaju jednoj od dve paralelne prave koje
predstavljaju prisustvo CHD (y = 1), odnosno odsustvo CHD (y = 0). Sa slike se vidi da
postoji tendencija da su pojedinci koji nemaju koronarno srčano oboljenje mlađi od onih
koji imaju oboljenje. Mada ovaj grafikon prikazuje dihotomnu prirodu rezultujuće
promenljive prilično jasno, ipak ne daje jasnu sliku o prirodi veze između CHD i starosti.
Problem sa dijagramom na slici 2 je da je varijabilnost za promenljivu CHD za sve
starosti velika, te je zbog toga teško opisati funkcionalnu vezu između starosti i CHD.
Opšti metod eliminisanja nekih promenljivih, sa ciljem održavanja strukture veze između
rezultata i nezavisne promenljive obuhvata kreiranje intervala za nezavisnu promenljivu i
računanje sredine rezultujuće promenljive unutar svake grupe. Ovaj postupak je
sproveden korišćenjem starosnih kategorija kao grupisane promenljive, STAR_KAT u
tabeli 1, i izračunavanjem sredine rezultujuće promenljive unutar svake grupe, tj.
verovatnoću da osoba iz odgovarajuće grupe oboli.
12
Tabela 1. Tabela frekvencija za starosne grupe u odnosu na CHD
CHD sredina STAR_KAT n odsutan prisutan (proporcija)
20-29 10 9 1 0.10 30-34 15 13 2 0.13 35-39 12 9 3 0.25 40-44 15 10 5 0.33 45-49 13 7 6 0.46 50-54 8 3 5 0.63 55-59 17 4 13 0.76 60-69 10 2 8 0.80
Ukupno 100 57 43 0.43
Analiziranjem ove tabele, jasno je da se sa povećanjem starosti, povećava
proporcija subjekata koji imaju koronarno srčano oboljenje. Podaci u tabeli 1. su
prikazani na slici 3, gde je predstavljen grafikon proporcije osoba sa registrovanim CHD
u odnosu na sredinu svakog intervala za starosne grupe. Sa datog grafika se može uočiti
da se sa povećanjem starosti, povećava i proporcija subjekata koji imaju srčano oboljenje.
Iako ovaj grafikon obezbeđuje značajan uvid u vezu između prisustva koronarnog
srčanog oboljenja i starosti u ovom istraživanju, potrebno je opisati funkcionalnu formu
za ovu vezu. Ovaj grafikon je sličan onome što bismo mogli dobiti ako bi se isti proces
grupisanja i određivanje proseka izvelo u linearnoj regresiji.
13
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
20 25 30 35 40 45 50 55 60 65 70
Starosne grupe
Po
po
rcij
a p
ris
utn
og
CH
D
Slika 3. Proporcija subjekata sa CHD u odnosu na starosne kategorije
Možemo uočiti važne razlike između linearne i logističke regresije. Prva razlika
se tiče prirode veze između rezultujuće (zavisne) i nezavisne promenljive. U bilo kom
regresionom problemu ključna je očekivana vrednost zavisne promenljive, za datu
vrednost nezavisne promenljive, E(Y�x), gde Y označava zavisnu promenljivu, a x
nezavisnu promenljivu. U linearnoj regresiji se ova sredina može izraziti kao linearna
jednakost po x (ili nekim transformacijama x ili Y), tj.
0 1( )E Y x xβ β= + .
Ovaj izraz podrazumeva da E(Y�x) može da uzme bilo koju vrednost sve dok se x kreće
od -∞ do +∞.
Kolona, označena sa "sredina" u tabeli 1 daje ocenu za E(Y�x). Pretpostavimo, da
su ocenjene vrednosti na slici 3 dovoljno blizu pravih vrednosti E(Y�x) za obezbeđivanje
prihvatljive ocene za vezu između CHD i starosti. Sa dihotomnim podacima, za uslovnu
sredinu mora da važi 0 ≤ E(Y�x) ≤ 1. Ovo možemo videti na slici 3. Sem toga, grafikon
pokazuje da se u ovom slučju sredina postepeno priblizava 0 i 1. Promena u E(Y�x) po
14
jedinici promene za x postaje progresivno manja kako uslovna sredina postaje bliža nuli
ili 1. Za ovu krivu se kaže da je S-oblika, i podseća na grafikon funkcije raspodele
slučajne promenljive. Iz tog razloga se mogu koristiti neke dobro poznate funkcije
raspodele za obezbeđivanje modela za E(Y�x) kada je Y dihotomna promenljiva.
Postoje dva osnovna razloga zbog kojih koristimo logističku krivu u analizi
dihotomne promenljive. Prvo, sa matematičke tačke gledišta, to je veoma fleksibilna
funkcija koja se jednostavno koristi, i kao drugo, omogućuje klinički razumljivu
interpretaciju. Da bismo pojednostavili zapis, koristimo veličinu π(x) = E(Y�x) za
prikazivanje uslovne sredine od Y za dato x kada se koristi logistička kriva.
Poseban oblik logističkog regresionog modela koji koristimo je:
0 1
0 1( )
1
x
xex
e
β β
β βπ
+
+=
+ (1)
Za razliku od link funkcije (funkcije veze) u linearnom regresionom modelu, gde je to
funkcija identiteta, u logističkoj regresiji je to logit transformacija, definisana kao odnos
šansi:
g(x) = ln ( )( )
− xx
π
π
1= β0 + β1x .
Transformacija g(x) ima mnogo poželjnih osobina linearnog regresionog modela. Logit,
g(x), je linearan po svojim parametrima, može biti neprekidan, i, može se kretati od -∞ do
+∞, što zavisi od x.
Logite su stasitičari koristili u različite svrhe. Postoji takozvani "logit model" čiji je
najjednostavniji oblik: logit(pi) = a + bxi , gde je xi neka veličina od koje uspeh ili neuspeh u i-tom nizu
Bernulijevih proba može da zavisi, a pi je verovatnoća uspeha u i-tom slučaju. Koncept logita je takođe
centralan u probabilističkom Rasch modelu za merenje, koji ima primenu u psihologiji i obrazovnoj
proceni, među drugim oblastima
Druga važna razlika između linearnih i logističkih regresionih modela tiče se
uslovne raspodele za rezultujuću promenljivu. U linearnom regresionom modelu,
pretpostavljamo da se opservacija rezultujuće promenljive može izraziti sa Y=E(Y�x)+ε,
gde je ε greška i predstavlja jedno odstupanje registrovane vrednosti od uslovne sredine.
Najopštija pretpostavka je da ε ima normalnu raspodelu sa sredinom nula, i nekom
varijansom koja je konstantna za sve nivoe nezavisne promenljive. To znači da će
uslovna raspodela rezultujuće promenljive za dato x biti normalna, sa sredinom E(Y│x) i
15
varijansom koja je konstantna. Međutim, ovo ne važi u slučaju kada je rezultujuća
promenljiva dihotomna. U ovoj situaciji, možemo izraziti vrednost rezultujuće
promenljive za dato x kao:
( )Y xπ ε= + .
Kako je zavisna promenljiva dihotomna i uzima vrednosti 0 i 1, uzećemo da uzima
vrednost 1 sa verovatnoćom π , a vrednost 0 sa verovatnoćom π−1 , tj.
− ππ1
10:Y .
Slučajna promenljiva Y�x će takođe uzimati vrednosti 0 i 1, sa verovatnoćama
)(,)(1 xx ππ− redom, tj.
− )()(1
10:|
xxxY
ππ. Očekivana vrednost od Y za dato x,
je:
)()(1))(1(0)|( xxxxYE πππ =⋅+−⋅=
Sledi da je uslovna raspodela rezultujuće promenljive binomna raspodelu sa
verovatnoćom datom uslovnom sredinom, ( )xπ .
Ovde veličina ε može uzeti jednu od dve moguće vrednosti. Za 1y = , važi da je
1 ( )xε π= − sa verovatnoćom ( )xπ , dok je za 0, ( )y xε π= = − sa verovatnoćom
1 ( )xπ− . Dakle, ε ima raspodelu sa sredinom nula i varijansom jednakom
( )(1 ( ))x xπ π− ,
−
−−
)()(1
)(1)(:
xx
xx
ππ
ππε .
Ukratko, može se videti da u regresionoj analizi kada je rezultujuća promenljiva
dihotomna, važi sledeće:
(1) Uslovna sredina E(Y│x) mora biti u granicama između 0 i 1. Logistički
regresioni model, )(xπ dat u jednakosti (1) zadovoljava ovo ograničenje.
(2) Pomoću binomne, a ne normalne raspodele objašnjava se raspodela grešaka.
(3) Vodeći principi koji se koriste u linearnoj regresiji, takođe važe i za
logističku regresiju
16
2.1 SLAGANJE LOGISTIČKOG REGRESIONOG MODELA SA
PODACIMA
Pretpostavimo da imamo uzorak od n nezavisnih registrovanih vrednosti parova
niyx ii ...2,1,),( = , gde iy označava vrednost rezultujuće dihotomne promenljive koja je
kodirana sa 0 i 1, gde 0 predstavlja odsustvo, a 1 prisustvo neke karakteristike. ix
označava registrovanu vrednost nezavisne promenljive za i -ti subjekat. Dalje,
pretpostavimo da je rezultujuća promenljiva kodirana sa 0, ili 1, koje predstavlja odsustvo
ili prisustvo karakteristike, redom. Fitovanje logističkog regresionog modela u jednakosti
0 1
0 1( )
1
x
xex
e
β β
β βπ
+
+=
+
za skup podataka zahteva da ocenimo vrednosti za nepoznate parametre, β0 i β1. Da
bismo objasnili šta znači pojam „fitovanje modela“, posmatraćemo najednostavniji
logistički regresioni model koji sadrži samo jednu nezavisnu promenljivu, tj.
U linearnoj regresiji, najčešće korišćen metod za ocenjivanje nepoznatih
parametara je metod najmanjih kvadrata. U tom metodu, biramo one vrednosti β0 i β1,
koje minimiziraju sumu kvadrata odstupanja registrovane vrednosti za Y od predviđene
vrednosti dobijene na osnovu modela. Pod uobičajenim pretpostavkama za linearnu
regresiju, metod najmanjih kvadrata daje ocene sa mnoštvom poželjnih statističkih
svojstava. Međutim, kada se metod najmanjih kvadrata primeni na model sa dihotomnim
ishodom, ocene više nemaju te iste osobine.
Opšti metod ocenjivanja koji vodi do funkcije najmanjih kvadrata za
linearni regresioni model (kada greške imaju normalnu raspodelu) je metod maksimalne
verodostojnosti, i on će obezbediti osnovu za naš pristup ocenjivanja pomoću logističkog
regresionog modela. U vrlo opšem smislu, metod maksimalne verodostojnosti daje
vrednosti za nepoznate parametre koji maksimiziraju verovatnoću dobijanja
registrovanog skupa podataka. Da bismo mogli da primenimo ovaj metod, prvo moramo
da konstruišemo funkciju verodostojnosti koja izražava verovatnoću registrovanih
podataka u funkciji nepoznatih parametara. Ocene maksimalne verodostojnosti ovih
parametara su izabrane tako to budu one vrednosti koje maksimiziraju ovu funkciju.
Dakle, rezultujuće ocene su one, koje se najviše slažu, tj. najbliže su registrovanim
17
podacima. Mi ćemo sada opisati kako naći ove vrednosti iz logističkog regresionog
modela.
Fitovanje datog logističkog regresionog modela za neki skup podataka podrazumeva
ocenu vrednosti nepoznatih parametara 0β i 1β .
Vrednosti nepoznatih parametara ćemo oceniti koristeći metodu maksimalne
verodostojnosti. Da bismo, uopšte, mogli koristiti pomenutu metodu, prvo moramo
konstruisati funkciju verodostojnosti.
Ako je zavisna promenljiva
− ππ1
10:Y tada izraz
x
x
ie
ex
10
10
1)(
ββ
ββ
π+
+
+= , za
proizvoljnu vrednost ),( 10 βββ = , daje uslovnu verovatnoću )(}|1{ xxYP π== i
)(1}|0{ xxYP π−== .
Za one parove ),( ii yx gde je 1=iy doprinos funkciji verodostojnosti je )( ixπ , a
za one parove ),( ii yx gde je 0=iy doprinos funkciji verodostojnosti je )(1 ixπ− , gde
)( ixπ označava vrednost funkcije )(xπ za konkretno ix . Dakle, za par ),( ii yx doprinos
funkciji verodostojnosti je dat sledećim izrazom:
(2)
S obzirom da radimo pod pretpostavkom da su registrovane vrednosti nezavisne, funkcija
verodostojnosti je dobijena kao proizvod izraza u (2), tj.
Radi jednostavnosti koristićemo logaritam ove funkcije, tj. logaritam verodostojnosti:
( ){ }1
( ) ln ( ) ln ( ) 1 ln 1 ( )n
i ii ii
L l y yx xπ π=
= = + − −∑β β (3)
Koristeći informacije koje imamo o izgledu logističkog regresionog modela
x
x
ie
ex
10
10
1)(
ββ
ββ
π+
+
+= možemo izračunati
0 1ln1
ii
i
β β xπ
π
+−
= i 0 1expln 1 ln 1 ( )( ) ii β β xπ + +− = − .
ii yi
yi xx −− 1))(1()( ππ
∏=
−−=n
i
yi
yi
ii xxl1
1))(1()()( ππβ
18
pa logaritam verodostojnosti možemo zapisati na sledeći način:
(4)
Ocene parametara tražimo tako da maksimiziraju funkciju verodostojnosti. Da
bismo našli ),( 10 βββ = koji maksimizira funkciju )(βL diferenciraćemo )(βL u
odnosu na 0β i 1β i dobijene jednačine ćemo izjednačiti sa nulom.
∑ ∑= =
+
+
−=+
−=∂
∂=
n
i
n
iiix
x
i xye
ey
L
1 10
))((]1
[0)5(10
10
πβ ββ
ββ
∑ ∑= =
+
+
−=+
−=∂
∂=
n
i
n
iiiix
x
iii xyxe
exxy
L
1 11
))((]1
[0)6(10
10
πβ ββ
ββ
Ove jednačine su nelinearne po 0β i 1β , pa se rešavaju nekim od iterativnih postupaka.
Vrednost ),( 10 βββ = koja se dobije kao rešenje ovih jednačina se naziva ocena
maksimalne verodostojnosti i označava se sa ),(^
1
^
0
^
βββ = .
Posledica jednakosti (5) je da važi ∑ ∑= =
=n
i
n
iii xy
1 1
)(π odnosno vidimo da je suma
registrovanih vrednosti za y jednaka sumi predviđenih (očekivanih) vrednosti na osnovu
modela.
Dakle, da sumiramo:
Želimo da odredimo očekivanu vrednost )(xπ za zavisnu promenljivu y , za neko
konkretno x . Da bismo to mogli izvesti potrebno je da odredimo vrednosti nepoznatih
parametara β , do kojih dolazimo metodom maksimalne verodostojnosti. Nakon
određivanja β , možemo dobiti i očekivanu vrednost ^
)(xπ zamenom vrednosti β sa ^
β u
logističkom regresionom modelu )(xπ .
Kao primer, posmatramo podatke, sa opisom promenljivih dat u primeru 1. Korišćenjem
logističke regresije, sa neprekidnom nezavisnom promenljivom STAROST, i CHD kao
∑=
++−+=n
i
xi exyL
110 )]1ln()([)( 10 βββββ
19
zavisnom promenljivom, dobijamo tabelu 2. Ocene maksimalne verodostojnosti za β0 i
β1 su β0= -1.440, β1
= 0.038. Fitovane vrednosti se dobijaju iz jednakosti:
ee
xg
xg
x)(ˆ
)(ˆ
1)(ˆ
+=π , (7)
gde je ocenjeni logit )(ˆ xg dat jednakošću
)(ˆ xg = -5.309+ 0.111× STAROST (8)
Tabela 2. Rezultati fitovanja logističkog regresionog modela za podatke iz Tabele 1
Promenljiva Koeficijent Stand.greška z P>│z│ STAROST 0.111 0.0241 4.61 0.000 Konstanta -5.309 1.1337 -4.68 0.000
Log-verodostojnosti = -53.67656 (9)
Log-verodostojnosti dat u Tabeli 2. je vrednost dobijena korišćenjem jednakosti (4), a
koja je izračunata korišćenjem β0 i β1
.
U Tabeli 2. su prikazane još tri kolone. Jedna sadrži ocene standardnih grešaka ocenjenih
koeficijenata, sledeća prikazuje količnik ocenjenog koeficijenta i odgovarajuće
standardne greške, i poslednja vrednost je p-vrednost.
20
3. TESTIRANJE ZNAČAJNOSTI KOEFICIJENATA
Nakon ocenjivanja koeficijenata, dalje razmatranje fitovanog modela se uopšteno
odnosi na ocenjivanje značajnosti promenljivih u modelu. Ovo obično uključuje
formulisanje i testiranje statističkih hipoteza za određivanje da li su nezavisne
promenljive u modelu "značajno" povezane sa rezultujućom promenljivom.
Pitanje koje ovde postavljamo je sledeće: Da li nam model koji sadrži
promenljivu, govori više o rezultujućoj promenljivoj nego model koji ne sadrži tu
promenljivu?
Odgovor na ovo pitanje je dobijen upoređivanjem registrovane vrednosti
rezultujuće promenljive sa predviđenom vrednosti pomoću svakog od dva modela; prvi
sa, i drugi bez te promenljive. Ako su predviđene vrednosti na osnovu modela koji sadrži
tu promenljivu bolje, ili tačnije u nekom smislu, nego vrednosti koje su predviđene na
osnovu modela koji ne sadrža tu promenljivu, tada je promenljiva u modelu "značajna".
postavljeno u relativnom smislu.
U linearnoj regresiji, ocenjivanje značajnosti koeficijenta nagiba je izvršeno
korišćenjem analize varijanse. Totalna sumu kvadrata odstupanja registrovanih vrednosti
od njihove sredine se sastoji iz dva dela dela:
(1) suma kvadrata odstupanja registrovanih vrednosti oko regresione prave, tzv.
rezidualna suma kvadrata (SSE )
(2) suma kvadrata odstupanja predviđenih vrednosti na osnovu regresionog modela
od sredine zavisne promenljive, tzv. regresiona suma kvadrata (SSR).
Ako yi označava registrovanu vrednost, i yiˆ označava predviđenu vrednost na osnovu
modela za i-ti subjekt, tada se za rešavanje problema koristi sledeća statistika:
2
1
ˆ( )n
i ii
SSE y y=
= −∑ (10)
Ukoliko model ne sadrži nezavisnu promenljivu, jedini parametar je β0, i β0 = y , sredina
rezultujuće promenljive. U tom slučaju, yiˆ = y , i SSE je jednako totalnoj varijansi. Kada
uključimo nezavisnu promenljivu u model, smanjenje SSE se javlja zbog činjenice da
koeficijent nagiba za nezavisnu promenljivu nije jednak nuli. Promena vrednosti SSE je
određena regresionim izvorom varijabilnosti, koji je označen sa SSR.
21
2 2
1 1
ˆ( ) ( )n n
i i iii i
SSR y y yy= =
= − − −∑ ∑ .
Velike vrednosti SSR sugerišu da je nezavisna promenljiva značajna, dok male vrednosti
sugerišu da nezavisna promenljiva nije korisna u predviđanju ishoda.
3.1 TEST KOLIČNIKA VERODOSTOJNOSTI
U logističkoj regresiji, poređenje registrovane i predviđene vrednosti dobijene iz
modela koji sadrži nezavisnu promenljivu i modela koji je ne sadrži, je bazirano na
logaritmu funkcije verodostojnosti, kao što je definisano u jednakosti (4). Pri tome se
smatra da je registrovana vrednost zavisne promenljive ona predviđena vrednost koja se
dobija na osnovu zasićenog modela. Zasićen model je onaj koji sadrži toliko mnogo
parametara koliko ima podataka. Za poređenje registrovanih sa predviđenim vrednostima
na osnovu modela koristimo funkcije verodostojnosti.
( )( )verodostojnost fitovanog modela
2 lnverodostojnost zasićenog modela
D
= −
(11)
Izraz unutar uglastih zagrada u izrazu (11) je količnik verodostojnosti. Korišćenje -2ln
je neophodno zbog dobijanja veličine čija je raspodela poznata i može se koristiti za
testiranje hipoteza. Ovaj test je poznat pod nazivom test količnika verodostojnosti.
Koristeći jednakost (4), jednakost (11) postaje:
1
1ˆ ˆ2 ln (1 ) ln
1
ni i
i ii i i
D y yy yπ π
=
−= − + −
−∑ (12)
gde je π i = π (xi).
Statistika D, u jednakosti (12) se naziva odstupanje, a poznata je i kao
logaritam test statistika količnika verodostojnosti.
U cilju procenjivanja značajnosti nezavisne promenljive, upoređujemo vrednost D
za model koji sadrži nezavisnu promenljivu i model koji je ne sadrži. Promena u D koja
nastaje zbog uključivanja nezavisne promenljive u model je data sa:
22
G = D (model bez nezavisne promenljive) – D (model sa nezavisnom promenljivom)
Kako obe vrednosti D imaju isti imenilac (verodostojnost zasićenog modela), G se
može se izraziti kao:
( )
( )verodostojnost modela bez nezavisne promenljive
2 lnverodostojnost modela sa nezavisnom promenljivom
G
= −
Za specijalan slučaj jedne nezavisne promenljive, lako se pokazuje da kada
promenljiva nije u modelu, ocena maksimalne verodostojnosti za β0 je ln(n1/n0), gde je
n1 = Σyi, i n0 = Σ(1– yi), i predviđena vrednost je konstantna, n1/n.
U tom slučaju, vrednost G je:
01
01
(1 )
1
2ln
ˆ(1 )ˆii
nn
nyy
iii
nnn n
G
ππ−
=
= −
−∏
ili
1 1 0 01
2 ln( ) (1 )( ) ln( ) ln( ) ln( )ˆ ˆ1n
i iiii
G y n ny n n n nπ π=
= + − − + −−∑
Ukoliko je tačna hipoteza da je β1 jednako nuli, statistika G ima hi-kvadrat raspodelu sa
jednim stepenom slobode.
Testiranje hipoteza o vektoru parametara β može se vršiti i korišćenjem dva
statistički ekvivalentna testa : Wald testa ( 1
1
ˆ
ˆ( )W
SE
β
β= ) i Score testa.
23
Wald-ov test je u univarijantnom slučaju dobijen upoređivanjem ocene
maksimalne verodostojnosti za parametar nagiba, β1, sa ocenom njene standardne greške.
Rezultujući količnik, pod hipotezom da je β1 = 0 ima standardnu normalnu raspodelu.
Wald test za logistički regresioni model je dobijen kao:
1
1
ˆ
ˆ( )W
SE
β
β=
i dvostrana p-vrednost, je P(|z|>W), gde z označava slučajnu promenljivu koja ima
standardnu normalnu raspodelu.
Na primer, Wald-ov test za logistički regresioni model u Tabeli 1 je
W =024.0
111.0=4.61,
i dvostrana p-vrednost, prikazana u Tabeli 2, je P(|z|>4.61), gde je z slučajna promenljiva
koja ima standardnu normalnu raspodelu. Međutim, Wald test često ima nedostatak da se
ne odbacuje nulta hipoteza kada su koeficijenti značajni
24
4. INTERPRETACIJA LOGISTIČKOG REGRESIONOG
MODELA
Pretpostavimo sada da je logistički regresioni model prilagođen podacima, i da su
promenljive u modelu značajne, bilo u kliničkom ili statističkom smislu. Pod
interpretacijom bilo kog fitovanog modela podrazumeva se da izvedemo praktične
zaključke iz ocenjenih koeficijenata u modelu. Pitanje koje se postavlja je sledeće: Šta
nam ocenjeni koeficijenti u modelu govore o pitanjima zbog kojih je započeto
istraživanje? Ocenjeni koeficijenti za nezavisne promenljive predstavljaju nagib (stopu
promene) funkcije zavisne promenljive po jedinici promene za nezavisnu promenljivu.
Dakle, interpretacija modela uključuje dva problema: određivanje funkcionalne veze
između zavisne promenljive i nezavisne promenljive i prikladno definisanje jedinice
promene za nezavisnu promenljivu.
Prvi korak je određivanje koja će to funkcija zavisne promenljive dati linearnu
funkciju po nezavisnim promenljivim. U slučaju linearnog regresionog modela, to je
funkcija identiteta jer je zavisna promenljiva po definiciji, linearna po parametrima.
U logističkom regesionom modelu link funkcija (funkcija veze) je zapravo logit
transformacija:
g(x) = ln[π(x)/(1–π(x)] = β0 + β1x.
Podsetimo se da je za linearni regresioni model koeficijent nagiba, β1, jednak
razlici između vrednosti zavisne promenljive za x +1 i vrednosti zavisne promenljive za
x, za bilo koju vrednost x. Na primer, ako je y(x) = β0 + β1x, sledi da je
β1 = y(x +1) – y(x).
U tom slučaju interpretacija koeficijenta je relativno jasna, i izražava rezultujuću
promenu u mernoj skali zavisne promenljive za jedinicu promene u nezavisnoj
promenljivoj.
U logističkom regresionom modelu, koeficijent nagiba predstavlja promenu u
logitu po jedinici nezavisne promenljive, to jest važi:
β1 = g(x +1) – g(x).
25
4.1 DIHOTOMNA NEZAVISNA PROMENLJIVA
Slučaj kada je nezavisna promenljiva u logističkom regresionom modelu
dihotomna predstavlja osnovu za druge slučajeve. Neka je nezavisna promenljiva x
kodirana sa nula ili jedan. Razlika u logitu za subjekte sa x = 1 i x = 0 je
g(1) – g(0) = [β0 + β1] – [ β0] = β1.
Da bi mogli interpretirati ovaj rezultat potrebno je da uvedemo i razmatramo meru
povezanosti koja se naziva odnos šansi (odds ratio)10.
Da bismo mogli interpretirati dobijeni rezultat uvešćemo pojam odnos šansi (odds
ratio), koji daje meru povezanosti nezavisne promenljive sa ishodom od interesa.
Šansa je odnos verovatnoća da se događaj desi prema verovatnoći da se događaj ne desi.
U našem slučaju nezavisna promenljiva je kodirana sa 0 i 1, pa ćemo posebno računati
šanse za oba slučaja.
Šansa da je zavisna promenljiva uzela vrednost 1, kada nezavisna promenljiva uzme
vrednost 1 je Odds = )1(1
)1(
)1|0(
)1|1(
π
π
−=
==
==
XYP
XYP .
Kada nezavisna promenljiva uzme vrednost 0, šansa je da je zavisna promenljiva uzela
vrednost 1 je Odds = )0(1
)0(
)0|0(
)0|1(
π
π
−=
==
==
XYP
XYP.
Odnos šansi, u oznaci OR, je definisan kao odnos ove dve šanse, tj.
)0(1
)0()1(1
)1(
π
π
π
π
−
−=OR
Moguće vrednosti verovatnoće u logističkom modelu se mogu predstaviti tablicom 22x
na sledeći način:
26
Tabela 3.
Rezultujuća promenljiva
(Y)
Nezavisna promenljiva (X)
x = 1 x = 0
y = 1 0 1
0 1
(1)1
e
e
β β
β βπ
+
+=
+
0
0(0)
1e
e
β
βπ =
+
y = 0 0 1
11 (1)
1 eβ βπ
+− =
+
0
11 (0)
1 eβπ− =
+
Total 1 1
Ova tabela opravdava to što se odnos šansi OR još naziva i unakrsni odnos šansi,
jer vidimo da se OR dobija kao odnos unakrsnog proizvoda elemenata na glavnoj
dijagonali date tabele i elemenata na sporednoj dijagonali.
Zamenom izraza iz tabele u OR dobijamo:
0 1
0 1 0 1
0
0 0
0 11
0
11 1
11 1
ee eORe
e e
ee
e
β β
β β β β
β
β β
β ββ
β
+
+ +
+
= =
+ +=
+ +
Dakle, za logističku regresiju sa dihotomnom nezavisnom promenljivom koja je kodirana
sa 1 i 0 veza između odnosa šansi i regresionog koeficijenta je:
1
OR eβ
= .
Ocenjen odnos šansi dobijamo kada 1β zamenimo sa ^
1β odnosno
^
1
^βeOR =
Ova jednostavna veza između koeficijenta i odnosa šansi je osnovni razlog zašto se
logistička regresija pokazala kao moćan analitički alat.
Odnos šansi je mera povezanosti koja ima široku primenu, naročito u
epidemiologiji, gde aproksimira koliko je više verovatno (ili neverovatno) da je ishod
prisutan među onima sa x = 1 nego među onima kod kojih je x = 0.
27
Na primer, ako Y označava prisustvo ili odsustvo kancera pluća, a X označava da li je
osoba pušač ili ne i recimo da je dobijeno da je 2^
=OR . To bi značilo da se kancer pluća
dvostruko verovatnije javlja među pušačima nego među nepušačima u posmatranoj
populaciji.
Kao drugi primer, pretpostavimo da Y označava prisustvo ili odsustvo srčanog
oboljenja, a da X označava da li je osoba fizički aktivna ili ne i da je dobijeno da je
5.0^
=OR , to znači da je upola manje verovatno da se srčano oboljenje javi kod fizički
aktivne, nego kod fizički neaktive osobe u posmatranoj populaciji.
Dakle, iz prethodna dva primera vidimo da odnos šansi OR može imati vrednosti
veće i vrednosti manje od jedan, u zavisnosti šta se postavi kao referentan ishod. U
prvom primeru referentan ishod je pojava kancera kod pušača, a u drugom pojava
srčanog oboljenja kod fizički aktivnih osoba.
Generalno je svejedno kako se posmatra, jer uvek, na osnovu dobijenog odnosa za jedan
ishod , možemo dobiti odnos za drugi ishod uzimanjem recipročne vrednosti.
Tako da, za prvi primer, možemo reći da je upola manje verovatno da nepušač dobije
kancer pluća ili za drugi primer da je dva puta verovatnije da će fizički neaktivna osoba
oboleti od srčanog oboljenja.
Uvešćemo još jedan pojam, a to je relativni rizik, u oznaci RR. Relativni rizik
predstavlja odnos verovatnoća uspeha u okviru dve grupe.
U našem slučaju )0(
)1(
)0|1(
)1|1(
π
π=
==
===
XYP
XYPRR .
Izraz za odnos šansi se može zapisati na sledeći način:
)1(1
)0(1
π
π
−
−= RROR
U mnogim primerima odnos šansi aproksimira relativni rizik. Iz prethodne jednakosti se
jasno vidi da će se to desiti kada 1)1(1
)0(1→
−
−
π
π, odnosno kada su verovatnoće neuspeha u
obe gurpe približno jednake. To se dešava kada je verovatnoća )(xπ dovoljno mala bilo
28
da je 1=x ili 0=x . U praksi se srećemo sa ovom situacijom kod ispitivanja relativno
retkih bolesti, koje kao takve imaju malu verovatnoću pojave.
Sledeći primer pokazuje šta je to zapravo odnos šansi, relativni rizik i razliku između ova
dva pojma.
Dati su podaci u tabeli, koji se odnose na broj preživelih i poginulih putnika na
Titanku, gde je bilo ukupno 1313 putnika, od toga 462 žene i 851 muškarac.
Tabela 4.
Iz same tabele se vidi da je verovatnije da muškarac umre nego žena, pa ćemo smrt žene
uzeti kao referentan ishod, jer ćemo na taj način dobiti vrednost odnosa šansi veću od
jedan. Dakle, odnos šansi će porediti odnose šansi za smrt u okviru svake grupe, tj. među
muškarcima i ženama.
Šanse za smrt kod žena su
5.0308
154
462
308462
154
===ženeOdds .
Šanse za smrt kod muškaraca su
993.4142
709
851
142851
709
===muškarciOdds .
Dakle, odnos šansi je 986.95.0
993.4===
žene
muškarci
Odds
OddsOR , što znači da su skoro deset puta
veće šanse za smrt muškarca u odnosu na smrt žene. Relativni rizik poredi verovatnoće za smrt u okviru svake grupe, tj.
ženakodsmrtiaverovatnoć
muškaracakodsmrtiaverovatnoćRR =
žene muškarci preživeli 308 142 450 poginuli 154 709 863 ukupno 462 851 1313
29
Verovatnoća smrti kod muškaraca je 8333.0851
709= , dok je verovatnoća smrt kod žena
3333.0462
154= . Zamenom ovih vrednosti dobijamo da je relativni rizik
5.23333.0
8333.0==RR , odnosno postoji 2.5 puta veća verovatnoća za smrt muškarca nego za
smrt žene.
3.2 NEPREKIDNA NEZAVISNA PROMENLJIVA
Sada ćemo posmatrati logistički regresioni model koji sadrži neprekidnu nezavisnu
promenljivu. U ovom slučaju promena od jedne jedinice nezavisne promenljive najčešće
nije interesantna. Na primer, rast sistolnog krvnog pritiska za 1 mmHg može biti suviše
mali da bismo ga smatrali važnim dok bi recimo rast od 10 jedinica predstavljao
značajniji podatak. Sa druge strane, ako se vrednosti koje nezavisna promenljiva može
uzeti kreću u inervalu od 0 do 1, tada bi promena od jedne jednice bila suviše velika, dok
bi promena od 0.01 jedinice bila realnija.
Dakle, da bismo obezbedili pravilnu interpretaciju modela smatraćemo da se desila
promena od c jedinica. Tada je promena u logitu sledeća:
cxcxxgcxg 11010 )()()( βββββ =−−++=−+
Sada je odnos šansi dat izrazom cecOR 1)( β= . Ocenu za odnos šansi možemo dobti
zamenom 1β sa njegovom ocenom dobijenom metodom maksimalne verodostojnosti ^
1β
i tada je ocenjena vrednos odnosa šansi ^
1
^
)( cecOR β= . c može uzeti bilo koju vrednost,
pri čemu se mora voditi računa o tome da se na jasan način ukaže kako se menja rizik da
je ishod prisutan sa promenom nezavisne promenljive.
Na primer, neka zavisna promenljiva predstavlja prisustvo ili odsustvo srčanog oboljenja,
a nezavisna promenljiva predstavlja starost i recimo da je ocenjen logit
starostxg ⋅+−= 038.044.1)(^
.
30
Tada ocenjen odnos šansi ima sledeći oblik cecOR 038.0^
)( = . Ako bismo hteli da vidimo kako povećanje starosti od 10 godina utiče na pojavu srčane
bolesti u prethodnom izrazu c ćemo zameniti sa 10 i dobiti 46.1)10( 10038.0^
== ⋅eOR .
Dakle, sa svakim povećanjem starosti od 10 godina rizik za pojavu srčanog oboljenja se
povećava 1.46 puta.
Osnovna razlika za ocenu odnosa šansi kod modela sa dihotomnom i modela sa
neprekidnom nezavisnom promenljivom leži upravo u načinu definisanja promene.
4. PROCENA SLAGANJA MODELA SA PODACIMA
4.1 UVOD
Počinjemo razmatranje metoda za procenjivanje slaganja ocenjenog logističkog
regresionog modela sa podacima, pretpostavkom da smo zadovoljni našim pokušajima na
nivou građenja modela. Odnosno, podrazumevamo da model sadrži one promenljive koje
treba da su u modelu, tj. koje su značajne i da su promenljive unete u korektnom
funkcionalnom obliku. Sada nas interesuje koliko efikasno naš model opisuje rezultujuću
(ishodnu) promenljivu (tzv. goodness-of-fit).
Neka su registrovane uzoračke vrednosti rezultujuće promenljive prikazane u
vektorskom obliku sa y, gde je y' = (y1, y2, . . . ,yn). Označimo vrednosti koje su
predviđene modelom, ili fitovane vrednosti, sa y , gde je y ' = ( y1 , y2 , ..., ynˆ ).
Možemo zaključiti da je model prilagođen podacima ako su:
(1) mere rastojanja između y i y male.
(2) doprinos svakog para (yi, yiˆ ) , i = 1, 2, 3, . . . , n ovim merama je nesistematski,
i mali u odnosu na grešku modela.
Dakle, kompletno procenjivanje fitovanog modela obuhvata kako izračunavanje mera
rastojanja između y i y , tako i ispitivanje pojedinačnih komponenti tih mera.
31
4.2 OSNOVNE MERE ZA GOODNESS OF-FIT
Osnovne mere za goodness-of-fit predstavljaju opšti pokazatelj koliko dobro se
model slaže sa podacima. Ove statistike ne moraju da daju informaciju o pojedinim
komponentama modela. Mala vrednost neke od tih statistika ne uzima u obzir mogućnost
nekih bitnih, tj. interesantnih odstupanja od vrednosti dobijene na osnovu fitovanog
modela za nekoliko subjekata. Sa druge strane, velika vrednost neke od tih statistika
jasno ukazuje na stvarne probleme modela.
Pre razmatranja specifične goodness-of-fit statistike, moramo prvo razmotriti
efekat koji fitovan model ima na stepene slobode koji su dostupni za procenu učinka
modela. Koristićemo izraz covariate pattern za opisivanje odabranog skupa vrednosti za
kovarijate u modelu. Covariate patterns su opservacije sa istim vrednostima za sve
nezavisne promenljive. Na primer, ako imamo dve nezavisne promenljive 1X i 2X koje
označavaju pol i rasu redom, pri tome prva promenljiva može uzeti dve vrednosti muški i
ženski, a druga promenljiva bela i crna, tada imamo četiri covariate patterns i to
(muški,bela), (muški,crna), (ženski,bela), (ženski,crna).
Ukoliko bismo imali tri nezavisne promenljive 21, XX i 3X koje označavaju pol,
rasu, visinu redom i ako bismo posmatrali n subjekata, tada bismo mogli imati najviše n
covariate patterns jer je treća promenljiva neprekidna.
Na primer, ako bismo imali 10 ovakvih subjekata:
(ženski,bela,168),(ženski,bela,169),(ženski,bela,175),(ženski,crna,165), (ženski,crna,166),
(muški,crna,178),(muški,crna,180), (muški,crna,190), (muški,bela,182), (muški,bela,192).
Tada vidimo da svi oni imaju različite vrednosti nezavisnih promenljivih, odnosno
imamo 10 covariate patterns.
A ukoliko posmatramo 10 ovakvih subjekata:
(ženski,bela,168),(ženski,bela,168),(ženski,bela,175),(ženski,crna,165), (ženski,crna,165),
(muški,crna,178),(muški,crna,178), (muški,crna,190), (muški,bela,182), (muški,bela,192).
Tada imamo 7 covariate patterns.
Tokom razvijanja modela nije neophodno baviti se brojem covariate patterns. Stepeni
slobode za testove su bazirani na razlici u broju parametara za modele koji se upoređuju,
32
a ne na broju covariate pattern. Međutim, kada je procenjeno koliko se model slaže sa
podacima, tada sporno pitanje može biti broj covariate pattern.
Goodness-of-fit se postiže preko grupisanja fitovanih vrednosti određenih pomoću
kovarijati u modelu, a ne ukupnog skupa kovarijati. Na primer, pretpostavimo da naš
fitovan model sadrži p nezavisnih promenljivih, x' = (x1, x2, x3, ..., xp), i neka J označava
broj različitih registrovanih vrednosti x. Ako neki subjekti imaju istu vrednost za x, tada
je J < n.
Označimo broj subjekata za koje je x = xj , sa mj , za j = 1, 2, 3, . . . J. Sledi da je
Σmj = n. Neka je sa yj označen broj pozitivnih odgovora, y = 1, među mj subjekata za
koje važi x = xj.
Da bismo bolje objasnili šta koja oznaka predstavlja vratićemo se na primer u kojem smo
posmatrali sledeće subjekte:
(ženski,bela,168),(ženski,bela,168),(ženski,bela,175),(ženski,crna,165), (ženski,crna,165),
(muški,crna,178),(muški,crna,178), (muški,crna,190), (muški,bela,182), (muški,bela,192).
U ovom primeru imamo deset subjekata, dakle n =10. Od tih deset, njih sedam ima
različite vrednosti tj. J = 7.
Vidimo da imamo:
• dve belkinje visine 168 i one čine jednu grupu tj. 21 =m
• jednu belkinju visine 175, ona čini drugu grupu tj. 12 =m
• dve crnkinje visine 165, one čine treću grupu tj. 23 =m
• dva crnca visine 178, oni čine četvrtu grupu tj. 24 =m
• po jednog crnca visine 190, belca visine 182 i belca visine 192 koji čine, redom,
petu, šestu i sedmu grupu tj. 15 =m 16 =m 17 =m
Raspodela za statistiku goodnes-of-fit se dobija, ako se stavi da je n je dovoljno veliko.
Ako se broj covariate patterns takođe povećava sa n, tada svaka vrednost mj teži da bude
mala. Za distribucione rezultate dobijene pod pretpostavkom da samo n postaje veliko
kažemo da su n-asimptotski. Primer n-asimptotskog ponašanja je prethodni primer, jer
33
ukoliko posmatramo veliki broj subjekata i njihove visine, skoro je sigurno da ćemo
imati veliki broj različitih vrednosti, s obzirom da je visina neprekidna promenljiva.
Ako fiksiramo broj grupa i povećavamo obim uzorka onda će se povećavati broj
elemenata u svakoj grupi tj. matematički rečeno ako fiksiramo J < n i pustimo n da je
dovoljno veliko, tada svaka vrednost mj takođe teži da postane velika. Za raspodele gde
svako mj postaje veliko, kažemo da su m - asimptotske.
Pretpostavimo da je J ≈ n, kao što očekujemo kad god postoji bar jedna neprekidna
kovarijata u modelu. Ovo je slučaj koji se najčešće javlja u praksi, a takođe i predstavlja
najveći izazov u razvijanju raspodela goodness-of-fit statistike.
4.3 PIRSONOVA HI-KVADRAT STATISTIKA I ODSTUPANJE
U logističkoj regresiji postoji nekoliko mogućih načina za procenu razlike između
observirane i fitovane vrednosti. Za isticanje činjenice da su fitovane vrednosti u
logističkoj regresiji izračunate za svaki covariate pattern i da zavise od ocenjene
verovatnoće za taj covariate pattern, označavamo procenjenu, fitovanu vrednost za j-ti
covariate pattern sa y jˆ , i važi da je:
ˆ ( )
ˆ ( )ˆ ˆ
1
j
j
g x
j j j j g x
ey m me
π= =+
,
gde je )(ˆ xg j ocenjen logit.
Počinjemo razmatranjem dve mere rastojanja između registrovane i predviđene
vrednosti na osnovu modela, a to su: Pirsonov rezidual i rezidual odstupanja. Za određen
covariate pattern, Pirsonov rezidual je definisan na sledeći način:
( )
( )
j
j
ˆ( , )ˆ
1ˆ ˆm
jj
j
j j j
y mr y
ππ
π π
−=
− .
Statistika koja je bazirana na ovim rezidualima je Pirsonova hi-kvadrat statistika:
Χ2 = ( )∑
=
J
jjj
yr1
2ˆ,π .
34
Rezidual odstupanja je definisan kao:
( )( )
1/ 2
( , ) ( ) 2 ln lnˆ1ˆ ˆ
jj jj jj jj j j
j j j j
y ymd sign y my y ym
m mπ
π π
− = − + − −
Statistika koja je bazirana na rezidualima odstupanja je odstupanje (Deviance).
D = ( )∑=
J
jjj
yd1
2ˆ,π .
Pod pretpostavkom da je fitovani model korektan za sve aspekte, statistike X2 i D imaju
hi-kvadrat raspodelu sa J – (p + 1) stepeni slobode. Za odstupanje ovo sledi iz činjenice
da je D test statistika količnika verodostojnosti zasićenog modela sa J parametara u
odnosu na fitovani model sa p + 1 parametara. Slična teorija daje nultu raspodelu za X2.
Problem nastaje kada je J ≈ n, jer je raspodela n-asimptotska, pa se broj parametara
povećava u istom odnosu kao veličina uzorka. Dakle, p-vrednosti, izračunate za ove dve
statistike kada je J ≈ n, a korišćenjem χ2(J – p – 1) raspodele su nekorektne.
Jedan način da se izbegnu navedene smetnje sa raspodelama za X2 i D, kada je J ≈
n je grupisanje podataka na takav način da se koristi m-asimptotska raspodela. Da bi se
razumelo obrazloženje za različite postupke grupisanja, korisno je smatrati X2
Pirsonovom i D kao logaritam verodostojnosti hi-kvadrat statistike koja se dobija iz
tabele 2 × J. Redovi tabele odgovaraju vrednostima rezultujuće promenljive, y = 1, 0, a J
kolona odgovara J mogućim vrednostima covariate patterns. Ocena očekivanih vrednosti
pod pretpostavkom da je logistički model u stvari korektan model za ćelije koje
odgovaraju y = 1 redu i j-toj koloni je mj . Sledi da je ocena očekivanih vrednosti za ćeliju
koja odgovara y = 0 i J-toj koloni mj (1 – π j ).
Kada su hi-kvadrat testovi izračunati iz tabele kontigencije, p-vrednosti su
korektne pod nultom hipotezom da su ocenjene vrednosti suviše "velike" u svakoj ćeliji.
Mada ovo previše pojednostavljuje situaciju, to je u suštini korektno. U gore opisanoj
tabeli 2 × J, očekivane vrednosti su uvek prilično male jer se broj kolona povećava kako
se n povećava. Da bi se izbegao ovaj problem, možemo smanjiti kolone u fiksiran broj
grupa, g, i tada računati registrovane i očekivane frekvencije. Fiksiranjem broja kolona,
ocenjene očekivane vrednosti postaju veće, sa povećanjem n.
35
Često se sugeriše da je X2 bolje nego D zato što na D prekomerno utiču vrlo
male frekvencije. Ako su očekivane frekvencije suviše male (to jest manje od 1), obe
aproksimacije su verovatno vrlo slabe. Naročito, ako svaka observacija ima različit
covariate pattern pa je yi nula, ili jedan, ni D, ni X 2 ne daju upotrebljivu meru za fit. Ovo
se može desiti kada su nezavisne promenljive neprekidne. U takvim situacijama najčešće
se koristi Hosmer- Lemeshow pristup.
4.4 TABELE KLASIFIKACIJE
Jedan način za sažimanje rezultata fitovanog logističkog regresionog modela je pomoću
tabele klasifikacije, koja je rezulat ukrštanja rezultujuće promenljive sa dihotomnom
promenljivom čije su vrednosti izvedene iz ocenjenih logističkih verovatnoća.
Kreiramo tabelu klasifikacije 2×2 predviđenih vrednosti iz našeg modela za ishodnu
promenljivu nasuprot tačnoj vrednosti ishodne promenljive. Predviđanje zavisi od neke
cut-off verovatnoće c. Pri tome se uzima da je ˆ 1y = ukoliko je ci >^
π i ˆ 0y = ukoliko je
ci ≤^
π . Najčešće korišćena vrednost je 5.0=c .
Senzitivnost testa predstavlja verovatnoću da je predviđena vrednost zavisne promenljive
jedan, ukoliko je, zaista, zavisna promenljiva primila vrednost jedan tj. ˆ( 1 1)P y y= = .
Specifičnost testa je verovatnoća da je predviđena vrednost zavisne promenljive nula,
ako je njena stvarna vrednost nula tj. ˆ( 0 0)P y y= = .
Posmatrajmo sledeću tabelu klasifikacije :
Registrovano Klasifikovano GOJAZNOST = 0 GOJAZNOST = 1 Ukupno GOJAZNOST = 0 530 250 780 GOJAZNOST = 1 385 939 1324 Ukupno 915 1189 2104 Tabela 4.
Iz tabele se vidi da je ukupno posmatrano 2104 osobe, od kojih je 1189 gojazno.
36
Od 1189 gojaznih dobro smo klasifikovali njih 939, dok je njih 250 pogrešno
klasifikovano. Od 915 negojaznih osoba 530 je dobro klasifikovano, dok je 385 osoba
pogrešno klasifikovano.
Senzitivnost testa je:
%97.781189
939}|{ ==gojaznazaistajeosobagojaznakaoanaklasifikovjeosobaP
Specifičnost testa je :
%92.57915
530}|{ ==negojaznazaistajeosobanegojaznakaoanaklasifikovjeosobaP
Dakle, tačno smo klasifikovali 78.97% osoba koje su gojazne i 57.92% osoba koje su
negojazne pa je ukupna stopa tačne klasifikacije %28.692104
939530=
+.
250 gojaznih osoba je klasifikovano kao negojazno tj. %03.211189
250= , dok je 385 osoba
koje nisu gojazne klasifikovano kao gojazno tj. %08.42915
385= .
Dakle, ukupno je pogrešno klasifikovano %18.302104
250385=
+ posmatranih osoba.
Klasifikacija je osetljiva na relativnu veličinu dve komponentne grupe i uvek favorizuje
klasifikaciju u veće grupe. Važan razlog zašto mere izvedene iz tabele klasifikacije 2 × 2
(kao što su senzitivnost i specifičnost) ne bismo trebali koristiti za procenu koliko je
model dobar, je taj da one veoma zavise od raspodele verovatnoća u uzorku Zbog
razmatranja koje sledi treba da razumemo smisao verovatnoće, a to je da se od n
subjekata koji imaju istu verovatnoću ishoda koji nas interesuje ( π ),očekuje se da će broj
onih koji će imati ishod od interesa biti n π , a broj onih za za koje se očekuje da neće
imati ishod od interesa je n(1– π ). Pretpostavimo da je korišćen cutpoint 0.50 u cilju
klasifikacije i pretpostavimo da je 100 subjekata imalo verovatnoću π = 0.51. Za sve ove
subjekte je predviđeno da će imati rezultat koji se posmatra, ali pretpostavljajući da je
model dobro podešen, 51 subjekat bi trebalo da zaista ima ishod od interesa, dok se za
njih 49 treba očekivati da neće imati ishod od interesa. Dakle, 49 od 100 pacijenata je
pogrešno klasifikovano.
37
Ne mogu se upoređivati modeli na bazi mera izvedenih iz tabele klasifikacije 2×2, jer ove
mere ne možemo posmatrati nezavisno od raspodela verovatnoća u uzorcima na kojima
su bazirani. Isti model procenjen u dve populacije, korišćenjem mera senzitivnosti ili
specifičnosti bi mogao da da vrlo različite utiske o njegovom učinku.
Ukratko, tabela klasifikacije je najprikladnija kada je klasifikacija postavljena kao cilj
analize, inače bi trebala da bude samo dopuna mnogo strožijim metodama procene
slaganja modela sa podacima.
4.5 ROC KRIVA
Kao što smo rekli na osnovu ocena 0β i 1β dobijaju se ocene ( )ˆ ixπ za
verovatnoće ( )ixπ , 1, 2,...,i n= . Dalje se, na osnovu ovih ocena mogu dobiti i ocene ˆiy
za vrednosti zavisne promenljive iy , 1, 2,...,i n= , na sledeći način.: odabere se nivo
verovatnoće c , koji se naziva cutpoint, pa ako je ( )i cxπ ≥ uzima se da je ˆ 1iy = , a u
suprotnom ˆ 0iy = za svako 1, 2,...,i n= . Na taj način se subjekti u istraživanju klasifikuju
u dve grupe: oni koji prema modelu imaju osobinu ili ne. To znači da odluka da li neki
subjekat ima osobinu koja se posmatra ili ne zavisi od procene verovatnoće dobijene
modelom. Visinu nivoa verovatnoće, cutpoint, bira sam istraživač. Ovakav način
odlučivanja, klasifikovanja subjekata, često se naziva test.
Nameće se pitanje koliko je takav test dobar, koliko se slaže sa stvarnom
situacijom, tj. koliko dobro predviđa postojanje posmatrane osobine kod svakog
pojedinog subjekta, odnosno koliko dobro razdvaja posmatranu populaciju. Kvalitet testa
se meri njegovom senzitivnošću – verovatnoćom tačno predviđenog prisustva osobine, i
negovom specifičnošću - verovatnoćom tačno predviđenog odsustva osobine
Kada se senzitivnost i specifičnost testa izračunaju za čitav niz nivoa
verovatnoće, cutpoints, moguće je konstruisati ROC krivu (Receiver Operating
Characteristic Curve) koja povezuje senzitivnost (verovatnoću tačnog detektovanja
prisustva osobine) i 1– specifičnost, (verovatnoću netačnog detektovanja prisustva
osobine).
ROC kriva je prvi put korišćena tokom II svetskog rata za analizu radio signala
pre nego što je primenjena u teoriji detektovanja signala. Prateći napad na Perl Harbur
38
1941, armija USA je počela novo istraživanje da poveća tačno predviđanje detektovanog
japanskog aviona korišćenjem njihovih radio signala.
1950. godine ROC kriva je primenjena u psihofizici da proceni ljudsku (i
povremeno životinjsku) detekciju slabih signala. U medicini se koristi u dijagnostičkom
testiranju za evaluaciju efikasnosti novog leka ili dijagnostičke metode nasuprot već
priznatoj, postojećoj.. U radiologiji, ROC analiza je opšta tehnika za evaluaciju novih
radioloških tehnika.
Često, klinički istraživač se sreće sa pitanjem koliko je određeni laboratorijski test
precizan u identifikovanju obolelih slučajeva. Sposobnost testa da razdvoji obolele
slučajve od normalnih slučajeva je procenjena korišćenjem ROC krive. Kada razmatramo
rezultate određenog testa u dve populacije, jednu populaciju sa oboljenjem, i drugu bez
oboljenja, retko ćemo dobiti perfektno razdvajanje između ove dve grupe. Umesto toga
raspodela rezultata testa će se preklapati, kao što je prikazano na slici 4.
Slika 4.
Za svaku moguću tačku cut-off, ili kritičnu vrednost koju smo izabrali da
razdvaja dve populacije, postojaće neki slučajevi sa oboljenjem koji su korektno
klasifikovani kao pozitivni, (TP = true positive fraction), ali će neki slučajevi sa
oboljenjem biti klasifikovani kao negativni, to jest lažno negativni (FN = false negative
fraction). Sa druge strane, neki slučajevi bez oboljenja će biti korektno klasifikovani kao
negativni (TN = True Negative fraction), dok će neki slučajevi bez oboljenja biti
39
klasifikovani kao pozitivni, tj. lažno pozitivni (FP = False Positive fraction), što je
prikazano u tabeli 6.
Test Oboljenje
Ukupno Prisutno Odsutno
Pozitivan Tačno pozitivni (TP) a Lažno pozitivni (FP) c a+c Negativan Lažno negativni (FN) b Tačno negativni (TN) d b+d Ukupno a+b c+d a+b+c+d Tabela 6.
Prepostavimo da imao model za ocenjivanje verovatnoće da je osoba gojazna i da
nas interesuje predviđanje ishoda za svaku osobu. Pravilo koje je prikazano u Tabeli 5,
predviđa da će će osoba biti gojazna, ako je P(y = 1) ≥ 0.50, odnosno normalno uhranjena
ako je P(y = 0) < 0.50. Postoje neke statistički dobre osobine povezane sa korišćenjem
0.5, ali bi trebali razmatrati i šta se dešava kada koristimo druge vrednosti za cutpoints.
0
10
20
30
40
50
60
70
80
90
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
cutpoints
Senzitivnost (%)
Specifičnost (%)
Slika 5. Senzitivnost i specifičnost modela za sve moguće cutpoints
Ako je naš cilj izbor optimalnog cutpoint, a u cilju klasifikacije, mogli bismo
izabrati onaj za koji je maksimalna i senzitivnost i specifičnost. Na slici 5 prikazan je
40
primer optimalanog izbora, za cutpoint = 0.6, gde se krive senzitivnosti i specifičnosti
seku.
Klasifikovano Registrovano Ukupno GOJAZNOST
= 0 GOJAZNOST =
1 GOJAZNOST = 0 730 539 1269 GOJAZNOST = 1 339 976 1315 Ukupno 1069 1515 2584
Tabela 7. Klasifikaciona tabela korišćenjem cutpoint 0.6
Senzitivnost = 976/1515 = 64.4%; Specifičnost = 730/1069 = 68.3%
Rezultati korišćenja cutpoint 0.6 su prikazani u Tabeli 7, ali ovo se može uraditi za bilo
koji mogući izbor cutpoint. Tabela 8 sumira rezultate biranja svih mogućih cutpoint
između 0.05 i 0.95 sa priraštajem od 0.05.
Cutpoint Senzitivnost (%)
Specifičnost (%)
1 – Specifičnost (%)
0.05 100.0 0.0 100.0 0.10 100.0 0.0 100.0 0.15 99.9 1.0 99.0 0.20 99.8 3.9 96.1 0.25 98.9 9.4 90.6 0.30 97.4 16.6 83.4 0.35 95.5 22.0 78.0 0.40 93.3 30.0 70.0 0.45 88.6 39.9 60.1 0.50 82.7 52.1 47.9 0.55 73.7 61.0 39.0 0.60 64.4 68.3 31.7 0.65 51.9 75.1 24.9 0.70 40.3 81.4 18.6 0.75 27.7 87.4 12.6 0.8 15.3 92.9 7.1
0.85 6.2 97 3.0 0.90 0.5 99.4 0.6 0.95 0 100 0.0
Tabela 8. Senzitivnost, specifičnost, i 1 – specifičnost za tabelu klasifikacije baziranu
na logističkom regresionom modelu korišćenjem cutpoint od 0.05 do 0.95 sa priraštajem
od 0.05
41
Grafikon sezitivnosti u odnosu na 1 – specifičnost za sve moguće cutpoints je prikazan na
slici 6. Kriva koja je generisana pomoću svih tih tačaka je ROC kriva i površina ispod
ove krive daje meru razdvajanja koja je, u našem slučaju verovatnoća da će osobe koje su
gojazne imati veću ocenjenu verovatnoću (P(y =1)) nego oni koji nisu gojazni.
Slika 6. Primer ROC krive
Površina ispod ROC krive, koja se kreće od nule do jedan, je mera sposobnosti
modela u razdvajanju subjekata koji su iskusili događaj koji se posmatra u odnosu na one
koji nisu. Površina ispod ROC krive, u oznaci AUC (The Area Under the Curve), takođe
označena i kao indeks accuracy (A), ili indeks konkordancije, c (concordance index) je
prihvaćena tradicionalna izvedena mera za ROC krivu.
Kao opšte pravilo, koristimo sledeće:
Ako je AUC = 0.5 nema diskriminacije
Ako je 0.5 ≤ AUC < 0.7 loše razdvajanje
42
Ako je 0.7 ≤ AUC < 0.8 prihvatljivo razdvajanje
Ako je 0.8 ≤ AUC < 0.9 odlično razdvajanje
Ako je AUC ≥ 0.9 izvanredno razdvajanje.
5. ZAKLJUČAK
Iako je logistička kriva često kritikovana, u smislu da je primenjivana na sisteme
gde nije odgovarajuća, ona se pokazala korisnom u modeliranju širokog opsega pojava.
Značaj logističke raspodele je ostavio traga u mnogim oblastima ljudskih
nastojanja. Verhulst je 1845. godine koristio u ekonomskim i demografskim
istraživanjima
Mnogi postupci u biologiji i drugim poljima koriste S-krivu rasta. Biološka
funkcija rasta po kojoj se obnavlja brojnost populacije riba, ptica, pa čak i količine vode u
podzemnim rezervoarima odgovara tzv. logističkoj funkciji rasta. Logistički model rasta
je prvi primenio u analizi ribarstva Schaffer (1957). U biologiji, logistička funkcija
opisuje populacioni rast u ograničenom okruženju, kao što je bakterija u petrievoj šolji.
Ima primenu u populacionom rastu vrsta koje rastu tako da su blizu zasićenja njegovih
ekosistema. Kingsland je dao kroz istoriju primene logističke krive u populacionoj
ekologiji, njene uspehe i neuspehe.
Logističke funkcije su dobar model u marketingu, gde prikazuju prodaju novih
proizvoda u tokom vremena, mogu da opisuju krive potražnje: opadanje potražnje za
proizvodom kao funkcija povećanja cene.
Wofford i drugi su proučavali kontinuirano nasilje u porodici, u nacionalnom
uzorku mladih oba pola, starosti od 18 do 27 godina . Dvadeset šest prediktora, baziranih
na podacima iz literature o nasilju u domaćinstvu su uklučene u ovu analizu. Kao deo
studije, ispitanici koji su saopštili da su žrtve ili izvršioci nasilja u porodici 1984. su
ponovo intervjuisani 1987.godine da bi se utvrdilo da li nasilje u porodici nastavilo ili je
prekinuto od momenta prvog intervjuisanja 1984. godine.
Logistička kriva je igrala značajnu ulogu i u sociološkim istraživanjima, na primer
u teoriji transformacije George Land, koji je koristio koncept S-krive za procenu
pogodnog zanimanja u različitim fazama tehnološkog razvoja. White, Pearson, Wilson su
43
ispitivali ostvarenje proizvodne prakse u datom momentu, korišćenjem logističkih
regresionih modela.
Logistička kriva, ili tzv. S kriva ima izuzetno široku primenu u prognoziranju
broja korisnika telekomunikacionih servisa. Posebno dobri rezultati se postižu u
prognoziranju glavnih telefonskih priključaka (GTP). U prvoj fazi uvođenja servisa
zahtevi rastu sporo, u drugoj fazi kada je servis prihvaćen na tržištu, dolazi do rapidnog
rasta broja zahteva. U trećoj fazi dolazi do zasićenja tržišta (broj zahteva ili uopšte ne
raste ili raste vrlo sporo). Gustina zasićenja se procenjuje posebno i obično se razlikuje za
svaku zemlju ili pojedine njene delove.
LITERETURA [1] D.W. Hosmer, S. Lemeshow, Applied Logistic Regression,John Wiley & Sons, INC., 2000