risk ratio, odds ratio, logistisk regression och …...fem frihetsgrader (p < .001) kan vi med...
TRANSCRIPT
Risk Ratio, Odds Ratio, Logistisk Regression och
Survival Analys med SPSS Kimmo Sorjonen, 2012
1. Risk Ratio & Odds Ratio
Risk- och odds ratio beräknar sambandet mellan två dikotoma variabler. Inom forskning
handlar det ofta om att man vill testa om en grupp som exponerats för någonting, t.ex. svåra
barndomsförhållanden, har en högre risk/odds för ett visst utfall, t.ex. missbruk, jämfört med
en icke-exponerad grupp.
I det aktuella datasetet finns en variabel som anger ifall respondenten är kvinna (female = 1)
eller man (female = 0) och en annan variabel som anger ifall personen dött (death = 1) eller
inte (death = 0) under uppföljningsperioden.
För att beräkna risk- och odds ratio: Analyze → Descriptive Statistics → Crosstabs. Kör in
variabeln som skall betraktas som oberoende (om någon) i rutan ”Row(s)” och den andra
variabeln (utfallsvariabeln) i rutan ”Column(s)”. Programmet ger inte automatiskt odds- eller
riskkvoter, så vi klickar på ”Statistics” och väljer ”Risk” samt ”Cochran’s and Mantel-
Haenszel ”statistics. Klicka på ”Continue” och sedan på ”OK”.
1.1Output
1. Odds att inte ha dött om man är man =
192 / 41 = 4,683
2. Odds att ha dött om man är man = 41 / 192 = 0,214
3. Odds att inte ha dött om man är kvinna =
433 / 31 = 13,968
4. Odds att ha dött om man är kvinna= 31 /
433 = 0,072 1. Risk att inte ha dött om man är man = 192 /
233 = 0,824 (= 82,4 %) 2. Risk att ha dött om man är man = 41 / 233 =
0,176 (= 17,6 %)
3. Risk att inte ha dött om man är kvinna = 433 /
464 = 0,933 (= 93,3 %) 4. Risk att ha dött om man är kvinna= 31 / 464
= 0,067 (= 6,7 %)
2
2. Logistisk Regression (Binär)
Vid logistisk regression prediceras värdena (eller egentligen: logaritmen för oddsen för det
ena utfallet) på en dikotom variabel utifrån en eller flera prediktorer. Prediktorerna kan vara
kontinuerliga, dikotoma eller kategorivariabler (görs om till dummy-variabler).
För att utföra en logistisk regression: Analyze → Regression → Binary Logistic. Kör in den
dikotoma beroende variabeln i rutan ”Dependent” och prediktorerna i rutan ”Covariates”.
Klicka på ”OK”. Nedan ses exempel på output där det prediceras ifall folk har dött under
Risken ha dött om man är man dividerat med risken
ha dött om man är kvinna
= 0,176 / 0,067 = 2,634
(om man inte avrundar på vägen). Konfidens-
intervallet (1,698-4,086)
innehåller inte värdet 1. Vi kan alltså med tillräckligt
hög säkerhet säga att
risken för att dö är högre bland män jämfört med
kvinnor i den aktuella
populationen.
Risken att inte ha dött om
man är man dividerat med
risken att inte ha dött om
man är kvinna = 0,824 / 0,933 = 0,883.
Konfidensintervallet (0,824-
0,942) innehåller inte värdet 1. Vi kan alltså med
tillräckligt hög säkerhet säga
att risken för att inte leva (= sannolikheten för att
överleva) är lägre bland män
jämfört med kvinnor i den
aktuella populationen.
Konfidensintervallet för
oddskvoten går från 0,204 till 0,551. Detta intervall
inkluderar inte värdet 1. Detta
innebär att vi kan utesluta att
oddskvoten i populationen är lika med 1 med 95% säkerhet.
Vi skulle alltså påstå att i den
aktuella populationen är oddsen för att överleva lägre
bland män jämfört med
kvinnor.
Här ser vi, återigen, att vår
oddskvot skiljet sig signifikant
från värdet 1 (p < 0,001)
Odds att inte ha dött om man är man dividerat med odds att
inte ha dött om man är kvinna
= 4,683 / 13,968 = 0,335.
Samma kvot får vi om vi dividerar kvinnornas odds för
att ha dött (0,072) dividerat
med männens odds för att ha
dött (0,214).
3
uppföljningsperioden (death = 1) utifrån ålder, kön, systoliskt (sbp0) och diastoliskt blodtryck
(dbp0) samt om de äter antihypertensiva läkemedel (antihyp0, 1 för ja och 0 för nej) vid
periodens början.
2.1 Output
Model Summary
Step -2 Log likelihood Cox & Snell R
Square
Nagelkerke R
Square
1 411,934a ,071 ,146
a. Estimation terminated at iteration number 6 because
parameter estimates changed by less than ,001.
Analysen börjar med en s.k. nollmodell som inte tar hänsyn till prediktorerna. Eftersom 72 av personerna dött och 625 inte dött så predicerar den att oddsen att ha dött är lika med 72 / 625 =
0,115 för varje person. Tar man den naturliga logaritmen av 0,115 får vi vårt intercept på -2,161.
Vi ser att interceptet skiljer sig signifikant från noll (p < .001), vilket innebär att vi med hög säkerhet kan påstå att oddsen för att överleva (under en likvärdig uppföljningsperiod) är högre än
oddsen för att dö i den aktuella populationen.
Här ser vi modellens grad av anpassning till
data (= dess förmåga att predicera hur folk
ligger till på den beroende variabeln) efter att prediktorerna inkluderats i modellen. Ett lågt
värde på -2 Log Likelihood indikerar god
anpassning mellan modell och data. Cox & Snell samt Nagelkerke är ”pseudo-mått” på hur
mycket av variationen i den beroende variabeln
som kan förklaras av den aktuella modellen.
Cox & Snell har den otrevliga egenskapen att den inte kan bli 1 (vilket Nagelkerke
kompenserar för).
Här ser vi att modellens -2LL sjunkit med
51,255 från nollmodellen. Eftersom vi lagt till fem prediktorer så ”tappar” vi 5
frihetsgrader. Eftersom -2LL och
skillnaden mellan två -2LL-värden har en
chi2-fördelning kan vi testa om vår modell är signifikant bättre på att
predicera odds för död jämfört med
nollmodellen, med hänsyn tagen till tappet av frihetsgrader. Eftersom ett chi2-
värde på 51,255 är jättesignifikant med
fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med
prediktorer är bättre på att predicera odds
för död jämfört med nollmodellen. Detta
kan också tas som indikation på att åtminstone en av de fem prediktorerna har
en effekt på odds för död i den population
som stickprovet representerar.
4
2.2 Hierarkisk analys samt interaktion
Ofta lägger man till prediktorer i en modell i ett andra eller tredje steg, för att på så sätt se om
dessa prediktorer bidrar till att förbättra modellen prediktiva förmåga efter att man
kontrollerat för effekten av vissa ”standardprediktorer”. I det aktuella fallet lägger vi till ålder
i steg 1, kön i steg 2 och interaktionen ålder × kön i steg 3.
För att köra analysen:
Analyze → Regression → Binary
Logistic. Kör in ”death” i rutan
”Dependent” och ”age” i rutan
”Covariates”. För att lägga till
prediktorer på lägre hierarkisk nivå:
Klicka på ”Next” ovanför rutan
”Covariates”. Kör nu in ”female” i rutan
”Covariates” och klicka på ”Next”. För
att speca en interaktion: Markera de två
prediktorerna i listan till vänster (klicka
på dem medan du håller ner Ctrl-
tangenten”) och klicka sedan på
knappen ”>a*b>”. Nu har vi specat våra
interaktioner med tre hierarkiska nivåer – klicka på ”OK” för att köra analysen.
Här ser vi att den formel som ger bäst prediktioner av Ln(Odds för död) är: -3,066 + 0,025 *
Ålder – 1,202 * Kvinna + 0,009 * Systoliskt BT – 0,029 * Diastoliskt BT + 1,337 *
Antihypertensiva. Kontrollerat för effekten av de andra prediktorerna är det endast Kön och användningen av Antihypertensiva som med tillräckligt hög säkerhet kan antas påverka odds för
död i populationen som stickprovet representerar. Om vi kontrollerar för effekten av de andra
prediktorerna så är Ln(Odds för död) 1,202 lägre bland kvinnor jämfört med män. Tar vi e-1,202
så
får vi 0,301, vilket innebär att odds för död bland kvinnor endast är 30,1 % av vad odds för död är bland män. Kontrollerat för effekten av de andra prediktorerna är odds för död bland dem som
använder antihypertensiva medel 3,808 gånger högre jämfört med dem som inte använder sådana
medel. Kontrollerat för effekten av de andra prediktorerna är en ökning i diastoliskt blodtryck med ett steg associerad med en sänkning i odds för död med 2,9 %, men effekten är endast
marginellt signifikant (p = .077)
5
Block 1: Method = Enter
Block 2: Method = Enter
Tabell 1 visar att inkluderandet av ålder
som prediktor gör modellen signifikant (p = .046) bättre på att predicera odds för död
jämfört med nollmodellen. Modellens -
2LL sjunker med 3.993, till 459.197 (tabell 2) och enligt Nagelkerke förklarar
ålder 1.2 % av variansen i odds för död.
Den understa tabellen visar att för varje
års ökning i ålder ökar Ln(odds för död) med 0,046, vilket innebär att för varje års
ökning i ålder ökar odds för död med 4.7
%, vilket är en signifikant effekt (p = .043). Interceptet säger oss att om ålder =
0 år så är odds för död endast 0,004.
Vi behåller ålder som en prediktor men inkluderar även kön. Vi ser att modellens
-2LL sjunker med 19.192 (från 459.197
till 440.005) och att detta är en signifikant
förbättring (p < .001). Ålder och kön förklarar tillsammans 6.7 % av variansen i
odds för död. I den undre tabellen ser vi
att om vi konstanthåller kön så leder en ökning i ålder med ett år till en ökning i
odds för död med 5 %, vilket är en
signifikant effekt (p = .033). Om vi
konstanthåller ålder så är odds för död bland kvinnor endast 32.9% av vad den är
bland män, vilket är en signifikant skillnad
( p < .001).
6
Block 3: Method = Enter
2.3 Diagnostik
Under Options-knappen kan man be programmet
plocka fram lite extra godis. T. ex. skulle vi kanske
vilja veta om modellens prediktiva förmåga ser OK ut
över hela skalan. Då kan man
be programmet att köra ett s.k.
Hosmer and Lemeshow Test.
Detta test delar in personerna i
tio grupper (från lägst till
högst) utifrån estimerad
sannolikhet för att de skall ha
värdet 1 (snarare än 0) på den
beroende variabeln. I varje
grupp beräknas, utifrån
gruppmedelemmarnas
individuella sannolikhet för
värdet 1, antalet personer som
förväntas ha värdet 1
respektive 0 på den beroende variabeln. Dessa förväntade frekvenser jämförs sedan med
faktiskt antal personer med värdet 1 respektive 0. Om modellen funkar på ett bra sätt skall
skillnaderna mellan dessa förväntade och faktiskt observerade frekvenser vara små över hela
När ålder och kön redan är med som
prediktorer i modellen, leder inkluderandet av
deras interaktion till en sänkning av modellens -2LL med 2.625, vilket inte är någon
signifikant förbättring (p = .105).
I den nedre tabellen ser vi att om female = 0
(alltså bland manliga försökspersoner) är en ökning i ålder med ett år associerad med en
ökning i odds för död med 1.4 %. Vi kan
räkna fram att bland kvinnliga försökspersoner är effekten av ålder på ln(odds för död) =
0.014 + 0.074 = 0.088, vilket innebär att bland
kvinnor är en ökning i ålder med ett associerad med en ökning i odds för död med e
0.088 =
1.092, alltså 9.2%. Att interaktionen inte är
signifikant säger oss att denna skillnad i
effekten av ålder på odds för död mellan kvinnor och män inte är signifikant.
7
skalan. Utifrån skillnaderna mellan förväntade och observerade frekvenser beräknas ett chi2-
värde, som helst skall vara lågt och icke-signifikant eftersom detta indikerar en väl
fungerande modell. I det aktuella fallet har odds för död estimerats utifrån ålder, kön,
systoliskt – och diastoliskt blodtryck samt om man äter antihypertensiva läkemedel. I gruppen
med lägst odds för död har vi 70 personer, av dessa förväntas 1.512 ha dött och 68.488 vara
vid livet medan det faktiska antalet är 1 respektive 69. Vi ser över hela skala att skillnaderna
mellan förväntade och faktiska frekvenser inte är så stora, vilket resulterar i ett icke-
signifikant chi2-värde (7.552, p = .478).
Under Save-knappen kan man be
programmet att spara olika värden för de
enskilda personerna som sedan kan användas för
att diagnostisera om data lämpar sig för en
logistisk regression. I det aktuella fallet ber jag
programmet att spara standardiserade residualer
(= differensen mellan personens värde på den
beroende variabeln (0 eller 1) och enligt
modellen predicerad sannolikhet för att personen
skall ha värdet 1) samt DfBeta(s) (= hur
individens värden påverkar de framräknade
koefficienterna.
Ett sätt att titta på residualerna är att plotta
dem mot personernas identifikationsnummer.
Nedan till vänster ser vi att residualerna tenderar att vara större på den positiva sidan (=
personer som har dött) än på den negativa (= personer som lever). Detta skulle kanske kunna
tas som en indikation på att vår modell har bättre specificitet än sensitivitet.
På samma sätt kan vi plotta DfBeta(s) mot id-nummer och se efter så att inga värden
”sticker iväg”. Nedan till höger visas DfBeta för koefficienten för effekten av systoliskt
blodtryck. Det ser bra ut – de flesta värden grupperar sig kring noll och avvikelserna i positiv
och negativ riktning ser ut på ett liknande sätt.
3. Survival Analys med Cox Regression
I analyserna ovan med logistisk regression tog vi inte hänsyn hur lång tid det tog för dem som
dog att dö, vilket givetvis är en brist i analysen. Med survival analys, t.ex. Cox regression, kan
vi ta hänsyn till denna information och estimera hur olika faktorer påverkar risken att dö per
tidsenhet (≈ hazard).
8
3.1 Fixa till tiden
Det är nog rätt
vanligt att man i
sitt dataset har
olika kolumner
som anger datum
för de olika
mätningarna och
händelserna. I det aktuella fallet har vi t.ex. en kolumn (date0) som anger datum för
uppföljningsperiodens början (olika för olika personer) samt en kolumn (date_event) som
anger datum man dött (för de som dött) alternativt datum för sista mätningen (för de som ej
dött). För att räkna fram tiden mellan dessa två datum: Transform → Compute Variable. I
rutan ”Target Variable” anger du den nya variabelns namn (t.ex. ”levtid”) och i rutan
”Numeric Expression” kör man in variabeln date_event genom att klicka i listan till vänster,
man skriver ett minustecken, och så kör man in variabeln date0. Den nya variabeln skulle nu
vara i sekunder, för att få det i dagar kan vi dividera skillnaden mellan de två datumen med
60*60*24 (= antalet sekunder per dag). Klicka på ”OK” och den nya variabeln levtid dyker
upp längst ut till höger i datasetet.
3.2 En första körning
Vi börjar med en analys av hur patienternas
ålder vid början av uppföljningsperioden
påverkar hazard för att de skall dö. För att
köra en Cox regression med tids-oberoende
prediktorer: Analyze → Survival → Cox
Regression. Kör in variabeln som anger tid
från baseline till död alternativt periodens slut
i rutan ”Time” och den dikotoma variabeln
som anger om man upplevt händelsen av
intresse (i vårt fall död) i rutan ”Status”, klicka
på ”Define Event” och ange vilket värde som
anger att man upplevt händelsen (i vårt fall 1). Klicka på ”Continue”. Tillbaka i ”huvudrutan”
kör vi in vår oberoende variabel (= prediktor) i rutan ”Covariates:”. Nu är vi redo att köra,
klicka på ”OK”.
Här ser vi att 72 patienter dött
under uppföljningsperioden. 625
personer har inte konstaterats döda, antingen för att de överlevt
hela perioden eller för att de
försvunnit ur studien. Patienter blir även censurerade om de dör
av fel anledning, t.ex. om man
skall analysera dödlighet i cancer och en patient dör i en bilolycka
(inte aktuellt i detta fall där det
handlar om ospecifik dödlighet).
9
3.3 En andra körning (med hierarki, kategoriprediktor samt interaktion)
I den här analysen stoppar vi in prediktorer i
tre steg (1) I vilken utsträckning patienten
bedöms efterfölja sin behandling (skala 1-5);
(2) Vilken av fyra olika behandlingar patienten
erhåller (A-D, kategoriprediktor); (3)
Interaktionen mellan Efterlevnad och
Behandling. Kör in ”Efterlevnad” i rutan
”Covariates:” → Klicka på ”Next” ovanför
rutan → Kör in ”Behandling” → Klicka på
”Next” → Markera både Efterlevnad och
Behandling i rutan till vänster (klicka på den
ena och sedan på den andra medan du håller
ner Ctrl-tangenten) → Klicka på ”>a*b>”. För
att speca en kategori-prediktor: Klicka på
”Categorial” → Kör in kategori-prediktorn (i vårt fall Behandling) i rutan ”Categorial
Covariates:”. Vi ser att behandling D blir vår referenskategori (Last) och effekten av de andra
behandlingarna kommer att jämföras med effekten av behandling D. Klicka på ”Continue”. Vi
är redo att köra – klicka på ”OK”.
Den s.k. nollmodellen, där hazard för utfall (i vårt fall död) endast antas
påverkas av tid, har en -2LL på 928.143. När vi inkluderar även ålder som
prediktor sjunker -2LL med 4.133 (från 928.143 till 924.010) och detta är en signifikant förbättring av modellens förmåga att predicera hazard för död (p
= .042, lågt -2LL indikerar bra prediktiv förmåga).
Här ser vi att ln(hazard för död) ökar med 0.044 för varje års ökning i ålder, vilket innebär att för varje års ökning i ålder ökar hazard för död med 4.5% (eftersom e
0.044 = 1.045). Wald = (B/SE)
2 =
(0.044/0.021)2 = 4.313. Med stora stickprov har Wald en chi2-fördelning. Vi ser att vårt Wald-
värde är signifikant (p = .038) vilket säger oss att effekten av ålder på hazard är signifikant (vi
kan anta att det finns en sådan effekt i populationen som stickprovet representerar). Det verkar vara en relativt allmän uppfattning av sänkningen i -2LL är ett bättre signifikansmått än Wald,
men oftast indikerar de nog samma sak.
10
Block 1: Method = Enter
Block 2: Method = Enter
Block 3: Method = Enter
Jämfört med nollmodellen sjunker -2LL med 1.153 när vi tar med Efterlevnad som en prediktor
av hazard för död, men denna förbättring är inte signifikant (p = .283). En ökning i Efterlevnad
med ett är associerad med en sänkning i hazard för död med 0.109, men även Wald visar att effekten inte är signifikant.
Inkluderandet av behandling leder till ensignifikant förbättring i modellens förmåga att predicera hazard för död (-2LL sjunker med 50.156, p < .001). I den undre tabellen ser vi att kontrollerat för
effekten av Efterlevnad har vi en signifikant huvudeffekt av Behandling (Wald = 34.961, p <
.001). Vi ser att kontrollerat för effekten av Efterlevnad och jämfört med behandling D (vår referenskategori) är hazard för död 2.388 gånger så hög bland dem som får behandling B (p =
.001) och 1 – 0.137 = 86.3% lägre bland dem som får behandling C (p < .001). Hazard för död är
16.8% lägre bland dem som får behandling A jämfört med behandling D, men denna skillnad är
inte signifikant (p = .597).
Nedan ser vi att inkluderandet av interaktionen mellan Behandling och Efterlevnad ytterligare
förbättrar modellens förmåga att predicera hazard för död (-2LL sjunker med 21.457, p < .001).
Vi kan alltså anta att effekten av Efterlevnad på hazard för död ser olika ut för de olika
behandlingarna. Detta ser vi även i den undre tabellen (Wald för interaktionen = 11.794, p = .008). Den undre tabellen säger oss att i referenskategorin (= behandling D) är en ökning i
Efterlevnad med ett associerad med en sänkning i hazard för död med 6%, men att denna effekt
inte är signifikant (p = .709). Jämfört med behandling D (referenskategorin) estimeras effekten av Efterlevnad vara signifikant mer negativ bland dem som får behandling A (p = .015) och
signifikant mer positiv bland dem som får behandling C (p = .027). Effekten av Efterlevnad på
hazard för död estimeras inte vara annorlunda bland dem som får behandling B jämfört med dem
som får behandling D (p = .027).
11
Eftersom analysen ovan visade en signifikant interaktion mellan Behandling och Efterlevnad
vad gäller effekten på hazard för död är det en bra idé att kika på effekten av Efterlevnad
separat för de olika behandlingarna. Vi splittar alltså filen utifrån Behandling och analyserar
sedan den enkla effekten av Efterlevnad på hazard för död.
3.4 Tids-beroende prediktor
Ibland mäter man folks värden på en eller flera prediktorer vid flera tillfällen. Då kan man
utnyttja denna information genom att se om den senaste mätningen av prediktorn (snarare än
mätningen vid baseline) har något samband med hazard för händelse fram till nästa mätning.
Detta gör vi genom att köra en Cox regression med en (vi kan endast ha en åt gången) tids-
beroende prediktor. I det aktuella fallet har jag beräknat antalet dagar från baseline till första
uppföljningen (time1) samt från baseline till den andra uppföljningen (time2). Dessa avstånd
varierar från individ till individ. Här skall vi kika på effekten av systoliskt blodtryck (mätt tre
gånger per person) på hazard för död.
Här ser vi att för behandling A
är en ökning i efterlevnad med
ett associerad med en sänkning i hazard för död med 1 – 0.358
= 64.2%. Bra så. För
behandling C är dock en ökning i efterlevnad med ett
associerad med en drygt
sjufaldig ÖKNING i hazard
för död (verkar inte vara någon vidare behandling). För
behandling B och D har
efterlevnad inget signifikant samband med hazard för död
(p = .332 respektive .713).
12
För att köra analysen:
Analyze → Survival → Cox
Regression w/ Time-Dep
Cov. I den första rutan skall
vi speca vår tids-beroende
prediktor. Vi ser att längst
upp i den vänstra rutan har
det dykt upp en ny variabel
som anger tiden (från baseline). Vi kan köra in denna variabel (liksom de andra variablerna) i
rutan ”Expression for T_COV:” genom att markera variabeln och klicka på pilen mellan
rutorna. I det aktuella fallet skriver vi så här i rutan ”Expression for T_COV:”:
(T_ < time1) * sbp0 + (T_ >= time1 & T_ < time2) * sbp1 + (T_ >= time2) * sbp2
Uttrycken inom parentes är logiska argument som antar värdet 1 (= sant) eller 0 (= falskt). Så
om vi befinner oss i tid mellan baseline och uppföljning 1 så antar argumentet följande värde:
1 * sbp0 + 0 * sbp1 + 0 * sbp2
Och detta blir ju det samma som det systoliska blodtrycket vid baseline. På samma sätt antar
argumentet samma värde som sbp1 (=systoliskt blodtryck vid den första uppföljningen) om
tidpunkten är mellan den första och den andra uppföljningen och samma värde som sbp2 om
vi befinner oss efter den andra uppföljningen. På detta sätt får vi ett mer finjusterat mått på
patienternas blodtryck och med stor sannolikhet högre power i vår analys av effekten av
blodtryck på hazard för död.
När vi specat vår tids-beroende prediktor klickar vi på ”Model”. Vi kommer till en
identisk Cox Regression-ruta som tidigare. Längst upp i rutan till vänster står vår ny-specade
tids-beroende prediktor (kallas för T_COV_). Vi kan använda denna som en prediktor av
hazard för händelse på samma sätt som övriga prediktorer. I det aktuella fallet har jag kört en
hierarkisk analys där jag lägger in systoliskt blodtryck (= T_COV_) efter ålder och så lägger
jag till interaktionen i steg tre.
Här ser vi att kontrollerat för
effekten av ålder har systoliskt
BT en nästan signifikant (p = .053) association med hazard
för död. För varje ökning i BT
med ett ökar hazard för död
med 1.1%. Vi ser att interaktionen inte heller är
långt ifrån att vara signifikant
(p = .100). Bland nyfödda (??) är en ökning i BT med ett
associerad med en ökning i
hazard för död med 31.2%. Denna association blir dock
svagare och svagare ju äldre
patienterna är.
13
3.5 Diagnostik
Cox fullständiga namn är ju ”Cox proportional hazard model” vilket innebär att kvoten mellan
olika gruppers hazard antas vara den samma över hela tidsspannet (vissa menar dock att man
inte behöver vara alltför neurotisk över detta antagande). Ett sätt att diagnostisera detta är att
under ”Plots” i Cox-rutan be programmet skapa ett s.k. ”Log minus log”-diagram. Kör man in
sin grupperingsvariabel i rutan ”Separate Lines for:” så får man en linje för varje grupp
(funkar endast med kategoriprediktorer). I det aktuella fallet visas separata linjer för de fyra
olika behandlingsgrupperna. Vad vi vill att dessa linjer skall vara hyfsat parallella, avståndet
mellan dem skall alltså vara ungefär lika stort över hela tidsspannet och de bör absolut inte
korsa varandra. I det aktuella fallet ser det väldigt bra ut (kanske för att data är konstruerade).
För kontinuerliga prediktorer kan man be programmet plocka fram s.k. partiella residualer
(görs under ”Save”-knappen, här kan man även be om DfBeta(s)). Till skillnad från linjär
regression får vi ett residualmått per prediktor. I det aktuella fallet inkluderas endast ålder som
en prediktor av hazard för död. Vi plottar (Graphs → Legacy Dialogs → Scatter/Dot →
Simple Scatter; kör in överlevnadstid på X-axeln och residualerna på Y-axeln). Vi vill att
residualerna skall vara slumpmässigt fördelade omkring noll över hela tidsspannet – det ser
OK ut i det aktuella fallet.
14
Ytterligare ett sätt för att
testa om hazard är
proportionell över hela
tidsspannet är att inkludera
en term för interaktion
mellan den aktuella
prediktorn och tid: Analyze
→ Survival → Cox
Regression w/ Time-Dep
Cov. Kör in Time i rutan ”Expression for T_COV:”, inget mer. Klicka på OK. I det aktuella
fallet har jag en modell där hazard för död prediceras utifrån behandling (A-D,
kategoriprediktor) samt interaktionen mellan behandling och T_COV_ (= tid). I tabellen ovan
ser vi att interaktionen inte är signifikant (p = .213) vilket indikerar att effekten av behandling
på hazard för död inte ändras över tid – gott så eftersom detta visar på en proportionell effekt.
På samma sätt kan man testa hypoteser om att effekten av en prediktor på hazard för händelse
varierar över tid, men då kanske man önskar sig att interaktionen blir signifikant.
Precis som vid linjär och
logistisk regression kan det vara bra att
kika även på DfBetas för att se så att
framräknade koefficienter inte
påverkats otillbörligt mycket av värden
från några få personer. Vi kan be
programmet att spara de olika
individernas DfBeta under Save-
knappen. Här har jag plottat DfBeta för
effekten av ålder på hazard för död mot
id-nummer. Vi ser att värdena
grupperar sig runt noll och att inget
värde sticker iväg, samt att vi har
ungefär lika många moderata avvikare
åt det positiva och det negativa hållet –
gott så.