risk ratio, odds ratio, logistisk regression och …...fem frihetsgrader (p < .001) kan vi med...

14
Risk Ratio, Odds Ratio, Logistisk Regression och Survival Analys med SPSS Kimmo Sorjonen, 2012 1. Risk Ratio & Odds Ratio Risk- och odds ratio beräknar sambandet mellan två dikotoma variabler. Inom forskning handlar det ofta om att man vill testa om en grupp som exponerats för någonting, t.ex. svåra barndomsförhållanden, har en högre risk/odds för ett visst utfall, t.ex. missbruk, jämfört med en icke-exponerad grupp. I det aktuella datasetet finns en variabel som anger ifall respondenten är kvinna (female = 1) eller man (female = 0) och en annan variabel som anger ifall personen dött (death = 1) eller inte (death = 0) under uppföljningsperioden. För att beräkna risk- och odds ratio: Analyze → Descriptive Statistics → Crosstabs. Kör in variabeln som skall betraktas som oberoende (om någon) i rutan ”Row(s)” och den andra variabeln (utfallsvariabeln) i rutan ”Column(s)”. Programmet ger inte automatiskt odds- eller riskkvoter, så vi klickar på ”Statistics” och väljer ”Risk” samt ”Cochran’s and Mantel- Haenszel ”statistics. Klicka på ”Continue” och sedan på ”OK”. 1.1Output 1. Odds att inte ha dött om man är man = 192 / 41 = 4,683 2. Odds att ha dött om man är man = 41 / 192 = 0,214 3. Odds att inte ha dött om man är kvinna = 433 / 31 = 13,968 4. Odds att ha dött om man är kvinna= 31 / 433 = 0,072 1. Risk att inte ha dött om man är man = 192 / 233 = 0,824 (= 82,4 %) 2. Risk att ha dött om man är man = 41 / 233 = 0,176 (= 17,6 %) 3. Risk att inte ha dött om man är kvinna = 433 / 464 = 0,933 (= 93,3 %) 4. Risk att ha dött om man är kvinna= 31 / 464 = 0,067 (= 6,7 %)

Upload: others

Post on 20-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

Risk Ratio, Odds Ratio, Logistisk Regression och

Survival Analys med SPSS Kimmo Sorjonen, 2012

1. Risk Ratio & Odds Ratio

Risk- och odds ratio beräknar sambandet mellan två dikotoma variabler. Inom forskning

handlar det ofta om att man vill testa om en grupp som exponerats för någonting, t.ex. svåra

barndomsförhållanden, har en högre risk/odds för ett visst utfall, t.ex. missbruk, jämfört med

en icke-exponerad grupp.

I det aktuella datasetet finns en variabel som anger ifall respondenten är kvinna (female = 1)

eller man (female = 0) och en annan variabel som anger ifall personen dött (death = 1) eller

inte (death = 0) under uppföljningsperioden.

För att beräkna risk- och odds ratio: Analyze → Descriptive Statistics → Crosstabs. Kör in

variabeln som skall betraktas som oberoende (om någon) i rutan ”Row(s)” och den andra

variabeln (utfallsvariabeln) i rutan ”Column(s)”. Programmet ger inte automatiskt odds- eller

riskkvoter, så vi klickar på ”Statistics” och väljer ”Risk” samt ”Cochran’s and Mantel-

Haenszel ”statistics. Klicka på ”Continue” och sedan på ”OK”.

1.1Output

1. Odds att inte ha dött om man är man =

192 / 41 = 4,683

2. Odds att ha dött om man är man = 41 / 192 = 0,214

3. Odds att inte ha dött om man är kvinna =

433 / 31 = 13,968

4. Odds att ha dött om man är kvinna= 31 /

433 = 0,072 1. Risk att inte ha dött om man är man = 192 /

233 = 0,824 (= 82,4 %) 2. Risk att ha dött om man är man = 41 / 233 =

0,176 (= 17,6 %)

3. Risk att inte ha dött om man är kvinna = 433 /

464 = 0,933 (= 93,3 %) 4. Risk att ha dött om man är kvinna= 31 / 464

= 0,067 (= 6,7 %)

Page 2: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

2

2. Logistisk Regression (Binär)

Vid logistisk regression prediceras värdena (eller egentligen: logaritmen för oddsen för det

ena utfallet) på en dikotom variabel utifrån en eller flera prediktorer. Prediktorerna kan vara

kontinuerliga, dikotoma eller kategorivariabler (görs om till dummy-variabler).

För att utföra en logistisk regression: Analyze → Regression → Binary Logistic. Kör in den

dikotoma beroende variabeln i rutan ”Dependent” och prediktorerna i rutan ”Covariates”.

Klicka på ”OK”. Nedan ses exempel på output där det prediceras ifall folk har dött under

Risken ha dött om man är man dividerat med risken

ha dött om man är kvinna

= 0,176 / 0,067 = 2,634

(om man inte avrundar på vägen). Konfidens-

intervallet (1,698-4,086)

innehåller inte värdet 1. Vi kan alltså med tillräckligt

hög säkerhet säga att

risken för att dö är högre bland män jämfört med

kvinnor i den aktuella

populationen.

Risken att inte ha dött om

man är man dividerat med

risken att inte ha dött om

man är kvinna = 0,824 / 0,933 = 0,883.

Konfidensintervallet (0,824-

0,942) innehåller inte värdet 1. Vi kan alltså med

tillräckligt hög säkerhet säga

att risken för att inte leva (= sannolikheten för att

överleva) är lägre bland män

jämfört med kvinnor i den

aktuella populationen.

Konfidensintervallet för

oddskvoten går från 0,204 till 0,551. Detta intervall

inkluderar inte värdet 1. Detta

innebär att vi kan utesluta att

oddskvoten i populationen är lika med 1 med 95% säkerhet.

Vi skulle alltså påstå att i den

aktuella populationen är oddsen för att överleva lägre

bland män jämfört med

kvinnor.

Här ser vi, återigen, att vår

oddskvot skiljet sig signifikant

från värdet 1 (p < 0,001)

Odds att inte ha dött om man är man dividerat med odds att

inte ha dött om man är kvinna

= 4,683 / 13,968 = 0,335.

Samma kvot får vi om vi dividerar kvinnornas odds för

att ha dött (0,072) dividerat

med männens odds för att ha

dött (0,214).

Page 3: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

3

uppföljningsperioden (death = 1) utifrån ålder, kön, systoliskt (sbp0) och diastoliskt blodtryck

(dbp0) samt om de äter antihypertensiva läkemedel (antihyp0, 1 för ja och 0 för nej) vid

periodens början.

2.1 Output

Model Summary

Step -2 Log likelihood Cox & Snell R

Square

Nagelkerke R

Square

1 411,934a ,071 ,146

a. Estimation terminated at iteration number 6 because

parameter estimates changed by less than ,001.

Analysen börjar med en s.k. nollmodell som inte tar hänsyn till prediktorerna. Eftersom 72 av personerna dött och 625 inte dött så predicerar den att oddsen att ha dött är lika med 72 / 625 =

0,115 för varje person. Tar man den naturliga logaritmen av 0,115 får vi vårt intercept på -2,161.

Vi ser att interceptet skiljer sig signifikant från noll (p < .001), vilket innebär att vi med hög säkerhet kan påstå att oddsen för att överleva (under en likvärdig uppföljningsperiod) är högre än

oddsen för att dö i den aktuella populationen.

Här ser vi modellens grad av anpassning till

data (= dess förmåga att predicera hur folk

ligger till på den beroende variabeln) efter att prediktorerna inkluderats i modellen. Ett lågt

värde på -2 Log Likelihood indikerar god

anpassning mellan modell och data. Cox & Snell samt Nagelkerke är ”pseudo-mått” på hur

mycket av variationen i den beroende variabeln

som kan förklaras av den aktuella modellen.

Cox & Snell har den otrevliga egenskapen att den inte kan bli 1 (vilket Nagelkerke

kompenserar för).

Här ser vi att modellens -2LL sjunkit med

51,255 från nollmodellen. Eftersom vi lagt till fem prediktorer så ”tappar” vi 5

frihetsgrader. Eftersom -2LL och

skillnaden mellan två -2LL-värden har en

chi2-fördelning kan vi testa om vår modell är signifikant bättre på att

predicera odds för död jämfört med

nollmodellen, med hänsyn tagen till tappet av frihetsgrader. Eftersom ett chi2-

värde på 51,255 är jättesignifikant med

fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med

prediktorer är bättre på att predicera odds

för död jämfört med nollmodellen. Detta

kan också tas som indikation på att åtminstone en av de fem prediktorerna har

en effekt på odds för död i den population

som stickprovet representerar.

Page 4: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

4

2.2 Hierarkisk analys samt interaktion

Ofta lägger man till prediktorer i en modell i ett andra eller tredje steg, för att på så sätt se om

dessa prediktorer bidrar till att förbättra modellen prediktiva förmåga efter att man

kontrollerat för effekten av vissa ”standardprediktorer”. I det aktuella fallet lägger vi till ålder

i steg 1, kön i steg 2 och interaktionen ålder × kön i steg 3.

För att köra analysen:

Analyze → Regression → Binary

Logistic. Kör in ”death” i rutan

”Dependent” och ”age” i rutan

”Covariates”. För att lägga till

prediktorer på lägre hierarkisk nivå:

Klicka på ”Next” ovanför rutan

”Covariates”. Kör nu in ”female” i rutan

”Covariates” och klicka på ”Next”. För

att speca en interaktion: Markera de två

prediktorerna i listan till vänster (klicka

på dem medan du håller ner Ctrl-

tangenten”) och klicka sedan på

knappen ”>a*b>”. Nu har vi specat våra

interaktioner med tre hierarkiska nivåer – klicka på ”OK” för att köra analysen.

Här ser vi att den formel som ger bäst prediktioner av Ln(Odds för död) är: -3,066 + 0,025 *

Ålder – 1,202 * Kvinna + 0,009 * Systoliskt BT – 0,029 * Diastoliskt BT + 1,337 *

Antihypertensiva. Kontrollerat för effekten av de andra prediktorerna är det endast Kön och användningen av Antihypertensiva som med tillräckligt hög säkerhet kan antas påverka odds för

död i populationen som stickprovet representerar. Om vi kontrollerar för effekten av de andra

prediktorerna så är Ln(Odds för död) 1,202 lägre bland kvinnor jämfört med män. Tar vi e-1,202

får vi 0,301, vilket innebär att odds för död bland kvinnor endast är 30,1 % av vad odds för död är bland män. Kontrollerat för effekten av de andra prediktorerna är odds för död bland dem som

använder antihypertensiva medel 3,808 gånger högre jämfört med dem som inte använder sådana

medel. Kontrollerat för effekten av de andra prediktorerna är en ökning i diastoliskt blodtryck med ett steg associerad med en sänkning i odds för död med 2,9 %, men effekten är endast

marginellt signifikant (p = .077)

Page 5: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

5

Block 1: Method = Enter

Block 2: Method = Enter

Tabell 1 visar att inkluderandet av ålder

som prediktor gör modellen signifikant (p = .046) bättre på att predicera odds för död

jämfört med nollmodellen. Modellens -

2LL sjunker med 3.993, till 459.197 (tabell 2) och enligt Nagelkerke förklarar

ålder 1.2 % av variansen i odds för död.

Den understa tabellen visar att för varje

års ökning i ålder ökar Ln(odds för död) med 0,046, vilket innebär att för varje års

ökning i ålder ökar odds för död med 4.7

%, vilket är en signifikant effekt (p = .043). Interceptet säger oss att om ålder =

0 år så är odds för död endast 0,004.

Vi behåller ålder som en prediktor men inkluderar även kön. Vi ser att modellens

-2LL sjunker med 19.192 (från 459.197

till 440.005) och att detta är en signifikant

förbättring (p < .001). Ålder och kön förklarar tillsammans 6.7 % av variansen i

odds för död. I den undre tabellen ser vi

att om vi konstanthåller kön så leder en ökning i ålder med ett år till en ökning i

odds för död med 5 %, vilket är en

signifikant effekt (p = .033). Om vi

konstanthåller ålder så är odds för död bland kvinnor endast 32.9% av vad den är

bland män, vilket är en signifikant skillnad

( p < .001).

Page 6: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

6

Block 3: Method = Enter

2.3 Diagnostik

Under Options-knappen kan man be programmet

plocka fram lite extra godis. T. ex. skulle vi kanske

vilja veta om modellens prediktiva förmåga ser OK ut

över hela skalan. Då kan man

be programmet att köra ett s.k.

Hosmer and Lemeshow Test.

Detta test delar in personerna i

tio grupper (från lägst till

högst) utifrån estimerad

sannolikhet för att de skall ha

värdet 1 (snarare än 0) på den

beroende variabeln. I varje

grupp beräknas, utifrån

gruppmedelemmarnas

individuella sannolikhet för

värdet 1, antalet personer som

förväntas ha värdet 1

respektive 0 på den beroende variabeln. Dessa förväntade frekvenser jämförs sedan med

faktiskt antal personer med värdet 1 respektive 0. Om modellen funkar på ett bra sätt skall

skillnaderna mellan dessa förväntade och faktiskt observerade frekvenser vara små över hela

När ålder och kön redan är med som

prediktorer i modellen, leder inkluderandet av

deras interaktion till en sänkning av modellens -2LL med 2.625, vilket inte är någon

signifikant förbättring (p = .105).

I den nedre tabellen ser vi att om female = 0

(alltså bland manliga försökspersoner) är en ökning i ålder med ett år associerad med en

ökning i odds för död med 1.4 %. Vi kan

räkna fram att bland kvinnliga försökspersoner är effekten av ålder på ln(odds för död) =

0.014 + 0.074 = 0.088, vilket innebär att bland

kvinnor är en ökning i ålder med ett associerad med en ökning i odds för död med e

0.088 =

1.092, alltså 9.2%. Att interaktionen inte är

signifikant säger oss att denna skillnad i

effekten av ålder på odds för död mellan kvinnor och män inte är signifikant.

Page 7: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

7

skalan. Utifrån skillnaderna mellan förväntade och observerade frekvenser beräknas ett chi2-

värde, som helst skall vara lågt och icke-signifikant eftersom detta indikerar en väl

fungerande modell. I det aktuella fallet har odds för död estimerats utifrån ålder, kön,

systoliskt – och diastoliskt blodtryck samt om man äter antihypertensiva läkemedel. I gruppen

med lägst odds för död har vi 70 personer, av dessa förväntas 1.512 ha dött och 68.488 vara

vid livet medan det faktiska antalet är 1 respektive 69. Vi ser över hela skala att skillnaderna

mellan förväntade och faktiska frekvenser inte är så stora, vilket resulterar i ett icke-

signifikant chi2-värde (7.552, p = .478).

Under Save-knappen kan man be

programmet att spara olika värden för de

enskilda personerna som sedan kan användas för

att diagnostisera om data lämpar sig för en

logistisk regression. I det aktuella fallet ber jag

programmet att spara standardiserade residualer

(= differensen mellan personens värde på den

beroende variabeln (0 eller 1) och enligt

modellen predicerad sannolikhet för att personen

skall ha värdet 1) samt DfBeta(s) (= hur

individens värden påverkar de framräknade

koefficienterna.

Ett sätt att titta på residualerna är att plotta

dem mot personernas identifikationsnummer.

Nedan till vänster ser vi att residualerna tenderar att vara större på den positiva sidan (=

personer som har dött) än på den negativa (= personer som lever). Detta skulle kanske kunna

tas som en indikation på att vår modell har bättre specificitet än sensitivitet.

På samma sätt kan vi plotta DfBeta(s) mot id-nummer och se efter så att inga värden

”sticker iväg”. Nedan till höger visas DfBeta för koefficienten för effekten av systoliskt

blodtryck. Det ser bra ut – de flesta värden grupperar sig kring noll och avvikelserna i positiv

och negativ riktning ser ut på ett liknande sätt.

3. Survival Analys med Cox Regression

I analyserna ovan med logistisk regression tog vi inte hänsyn hur lång tid det tog för dem som

dog att dö, vilket givetvis är en brist i analysen. Med survival analys, t.ex. Cox regression, kan

vi ta hänsyn till denna information och estimera hur olika faktorer påverkar risken att dö per

tidsenhet (≈ hazard).

Page 8: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

8

3.1 Fixa till tiden

Det är nog rätt

vanligt att man i

sitt dataset har

olika kolumner

som anger datum

för de olika

mätningarna och

händelserna. I det aktuella fallet har vi t.ex. en kolumn (date0) som anger datum för

uppföljningsperiodens början (olika för olika personer) samt en kolumn (date_event) som

anger datum man dött (för de som dött) alternativt datum för sista mätningen (för de som ej

dött). För att räkna fram tiden mellan dessa två datum: Transform → Compute Variable. I

rutan ”Target Variable” anger du den nya variabelns namn (t.ex. ”levtid”) och i rutan

”Numeric Expression” kör man in variabeln date_event genom att klicka i listan till vänster,

man skriver ett minustecken, och så kör man in variabeln date0. Den nya variabeln skulle nu

vara i sekunder, för att få det i dagar kan vi dividera skillnaden mellan de två datumen med

60*60*24 (= antalet sekunder per dag). Klicka på ”OK” och den nya variabeln levtid dyker

upp längst ut till höger i datasetet.

3.2 En första körning

Vi börjar med en analys av hur patienternas

ålder vid början av uppföljningsperioden

påverkar hazard för att de skall dö. För att

köra en Cox regression med tids-oberoende

prediktorer: Analyze → Survival → Cox

Regression. Kör in variabeln som anger tid

från baseline till död alternativt periodens slut

i rutan ”Time” och den dikotoma variabeln

som anger om man upplevt händelsen av

intresse (i vårt fall död) i rutan ”Status”, klicka

på ”Define Event” och ange vilket värde som

anger att man upplevt händelsen (i vårt fall 1). Klicka på ”Continue”. Tillbaka i ”huvudrutan”

kör vi in vår oberoende variabel (= prediktor) i rutan ”Covariates:”. Nu är vi redo att köra,

klicka på ”OK”.

Här ser vi att 72 patienter dött

under uppföljningsperioden. 625

personer har inte konstaterats döda, antingen för att de överlevt

hela perioden eller för att de

försvunnit ur studien. Patienter blir även censurerade om de dör

av fel anledning, t.ex. om man

skall analysera dödlighet i cancer och en patient dör i en bilolycka

(inte aktuellt i detta fall där det

handlar om ospecifik dödlighet).

Page 9: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

9

3.3 En andra körning (med hierarki, kategoriprediktor samt interaktion)

I den här analysen stoppar vi in prediktorer i

tre steg (1) I vilken utsträckning patienten

bedöms efterfölja sin behandling (skala 1-5);

(2) Vilken av fyra olika behandlingar patienten

erhåller (A-D, kategoriprediktor); (3)

Interaktionen mellan Efterlevnad och

Behandling. Kör in ”Efterlevnad” i rutan

”Covariates:” → Klicka på ”Next” ovanför

rutan → Kör in ”Behandling” → Klicka på

”Next” → Markera både Efterlevnad och

Behandling i rutan till vänster (klicka på den

ena och sedan på den andra medan du håller

ner Ctrl-tangenten) → Klicka på ”>a*b>”. För

att speca en kategori-prediktor: Klicka på

”Categorial” → Kör in kategori-prediktorn (i vårt fall Behandling) i rutan ”Categorial

Covariates:”. Vi ser att behandling D blir vår referenskategori (Last) och effekten av de andra

behandlingarna kommer att jämföras med effekten av behandling D. Klicka på ”Continue”. Vi

är redo att köra – klicka på ”OK”.

Den s.k. nollmodellen, där hazard för utfall (i vårt fall död) endast antas

påverkas av tid, har en -2LL på 928.143. När vi inkluderar även ålder som

prediktor sjunker -2LL med 4.133 (från 928.143 till 924.010) och detta är en signifikant förbättring av modellens förmåga att predicera hazard för död (p

= .042, lågt -2LL indikerar bra prediktiv förmåga).

Här ser vi att ln(hazard för död) ökar med 0.044 för varje års ökning i ålder, vilket innebär att för varje års ökning i ålder ökar hazard för död med 4.5% (eftersom e

0.044 = 1.045). Wald = (B/SE)

2 =

(0.044/0.021)2 = 4.313. Med stora stickprov har Wald en chi2-fördelning. Vi ser att vårt Wald-

värde är signifikant (p = .038) vilket säger oss att effekten av ålder på hazard är signifikant (vi

kan anta att det finns en sådan effekt i populationen som stickprovet representerar). Det verkar vara en relativt allmän uppfattning av sänkningen i -2LL är ett bättre signifikansmått än Wald,

men oftast indikerar de nog samma sak.

Page 10: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

10

Block 1: Method = Enter

Block 2: Method = Enter

Block 3: Method = Enter

Jämfört med nollmodellen sjunker -2LL med 1.153 när vi tar med Efterlevnad som en prediktor

av hazard för död, men denna förbättring är inte signifikant (p = .283). En ökning i Efterlevnad

med ett är associerad med en sänkning i hazard för död med 0.109, men även Wald visar att effekten inte är signifikant.

Inkluderandet av behandling leder till ensignifikant förbättring i modellens förmåga att predicera hazard för död (-2LL sjunker med 50.156, p < .001). I den undre tabellen ser vi att kontrollerat för

effekten av Efterlevnad har vi en signifikant huvudeffekt av Behandling (Wald = 34.961, p <

.001). Vi ser att kontrollerat för effekten av Efterlevnad och jämfört med behandling D (vår referenskategori) är hazard för död 2.388 gånger så hög bland dem som får behandling B (p =

.001) och 1 – 0.137 = 86.3% lägre bland dem som får behandling C (p < .001). Hazard för död är

16.8% lägre bland dem som får behandling A jämfört med behandling D, men denna skillnad är

inte signifikant (p = .597).

Nedan ser vi att inkluderandet av interaktionen mellan Behandling och Efterlevnad ytterligare

förbättrar modellens förmåga att predicera hazard för död (-2LL sjunker med 21.457, p < .001).

Vi kan alltså anta att effekten av Efterlevnad på hazard för död ser olika ut för de olika

behandlingarna. Detta ser vi även i den undre tabellen (Wald för interaktionen = 11.794, p = .008). Den undre tabellen säger oss att i referenskategorin (= behandling D) är en ökning i

Efterlevnad med ett associerad med en sänkning i hazard för död med 6%, men att denna effekt

inte är signifikant (p = .709). Jämfört med behandling D (referenskategorin) estimeras effekten av Efterlevnad vara signifikant mer negativ bland dem som får behandling A (p = .015) och

signifikant mer positiv bland dem som får behandling C (p = .027). Effekten av Efterlevnad på

hazard för död estimeras inte vara annorlunda bland dem som får behandling B jämfört med dem

som får behandling D (p = .027).

Page 11: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

11

Eftersom analysen ovan visade en signifikant interaktion mellan Behandling och Efterlevnad

vad gäller effekten på hazard för död är det en bra idé att kika på effekten av Efterlevnad

separat för de olika behandlingarna. Vi splittar alltså filen utifrån Behandling och analyserar

sedan den enkla effekten av Efterlevnad på hazard för död.

3.4 Tids-beroende prediktor

Ibland mäter man folks värden på en eller flera prediktorer vid flera tillfällen. Då kan man

utnyttja denna information genom att se om den senaste mätningen av prediktorn (snarare än

mätningen vid baseline) har något samband med hazard för händelse fram till nästa mätning.

Detta gör vi genom att köra en Cox regression med en (vi kan endast ha en åt gången) tids-

beroende prediktor. I det aktuella fallet har jag beräknat antalet dagar från baseline till första

uppföljningen (time1) samt från baseline till den andra uppföljningen (time2). Dessa avstånd

varierar från individ till individ. Här skall vi kika på effekten av systoliskt blodtryck (mätt tre

gånger per person) på hazard för död.

Här ser vi att för behandling A

är en ökning i efterlevnad med

ett associerad med en sänkning i hazard för död med 1 – 0.358

= 64.2%. Bra så. För

behandling C är dock en ökning i efterlevnad med ett

associerad med en drygt

sjufaldig ÖKNING i hazard

för död (verkar inte vara någon vidare behandling). För

behandling B och D har

efterlevnad inget signifikant samband med hazard för död

(p = .332 respektive .713).

Page 12: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

12

För att köra analysen:

Analyze → Survival → Cox

Regression w/ Time-Dep

Cov. I den första rutan skall

vi speca vår tids-beroende

prediktor. Vi ser att längst

upp i den vänstra rutan har

det dykt upp en ny variabel

som anger tiden (från baseline). Vi kan köra in denna variabel (liksom de andra variablerna) i

rutan ”Expression for T_COV:” genom att markera variabeln och klicka på pilen mellan

rutorna. I det aktuella fallet skriver vi så här i rutan ”Expression for T_COV:”:

(T_ < time1) * sbp0 + (T_ >= time1 & T_ < time2) * sbp1 + (T_ >= time2) * sbp2

Uttrycken inom parentes är logiska argument som antar värdet 1 (= sant) eller 0 (= falskt). Så

om vi befinner oss i tid mellan baseline och uppföljning 1 så antar argumentet följande värde:

1 * sbp0 + 0 * sbp1 + 0 * sbp2

Och detta blir ju det samma som det systoliska blodtrycket vid baseline. På samma sätt antar

argumentet samma värde som sbp1 (=systoliskt blodtryck vid den första uppföljningen) om

tidpunkten är mellan den första och den andra uppföljningen och samma värde som sbp2 om

vi befinner oss efter den andra uppföljningen. På detta sätt får vi ett mer finjusterat mått på

patienternas blodtryck och med stor sannolikhet högre power i vår analys av effekten av

blodtryck på hazard för död.

När vi specat vår tids-beroende prediktor klickar vi på ”Model”. Vi kommer till en

identisk Cox Regression-ruta som tidigare. Längst upp i rutan till vänster står vår ny-specade

tids-beroende prediktor (kallas för T_COV_). Vi kan använda denna som en prediktor av

hazard för händelse på samma sätt som övriga prediktorer. I det aktuella fallet har jag kört en

hierarkisk analys där jag lägger in systoliskt blodtryck (= T_COV_) efter ålder och så lägger

jag till interaktionen i steg tre.

Här ser vi att kontrollerat för

effekten av ålder har systoliskt

BT en nästan signifikant (p = .053) association med hazard

för död. För varje ökning i BT

med ett ökar hazard för död

med 1.1%. Vi ser att interaktionen inte heller är

långt ifrån att vara signifikant

(p = .100). Bland nyfödda (??) är en ökning i BT med ett

associerad med en ökning i

hazard för död med 31.2%. Denna association blir dock

svagare och svagare ju äldre

patienterna är.

Page 13: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

13

3.5 Diagnostik

Cox fullständiga namn är ju ”Cox proportional hazard model” vilket innebär att kvoten mellan

olika gruppers hazard antas vara den samma över hela tidsspannet (vissa menar dock att man

inte behöver vara alltför neurotisk över detta antagande). Ett sätt att diagnostisera detta är att

under ”Plots” i Cox-rutan be programmet skapa ett s.k. ”Log minus log”-diagram. Kör man in

sin grupperingsvariabel i rutan ”Separate Lines for:” så får man en linje för varje grupp

(funkar endast med kategoriprediktorer). I det aktuella fallet visas separata linjer för de fyra

olika behandlingsgrupperna. Vad vi vill att dessa linjer skall vara hyfsat parallella, avståndet

mellan dem skall alltså vara ungefär lika stort över hela tidsspannet och de bör absolut inte

korsa varandra. I det aktuella fallet ser det väldigt bra ut (kanske för att data är konstruerade).

För kontinuerliga prediktorer kan man be programmet plocka fram s.k. partiella residualer

(görs under ”Save”-knappen, här kan man även be om DfBeta(s)). Till skillnad från linjär

regression får vi ett residualmått per prediktor. I det aktuella fallet inkluderas endast ålder som

en prediktor av hazard för död. Vi plottar (Graphs → Legacy Dialogs → Scatter/Dot →

Simple Scatter; kör in överlevnadstid på X-axeln och residualerna på Y-axeln). Vi vill att

residualerna skall vara slumpmässigt fördelade omkring noll över hela tidsspannet – det ser

OK ut i det aktuella fallet.

Page 14: Risk Ratio, Odds Ratio, Logistisk Regression och …...fem frihetsgrader (p < .001) kan vi med stor säkerhet säga att modellen med prediktorer är bättre på att predicera odds

14

Ytterligare ett sätt för att

testa om hazard är

proportionell över hela

tidsspannet är att inkludera

en term för interaktion

mellan den aktuella

prediktorn och tid: Analyze

→ Survival → Cox

Regression w/ Time-Dep

Cov. Kör in Time i rutan ”Expression for T_COV:”, inget mer. Klicka på OK. I det aktuella

fallet har jag en modell där hazard för död prediceras utifrån behandling (A-D,

kategoriprediktor) samt interaktionen mellan behandling och T_COV_ (= tid). I tabellen ovan

ser vi att interaktionen inte är signifikant (p = .213) vilket indikerar att effekten av behandling

på hazard för död inte ändras över tid – gott så eftersom detta visar på en proportionell effekt.

På samma sätt kan man testa hypoteser om att effekten av en prediktor på hazard för händelse

varierar över tid, men då kanske man önskar sig att interaktionen blir signifikant.

Precis som vid linjär och

logistisk regression kan det vara bra att

kika även på DfBetas för att se så att

framräknade koefficienter inte

påverkats otillbörligt mycket av värden

från några få personer. Vi kan be

programmet att spara de olika

individernas DfBeta under Save-

knappen. Här har jag plottat DfBeta för

effekten av ålder på hazard för död mot

id-nummer. Vi ser att värdena

grupperar sig runt noll och att inget

värde sticker iväg, samt att vi har

ungefär lika många moderata avvikare

åt det positiva och det negativa hållet –

gott så.