an´alise de sobrevivˆencia - introdução - curso...

39
An´ alise de Sobrevivˆ encia Valeska Andreozzi 15 de fevereiro de 2008 Referˆ encias 2 Referˆ encias ............................................................. 3 O tempo 4 O tempo .............................................................. 5 Censura ............................................................... 9 Coorte aberta .......................................................... 15 Registro do tempo ....................................................... 16 Truncamento .......................................................... 17 Processo de contagem .................................................... 18 Dados ............................................................... 24 No R ................................................................ 26 Fun¸c˜oesdesobrevida 27 Densidade de probabilidade ................................................. 31 Sobrevida ............................................................. 34 Risco ................................................................ 40 Risco Acumulado ....................................................... 46 Rela¸ oes ............................................................. 48 Estima¸c˜ ao N˜ ao-Param´ etrica 49 Kaplan-Meier .......................................................... 51 Nelson-Aalen .......................................................... 55 IC .................................................................. 56 No R ................................................................ 59 KM estratificado ........................................................ 62 Testes ............................................................... 64 Log-rank (ou Mantel-Haenszel) .............................................. 65 Teste log-rank ......................................................... 66 Teste de Peto .......................................................... 67 No R ................................................................ 68 Modelo de Cox 70 Riscos Proporcionais ..................................................... 71 Modelo de Cox ......................................................... 74 Estima¸ ao ............................................................ 75 Exemplo TMO ......................................................... 79 No R ................................................................ 81 1

Upload: vantruc

Post on 08-Feb-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Analise de Sobrevivencia

Valeska Andreozzi

15 de fevereiro de 2008

Referencias 2Referencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

O tempo 4O tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9Coorte aberta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15Registro do tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Truncamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Processo de contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24No R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Funcoes de sobrevida 27Densidade de probabilidade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31Sobrevida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34Risco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40Risco Acumulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46Relacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Estimacao Nao-Parametrica 49Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Nelson-Aalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56No R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59KM estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64Log-rank (ou Mantel-Haenszel) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65Teste log-rank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66Teste de Peto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67No R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

Modelo de Cox 70Riscos Proporcionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71Modelo de Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74Estimacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75Exemplo TMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79No R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

1

Page 2: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Selecionando modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82Medida Global de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85Modelo de Cox estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91Exemplo TMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

Analise de resıduos 94Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96Resıduo de Shoenfeld. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97Exemplo TMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99Correlacao linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100O que fazer? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101Resıduos Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102Resıduos escore. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105Exemplo TMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

2

Page 3: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Referencias slide 2

Referencias

■ Kleinbaum, D., & Klein, M. Survival analysis : a self-learning text. Springer, 1997.

■ Therneau, T. M., & Grambsch, P. M. Modeling survival data: extending the Cox model. Springer,2000.

■ Andersen, P. K., Borgan, O., Gill, R. D., & Keiding, N.. Statistical Models Based on CountingProcesses. Springer, 1993.

■ Carvalho, M. S., Andreozzi, V. L., Codeco, C, T., Barbosa, M. T. S. & Shimakura, S. E. Analise deSobrevida: teoria e aplicacoes em saude. Editora Fiocruz. Rio de Janeiro, 2005http://dengue.procc.fiocruz.br/ sobrevida/index.html

CEAUL Valeska Andreozzi – slide 3

O tempo slide 4

O tempo

Tempo ate...

■ obito

■ transplante

■ doenca

■ cura

CEAUL Valeska Andreozzi – slide 5

Medir o tempo

Tempo de sobrevida (em meses) de 10 pacientes em dialise.

Paciente (i) Tempo (Ti)1 222 63 124 435 236 107 358 189 3610 29

CEAUL Valeska Andreozzi – slide 6

3

Page 4: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Representar o tempo

0 10 20 30 400

24

68

10

Meses

Pac

ient

es1

23

45

67

89

10

X

X

X

X

X

X

X

X

X

X

Cada linha representa a trajetoria de um paciente e o sımbolo X indica a ocorrencia do evento ou falha.

CEAUL Valeska Andreozzi – slide 7

Informacao incompleta

■ obito por outras causas – morte do paciente por causas externas;

■ termino do estudo;

■ perda de contato – mudanca de residencia;

■ recusa em continuar participando;

■ mudanca de procedimento;

■ abandono devido a efeitos adversos de tratamento;

■ desconhecimento da data de inıcio – em pacientes HIV+ com data de infeccao desconhecida;

■ dados truncados – prevalentes.

Censura e truncamento

CEAUL Valeska Andreozzi – slide 8

Mecanismos de censura

■ Censura a direita

■ Censura a esquerda

■ Censura intervalar

CEAUL Valeska Andreozzi – slide 9

4

Page 5: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Censura a direita

O tempo entre o inıcio e o evento e maior do que o tempo observado (T > t+)

Paciente (i) Tempo (Ti) Censura

1 22 12 6 03 12 14 43 05 23 16 10 17 35 18 18 09 36 110 29 1

CEAUL Valeska Andreozzi – slide 10

Graficamente

0 10 20 30 40

02

46

810

Meses

Pac

ient

es1

23

45

67

89

10

X

O

X

O

X

X

X

O

X

X

X indica ocorrencia do evento e O corresponde a presenca de censura.

CEAUL Valeska Andreozzi – slide 11

5

Page 6: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Censura a esquerda

Exemplo: Tempo decorrido entre a infeccao pelo HIV e o diagnostico imunologico de Aids (CD4<200celulas/mm3)

■ Censura a esquerda - Quadro AAcontece quando nao conhecemos o momento da ocorrencia do evento, mas sabemos que eleocorreu antes de um tempo determinado.Somente podemos afirmar que o tempo entre o exame positivo e a diagnostico imunologico e menordo que o tempo entre o exame negativo e o diagnostico clınico de Aids (T < t−)

Quadro B

Exame −

HIV

Exame +

Aids clínica

Quadro A

Exame −

HIV

Exame +

Aids clínica

CEAUL Valeska Andreozzi – slide 12

Censura intervalar

Exemplo: Tempo decorrido entre a infeccao pelo HIV e o diagnostico imunologico de Aids (CD4<200celulas/mm3)

■ Censura intervalar - Quadro BO momento em que ocorreu uma contagem de CD4<200 celulas/mm3 certamente se situa entre oexame positivo e a Aids clinicamente diagnosticada (t− < T < t+)

Quadro B

Exame −

HIV

Exame +

Aids clínica

Quadro A

Exame −

HIV

Exame +

Aids clínica

CEAUL Valeska Andreozzi – slide 13

6

Page 7: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Censura Informativa

■ NAO InformativaQuando nao ha razao para suspeitar que o motivo dessa perda de informacao esteja relacionado aodesfecho

■ InformativaEvitar ao maximo, pois implica vies de selecao interferindo na validade das estimativas.

CEAUL Valeska Andreozzi – slide 14

Coorte aberta

0 10 20 30 40

02

46

810

Meses

Pac

ient

es1

23

45

67

89

10

X

X

X

O

X

X

X

O

X

X

Trajetorias individuais de pacientes com censura e com diferentes tempos de entrada em observacao.

CEAUL Valeska Andreozzi – slide 15

7

Page 8: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Registro do tempo

Tempo de observacao de pacientes de uma coorte aberta.

Tempo∗ Tempo∗ Tempo∗∗ T CensuraPaciente

inicial (I) final (F) (final - inicial) (C)

1 0 22 22 12 15 21 6 13 0 12 12 14 25 47 22 05 10 33 23 16 0 10 10 17 0 35 35 18 12 30 18 09 3 39 36 110 15 34 19 1

∗Tempo calendario em meses∗∗Tempo decorrido (em meses)

CEAUL Valeska Andreozzi – slide 16

Truncamento

■ Truncamento a esquerdaocorre quando a perda da informacao esta relacionada a indivıduos que foram excluıdos do estudoporque ja tinham experimentado o evento antes do inıcio do estudo e nao podiam ser observados.(dados prevalentes)

■ Truncamento a direitaocorre quando o criterio de selecao dos indivıduos inclui somente aqueles que sofreram o evento.

CEAUL Valeska Andreozzi – slide 17

Processo de contagem

O par (Ti, Ci) e substituıdo por (Ni(t), Yi(t)), onde:

■ Ni(t) e o numero de eventos observados em [0, t]

■ Yi(t) = 1, se o indivıduo i esta sob observacao e em risco no instante t

■ Yi(t) = 0, se o indivıduo i nao esta em risco.

CEAUL Valeska Andreozzi – slide 18

8

Page 9: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Processo de contagem

Formalmente:

■ um processo de contagem e um processo estocastico N(t) com t > 0, de tal forma que N(0) = 0 eN(t) < ∞;

■ a trajetoria de N(t) e contınua a direita a partir de uma funcao escada com saltos de tamanhoigual a um;

■ a analise de sobrevida pode ser pensada como um processo de contagem onde N(t) e o numero deeventos observados ate o tempo t e dNi(t) e a diferenca entre a contagem de eventos ate oinstante t e a contagem no momento imediatamente anterior a t.

CEAUL Valeska Andreozzi – slide 19

Graficamente

0 10 20 30 40

Meses0 10 20 30 40

01

01

NA(t)

YA(t)

dN(t)

Paciente A: Diagnosticado nomes zero, acompanhado ateo mes 22. A ocorrencia doevento e assinalada pelo sinal•

CEAUL Valeska Andreozzi – slide 20

Graficamente

0 10 20 30 40

Meses0 10 20 30 40

01

01

N2(t

)Y

2(t)

dN(t)=0

o

0 10 20 30 40

Meses0 10 20 30 40

01

01

N4(t

)Y

4(t)

dN(t)=0

o

Trajetoria de dois pacientes censurados. No primeiro quadro ocorre censura aos 6 meses; no segundo ocorrecensura ao termino do estudo.

CEAUL Valeska Andreozzi – slide 21

9

Page 10: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Graficamente

0 10 20 30 40

Meses0 10 20 30 40

01

01

N2(t

)Y

2(t)

dN(t)

0 10 20 30 40

Meses0 10 20 30 40

01

01

N8(t

)Y

8(t)

dN(t)=0

o

Trajetoria de dois pacientes censurados que entraram na coorte ao longo do estudo.

CEAUL Valeska Andreozzi – slide 22

Qual o ganho?

■ Mudanca no valor de covariavel

■ Evento multiplos

■ Dados prevalentes

CEAUL Valeska Andreozzi – slide 23

Organizacao dos dados

Forma Classica (Ti, Ci)

id tempo (T ) censura (C) sexo idade

1 30 0 F 542 14 1 F 343 23 1 M 654 11 1 F 455 12 0 M 44

CEAUL Valeska Andreozzi – slide 24

10

Page 11: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Organizacao dos dados

Processo de Contagem (Ni(t), Yi(t))

id inicio (I) fim (F ) censura (C) sexo idade

1 0 30 0 F 542 5 19 1 F 343 3 26 1 M 65

. . . 0 11 1 F 45n 4 16 0 M 44

CEAUL Valeska Andreozzi – slide 25

Tempo de Sobrevida no R

■ O R aceita os dois formatos de registro do tempo de sobrevida.

■ O comando Surv() tem como funcao combinar, em uma unica variavel, a informacao referente aotempo de sobrevivencia de cada indivıduo e a informacao a respeito do status do paciente.

◆ Status = 1 (um), se ocorreu o evento

◆ Status = 0 (zero) se o tempo foi censurado

■ require(survival)

◆ Surv(tempo,status)

◆ Surv(inicio,fim,status)

> require (survival)

> Surv(ipec$tempo,ipec$status)

[1] 852 123 1145 2755+ 2117+ 329+ 60 151 1563

CEAUL Valeska Andreozzi – slide 26

11

Page 12: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Funcoes de sobrevida slide 27

Funcoes de sobrevida

■ Densidade de Probabilidade

■ Sobrevida

■ Risco (instantaneo)

■ Risco Acumulado

CEAUL Valeska Andreozzi – slide 28

Funcoes de sobrevida

■ Uma coorte de 50 pacientes com aids e acompanhada por 1460 dias, observando-se 32 obitos.

■ Medida resumo – taxa de mortalidade media do perıodo: 32/50 = 64%

Porem......Tempo de sobrevida de 32 pacientes com aids que morreram durante um estudo de coorte (medidoem dias).

858 123 490 60 151 329 514 84158 555 408 331 998 1125 54 151194 541 801 1450 134 18 371 17329 887 214 1100 3 116 688 780

CEAUL Valeska Andreozzi – slide 29

Perguntas

Mais do que o comportamento medio, a analise de sobrevida permite responder as seguintesperguntas:

■ Qual o risco de um paciente diagnosticado com aids vir a falecer em ate tres anos apos odiagnostico?

■ Qual a probabilidade de um paciente sobreviver por mais de dois anos apos o diagnostico de aids?

■ Qual seria o numero esperado de obitos em uma coorte de pacientes acompanhada por cincoanos?

CEAUL Valeska Andreozzi – slide 30

12

Page 13: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Funcao densidade de probabilidade

■ T – tempo de sobrevida (ate a ocorrencia de um evento);

■ T e uma variavel aleatoria contınua e positiva;

■ f(t) e a sua funcao de densidade de probabilidade;

■ a funcao f(t) pode ser interpretada como a probabilidade de um indivıduo sofrer um evento em umintervalo instantaneo de tempo.

f(t) = lim∆t→0

Pr(t ≤ T ≤ t + ∆t)

∆t

CEAUL Valeska Andreozzi – slide 31

Estimativa de probabilidade sem censura

Se nao houver censura, isto e, se todos os pacientes apresentarem o evento antes do fim do estudo, afuncao f(t) pode ser estimada a partir da tabela de frequencia.

Nesta tabela, os valores observados de T sao distribuıdos em classes e para cada classe x, calcula-sefx(t):

fx(t) =no de ocorrencias na classe x

(no total de ocorrencias) × (amplitude de x)

CEAUL Valeska Andreozzi – slide 32

Estimativa de probabilidade sem censura

Tabela de frequencia do tempo de sobrevida apos o diagnostico de aids de 50 pacientes

Classe (x) Freq f(t)

(0;365] 17 17/(50 × 365) = 0, 000930(365;730] 7 7/(50 × 365) = 0, 000383

(730;1095] 5 5/(50 × 365) = 0, 000274(1095;1460] 3 3/(50 × 365) = 0, 000164

1460+ 18 —

TOTAL 50

CEAUL Valeska Andreozzi – slide 33

13

Page 14: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Funcao de sobrevida

Qual e a probabilidade de um paciente com aids sobreviver 365 dias ou mais? Isto e, qual aprobabilidade de T ser maior do que um determinado valor t = 365? Ou, mais formalmente, qual ePr(T > 365)?

A funcao de sobrevida, S(t), e a probabilidade de um indivıduo sobreviver por mais do que umdeterminado tempo t.

S(t) = Pr(T ≥ t)

CEAUL Valeska Andreozzi – slide 34

Funcao de sobrevida

Relembrando: a funcao de distribuicao acumulada, F (t), de uma variavel aleatoria e definida como aprobabilidade de um evento ocorrer ate o tempo t.

F (t) = Pr(T < t)

Logo, S(t) e o complemento da funcao de distribuicao acumulada F (t):

S(t) = Pr(T ≥ t) = 1 − Pr(T ≤ t) = 1 − F (t)

CEAUL Valeska Andreozzi – slide 35

Estimando a sobrevida sem censura

Sx(tinf ) =no pacientes com T > tinf

no total de pacientes

em que tinf e o limite inferior do intervalo de tempo considerado x.

Fazendo as contas na planilha

CEAUL Valeska Andreozzi – slide 36

14

Page 15: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Estimando a sobrevidadados agrupados

Estimativa da funcao de sobrevida dos pacientes da coorte de aids a partir da tabela de frequencia

Classe (x) Freq f(t) S(t)

(0;365] 17 0,000930 S(0) =

(365;730] 7 0,000383 S(365) =

(730;1095] 5 0,000274 S(730) =

(1095;1460] 3 0,000164 S(1095) =

1460+ 18 — S(1460) =

TOTAL 50

CEAUL Valeska Andreozzi – slide 37

Estimando a sobrevidadados agrupados

Estimativa da funcao de sobrevida dos pacientes da coorte de aids a partir da tabela de frequencia

Classe (x) Freq f(t) S(t)

(0;365] 17 0,000930 S(0) = 1

(365;730] 7 0,000383 S(365) = 3350= 0, 66

(730;1095] 5 0,000274 S(730) = 2650= 0, 56

(1095;1460] 3 0,000164 S(1095) = 2150= 0, 42

1460+ 18 — S(1460) = 1850= 0, 36

TOTAL 50

CEAUL Valeska Andreozzi – slide 38

Perguntas

■ Qual e a probabilidade de um paciente sobreviver por mais de 1 ano?

■ Qual e a probabilidade dele sobreviver por mais de 3 anos?

■ Qual e o tempo mediano de sobrevivencia?

CEAUL Valeska Andreozzi – slide 39

15

Page 16: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Funcao de Risco

■ Qual e o risco de um paciente com aids vir a obito apos sobreviver 365 dias?

■ Esse risco de morrer aumenta ou diminui com o tempo?

λ(t) → probabilidade instantanea de um indivıduo sofrer o evento em um intervalo de tempo t e t + ǫdado que ele sobreviveu ate o tempo t.

Sendo ǫ infinitamente pequeno, λ(t) expressa o risco instantaneo de ocorrencia de um evento, dadoque ate entao o evento nao tenha ocorrido.

CEAUL Valeska Andreozzi – slide 40

Funcao de Risco

λ(t) = limǫ→∞

Pr((t < T < t + ǫ)|T > t)

ǫ

■ λ(t) tambem e denominada:

◆ funcao ou taxa de incidencia,

◆ forca de infeccao,

◆ taxa de falha,

◆ forca de mortalidade,

◆ forca de mortalidade condicional.

■ Apesar do nome risco, λ(t) e uma taxa (tempo−1).

■ Pode assumir qualquer valor positivo (nao e probabilidade).

CEAUL Valeska Andreozzi – slide 41

Funcao de Risco e de Sobrevida

λ(t) =f(t)

S(t)

λ(t) = −d ln(S(t))

dt

Sobrevida e risco sao inversamente proporcionais: quando o risco aumenta, a probabilidade desobrevida diminui e vice-versa.

CEAUL Valeska Andreozzi – slide 42

16

Page 17: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Estimando risco sem censura

λx(t) =no ocorrencias na classe x

Sx(t) × (amplitude de x)

Numero de eventos observados no intervalo de classe x pelo numero de pacientes sobreviventes noinıcio de x, dividido pela amplitude de x.

Uma maneira alternativa de estimar λ(t) e utilizar as relacoes entre S(t), f(t) e λ(t).

Planilha

CEAUL Valeska Andreozzi – slide 43

Comportamento do Risco

0 10 20 30 40

0.2

0.4

0.6

0.8

1.0

B

Tempo

Ris

co

0 10 20 30 40

24

68

10

C

Tempo

Ris

co

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

D

Tempo

Ris

co

0 10 20 30 40

0.01

0.02

0.03

0.04

E

Tempo

Ris

co

Funcao de risco com diversos formatos.

CEAUL Valeska Andreozzi – slide 44

17

Page 18: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Comportamento do Risco

0 10 20 30 40

0.02

00.

025

0.03

00.

035

0.04

00.

045

F

Tempo

Ris

co

Tempo

S(t

)

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

0 5 10 15 20 25

Funcao de risco com diversos formatos.

CEAUL Valeska Andreozzi – slide 45

Funcao de risco acumulado

■ Qual o risco de um paciente com aids vir a obito no primeiro ano apos o diagnostico?

■ Qual e o risco dele vir a obito nos primeiros 2 anos?

Λ(t) → funcao de risco acumulado.Mede o risco de ocorrencia do evento ate o tempo t.E a soma (integral) de todos os riscos em todos os tempos ate o tempo t.

Λ(t) =

∫ t

0λ(u)d(u)

Tambem e uma taxa, logo nao esta restrita ao intervalo [0; 1].

CEAUL Valeska Andreozzi – slide 46

Estimando risco acumulado sem censura

Λx(t) =k=x−1∑

k=2

λk(t) × amplitude de k

■ O risco acumulado ate o tempo t e igual a:

◆ o risco acumulado ate o tempo t − 1 mais

◆ o risco instantaneo do perıodo anterior vezes o intervalo de tempo ate t.

Planilha

CEAUL Valeska Andreozzi – slide 47

18

Page 19: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Relacao entre as funcoes basicasde sobrevida

S(t) = 1 − F (t)

λ(t) = −d ln(S(t))

dt

λ(t) =f(t)S(t)

λ(t) =f(t)

1 − F (t)

Λ(t) = − ln(S(t))

CEAUL Valeska Andreozzi – slide 48

Estimacao Nao-Parametrica slide 49

Estimacao Nao-Parametrica

■ estimadores de sobrevida e risco

■ Kaplan-Meier e Nelson Aalen

■ intervalos de confianca

■ Kaplan-Meier estratificado

■ testes de Log-Rank e Peto

Incorporando a censuraSem suposicoes sobre a distribuicao do tempo

CEAUL Valeska Andreozzi – slide 50

19

Page 20: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Kaplan-Meier

■ A probabilidade de sobrevida ate o tempo t e estimada considerando que a sobrevivencia ate cadatempo e independente da sobrevivencia ate outros tempos.

■ A probabilidade de chegar ate o tempo t e o produto da probabilidade de chegar ate cada um dostempos anteriores.

CEAUL Valeska Andreozzi – slide 51

Kaplan-Meier

■ Seja t1 < t2 < · · · < tm os tempos onde ocorreram os eventos;

■ Yi(t) = 1 se a pessoa i esta em risco no tempo t e 0 caso contrario.

■ R(ti) e o total de pessoas a risco no tempo ti.

■ A cada tempo ti em que houver um evento, a probabilidade de sobrevivencia sera o numero dos quesobreviveram ate aquele tempo (R(ti) − N(ti)) sobre os que estavam em risco naquele tempo(R(ti)).

■ O estimador da distribuicao S(t) e o produto das probabilidades de sobrevivencia a cada tempoti ≤ t.

CEAUL Valeska Andreozzi – slide 52

Kaplan-Meier

SKM (t) =

(

R(t1) − N(t1)

R(t1)

)

×

(

R(t2) − N(t2)

R(t2)

)

× · · ·

×

(

R(tm) − N(tm)

R(tm)

)

ou na forma de produtorio:

SKM (t) =∏

ti≤t

R(ti) − N(ti)

R(ti)

planilha

CEAUL Valeska Andreozzi – slide 53

20

Page 21: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Da sobrevida ao risco

ΛKM (t) = − ln SKM (t)

Logo.... pode-se estimar qualquer das funcoes.

CEAUL Valeska Andreozzi – slide 54

Estimador de Nelson-Aalen

ΛNA(t) =∑

ti≤t

N(ti)

R(ti)

Melhor para amostras muito pequenas

planilha

CEAUL Valeska Andreozzi – slide 55

Intervalos de confianca

Variancia do estimador Kaplan-Meier para a sobrevidaEstimador de Greenwood

V ar(SKM (t)) = (SKM (t))2∑

ti≤t

N(ti)

R(ti)(R(ti) − N(ti))

CEAUL Valeska Andreozzi – slide 56

21

Page 22: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Intervalos de confianca

Assumindo erro α, o intervalo fica assim:

[

SKM (t) − zα/2

V ar(SKM (t)); SKM (t) + zα/2

V ar(SKM (t))

]

Entretanto, este intervalo permite valores negativos e maiores do que 1, o que e incompatıvel com

distribuicao de probabilidade.

CEAUL Valeska Andreozzi – slide 57

Intervalos de confianca

Construindo intervalo simetrico para o risco – lnΛ(t) = ln(− lnS(t)) – pode-se obter um intervaloassimetrico para S(t), porem sempre positivo e menor do que 1.

[li; ls] =[

ln(ΛKM (t)) − zα/2dp; ln(ΛKM (t)) + zα/2dp]

onde dp e o desvio padrao e dado por:

dp =

ti≤tN(ti)

R(ti)(R(ti)−N(ti)){

ti≤t ln[

R(ti)−N(ti)N(ti)

]}2

CEAUL Valeska Andreozzi – slide 58

No R

■ Criando o objeto sobrevida (tempo, censura):

> Surv(tempo,status)

#variavel status=1 indica evento, 0 censura

16 18 21+ 21 22 25+ 29 35 37 39 40 50+ 52 54 60 80+ 80 81+ 83 84 85+

■ Kaplan-Meier

> KM <- survfit(Surv(tempo,status), data = ipec90)

> summary(KM)

> plot(KM)

■ Nelson-Aalen

> sob.NA <- survfit(coxph(y~1, data = ipec90))

> sob.NA

> summary(sob.NA)

CEAUL Valeska Andreozzi – slide 59

22

Page 23: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Saıdas do R – summary(KM)

time n.risk n.event survival std.err lowerCI upperCI

16 21 1 0.9524 0.0465 0.865 1.00

18 20 1 0.9048 0.0641 0.787 1.00

21 19 1 0.8571 0.0764 0.719 1.00

22 17 1 0.8067 0.0869 0.653 0.99

29 15 1 0.7529 0.0963 0.585 0.96

35 14 1 0.6992 0.1034 0.523 0.93

37 13 1 0.6454 0.1085 0.464 0.89

39 12 1 0.5916 0.1120 0.408 0.85

40 11 1 0.5378 0.1140 0.355 0.81

52 9 1 0.4781 0.1160 0.297 0.76

54 8 1 0.4183 0.1158 0.243 0.72

60 7 1 0.3585 0.1137 0.192 0.66

80 6 1 0.2988 0.1093 0.145 0.61

83 3 1 0.1992 0.1092 0.068 0.58

84 2 1 0.0996 0.0891 0.017 0.57

CEAUL Valeska Andreozzi – slide 60

Saıdas do R – plot(KM)

Funcao de sobrevida dos pacientes com aids, utilizando o estimador produto Kaplan-Meier.Os sımbolos + localizam as censuras.

0 20 40 60 80

0.0

0.2

0.4

0.6

0.8

1.0

Dias

S(t

)

CEAUL Valeska Andreozzi – slide 61

23

Page 24: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Kaplan-Meier estratificado

■ A sobrevivencia e estimada separadamente para cada estrato, utilizando Kaplan-Meier.

■ no R

> survaids <- survfit(Surv(tempo,status)~ sexo,

data = ipec)

> survaids

Call: survfit(formula = resp ~ sexo, data = ipec)

n events rmean se(rmean) median 0.95LCL 0.95UCL

sexo=F 49 16 2096 229 Inf 1371 Inf

sexo=M 144 74 1581 122 1116 887 1563

CEAUL Valeska Andreozzi – slide 62

Grafico sobrevida estratificada

0 500 1000 1500 2000 2500 3000

0.0

0.2

0.4

0.6

0.8

1.0

Dias

S(t

)

FemMasc

Curvas de sobrevida de pacientes com aids, estratificado por sexo. Estimacao por Kaplan-Meier, comintervalo de confianca de 95%.

CEAUL Valeska Andreozzi – slide 63

Testes

Hipotese nula: nao ha diferenca entre estratos

H0 : λ1(t) = λ2(t) = · · · = λk(t)

CEAUL Valeska Andreozzi – slide 64

24

Page 25: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Log-rank (ou Mantel-Haenszel)

Distribuicao esperada de eventos igual em todos os estratos:

ek(t) = N(t)Rk(t)

R(t)

Estatıstica de teste log-rank para dois estratos (k = 2):

Log-rank =(N1 − E1)

2

V ar(N1 − E1)

com N1 = total de eventos observados no estrato 1 e E1 = total de eventos esperados no estrato 1.

CEAUL Valeska Andreozzi – slide 65

Teste log-rank

A variancia, que entra no calculo como um fator de padronizacao, tem a formula (para k = 2):

V ar(N1 − E1) = vi

em que

vi =∑

ti

R1(ti)[R(ti) − R1(ti)]N(ti)[R(ti) − N(ti)]

R(ti)2[R(ti) − 1]

.

A estatıstica log-rank, sob a hipotese nula, segue uma distribuicao χ2 , com k − 1 graus de liberdade.

CEAUL Valeska Andreozzi – slide 66

Teste de Peto

Da maior peso as diferencas (ou semelhancas), no inıcio da curva, onde se concentra a maior partedos dados e por isso e mais informativa. Usa um ponderador S(t) no estimador.

Peto =(N1 − E1)

2

V ar(N1 − E1)

sendo que

N1 − E1 =

S(ti)(N1(ti) − E1(ti))∑

S(ti)

V ar(N1 − E1) =(∑

S(ti)(N1(ti) − E1(ti)))2

(S(ti))2vi

Tambem a estatıstica Peto segue aproximadamente uma distribuicao χ2 com k − 1 graus de liberdade.

CEAUL Valeska Andreozzi – slide 67

25

Page 26: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

No R

> survdiff(Surv(tempo,status)~sexo, data=ipec,rho=0)

Call:

survdiff(formula = Surv(tempo, status) ~ sexo, data=ipec, rho=0)

N Observed Expected (O-E)^2/E (O-E)^2/V

sexo=F 49 16 24.5 2.93 4.03

sexo=M 144 74 65.5 1.09 4.03

Chisq= 4 on 1 degrees of freedom, p= 0.0447

O argumento rho determina o tipo de teste a ser realizado. Para log-rank, use rho = 0 (default).Para o teste Peto, use rho = 1 .

CEAUL Valeska Andreozzi – slide 68

No R

> survdiff(Surv(tempo,status)~sexo, data=ipec,rho=1)

Call:

survdiff(formula = Surv(tempo, status) ~ sexo,

data = ipec, rho = 1)

N Observed Expected (O-E)^2/E (O-E)^2/V

sexo=F 49 12.1 18.2 2.011 3.54

sexo=M 144 55.1 49.0 0.746 3.54

Chisq= 3.5 on 1 degrees of freedom, p= 0.0598

CEAUL Valeska Andreozzi – slide 69

Modelo de Cox slide 70

Riscos Proporcionais

O modelo de regressao mais amplamente utilizado para dados de sobrevida ajusta a funcao de riscoλ(t), considerando um risco basal λ0(t) e incluindo o vetor de covariaveis x, de forma que:

λ(t|x) = λ0(t) exp(x1β1 + x2β2 + · · · + xpβp) = λ0(t) exp(xβ)

Ou seja, as covariaveis tem um efeito multiplicativo na funcao de risco.

CEAUL Valeska Andreozzi – slide 71

26

Page 27: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Riscos Proporcionais

A razao entre os riscos de ocorrencia do evento de dois indivıduos i e j, com covariaveisxi = (xi1, xi2, · · · , xip) e xj = (xj1, xj2, · · · , xjp) e:

λi(t|xi)

λj(t|xj)=

exp(xiβ)

exp(xjβ)

Observe que esta razao de riscos NAO varia ao longo do tempo – Modelo de Riscos Porporcionais

CEAUL Valeska Andreozzi – slide 72

Riscos Proporcionais

O modelo RP tambem pode ser escrito em termos da funcao de risco acumulado ou da funcao desobrevida:

Λ(t|x) = Λ0(t) exp(xβ)

S(t|x) = [S0(t)]exp(xβ)

O risco acumulado basal e Λ0(t) =∑

i: ti≤tNi(t)

j∈R(ti)exp(xjβ) e a sobrevida basal e dada por

S0(t) = exp[−Λ0(t)]

CEAUL Valeska Andreozzi – slide 73

Modelo de Cox

Partindo desta proporcionalidade, e possıvel estimar os efeitos das covariaveis sem qualquer suposicaoa respeito da distribuicao do tempo de sobrevida, e por isso o modelo de Cox e dito semi-parametrico:nao se assume qualquer distribuicao estatıstica para a funcao de risco basal, λ0(t).Os pressupostos:

■ As covariaveis agem multiplicativamente sobre o risco → parte parametrica do modelo.

■ A razao de riscos e constante ao longo de tempo → riscos proporcionais.

■ Os tempos de ocorrencia do evento sao independentes.

CEAUL Valeska Andreozzi – slide 74

Estimativa dos coeficientes

Para estimar os coeficientes da regressao parametrica, a funcao de verossimilhanca foi construıda apartir da funcao de densidade de probabilidade calculada nos tempos de ocorrencia do evento,multiplicada pela funcao de sobrevida calculada nos tempos de censura.

No Modelo de Cox o vetor de parametros β e estimado a partir de uma verossimilhanca parcial.De forma semelhante ao Kaplan Meier, considera-se apenas, a cada tempo t, a informacao dosindivıduos sob risco, estimando os efeitos das covariaveis no tempo de sobrevida.

CEAUL Valeska Andreozzi – slide 75

27

Page 28: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Verossimilhanca parcial

■ Considere m diferentes tempos ate a ocorrencia de um evento (sem empate), ordenados assim:t1 < t2 < . . . < tm.

■ A verossimilhanca individual, Li, e a razao entre o risco λi(ti) do indivıduo i falhar em ti e a somados riscos de ocorrencia de evento de todos os indivıduos em risco:

Li =λi(ti)

j∈R(ti)

λj(tj)

=exp(xiβ)

j∈R(ti)

exp(xjβ)

CEAUL Valeska Andreozzi – slide 76

Verossimilhanca parcial

■ Sob o processo de contagem a verossimilhanca individual e igual a

Li =exp(xiβ)

j

Yj(t) exp(xjβ)

■ com Yj(t) igual a 1 se o indivıduo j estiver em risco no tempo t e 0, caso contrario.

CEAUL Valeska Andreozzi – slide 77

Verossimilhanca Parcial

■ A verossimilhanca parcial L(β) = produto das Li

L(β) =

n∏

i=1

t≥0

Yi(t) exp(xiβ)∑

j

Yj(t) exp(xjβ)

dNi(t)

■ dNi(t) = diferenca entre a contagem de eventos ate o instante t e a contagem no momentoimediatamente anterior a t.

■ Numerador depende apenas da informacao dos indivıduos que experimentam o evento

■ Denominador utiliza informacoes a respeito de todos os indivıduos que ainda nao experimentaram oevento, incluindo aqueles que serao censurados mais tarde.

CEAUL Valeska Andreozzi – slide 78

28

Page 29: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Exemplo TMO

■ Avaliar os fatores prognosticos associados ao tempo de transplante de medula ossea TMO ate oobito nos pacientes com leucemia mieloide cronica tratados no INCA.

■ covariaveis:

◆ sexo,

◆ idade,

◆ fase da doenca no momento do transplante (fase),

◆ a ocorrencia ou nao de doenca enxerto contra hospedeiro aguda (deag) ou cronica (decr).

CEAUL Valeska Andreozzi – slide 79

Proporcionalidade

Curvas de KM para avaliar o pressuposto de proporcionalidade

0 200 400 600 800 1000

0.0

0.2

0.4

0.6

0.8

1.0

SEXO

Tempo

S(t

)

MascFem

0 200 400 600 800 1000

0.0

0.2

0.4

0.6

0.8

1.0

DECR

Tempo

S(t

)

comsem

0 200 400 600 800 1000

0.0

0.2

0.4

0.6

0.8

1.0

DEAG

Tempo

S(t

)

comsem

0 200 400 600 800 1000

0.0

0.2

0.4

0.6

0.8

1.0

FASE

Tempo

S(t

)

123

CEAUL Valeska Andreozzi – slide 80

29

Page 30: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

No R

> tmocens <- read.table("tmoclas.dat", header=T, sep=",")

> mod1 <- coxph(Surv(os,status)~idade+factor(sexo),

data=tmocens, x=TRUE)

> summary(mod1)

Call:

coxph(formula = Surv(os, status) ~ idade + factor(sexo),

data = tmocens, x = TRUE)

n= 96

coef exp(coef) se(coef) z p

idade -0.0186 0.982 0.0141 -1.32 0.19

factor(sexo)2 -0.3299 0.719 0.3219 -1.02 0.31

exp(coef) exp(-coef) lower .95 upper .95

idade 0.982 1.02 0.955 1.01

factor(sexo)2 0.719 1.39 0.383 1.35

Rsquare= 0.022 (max possible= 0.984 )

Likelihood ratio test= 2.16 on 2 df, p=0.34

Wald test = 2.11 on 2 df, p=0.348

Score (logrank) test = 2.11 on 2 df, p=0.348

CEAUL Valeska Andreozzi – slide 81

Selecionando modelos

■ Teste de Wald

■ Analise da funcao desvio

CEAUL Valeska Andreozzi – slide 82

Comparando quatro modelos

> anova(mod1,mod2,mod3,mod4,test="Chisq")

Analysis of Deviance Table

Model 1: Surv(os, status) ~ idade + factor(sexo)

Model 2: Surv(os, status) ~ idade + factor(sexo) + factor(fase)

Model 3: Surv(os, status) ~ idade + factor(sexo) + factor(fase) +

Model 4: Surv(os, status) ~ idade + factor(sexo) + factor(fase) +

Resid. Df Resid. Dev Df Deviance P(>|Chi|)

1 94 395.93

2 92 380.78 2 15.14 0.0005146

3 91 366.67 1 14.11 0.0001726

4 90 358.20 1 8.47 0.0036015

CEAUL Valeska Andreozzi – slide 83

30

Page 31: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Selecionando Modelos

■ A funcao desvio e assintoticamente semelhante a estatıstica de Wald quando o numero deobservacoes e grande.

■ Para numero de observacoes pequenos, a analise da funcao desvio e mais robusta.

■ Outra ressalva a respeito de valores ausentes. Caso eles existam para algumas variaveis incluıdas emalguns modelos, mesmo que aninhados, os modelos perdem a comparabilidade.

CEAUL Valeska Andreozzi – slide 84

Medida Global de Ajuste

■ R2 – poder explicativo das covariaveis no tempo de ocorrencia do evento em estudo.

R2LR = 1 − {L(0)/L(β)}2/n

= 1 − exp(2{l(0) − l(β)}/n) (1)

■ L(0) e a funcao de verossimilhanca do modelo nulo,

■ L(β) a funcao de verossimilhanca sob o modelo ajustado,

■ l(0) e l(β) sao, respectivamente, os logaritmos neperianos de L(0) e L(β).

■ Valor mınimo possıvel de R2 e zero quando L(0) = L(β)

■ Valor maximo nao e 1 (ou 100%), mas a razao entre as verossimilhancas do modelo saturado e domodelo nulo.

CEAUL Valeska Andreozzi – slide 85

Medida Global de Ajuste

% Var.Modelo ln(Verossimil.) R2

Explicada∗

Nulo -199,0424 0,000 0,0%Saturado -0,2670 0,984 100,0%M1: Idade+Sexo -197,9626 0,022 2,2%M2: Mod1+Fase -190,3905 0,165 16,8%M3: Mod2+deag -183,3364 0,279 28,4%M4: Mod3+decr -179,0992 0,340 34,6%

∗ R2modelo/R2

saturado

CEAUL Valeska Andreozzi – slide 86

31

Page 32: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Medida Global de Ajuste

Grafico de sobrevida estratificado por ındice de prognostico (IP)

■ IP e o preditor linear do modelo de Cox, xβ, calculado para cada indivıduo usando as covariaveisobservadas e as estimativas dos coeficientes de regressao do modelo ajustado.

■ Os indivıduos sao estratificados em grupos de tamanhos aproximadamente iguais (grupos de alto,medio e baixo IP)

■ Os valores medios de cada uma das covariaveis dentro de cada grupo sao utilizados para obtencaode curvas de sobrevida sob o modelo ajustado.

■ Espera-se, se o modelo for razoavel, que o grafico das curvas ajustadas pelo modelo em cadaestrato sejam proximas das estimadas por Kaplan-Meier.

CEAUL Valeska Andreozzi – slide 87

Medida Global de Ajuste

■ Assumindo modelo mod4

■ Indivıduo 1: sexo masculino (sexo = 0) com 56 anos (idade = 56), na fase intermediaria (fase2= 1 e fase3 = 0), com manifestacao de doenca do enxerto aguda (deag=1, decr=0)

βidade ×56= −0, 0044×56 = −0, 2469βsexo ×0 = −0, 2260×0 = 0βfase2 ×1 = 0, 6413 ×1 = 0, 6413βfase3 ×0 = 1, 0279 ×0 = 0βdeag ×1 = 1, 2530 ×1 = 1, 2530βdecr ×0 = −0, 9775×0 =0———————Soma = 1, 6474

CEAUL Valeska Andreozzi – slide 88

Medida Global de Ajuste

■ Assumindo modelo mod4

■ Indivıduo 2: sexo feminino (sexo = 1) com 20 anos (idade = 20), na fase avancada (fase2 = 0

e fase3 = 1) com manifestacao de doenca do enxerto aguda (deag=1, decr=0)

βidade ×20= −0, 0044 ×20 = −0, 0882βsexo ×1 = −0, 2260 ×1 = −0, 2260βfase2 ×0 = 0, 6413 ×0 = 0βfase3 ×1 = 1, 0279 ×1 = 1, 0279βdeag ×1 = 1, 2530 ×1 = 1, 2530βdecr ×0 = −0, 9775 ×0 = 0———————Soma = 1, 9667

CEAUL Valeska Andreozzi – slide 89

32

Page 33: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Medida Global de Ajuste

Grafico de sobrevida estratificado por ındice de prognostico para os quatro modelos. Linha solidarepresenta o modelo ajustado e linha pontilhada a estimativa de Kaplan-Meier.

0 100 200 300 400 500 600

0.0

0.2

0.4

0.6

0.8

1.0

M1

Tempos1

0 100 200 300 400 500 600

0.0

0.2

0.4

0.6

0.8

1.0

M2

Tempo

s1

0 100 200 300 400 500 600

0.0

0.2

0.4

0.6

0.8

1.0

M3

Tempo

s1

0 100 200 300 400 500 600

0.0

0.2

0.4

0.6

0.8

1.0

M4

Tempos1

CEAUL Valeska Andreozzi – slide 90

Modelo de Cox estratificado

■ Assume que o risco basal – λ0(t) varia de acordo com o estrato de uma covariavel

■ Utilizado quando alguma variavel nao atende ao pressuposto de proporcionalidade de riscos oudevido as caracterısticas do proprio estudo

■ Com s estratos, o modelo estratificado para o estrato j e definido por:

λj(t) = λ0j(t) exp(xβ), j = 1, · · · , s.

Neste modelo assume-se que os coeficientes de regressao sao os mesmos em todos os estratos,embora o risco de base varie.No R

> m <- coxph(Surv(tempo,status) ~ covariaveis +

strata(var), data=dados)

CEAUL Valeska Andreozzi – slide 91

33

Page 34: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Exemplo TMO

Modelo sem estratificacao por doenca cronica

Call:

coxph(formula = Surv(os, status) ~ idade + sexo + fase +

deag + decr, data = tmo, x = T)

[...]

exp(coef) exp(-coef) lower .95 upper .95

idade 0.996 1.004 0.967 1.025

sexo2 0.798 1.254 0.415 1.532

fase2 1.899 0.527 0.908 3.972

fase3 2.795 0.358 0.996 7.844

deag1 3.501 0.286 1.831 6.693

decr1 0.376 2.658 0.193 0.733

Observe que a doenca cronica exerce efeito protetor importante.

CEAUL Valeska Andreozzi – slide 92

Exemplo TMO

Modelo com estratificacao por doenca cronica

Call:

coxph(formula = Surv(os, status) ~ idade + sexo + fase + deag +

strata(decr), data = tmo, x = T)

[...]

exp(coef) exp(-coef) lower .95 upper .95

idade 0.992 1.008 0.964 1.02

sexo2 0.800 1.250 0.420 1.52

fase2 2.051 0.487 0.977 4.31

fase3 2.356 0.424 0.845 6.57

deag1 3.327 0.301 1.735 6.38

■ efeitos estimados sao semelhantes nos dois modelos

■ mas os intervalos de confianca do modelo estratificado sao em geral ligeiramente maiores.

CEAUL Valeska Andreozzi – slide 93

Analise de resıduos slide 94

Objetivo

Os aspectos a investigar com a analise de resıduos sao:

■ a proporcionalidade do risco;

■ a linearidade (na verdade log-linearidade) da relacao entre razao de risco e variavel independente,chamada de forma funcional;

■ valores aberrantes (outlier);

■ pontos influentes, tambem chamados pontos de alavanca.

CEAUL Valeska Andreozzi – slide 95

34

Page 35: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Resumo

Para Fazer

Verificar a proporcionali-dade global

teste de proporcionalidadeglobal (cox.zph)

Verificar a proporcionali-dade de cada variavel

Graficos do resıduo de Schoen-feld contra o tempo

Estudar a forma funcionalda variavel

Graficos do resıduo de martin-gale do modelo nulo versus co-variavel

Linearizar a forma fun-cional nao-linear

Alisamento spline(pspline()) da covariavel nomodelo

Avaliar efeito de valoresaberrantes

Graficos de resıduos escore egraficos do resıduo martingalepara cada indivıduo

CEAUL Valeska Andreozzi – slide 96

Resıduo de Shoenfeld

■ O grafico dos resıduos padronizados de Schoenfeld contra o tempo de sobrevida permite verificar seestes estao distribuıdos igualmente ao longo do tempo, ou se aparece uma forma sugestiva de naoproporcionalidade

■ Se a premissa de riscos proporcionais nao e violada, entao espera-se que a reta igual a estimativa docoeficiente esteja dentro dos intervalos de confianca do alisamento lowess dos resıduos.

CEAUL Valeska Andreozzi – slide 97

35

Page 36: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Resıduo de Shoenfeld

Resıduos de Schoenfeld para o modelo m4

Time

Bet

a(t)

for

idad

e

42 71 84 130 210 280 420 480

−0.

2−

0.1

0.0

0.1

0.2

Time

Bet

a(t)

for

sexo

Mas

c

42 71 84 130 210 280 420 480

−4

−2

02

4

Time

Bet

a(t)

for

fase

2

42 71 84 130 210 280 420 480

−4

−2

02

46

8

Time

Bet

a(t)

for

fase

3

42 71 84 130 210 280 420 480

−5

05

1015

CEAUL Valeska Andreozzi – slide 98

Exemplo TMO

Resıduos de Schoenfeld para o modelo m4

Time

Bet

a(t)

for

deag

1

42 71 84 130 210 280 420 480

−2

02

4

Time

Bet

a(t)

for

decr

1

42 71 84 130 210 280 420 480

−4

−2

02

4

No R

> residuo.sch <- cox.zph(modelo)

> par(mfrow=c(3,2))

> plot(residuo.sch)

CEAUL Valeska Andreozzi – slide 99

36

Page 37: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Correlacao linear

Pode-se testar a presenca de correlacao linear entre o tempo de sobrevida e o resıduo. Sob a hipotesenula e de correlacao igual a zero, temos que a distribuicao do teste e uma qui-quadrado.Exemplo TMO

> m4.zph

rho chisq p

idade -0.0674 0.2547 0.6138

sexo2 -0.2260 2.8393 0.0920

fase2 -0.0317 0.0617 0.8039

fase3 0.2063 2.8416 0.0919

deag1 -0.0147 0.0117 0.9137

decr1 0.3341 6.4078 0.0114

GLOBAL NA 13.1118 0.0413

CEAUL Valeska Andreozzi – slide 100

O que fazer?

O que fazer com a nao proporcionalidade dos riscos

■ verificar se a nao proporcionalidade e importante

■ estratificar o modelo pela respectiva covariavel

■ particionar o eixo do tempo, analisando cada trecho em que ha proporcionalidade, separadamente.

■ usar outro tipo de modelo. Exemplo: modelos de tempo de vida acelerado

CEAUL Valeska Andreozzi – slide 101

Resıduos Martingale

Sao uteis na avaliacao da qualidade de ajuste do modelo em duas situacoes importantes:

■ Resıduo de Martingale versus ındice do indivıduo:permite revelar indivıduos mal ajustados pelo modelo;

■ Resıduo de Martingale do modelo nulo (sem covariaveis) versus covariavel com a superposicao deuma curva de alisamento:sugere a forma funcional de uma covariavel contınua.

CEAUL Valeska Andreozzi – slide 102

37

Page 38: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Exemplo TMO

0 20 40 60 80

−2.

0−

1.0

0.0

1.0

(a)

Índice

Res

íduo

Mod

Aju

stad

o

SuaveCom outlier

10 20 30 40 50

−0.

50.

00.

51.

0

(b)

Idade

Res

íduo

Mod

Nul

o

■ As setas no quadro (a) indicam indivıduos cujo tempo e menor que o esperado, dadas as covariaveis. A idade (b)parece ter uma relacao nao-linear com o tempo de sobrevida

■ Em caso de suspeita de nao-linearidade da covariavel x, podemos incluir no modelo de Cox uma funcao de alisamento.

CEAUL Valeska Andreozzi – slide 103

Martingale no R

> res.mart <- resid(modelo,type="martingale")

> res.nulo <- resid(modelo.nulo,type="martingale")

> plot(res.mart,xlab="Indice", ylab="Resıduo")

> abline(h=0,lty=2)

> plot(banco$variavel,res.nulo)

> lines(lowess(banco$variavel,res.nulo,iter=0),lty=2)

> lines(lowess(banco$variavel,res.nulo),lty=3)

> legend(locator(1),lty=c(2,3),

legend=c("Com outlier","Sem outlier"))

CEAUL Valeska Andreozzi – slide 104

Resıduos escore

■ Uteis para verificar a influencia de cada observacao no ajuste do modelo e para estimacao robustada variancia dos coeficientes de regressao.

■ Para cada indivıduo i pode-se calcular a diferenca entre o vetor de covariaveis estimado pelomodelo e o mesmo estimado sem o indivıduo i: ∆β, que e aproximadamente igual a matriz deresıduos escore.

■ O grafico do resıduo escore para cada covariavel ∆βk versus xj revela os pontos de influencia, ouseja, os indivıduos que influenciam fortemente a estimativa do parametro de cada covariavel.

> res.esco <- resid(modelo,type="dfbetas")

CEAUL Valeska Andreozzi – slide 105

38

Page 39: An´alise de Sobrevivˆencia - Introdução - Curso GLMcurso-glm.wdfiles.com/local--files/sobrevida/sobrevidahandouts.pdf · Referˆencias slide 2 Referˆencias ... Qual o risco de

Exe

mplo

TM

O

Resıd

uos

escorepara

om

odelo

m4

(TM

O)

1020

3040

50

−0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

Idade

Resíduos

Fem

Masc

−0.4 −0.3 −0.2 −0.1 0.0 0.1 0.2

Sexo

Resíduos

CEAU

LValeska

Andreozzi

–slid

e106

Exe

mplo

TM

O

12

3

−0.4 −0.2 0.0 0.2 0.4

Fase

Resíduos

01

−0.2 −0.1 0.0 0.1 0.2

Doença A

guda

Resíduos

01

−0.3 −0.2 −0.1 0.0 0.1 0.2 0.3

Doença C

rônica

Resíduos

CEAU

LValeska

Andreozzi

–slid

e107

39