conceitos bÁsicos em anÁlises de dados de …tarciana/mds/aula3.pdf · o as tabelas de vida são...

27
O passo inicial de qualquer análise estatística consiste em uma descrição dos dados através de análise descritiva (tabelas, medidas e gráficos). Como a presença de censura invalida esse tipo de tratamento aos dados de sobrevivência, o principal componente da análise descritiva é a função de sobrevivência. Dessa forma, o procedimento inicial é encontrar uma estimativa para a função de sobrevivência e, a partir dela, estimar as quantidades de interesse. Métodos não paramétricos para estimação da função de sobrevivência são fáceis de entender e aplicar. Eles são menos eficientes que os métodos paramétricos quando os tempos de sobrevivência seguem uma distribuição teórica e mais eficientes quando nenhuma distribuição teórica apropriada é conhecida. Na abordagem não paramétrica, a estimação é realizada sem que se faça nenhuma suposição sobre a distribuição de probabilidade do tempo de sobrevivência e assim não possui parâmetros a serem estimados. Iremos considerar dois estimadores não paramétricos: A tabela de vida e o estimador de Kaplan e Meier TÉCNICAS NÃO-PARAMÉTRICAS

Upload: doduong

Post on 26-Nov-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

O passo inicial de qualquer análise estatística consiste em uma descrição dos dados através de análise descritiva (tabelas, medidas e gráficos).

Como a presença de censura invalida esse tipo de tratamento aos dados de sobrevivência, o principal componente da análise descritiva é a função de sobrevivência.

Dessa forma, o procedimento inicial é encontrar uma estimativa para a função de sobrevivência e, a partir dela, estimar as quantidades de interesse.

Métodos não paramétricos para estimação da função de sobrevivência são fáceis de entender e aplicar.

Eles são menos eficientes que os métodos paramétricos quando os tempos de sobrevivência seguem uma distribuição teórica e mais eficientes quando nenhuma distribuição teórica apropriada é conhecida.

Na abordagem não paramétrica, a estimação é realizada sem que se faça nenhuma suposição sobre a distribuição de probabilidade do tempo de sobrevivência e assim não possui parâmetros a serem estimados.

Iremos considerar dois estimadores não paramétricos: A tabela de vida e o estimador de Kaplan e Meier

TÉCNICAS NÃO-PARAMÉTRICAS

o As tabelas de vida são usadas pelas companhias de seguros desde o século XVII.

o São procedimentos que mostram a estrutura do tempo de sobrevivência para grupos homogêneos de indivíduos quando esses tempos são submetidos a censura.

o Para construção da tabela de vida é necessário dividir o eixo do tempo em um certo número de intervalos.

o Suponha que o eixo do tempo seja dividido em s intervalos, ou seja, Ij=[tj-1,tj), para j=1,2,...,k em que t0=0 e tk=∞.

o Sejam:

dj = número de falhas no intervalo [tj-1,tj),

cj = número de censuras em [tj-1,tj) e

nj = número de observações sob risco (não falhou e não foi censurado) em tj-1.

TABELA DE VIDA

o A estimação de S(t) é feita da seguinte maneira:

1) Estimamos para cada um dos intervalos a probabilidade condicional de uma observação falhar no intervalo [tj-1,tj) sabendo que ela não falhou até tj-1, ou seja É importante citar que o número de censuras é dividido por dois pois observações para as quais a censura ocorreu no intervalo [tj-1,tj) são tratadas como se estivessem sob risco durante a metade do intervalo considerado.

2) Podemos construir estimadores para S(t) a partir de

3) Suponha que em um grupo tenhamos n pacientes no instante t=t0. Desses, aproximadamente não chegarão a t=t1 sem a ocorrência do evento de interesse.

4) Em consequência, ao final do primeiro período ainda estarão sob risco

5) Assim, temos que

TABELA DE VIDA

)|),[( 11 jjjj tTttTPq

2

ˆj

j

j

j cn

dq

jq

)ˆ( 0qn

)ˆ1( 0qn

00

1ˆ1

)ˆ1()(ˆ q

n

qntS

6) Analogamente, dos que chegam ao final desse período, chegarão ao final do terceiro período. Assim,

7) Em geral, para qualquer tempo t teremos

com j=1,...,s e

INTERPRETANDO: A função de sobrevivência é a probabilidade de uma observação não falhar até o tempo tj. Considere, por exemplo, que a probabilidade de um paciente sobreviver aos primeiros dois anos de um estudo é igual a probabilidade dele sobreviver ao primeiro ano e então sobreviver a mais um ano.

A representação gráfica da função de sobrevivência, chamada curva de sobrevivência, é uma função escada, com valor constante em cada intervalo de tempo.

TABELA DE VIDA

)ˆ1( 0qn )ˆ1)(ˆ1( 10 qqn

)ˆ1)(ˆ1()(ˆ 102 qqtS

j

i

ijj qqqqtS1

110 )ˆ1()ˆ1(...)ˆ1()ˆ1()(ˆ

0ˆ0 q

EXEMPLO 1: Um estudo clínico aleatorizado foi realizado para investigar o efeito da terapia com esteróide no tratamento de hepatite viral aguda. Vinte e nove pacientes com a doença foram aleatorizados para receber um placebo ou o tratamento com esteróide. Cada paciente foi acompanhado por 16 semanas ou até a morte (evento de interesse) ou até a perda de acompanhamento. Os tempos de sobrevivência observados, em semanas, para os dois grupos foram

GRUPO CONTROLE: 1+,2+,3,3,3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+

GRUPO ESTERÓIDE: 1,1,1,1+,4+,5,7,8,10,10+,12+,16+,16+,16+

Considere o grupo esteróide dividido em 4 intervalos: [0,5), [5,10), [10,15), [15,∞), construa a tabela de vida para os dados.

EXEMPLO 1: Construa a tabela de vida para o grupo controle. Compare o resultado com o do grupo esteróide.

o O estimador de Kaplan-Meier, também chamado estimador produto-limite, foi proposto por Kaplan e Meier em 1958 e é sem dúvida o mais utilizado em estudos clínicos.

o A expressão estimador produto refere-se ao fato de que a probabilidade de sobrevida até a data especificada é estimada considerando-se que a sobrevivência até cada tempo é independente da sobrevivência até outros tempos, e, em consequência, a probabilidade de se chegar até o tempo t é o produto da probabilidade de se chegar até cada um dos tempos anteriores.

o O estimador de Kaplan-Meier considera tantos intervalos de tempo quantos forem o número de falhas distintas e os limites dos intervalos são os próprios tempos de falha da amostra.

o O estimador de Kaplan-Meier apresenta a forma do estimador tabela de vida, mas utiliza um estimador ligeiramente diferente para qj.

ESTIMADOR DE KAPLAN-MEIER

o Suponha que existam n pacientes no estudo e k(≤n) falhas distintas nos tempos t1<t2<...<tk. Seja dj o número de falhas no tempo tj e nj o número de observações sob risco até o tempo tj (exclusive), ou seja, os indivíduos que não falharam e não foram censurados até o instante imediatamente anterior a tj.

o O estimador de Kaplan-Meier é, então, definido como:

o PRINCIPAIS PROPRIEDADES:

i. É o estimador de máxima verossimilhança de S(t),

ii. É não-viciado para amostras grandes,

iii. É fracamente consistente e

iv. Converge assintoticamente para um processo Gaussiano.

ESTIMADOR DE KAPLAN-MEIER

ttj j

j

ttj j

jj

jjn

d

n

dntS

::

1)(ˆ

EXEMPLO 1: GRUPO CONTROLE: 1+,2+,3,3,3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+

GRUPO ESTERÓIDE: 1,1,1,1+,4+,5,7,8,10,10+,12+,16+,16+,16+

Obtenha as estimativas de Kaplan-Meier para o grupo esteróide.

EXEMPLO 1:

o Todos os indivíduos estavam vivos em t=0 e se mantêm até a primeira morte que ocorre em t=1 semana.

o Então a estimativa de S(t) deve ser 1 neste intervalo compreendido entre 0 e 1 semana.

o No valor correspondente a 1 semana , a estimativa deve cair devido a três mortes que ocorrem neste tempo.

o No segundo intervalo, existem então 14 indivíduos que estavam sob risco antes de t=1 e 3 morrem.

o Desta forma, a estimativa da probabilidade condicional de morte neste intervalo é 3/14 e a probabilidade de sobreviver é 1-3/14.

o Observe, por exemplo, que , pois é uma função escada com saltos somente nos tempos de falha.

o A curva de sobrevivência é construída mantendo o valor estimado da função de sobrevivência constante entre os tempos de falha.

o Quando o maior tempo observado na amostra corresponder a uma censura, o gráfico não atinge o valor .

)5(ˆ)6(ˆ SS )(ˆ tS

0)(ˆ tS

EXEMPLO 1:

Figura 2.1: Estimativas de Kaplan-Meier para os dados de hepatite.

EXEMPLO 1: GRUPO CONTROLE: 1+,2+,3,3,3+, 5+, 5+, 16+, 16+, 16+, 16+, 16+, 16+, 16+, 16+

GRUPO ESTERÓIDE: 1,1,1,1+,4+,5,7,8,10,10+,12+,16+,16+,16+

Obtenha as estimativas de Kaplan-Meier para o grupo controle.

EXEMPLO 2:

Obtenha as estimativas de Kaplan-Meier para os dados de pacientes com aids.

EXEMPLO 2:

o Os estimadores tabela de vida e Kaplan-Meier são em geral similares. A grande diferença está no número de intervalos utilizados.

o A estimativa obtida pelo estimador de Kaplan-Meier é baseada, frequentemente, em um número maior de intervalos.

o É natural esperar que quanto maior o número de intervalos, melhor será a aproximação para a verdadeira distribuição do tempo de falha.

o Para o mecanismo de censura do tipo aleatório, as estimativas por Kaplan-Meier e Tabela de vida serão próximas mas não necessariamente coincidentes.

o Neste caso, alguns estudos mostram a superioridade do estimador de Kaplan-Meier.

ESTIMADOR DE KAPLAN-MEIER

o A partir da curva de Kaplan-Meier é possível obter estimativas de algumas quantidades de interesse, tais como tempo mediano e percentis.

o Como a curva de sobrevivência é uma função escada, as estimativas mais adequadas são obtidas por meio de interpolação linear.

o Para obter :

o Para obter o tempo mediano:

o Esta forma usualmente gera uma melhor representação da distribuição contínua do tempo de falha.

ESTIMAÇÃO DE QUANTIDADES BÁSICAS

)6(S

o De forma análoga pode-se obter estimativas de outros percentis da distribuição dos tempos de vida.

o Outra quantidade que pode ser de interesse é o tempo médio de vida.

o Uma estimativa pode ser obtida calculando-se a área (integral) sob a curva de Kaplan-Meier estimada.

o Como esta curva é uma função escada, esta integral é simplesmente a soma de áreas de retângulos.

o Em que t1<...<tk são os k tempos distintos e ordenados de falha.

ESTIMAÇÃO DE QUANTIDADES BÁSICAS

o Tal estimativa deve ser evitada se o maior tempo observado for censurado.

o Pois nesses casos a curva de sobrevivência não atinge o valor zero e o valor do tempo médio fica subestimado.

o Uma alternativa é usar a mediana ao invés do tempo médio de vida.

ESTIMAÇÃO DE QUANTIDADES BÁSICAS

Kapla-Meir:

ekm<-survfit(Surv(tempo, censura))

summary (ekm)

Curva de sobrevivência:

plot(ekm,conf.int=T, xlab="tempo",ylab="S(t) estimada")

Kapla-Meir com estratificação:

ekm<-survfit(Surv(tempo, censura) ~variável)

summary (ekm)

plot(ekm)

No R

o Exemplo 1: Pacientes com aids

tempo <- c(16, 18, 21, 21, 22, 25, 29, 35, 37,39, 40, 50, 52, 54, 60, 80, 80, 81, 83, 84, 85)

censura <- c(1,1,0,1,1,0,1,1,1,1,1,0,1,1,1,0,1,0,1,1,0)

y<- Surv(tempo,censura)

ekm<-survfit(y~1)

ekm

summary(ekm)

plot(ekm, xlab="tempo",ylab="S(t) estimada")

o Exemplo 2: Pacientes com hepatite

tempo<- c(1,2,3,3,3,5,5,16,16,16,16,16,16,16,16,1,1,1,1,4,5,7,8,10,10,12,16,16,16)

cens<-c(0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,1,1,1,1,0,0,0,0,0)

grupos<-c(rep(1,15),rep(2,14))

ekm<- survfit(Surv(tempos,cens)~grupos)

summary(ekm)

plot(ekm, lty=c(2,1), xlab="Tempo (semanas)",ylab="S(t) estimada")

legend(1,0.3,lty=c(2,1),c("Controle","Esteroide"),lwd=1, bty="n")

o Exemplo 3: Reincidência de tumor sólido

Deseja-se avaliar o tempo de reincidência de 10 pacientes com tumor sólido. Dos 10 pacientes, seis deles apresentaram reincidência em 3; 6.5; 6.5; 10; 12 e 15 meses de seus respectivos ingressos no estudo. Um deles perdeu o contato após 8.4 meses de acompanhamento e três deles permaneceram sem reincidência após 4; 5.7 e 10 meses de acompanhamento.

tempos<- c(3,4,5.7,6.5,6.5,8.4,10,10,12,15)

cens<- c(1,0,0,1,1,0,1,0,1,1)

ekm<- survfit(Surv(tempos,cens))

summary(ekm)

plot(ekm,conf.int=T, xlab="Tempo (em meses)", ylab="S(t) estimada", bty="n")

o Exemplo 3: Reincidência de tumor sólido

OBTENÇÃO TEMPO MÉDIO

t<- tempos[cens==1]

tj<-c(0,as.numeric(levels(as.factor(t))))

surv<-c(1,as.numeric(levels(as.factor(ekm$surv))))

surv<-sort(surv, decreasing=T)

k<-length(tj)-1

prod<-matrix(0,k,1)

for(j in 1:k){

prod[j]<-(tj[j+1]-tj[j])*surv[j]

}

tm<-sum(prod)

tm

o O problema de comparação de distribuições de sobrevivência surge com frequência em estudos de sobrevivência.

o Por exemplo, pode ser de interesse comparar dois tratamentos para uma determinada doença.

o Um caminho simples é a observação do gráfico das funções de sobrevivência estimadas.

o Contudo esse gráfico fornece apenas uma idéia aproximada da diferença entre essas distribuições.

o Ele não revela se as diferenças são significativas.

o Para comparar as curvas de sobrevivência mais formalmente, podemos recorrer a TESTES DE HIPÓTESES.

COMPARAÇÃO DE CURVAS DE SOBREVIVÊNCIA

TESTE LOG-RANK:

o Compara a distribuição da ocorrência dos eventos observados em cada estrato com a distribuição que seria esperada se a incidência fosse igual em todos os estratos.

o Se a distribuição observada for equivalente à distribuição esperada, dizemos que a curva de sobrevivência dos pacientes pertencentes ao estrato é equivalente à curva de sobrevivência dos pacientes em geral (a covariável não tem efeito na sobrevida.

o Realização do teste:

1) Hipótese nula: não há diferença entre estratos.

2) Estima-se o número de eventos esperados para cada estrato k, segundo a hipótese nula de incidência igual em cada estrato.

COMPARAÇÃO DE CURVAS DE SOBREVIVÊNCIA

o N(t) é o número total de eventos observados.

o Rk(t) é o número de pessoas em risco no estrato k.

o R(t) é o número total de pessoas em risco no estudo no tempo t.

3) Calcula-se a estatística de teste:

COMPARAÇÃO DE CURVAS DE SOBREVIVÊNCIA

o OBSERVAÇÃO: Quando apenas dois estratos estão sendo comparados, a estatística log-rank é calculada utilizando-se os dados de apenas um dos estratos. O resultado do teste para um estrato se estende ao outro estrato por simetria.

o A generalização do teste de log-rank para mais de dois estratos não é complicada.

COMPARAÇÃO DE CURVAS DE SOBREVIVÊNCIA

o survdiff(Surv(tempos,censura)~grupos,rho=0)

o EXEMPLO: Dados de Hepatite

tempo<- c(1,2,3,3,3,5,5,16,16,16,16,16,16,16,16,1,1,1,1,4,5,7,8,10,10,12,16,16,16)

cens<-c(0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,1,1,1,1,0,0,0,0,0)

grupos<-c(rep(1,15),rep(2,14))

survdiff(Surv(tempo,cens)~grupos,rho=0)

No R

TESTE PETO:

COMPARAÇÃO DE CURVAS DE SOBREVIVÊNCIA

o A variância da estatística de Peto é igual a variância do log-rank, onde a cada tempo se pondera pelo quadrado da função de sobrevida.

o survdiff(Surv(tempos,censura)~grupos,rho=1)

o EXEMPLO: Dados de Hepatite

survdiff(Surv(tempo,cens)~grupos,rho=1)

No R