notiuni de statistica - cristian baicus datelor.pdf · incertitudinea statistica • incertitudinea...

ANALIZA DATELOR

C. Băicuş, 2009

De ce avem nevoie de statistică?

Vrem sa tragem concluzii cât mai valide din

cantităţi limitate de date.

• Diferenţe importante sunt deseori mascate

de variabilitatea biologică şi/sau imprecizia

experimentală

• Mintea umană excelează în găsirea de tipare

şi relaţii, dar tinde să generalizeze în exces.

• Calculele statistice

extrapolează de la eşantion la

populaţie• În cercetarea biomedicală se presupune că

populaţia este infinită, sau cel puţin foarte

mare în comparaţie cu eşantionul nostru.


• Control de calitate

O fabrică de cămăşi: se extrage la întâmplare

un eşantion din întreaga populaţie de

cămăşi, iar concluziile legate de calitatea

eşantionului se extrapolează la toată

producţia.


• Sondajul politic

Se extrage la întâmplare un eşantion de

votanţi, iar rezultatul se extrapolează la

întreaga populaţie de votanţi


• Studii clinice

Eşantionul de pacienţi studiat este rareori

extras la întâmplare. Totuşi, pacienţii incluşi

în studiu sunt reprezentativi pentru alţi

pacienţi similari, iar extrapolarea de la

eşantion la populaţie se poate face.


Tipuri de variabile

• Variabila = orice calitate, caracteristică sau

constituent al unei persoane sau lucru, care

poate fi măsurat

• toată cercetarea medicală = studiul relaţiilor

dintre variabile

• cercetătorii medicali sunt interesaţi de

studierea fie a asociaţiilor, fie a diferenţelor

dintre variabile.

• Variabile nominale

– variabile sub formă de nume sau alte simboluri

reprezentînd categorii ce nu pot fi ordonate una

în raport cu cealaltă

– numele, grupa sanguină, sexul, rasa, culoarea

ochilor, diagnosticul etc.

– variabile dihotomice (binare, bimodale) =

variabile ce nu pot lua decât două valori

• mort/viu, fumător/nefumător, prezent/absent,

normal/anormal - DA/NU

Tipuri de variabile

• Variabile ordinale

– variabile ce sunt clasificate în mai mult de două

categorii şi la care există o ordine naturală între

categorii

– evoluţia, stadializări, clasificări, scoruri etc.

Tipuri de variabile

• Variabile cantitative

– continue

• variabile cu un număr potenţial infinit de valori

de-a lungul unui continuum

• înălţimea, greutatea, TA, vârsta etc.

– discontinue (discrete)

• variabile ce pot fi descrise numai prin unităţi

întregi ce nu pot fi măsurate în intervale mai mici

decât unitatea

• AV, nr. copii etc.

Tipuri de variabile

Variabile nominale

• tabel de frecvenţă (frecvenţa observaţiilor

pe categorii)

• grafic: bare, plăcintă

• modul (categoria cea mai frecventă)

Tipuri de variabile - statistică

descriptivă

Figura II.3. Distribuţia pe oraşe a cazurilor incluse în studiu

BRASOV

BUCURESTI

CLUJ

IASI

SIBIU

TARGU MURES

TIMISOARA

98 (60%)

11 (6,7%)

3 (1,8%)

10 (6%)

13 (8%)

23 (14%)

6 (3,7%)

Variabile ordinale

• tabel de frecvenţă, mediana, modul

• utilitatea mediei este discutabilă (intervalele

dintre categorii nu sunt egale ca mărime)

• deseori, media este furnizată - se presupune

că intervalele scalei sunt egale sau, cel puţin

aproximativ egale


descriptivă

Clasa

NYHA

Frecventa Frecventa

relativa

Frecventa

cumulata

I 50 % %

II 70 % %

III 60 % %

IV 30 % %

TOTAL 210 %

23,8%

33,3%

28,6%

14,3%

100%

23,8%

57%

85,7%

100%

George J et al.

Heart 2006;92:1420–1424.

Variabile cantitative

• măsura tendinţei centrale (media, mediana,

modul)

• măsura dispersiei (deviaţia standard,

varianţa)

• distribuţia normală


descriptivă

47,5%

(x-x)2

n-1SD =

• SD = deviatia standard

– arata gradul de dispersie al valorilor

• SEM = eroarea standard a mediei

– CI95% al mediei

– SEM = SD / \/n

Variabilă

cantitativă

Variabilă

ordinală

Variabilă

dihotomică

distribuţie

normală

distribuţie

nonnormală

teste

parametrice

teste

non-

parametrice

Mann-Whitney U,

Wilcoxon

Interval de

timp

Regresie

lineară

multiplă

Log rank

Regresie

logistică

Modelul

lui Cox

X2

Fisher exact

Corelaţie

(coeficient Pearson)/

regresie

Corelaţie

(coef. Spearman)

Comparaţia a

2 grupuri

Comparaţia a

3 grupuriTest F (ANOVA)

Corelaţia a 2

variabile în

acelaşi grup

Corelaţia a 2

variabile în

acelaşi grup

Comparaţia a

2 grupuri

Comparaţia a

3 grupuriKruskall-Wallis

Student (t)

ANALIZA STATISTICA II

C. Băicuş, 2005

P si intervalele de incredere

Cristian Baicus

nov 2005

populaţie

eşantion

eşantionare p, CI

Incertitudinea statistica

• Incertitudinea (prezenta chiar intr-un

esantion reprezentativ) care apare atunci

cand folosim datele esantionului pentru a

trage concluzii asupra populatiei

De ce apare incertitudinea statistica?

• Nu putem include toti indivizii dintr-o

populatie tinta intr-un studiu.

• De exemplu, intr-un RCT al unui tratament

nou pentru HTA, nu este posibila includerea

tuturor pacientilor cu HTA. In schimb vom

folosi un esantion pentru a testa tratamentul

nou si cel standard.

• Incertitudinea statistica poate fi

cuantificata prin:

– testarea ipotezei (cu calculul valorii p)

– calculul intervalelor de incredere (CI)

Masurarea incertitudinii statistice

Marimea esantionului

• 1/~ p

• 1/~ largimea intervalului de incredere

p

25%

20%20%

4,5%

1% 0,1%

12%12%

4,5%

1%0,1%

5C

6C

7C

8C

4C

3C

2C

9C 10C1C0C

37,5%

p=0,375

unidirectional, one tailed (one sided)

H0: C=P

H1: C>P

10x10.000

p

25%

20%20%

4,5%

1% 0,1%

12%12%

4,5%

1%0,1%

5C

6C

7C

8C

4C

3C

2C

9C 10C1C0C

~17,5%

H0: C=P

H1: C>P

p=0,175


p

25%

20%20%

4,5%

1% 0,1%

12%12%

4,5%

1%0,1%

5C

6C

7C

8C

4C

3C

2C

9C 10C1C0C

1%

H0: C=P

H1: C>P

p=0,01


p

25%

20%20%

4,5%

1% 0,1%

12%12%

4,5%

1%0,1%

5C

6C

7C

8C

4C

3C

2C

9C 10C1C0C

37,5% 37,5%

p=0,75

bidirectional, two tailed (two sided)

H0: C=P

H1: CP

p

25%

20%20%

4,5%

1% 0,1%

12%12%

4,5%

1%0,1%

5C

6C

7C

8C

4C

3C

2C

9C 10C1C0C

~17,5% ~17,5%

H0: C=P

H1: CP

p=0,35


p

25%

20%20%

4,5%

1% 0,1%

12%12%

4,5%

1%0,1%

5C

6C

7C

8C

4C

3C

2C

9C 10C1C0C

1% 1%

H0: C=P

H1: CP

p=0,02


CI

Basescu Procent CI

6/10 60% [27 ,86]

CI

Basescu Procent CI

6/10 60% [27%, 86%]

24/40 60% [43%, 74%]

CI

Basescu Procent CI

6/10 60% [27% 86%]

24/40 60% [43% 74%]

120/200 60% [53%, 67%]

CI

Basescu Procent CI

6/10 60% [27% 86%]

24/40 60% [43% 74%]

120/200 60% [53% 67%]

240/400 60% [55% 65%]

1200/2000 60% [58% 62%]

• p: probabilitatea ca diferenţa dintre tratamente observată în

studiul nostru să fie datorată întâmplării, iar în realitate

(la nivelul populaţiei) să nu existe nici o diferenţă între tratamente.

• interval de încredere: intervalul în care se află

parametrul respectiv în realitate (la nivelul populaţiei) (cu o

probabilitate de 95%).

RR, OR, RRR, RRA, NNT

p şi CI

Studiu terapeutic, RR=0,8

• dacă la nivelul populaţiei nu există nici o

diferenţă între mortalităţile la cei trataţi şi cei

netrataţi, probabilitatea ca în studiul (eşantionul)

nostru să apară un RR=0,8 este p

• la nivelul populaţiei (în realitate), RR[0.5, 0.9].

p şi CI

Studiu etiologic de cohortă, RR=7

• dacă la nivelul populaţiei nu există nici o

diferenţă între incidenţele cancerului pulmonar

la fumători şi nefumători, probabilitatea ca în

studiul (eşantionul) nostru să apară un RR7 este

p

• la nivelul populaţiei (în realitate), RR[3 , 15].

p şi CI

• intervalul de încredere dă aceleaşi

informaţii ca şi p (de fapt chiar mai

multe)

Nesemnificativ statistic:

atunci când CI include

• 1 (pt. RR, OR)

• 0 (pt. RRR sau RRA)

• (pt. NNT)

CI

semnificaţie statistică

semnificaţie clinică

• Efect important /efect surogat

• p publicate sunt mai optimiste

• CI sunt optimiste (mai înguste decât

în realitate)

Alegerea între un test

parametric/nonparametric - cazurile simple

Alegem un test neparametric în 2 situaţii:

• efectul este o variabilă ordinală şi populaţia este clar

non-Gaussiană (de ex. notele studenţilor, scorul

Apgar, scala vizuală analogică pt. Durere etc.)

• efectul este o variabilă cantitativă şi suntem siguri

că nu are o distribuţie gaussiană în populaţie

(transformare: log, reciproca, radical)

• efectul este o variabilă cantitativă cu distribuţie

gaussiană, dar dispersia este mult diferită

• Când avem cazuri puţine, este greu de spus

dacă distribuţia este Gaussiană, iar testele

speciale (Kolmogorov-Smirnov) au putere

mică

• ceea ce contează este distribuţia la nivelul

populaţiei, şi nu la nivelul eşantionului

nostru! De căutat în literatură


parametric/nonparametric - cazurile dificile

• Când nu sunt siguri de tipul distribuţiei, unii

aleg un test parametric (deoarece nu sunt

siguri că este violată prezumţia de

normalitate), iar alţii aleg teste

nonparametrice (deoarece nu sunt siguri că

prezumţia de normalitate este satisfăcută)



• În natură, distribuţiile non-gaussiene sunt

frecvente!

• Este valabil îndeosebi în cazul valorilor

biologice



Depinde de mărimea eşantionului!

• Dacă eşantionul este mare (cel puţin 24/30 de date

în fiecare grup), este mai uşor de spus dacă

eşantionul provine dintr-o populaţie Gaussiană,

dar nu are mare importanţă, putem folosi orice tip

de test.

• Dacă eşantionul este mic, este greu de spus dacă

populaţia este gaussiană, dar este f. important:

testele nonparametrice nu sunt puternice, iar cele

parametrice nu sunt robuste.


parametric/nonparametric - are importanţă?

Teste împerecheate sau

neîmperecheate? (paired / unpaired)

• Neîmperecheat când valorile individuale

dintr-un grup nu sunt împerecheate cu cele

din celălalt (grupurile/măsurătorile sunt

independente)

• împerecheat când valorile reprezintă:

– măsurători repetate asupra aceluiaşi subiect

– măsurători pe subiecţi împerecheaţi înainte de

colectarea datelor

notiuni de statistica - cristian baicus datelor.pdf · incertitudinea statistica • incertitudinea...

Documents