1
Tudor Drugan
Obiective
• Teste de comparare a mediilor:
– Testul z de comparaţie a mediei unui eşantion cu media unei populaţii (variaţia cunoscută)
– Testul z de comparare a mediilor a două populaţii (variaţii cunoscute şi egale)
• Teste de comparare a frecventelor:
– Testul chi-pătrat
– Testul z de comparare a unei frecvenţe observate cu o frecvenţă teoretică (distribuţia binomială)
2
Obiectivul testului este de a compara media unei variabile cantitative continue pe un eşantion reprezentativ extras dintr-o populaţie cu media µ cu o medie cunoscută µ0 a unei populaţii standard.
Se presupune că cele două populaţii au aceiaşi variaţie 2 care se cunoaşte.
Condiţii de aplicare Este necesar să cunoaştem variaţia populaţiei (dacă
nu o cunoaştem, aplicăm testul Student).
Testul este corect aplicat dacă populaţia este normal distribuită.
Dacă populaţia nu este normal distribuită sau talia eşantionului este mică (<30) testul dă o valoare orientativă.
Testul este, de asemenea, corect aplicat atunci când talia eşantionului este mare ( ≥ 30).
Ipotezele testului 1. Test bilateral: H0: = 0 versus H1: 0
2. Test unilateral: H0: = 0 versus H1: > 0
unde = media popolaţiei din care este extras eşantionul şi 0 = media populaţiei standard.
Intr-o altă formă ipotezele testului se pot formula în modul următor: Ipoteza nulă: nu există diferenţă semnificativă între media
eşantionului şi media populaţiei. Ipoteza alternativă pentru testul bilateral: există diferenţă
semnificativă între media eşantionului şi media populaţiei. Ipoteza nulă pentru testul unilateral: media eşantionului este
semnificativ mai mare decât media populaţiei.
n
XZ
0
Pragul de semnificaţie = 0,05
Regiunea critică pentru testul bilateral este (- , -1,96 ] [1,96 , )
Regiunea critică pentru testul unilateral este [1.645, )
Agregarea familiala a bolilor cardiovasculare prin studiul legăturii dintre nivelul colesterolului sangvin şi aceste boli.
Se ştie că nivelul mediu al colesterolului sanguin la copii este de 175 mg/dL.
La un eşantion de 10 copii, proveniţi din familii în care tatăl a decedat în urma unei boli cardiovasculare, media colesterolului sanguin este de 200 mg/dL iar deviaţia standard este de 50 mg/dL.
IPOTEZA: Nivelul mediu al colesterolului la această populaţie
de copii este mai mare decât cel al populaţiei generale?
Este nivelul colesterolului obţinut la acest eşantion semnificativ diferit faţă de cel al populaţiei generale?
Datele problemei: 0 = 175, X = 200, n = 10, s = 50. Ipotezele testului sunt:
1. Test bilateral: H0: X = 0 = 175 versus H1: X <>0<>175 2. Test unilateral: H0: X = 0 = 175 versus H1: X > 0 > 175
De asemenea, avem: Ipoteza nulă: nu există diferenţă semnificativă între media
colesterolului pentru eşantion faţă de media populaţiei. Ipoteza alternativă pentru testul bilateral: există diferenţă
semnificativă între media colesterolului la eşantion şi respectiv la populaţia generală.
Ipoteza alternativă pentru testul unilateral: media colesterolului pentru eşantion este mai mare decât media colesterolului la populaţia generală.
Prag de semnificaţie = 0,05
1. Regiunea critică pentru testul bilateral este: (- , -1,96 ] [1,96 , ).
2. Regiunea critică pentru testul unilateral este: [1.645, ) .
Datele problemei: 0 = 175, X = 200, n = 10, s = 50. Parametrul statistic calculat al testului:
0 200 1751.68
50
10
XZ
n
1. Pentru testul bilateral: Deoarece parametrul statistic calculat al testului nu aparţine regiunii critice nu putem respingem ipoteza nulă; nu există o diferenţă semnificativă între media colesterolului la eşantionul ales şi populaţia generală.
0 200 1751.68
50
10
XZ
n
2. Pentru testul unilateral: Deoarece parametrul statistic calculat al testului Z este mai mare decât 1,645 putem nega ipoteza nulă, adică există diferenţă semnificativă între media colesterolului la eşantion şi media colesterolului populaţiei generale.
0 200 1751.68
50
10
XZ
n
Obiectivul testului este de a compara mediile unei variabile cantitative continue între două populaţii, care satisfac condiţia au aceeaşi variaţie 2 cunoscută.
Pentru aplicarea testului se utilizează două eşantioane reprezentative independente extrase din cele două populaţii
Condiţii de aplicare
1. Populaţiile trebuie să aibă variaţii cunoscute şi egale.
2. Testul este corect aplicat dacă populaţiile sunt normal distribuite sau dacă eşantioanele utilizate au talie mare (30).
3. Dacă populaţiile nu sunt normal distribuite sau dacă cel puţin un eşantion are talie mică (<30), testul dă o valoare orientativă.
Algoritm
Considerăm două populaţii cu mediile şi respectiv .
Ipotezele testului: 1. Test bilateral: H0: = 0 versus H1: 0
2. Test unilateral: H0: = 0 versus H1: > 0
Sub prezumţia că ipoteza nulă este adevărată (1 - 2 = 0), parametrul statistic al testului este dat de formula:
1 2 1 2 1 2
1 2 1 2
( ) ( )
1 1 1 1
X X X XZ
n n n n
Excesul de acid uric in sange poate fi dat:
de un exces de productie plecand de la metabolismul protidelor (substante organice azotoase);
un defect in eliminarea urinara;
asocierea celor doua cauze de mai sus.
In guta primara, adesea este implicat un factor familial, genetic, care provoaca tulburari enzimatice la nivelul metabolismului purinelor (compus organic din acidul uric).
Sedentarismul, obezitatea, alcoolismul si factorii alimentari (aici un rol important il are carnea de vanat, maruntaiele, carnea de oaie, miel) joaca un rol favorizant evident.
Dorim să studiem dacă există diferenţă semnificativă între cantitatea de acid uric sangvin la bărbaţii din mediul urban faţă de cei din mediul rural, cunoscându-se că variaţia acidului uric este egală cu 2,1 mg/100ml.
Din prima populaţie (mediul urban) s-a extras un eşantion de 10 persoane cu vârste cuprinse între 45 şi 60 de ani şi s-a obţinut o medie a acidului uric de 5,6 mg/100ml.
S-a determinat media acidului uric la un eşantion de 16 bărbaţi, extras din a doua populaţie (mediul rural), cu vârste cuprinse între 45 şi 60 de ani din mediul rural şi s-a constata o valoare medie de 4,1 mg/100ml.
Ipoteza testului: 1. Test bilateral: H0: = 0 versus H1: 0
2. Test unilateral: H0: = 0 versus H1: > 0
Ipoteza nulă: Media acidului uric la prima populaţie nu diferă semnificativ faţă de media acidului uric la cea de-a doua populaţie.
Ipoteza alternativă, test bilateral: Media acidului uric la cei din mediul urban diferă semnificativ faţă de media acidului uric la cei din mediul rural.
Ipoteza alternativă, test unilateral: Media acidului uric la cei din mediul urban este semnificativ mai mare faţă de media acidului uric la cei din mediul rural.
Parametrul statistic calculat al testului:
Pragul de semnificaţie: = 0,05.
Valoarea critică:
1. Regiunea critică pentru testul bilateral: (- , -1,96 ] [1,96 , )
2. Regiunea critică pentru testul unilateral: [1.645, )
77.1
16
1
10
11.2
1.46.5
Z
1. Test bilateral: Deoarece statistica calculată a testului nu aparţine regiunii critice nu se poate nega ipoteza nulă. Media acidului uric la prima populaţie (mediu urban) nu diferă semnificativ faţă de media acidului uric la cea de-a doua populaţie (mediu rural).
77.1
16
1
10
11.2
1.46.5
Z
2. Test unilateral: Deoarece statistica calculată a testului aparţine regiunii critice, se acceptă ipoteza alternativă că media acidului uric în prima populaţie (mediu urban) este mai mare decât media în cea de a doua populaţie (mediu rural).
77.1
16
1
10
11.2
1.46.5
Z
Analiza frecvenţelor pentru variabile măsurabile
pe o scară nominală sau ordinală
Test neparametric care verifică dacă distribuţia
observată diferă de cea aşteptată (teoretică)
În aplicare testului Chi-pătrat întotdeauna: Frecvenţele sunt date de numărul de cazuri şi nu
reprezintă procente sau ranguri
Categoriile sunt exhaustive şi mutual exclusive:
orice subiect poate aparţine unei categorii dar numai
uneia
O – frecvenţa observată şi E – frecvenţa
aşteptată
E
EO2
2
Aruncăm o monedă de
100 de ori şi obţinem
de 47 de ori stema deşi
teoretic ar fi trebuit să
obţinem stema de 50 de
ori
84,3
1
36,018,018,0
18,050
3
50
5053ban pentru
18,050
3
50
5047 stemapentru
2
)05,0(
2
2
222
222
df
E
EO
E
EO
E
EO Nu putem
rejecta
ipoteza nulă,
aruncarea cu
banul a fost
corectă
serveşte la compararea a două distribuţii, urmând două modele, care constau în: compararea unei distribuţii observate (sau
empirice) pe un eşantion cu o distribuţie teoretică. In acest caz, se caută să se determine dacă un eşantion se aseamănă cu un anumit model teoretic, fiind astfel vorba de un test Hi-pătrat de ajustare.
compararea a două distribuţii observate în scopul stabilirii fie a independenţei dintre două criterii sau omogenitatea dintr-un tabel de contingenţă: test Hi-pătrat de omogenitate sau de independenţă.
Astfel vom presupune că se caută efectul fumatului
asupra aparitiei cancerului buzei inferioare (M).
Pentru aceasta se observă un eşantion de 400 de
subiecţi dintre care: 160 au afectiunea M prezentă ( şi 240 nu au boala prezentă)
130 sunt fumători T ( şi 270 nu sunt fumători).
Maladia M
Fumător T
M+ M- Total
T+ 80 50 130
T- 80 190 270
Total 160 240 400
Se caută să se stabilească dacă fumatul influenţează
apariţia maladiei M sau dacă apariţia acesteia este
independentă de fumat.
Tabelul de contingenţă prezentat se numeşte tabel de
contingenţă observat, iar frecvenţele pe care le
conţine se numesc frecvenţe observate.
Maladia M
Fumător T
M+ M- Total
T+ 80 50 130
T- 80 190 270
Total 160 240 400
H0: caracterele A şi B sunt independente.
H0 : fumatul nu are influenţă asupra apariţiei
maladiei M.
0 22
1
( )tL Ci i
ti i
f f
f
urmează o lege
cu (L-1) x (C-1) grade de libertate
Se face ipoteza de independenţă între cele două
caractere M şi T (adică ipoteza nulă H0 , în acest caz)
atunci
Se calculeaza un tabel de contingenţă teoretic care
satisface această ipoteză de independenţă.
Se determină apoi abaterea (ecartul) dintre cele două
tabele de contingenţă observat şi teoretic.
Dacă această abatere este mică atunci ea este
explicată doar prin întâmplare (hazard) şi ipoteza
de independenţă este acceptată.
Dacă această abatere este foarte importantă
pentru ca doar întâmplarea să o explice atunci
ipoteza de independenţă trebuie să fie respinsă.
Problema este următoarea: dispunând de un eşantion de n = 400 de subiecţi dintre care 160 au maladia M iar 130 sunt fumători, să se determine cum sunt repartizaţi subiecţii în funcţie de cele două caractere (M şi T) dacă se presupune că acestea sunt independente
M - Total
T 130
- 270
Total 160 240 400
400
240270
400
160270
400
240130
400
160130
M - Total
T 52 130-52 130
- 160-52 270-(160-
52)
270
Total 160 240 400
M - Total
T 52 78 130
- 108 162 270
Total 160 240 400
Maladia M
Fumător T
M Total
T 80 50 130
80 190 270
Total 160 240 400
M Total
T 52 78 130
108 162 270
Total 160 240 400
0 22
1
( )tL Ci i
ti i
f f
f
Fie pragul de semnificaţie al testului.
S-a ales pragul de semnificaţie = 0.05
Regiunea critică este [X2 ,).
Pentru pragul =0.05 şi cu 1 grad de libertate valoarea = 3.84, astfel că în acest caz regiunea critică este intervalul [3.84 , ).
2 2 2 22 (80 52) (50 78) (80 108) (190 162)
37,2252 78 108 162
Maladia M
Fumător T
M Total
T 80 50 130
80 190 270
Total 160 240 400
M Total
T 52 78 130
108 162 270
Total 160 240 400
Dacă X2 [3.84, ) se respinge H0 cu un risc de eroare de prima speţă .
Dacă X2 [3.84, ) atunci H0 nu se poate respinge
X2 =37,22 >> 3.84 aşa că ipoteza nulă H0 se respinge cu un risc inferior lui 5%.In concluzie, fumatul se asociază cu maladia M favorizând-o.
Scopul acestui test este investigarea semnificaţiei diferenţei între o frecvenţă teoretică p (într-o populaţie) şi o frecvenţă observată f pe un eşantion reprezentativ a unei valori a unei variabile calitative (binare).
Condiţii de aplicare: Testul este corect aplicat dacă numărul n al
observaţiilor eşantionului este suficient de mare (np, n(1-p)>10), pentru a justifica utilizarea unei aproximări cu o distribuţie normală redusă (a distribuţiei frecvenţei de selecţie).
Un eşantion randomizat de volum n este extras dintr-o populaţie pentru care cunoaştem frecvenţa teoretică p a unei variabile calitative. Pentru aceeaşi variabilă se calculează frecvenţa ei în eşantion f. Parametrul testului este:
(1 )
f pz
p p
n
Suntem interesaţi de investigarea prevalenţei hepatitei C la personalul care lucrează în cabinetele de medicina dentara din Transilvania.
Se ştie din studii anterioare că prevalenţa hepatitei C în populaţia generală din Transilvania este de 9%.
S-a luat în studiu un eşantion de 100 de persoane care lucrează în cabinetele de medicina dentara din Transilvania şi s-a obţinut o prevalenţă a hepatitei B de 6%.
Există diferenţă semnificativă între frecvenţa hepatitei B la personalul care lucrează s-a luat în studiu faţă de populaţia generală din acesta regiune?
Soluţie
Datele problemei: f = 0,06, p = 0,09, . Fie p0 prevalenţa (necunoscută) a hepatitei C în populaţia alcătuită de personalul cabinetelor dentare.
Ipotezele testului:
1. Test bilateral: H0: p0=p1 versus H1:p0<>p1
2. Test unilateral: H0: p0=p1 versus H1:p0>p1
Ipoteza nulă: Nu există diferenţă semnificativă între frecvenţa hepatitei C la eşantionul studiat faţă de frecvenţa hepatitei C în populaţia generală.
Ipoteza alternativă, test bilateral: Există diferenţă semnificativă între frecvenţa hepatitei C la nivelul eşantionului şi prevalenţa hepatitei C în populaţia generală.
Ipoteza alternativă, test unilateral: Frecvenţa hepatitei C la nivelul eşantionului studiat este semnificativ mai mare faţă de frecvenţa hepatitei C în populaţia generală.
Statistica testului:
Pragul de semnificaţie: = 0,05.
Regiunea critică:
1. Regiunea critică, test bilateral: (- , -1,96 ] [1,96 , ) – (vezi anexa 1).
2. Regiunea critică, test unilateral: [1.645, ) –( vezi anexa 1).
0.06 0.091.04
(1 ) 0.09(1 0.09)
100
f pZ
p p
n
Concluzie
1. Test bilateral: Deoarece parametrul statistic calculat al testului nu aparţine regiunii critice nu se poate nega ipoteza nulă. Nu există diferenţă semnificativă între frecvenţa hepatitei C la eşantionul studiat faţă de frecvenţa hepatitei C în populaţia generală.
2. Test unilateral: Deoarece parametrul statistic calculat al testului nu aparţine regiunii critice, nu se poate nega ipoteza nulă. Nu există diferenţă semnificativă între frecvenţa hepatitei C la eşantionul studiat faţă de frecvenţa hepatitei C în populaţia generală.
Analiza de varianţă ANOVA
47
• Este un test destinat analizei cercetărilor
multinivel şi/sau multifactoriale
• Este utilizat atunci când trebuiesc
cercetate 3 sau mai multe condiţii sau
eşantioane
• Bazat pe statistica F şi pe prezumţia că
eşantioanele sunt extrase aleator dintr-o
populaţie normal distribuită (în practică
se verifică întotdeauna)
Analiza de varianţă ANOVA
• Univariat – analiza se aplică asupra
unui experiment cu un singur factor,
care produce cel puţin trei grupuri
independente
• Ipoteza statistică:
• H0: μ1 = μ2 = μ3 ... = μn
• Testul statistic utilizat este testul F
(propus de Sir Ronald Fischer
ANOVA UNIVARIATĂ pentru
eşantioane independente
• Studiu ipotetic
asupra efectului
utilizării bastonului
sau cârjelor la
persoanele cu
amputaţie
unilaterală,
măsurându-se
lungimea pasului
• Varianţa totală SSt
• Varianţa intergrup
SSb
• Varianţa intragrup
SSe= SSt - SSb
Exemplu
• Media pătratică
intergrup MSb
• Media pătratică
intragrup MSe
Exemplu
• Dacă nu putem rejecta
ipoteza nulă, nici un
tratament nu este util
• Dacă putem rejecta
ipoteza nulă atunci cel
puţin un tratament este
util şi trebuiesc făcute
comparaţii multiple
pentru a arăta care este
tratamentul corect
Exemplu
Exemplu
• Utilă în studii care permit
investigarea efectelor
simultane a 2 sau mai multe
variabile independente
• Se studiază efectul întinderilor
rapide faţă de cele de prelungi
asupra articulaţiei
genunchiului aflata în flexie
sau în extensie
• Rezultă un cadru 3x2, fiecare
cu 10 pacienţi
Analiza bivariată ANOVA - Exemplu
• Ce se investighează?
• Efectul variabilei A
independent de B
• Efectul variabilei B
independent de A
• Efectul cumulat al celor
două variabile
Analiza bivariată ANOVA - Exemplu
• Efectele datorate
aplicării uneia din
cele 2 variabile se
măsoară prin
media pentru
nivelurile rezultate
din efectele
principale şi se
numeşte medie
marginală
Efectele principale
Efectele simple
Interacţiunea între variabile
Interacţiunea între variabile
• Ipoteza într-un design 3x2 este de
genul:
• H0: μA1 = μA2 = Μa3
• H0: μB1 = μB2
• H0: μA1B1 = μA1B2 = μA2B1 = μA2B2 = μA3B1 =
μA3B2
Testarea ipotezei statistice