area tecnica 2009 8 confronto tra medie - med.unipmn.it · f. confronto tra misure ripetute sugli...

34
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 1 Università del Piemonte Orientale Corsi di laurea di area tecnica Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 2 Consideriamo diverse situazioni, tutte riconducibili all’analisi di una variabile quantitativa con il confronto tra diversi gruppi di soggetti: A. Confronto tra una media campionaria ed una popolazione i cui parametri sono noti B. Confronto tra una media campionaria ed una popolazione di cui è nota la media ma non la deviazione standard C. Confronto tra 2 campioni appaiati D. Confronto tra due campioni indipendenti E. Confronto tra n campioni indipendenti F. Confronto tra misure ripetute sugli stessi soggetti

Upload: truongdang

Post on 18-Feb-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

1

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 1

Università del Piemonte Orientale

Corsi di laurea di area tecnica

Corso di Statistica Medica

Analisi dei dati quantitativi :

Confronto tra due medie

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 2

Consideriamo diverse situazioni, tutte riconducibili all’analisi di una variabile quantitativa con il confronto tra diversi gruppi di soggetti:

A. Confronto tra una media campionaria ed una popolazione i cui parametri sono noti

B. Confronto tra una media campionaria ed una popolazione di cui è nota la media ma non la deviazione standard

C. Confronto tra 2 campioni appaiati

D. Confronto tra due campioni indipendenti

E. Confronto tra n campioni indipendenti

F. Confronto tra misure ripetute sugli stessi soggetti

2

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 3

I casi A e B sono già stati esaminati nella lezione sulle statistiche campionarie

Il caso E corrisponde all'analisi della varianza

Il caso F non sarà considerato in questo corso.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 4

Riepilogo del caso A: Confronto tra una media campionaria ed una popolazione i cui parametri sono noti

Siamo interessati al confronto tra la media campionaria e la media della popolazione. I parametri della distribuzione di probabilità della variabile nella popolazione (µ e σ) sono noti.

Il processo di verifica dell’ipotesi si svolge secondo quanto visto in precedenza:

L’ipotesi di lavoro: il campione non è parte dalla popolazione considerata ma di un’altra popolazione, con media differente.

3

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 5

L’ipotesi nulla: il campione estratto ha media uguale a quella della popolazione (corrisponde cioè ad un campione tratto da tale popolazione).

L' errore di primo tipo è fissato al 5% (α=0,05)

L' errore di secondo tipo e la dimensione del campione vengono definiti in modo appropriato, ad esempio l'errore di secondo tipo viene fissato al 20% e la dimensione del campione è definita di conseguenza usando apposite tavole (l'argomento non è ancora stato trattato).

L’esperimento consiste nell’estrazione di un campione e nel calcolo della media campionaria.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 6

Il test statistico consiste nel calcolo della deviata normale standardizzata:

Z = ( - µ)/ (σ/√n).X

Dove

: media campionaria X

µ: media della popolazione

(σ/√n): errore standard della media (cioè deviazione standard della media campionaria)

σ: deviazione standard della popolazione

n: numerosità del campione

4

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 7

Il test è di tipo parametrico, cioè è valido a condizione che siano validi i presupposti relativi alla distribuzione di probabilità (gaussiana) della distribuzione delle medie campionarie.

L’assunzione è generalmente vera dato il teorema del limite centrale (sempre che n sia sufficientemente grande e la forma della distribuzione della popolazione non sia troppo asimmetrica). Nel calcolo della dimensione del campione occorre quindi anche considerare che la distribuzione di frequenza di campioni piccoli si differenzia dalla distribuzionegaussiana maggiormente rispetto alla distribuzione di frequenza di campioni grandi.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 8

Il valore di probabilità corrispondente al valore |Z| (valore assoluto di Z) così ottenuto si legge dalla tabella della distribuzione normale standard.

Se Z>0 viene letto il valore di probabilità compreso tra Z e ∞.

Se Z<0 viene letto il valore di probabilità compreso tra Z e -∞.

5

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 9

Esempio 1

Confronto della pressione sistolica di un gruppo di pazienti affetti da una forma di arteriopatia con la popolazione generale.

H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno pressione arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è nata osservando che i primi casi avevano valori pressori molto elevati.

H0= i pazienti appartengono ad una popolazione con media della pressione sistolica 145 mmHg

La deviazione standard della misura della pressione della popolazione è nota da precedenti studi ed è pari a 2,53 mmHg;

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 10

test bilaterale ('a due code'; sebbene l’ipotesi di lavoro sia indirizzata maggiormente verso un rialzo pressorio, non ho informazioni sufficientemente forti da scegliere un test ad una coda).

errore 1°tipo =0,05

numerosità campionaria non modificabile poichè sono inclusi tutti i pazienti disponibili. Non è stata calcolata la potenza statistica

Test statistico: test Z (confronto tra una media campionaria e la media della popolazione). Il valore del test si legge sulle tabelle della distribuzione di probabilità normale standard.

6

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 11

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 12

Requisiti del test scelto:

La deviazione standard della misura della pressione della popolazione è nota da precedenti studi ed è pari a 2,53 mmHg;

La distribuzione della variabile nella popolazione ègaussiana, pertanto anche piccoli campioni saranno distribuiti secondo tale distribuzione.

7

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 13

I dati:Obs pressure (mmHg)

1 1552 1453 1654 1345 1546 1307 1618 1399 14010 14311 15712 14813 16514 15215 149

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 14

Le statistiche campionarie necessarie per il test

N (dimensione campionaria) 15Media campionaria 149,14 mmHg (calcolo omesso)

I parametri necessari per il test

µ = 145 mmHgσ = 2,53 mmHg

Memo: Il valore della statistica Z corrispondente al limite per il rifiuto dell’ipotesi nulla (dati errore 1° tipo <= 0,05 e test a due code) è 1,960.

8

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 15

Il calcolo del test

Z = ( - µ) / (σ/√n).X

Z = (149,14 - 145) / (2,53/√15) = 6,34

Conclusione = ?

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 16

Il calcolo del test

Z = ( - µ)/ (σ/√n).X

Z = (149,14 - 145) / (2,53/√15) = 6,34

Conclusione = rifiuto l’ipotesi nulla, i soggetti hanno valori pressori diversi da quelli della popolazione generale.

9

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 17

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 18

Esempio 2 Una compagnia di assicurazioni intende controllare quali agenzie sono troppo severe oppure troppo disponibili nella valutazione dei danni. Viene effettuato un campione delle pratiche seguite da ciascuna agenzia. Per rendere omogenea la popolazione di provenienza vengono esclusi gli incidenti con feriti e quelli in autostrada.

Il costo medio nella popolazione (tutte le pratiche della compagnia di assicurazione) (in migliaia di euro) = 1,6.Deviazione standard della popolazione (in migliaia di euro) = 3,4H lavoro: L'agenzia xxyy si discosta dai parametri definiti sulla base della popolazione di tutti gli incidenti dell'anno in corso.

10

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 19

H0 : l'agenzia non si discosta.

test a due code (interessano entrambi gli scostamenti)

errore 1°tipo = 0,10 (dato il piano di lavoro di controllo)

numerosità campionaria 22 pratiche.

Test statistico: test Z (confronto tra una media campionaria e la media della popolazione)

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 20

Requisiti del test scelto:La deviazione standard del costo medio è nota, poichèil centro di calcolo della compagnia ha tutte le pratiche.

La distribuzione della variabile nella popolazione èasimmetrica con coda a destra (valori elevati), come indicato dal centro di calcolo. Viene effettuata una trasformazione logaritmica per renderla simile alla gaussiana: dopo la trasformazione anche la distribuzione di probabilità di piccoli campioni risulta gaussiana.

Il centro di calcolo fornisce µ e σ della popolazione

11

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 21

I dati

Obs costo 1 1,6 2 1,3 3 0,2 4 3,0 5 2,0 6 0,3 7 1,3 8 0,6 9 2,7 10 0,9 11 5,0

Obs costo12 1,8 13 1,3 14 1,2 15 0,8 16 2,5 17 2,0 18 1,2 19 7,4 20 0,3 21 0,5 22 1,1

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 22

Variable: costo

Stem Leaf # Boxplot7 4 1 * 6 5 0 1 0 4 3 0 1 | 2 0057 4 +-----+ 1 12233368 8 *--+--* 0 2335689 7 +-----+

----+----+----+----+

12

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 23

Dati trasformati su scala logaritmica

Obs costo log(costo)

1 1,6 0,470002 1,3 0,262363 0,2 -1,609444 3,0 1,098615 2,0 0,693156 0,3 -1,203977 1,3 0,262368 0,6 -0,510839 2,7 0,9932510 0,9 -0,1053611 5,0 1,60944

Obs costo log(costo)

12 1,8 0,5877913 1,3 0,2623614 1,2 0,1823215 0,8 -0,2231416 2,5 0,9162917 2,0 0,6931518 1,2 0,1823219 7,4 2,0014820 0,3 -1,2039721 0,5 -0,6931522 1,1 0,09531

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 24

Variable: lcosto

Stem Leaf # Boxplot2 0 1 | 1 6 1 | 1 01 2 | 0 56779 5 +-----+ 0 122333 6 *--+--* -0 21 2 +-----+ -0 75 2 | -1 22 2 | -1 6 1 0

----+----+----+----+

13

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 25

Variable: log(costo) (loge del costo)

Moments

N 22

Mean 0,216379

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 26

Il calcolo del test

Media e deviazione standard della popolazione calcolati dai logaritmi dei dati originali.

µ’ = 0,262364σ’ = 0,875469

= 0,216X

Z = ( - µ’)/ (σ’/√n)X

Z = (0,216 - 0,262364) / (0,875469/√22) = - 0,2484

p=0,401

Conclusione = non rifiuto l’ipotesi nulla, quindi l’agenzia non si discosta dai parametri definiti.

14

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 27

Riepilogo del caso B: Confronto tra una media campionaria ed una popolazione di cui non si conosce la deviazione standard.

Se non abbiamo informazioni sul parametro (il valore nella popolazione), usiamo la statistica campionaria, che è stata calcolata proprio per avere informazioni relative al valore (ignoto) del parametro nella popolazione.Si ricorda che l’atteso della varianza campionaria calcolata con (n-1) al denominatore è una stima non distorta della varianza della popolazione.

La varianza del campione però è affetta da variabilità casuale rispetto alla varianza della popolazione, a causa del campionamento. Pertanto non potremo usare statistiche basate sulla distribuzione normale standardizzata, che risulterebbe troppo poco conservativa ma dovremo usare la distribuzione t di Student.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 28

15

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 29

La probabilità corrispondente all’intervallo tra un dato t e ∞ si legge su apposite tabelle (es. Appendice 2 del testo consigliato).

Si noti che i valori di probabilità cumulativa esterni ad un dato valore di t sono maggiori man mano che si riduce il numero di gradi di libertà. La distribuzione t per 30 gradi di libertà è praticamente una distribuzione normale standardizzata.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 30

Confronto tra un campione e la media della popolazione

La formula del test è simile a quella già vista per il calcolo del test Z, con l'errore standard calcolato dalla deviazione standard del campione:

tgl = ( - µ)/ (s/√n).X

X : media campionaria µ: media della popolaziones: deviazione standard del campione(s/√n): errore standard della media (cioè dev. standard della media campionaria)n: numerosità del campioneil numero di gradi di libertà è gl= n-1

16

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 31

• la distribuzione delle medie campionarie sia gaussiana;

• il campione stimi la varianza della popolazione.

Il test è di tipo parametrico, cioè è valido a condizione che:

La prima assunzione è generalmente vera dato il teorema del limite centrale (sempre che n sia sufficientemente grande e la forma della distribuzione della popolazione non sia troppo asimmetrica).

La seconda assunzione è vera se vale H0 (il campione appartiene alla popolazione), mentre non è valutabile altrimenti.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 32

Esempio

Confronto della pressione sistolica tra un gruppo di pazienti affetti da una forma di arteriopatia con la popolazione generale (è l’esempio precedente, sviluppato senza fare uso dell’ informazione sulla deviazione standard della popolazione).

17

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 33

H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno pressione arteriosa (sistolica) diversa dalla popolazione generale. L’ipotesi è nata osservando che i primi casi diagnosticati avevano valori pressori molto elevati

H0 = media della popolazione: pressione sistolica 145 mmHg

test a due code (sebbene l’ipotesi di lavoro sia indirizzata maggiormente verso un rialzo pressorio, non ho informazioni sufficientemente forti da scegliere un test ad una coda)

errore 1°tipo = 0,05

numerosità campionaria non modificabile poiché sono inclusi tutti i pazienti disponibili. Non è stata calcolata la potenza statistica

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 34

Test statistico: test t (confronto tra una media campionaria e la media della popolazione, senza dati sulla deviazione standard della popolazione).

Verifica dei requisiti del test scelto:La deviazione standard della misura della pressione della popolazione non è nota.

La distribuzione della variabile nella popolazione ègaussiana, pertanto anche piccoli campioni saranno distribuiti secondo tale distribuzione.

18

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 35

I dati individuali:Obs pressure (mmHg)

1 1552 1453 1654 1345 1546 1307 1618 1399 14010 14311 15712 14813 16514 15215 149

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 36

Le statistiche campionarieN 15 Mean 149,13 Std Deviation 10,72 Variance 114,98

(nota: si tratta di un campione 'sfortunato' poichè la varianza del campione è attesa simile a quella della popolazione).

19

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 37

I dati necessari per il test

µ = 145 mmHgmedia campione = 149,13s = Std Deviation = 10,72 dimensione del campione = 15numero di gradi di libertà = 14

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 38

Il calcolo del test

t14 = (X - µ)/ (s/√n).

t14 = (149,13 - 145) / (10,72/√15) =

= 1,496

Conclusione = non rifiuto l’ipotesi nulla.

NB: Il valore della statistica t corrispondente al limite per il rifiuto dell’ipotesi nulla (errore 1° tipo <= 0,05 e test a due code, 14 g.l.) = 2,145

20

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 39

1,496 t

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 40

Ricalcolate il test sul seguente campioneObs pressure (mmHg)

1 1462 1453 1554 1345 1546 1377 1598 1399 14010 14311 14712 14813 16214 15215 149

21

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 41

C. Confronto tra due campioni appaiati

Parliamo di campioni appaiati quando ad ogni osservazione del primo gruppo corrisponde un'osservazione del secondo gruppo.

E' una tecnica per ridurre l'influenza sui risultati da parte divariabili estranee

Due possibilità:

• misure ripetute nello stesso soggetto• soggetti diversi ma appaiati perché simili per caratteristiche importanti (es della stessa età, sesso, luogo di nascita e professione)

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 42

L'ipotesi alternativa (di lavoro) è di solito:H1: µ1 ≠ µ2

e la corrispondente ipotesi nulla è:H0: µ1 = µ2 quindi H0: µ1- µ2=0

22

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 43

In questo caso conviene costruire il test sulle differenze dei valori tra le coppie di misure appaiate. Indichiamo la media delle differenze nella popolazione con δ

L'ipotesi alternativa (di lavoro) è:H1: δ ≠ 0

e l'ipotesi nulla è:H0: δ = 0

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 44

Calcolo le differenze per le coppie di misure

di= xi1 - xi2

calcolo quindi media e deviazione standard di d nel campione, usando le formule consuete.

n

ddMedia

n

ii∑

=== 1

23

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 45

( ))1(

._ 1

2

−==∑ −=

ni

sstDeviazione

n

idd

Calcolo infine l'errore standard

nsSE =..

e la statistica t con g.l.= n.osservazioni – 1.

nsdt 0−

=

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 46

Esempio: in uno studio viene valutato l'accrescimento in peso in coppie di topi nati dalla stessa nidiata e sottoposti a due diverse diete. H1: tra i topi alimentati con le due diete si osserva una differenza di crescita in pesoH0: le due diete sono equivalenti e quindi tra i topi alimentati con le due diete non si osserva una differenza di crescita in peso.

errore di 1° tipo = 0,05viene condotto un esperimento con coppie di topi.La distribuzione della variazione del peso è gaussiana.Userò il test t di student.

24

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 47

Σ =104,9Σ = 0,03,611,9513810

24,014,9819119

37,21- 6,1-311148

16,81- 4,1-114157

0,810,9415116

4,41- 2,1124235

1,21- 1,1219174

0,810,941814315,213,97181120,810,9423191

(di– )2di–Differenza di1Dieta BDieta A d d

s2 = Σ(di– )2 / (n-1) =104,9 / 9 = 11,66d

s=√11,66 = 3,41

=3,1 d

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 48

ES(d) = s/√ n= 3,41 / √10= 1,08

t9 = 3,1 / 1,08= 2,87

il valore di t con 9 gl corrisponde ad una probabilità < 0,02 (nelle due code della distribuzione t)

Dato che stiamo conducendo un test bilaterale dobbiamo sommare l'area della coda superiore e della coda inferiore della distribuzione di probabilitàt. Se utilizzassimo una tavola che riporta solo la coda superiore ma fossimo interessati all'area nelle due code: 2 * area nella coda superiore. Ad es. la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è0,01 sulla coda superiore.Quindi la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è 2 * 0,01 = 0,02 sulle due code.

25

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 49

Conclusione ?

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 50

Possiamo anche calcolare un intervallo di confidenza della differenza media.

Calcoliamo l'intervallo di confidenza al 95%:

Limite fiduciale superiore = + t9gl;0,025 *(s/√n) = 3,1 + 2,262 * 1,08 = 5,54Limite fiduciale inferiore = - t 9gl; 0,025 *(s/√n) = 3,1 - 2,262 * 1,08 = 0,66d

d

tα/2 deve essere scelto tenendo conto del numero di gradi di libertà(in questo caso 9)

26

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 51

Confronto tra la media di due campioni indipendenti

Nel caso del confronto tra due campioni indipendenti il test è costruito per valutare la probabilità (data H0) della differenza osservata tra le medie dei due campioni, correggendo per l’errore standard.

L'ipotesi alternativa (di lavoro) è di solito:H1: µ1 ≠ µ2

e la corrispondente ipotesi nulla è:H0: µ1 = µ2 quindi H0: µ1- µ2=0

Non ho informazioni sulla popolazione ma solo sui campioni pertanto dovrò usare il test t e la distribuzione t

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 52

La differenza tra le due medie:

∆x = ( 1– 2); XX

27

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 53

Il calcolo dell’errore standard richiede l’individuazione di una stima comune della varianza.

Il caso di due campioni con varianze diverse si può affrontare con i test non parametrici, considerati nelle prossime lezioni.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 54

Nel caso di due campioni con varianza comune, lo stimatore migliore della varianza comune (indicata come ) è la media delle due varianze campionarie, pesata per il numero di gradi di libertà di ciascun campione.

( ) ( )( ) ( )

( ) ( )( )211

11

21

222

211

21

222

2112

−+−Σ+−Σ

=−+−−+−

=nn

xxxxnn

snsnspool= somma delle devianze / gradi di libertà

2)( pools

28

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 55

Per il calcolo dell’errore standard si consideri che l’errore standard della differenza tra due medie campionarie è la somma dei due errori standard:

nnxxES2

2

2

1

2

121

σσ +=

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 56

)( 21 XXES − 22

)(12

)( //( nsns poolpool +=

( )[ ]212

)( /1/1* nns pool +=

)/1/1(* 21)( nns pool +=

( ) ( )2121 / XXESXXtgl −−=

+∗

−=

21

21

11nn

s

xxt

pool

gl

Il numero di gradi di libertà è n1 + n2 - 2

29

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 57

La verifica dei requisiti di normalità sarà considerata in una delle prossime lezioni.

In modo approssimato si può:

1. Tenere conto che la distribuzione di campionamento èsempre normale quando i campioni sono grandi. n > 30 garantisce la normalità della distribuzione dei campioni anche se la distribuzione di base è asimmetrica

2. Disegnare un istogramma, che deve essere simmetrico

3. Utilizzare una procedura (grafici QQ o PP in SPSS) che effettua il test di normalità

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 58

30

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 59

Esempio: In un laboratorio si intende confrontare l’effetto di due differenti diete sulla crescita di ratti. La tabella indica l’incremento di peso conseguito tra 7 e 60 giorni dalla nascita. H lavoro: Le due diete sono diverse (in particolare ritengo che la dieta 1 consenta una più veloce aumento di peso ma non ho evidenze per rifiutare a priori altre possibilità). H0: le due diete sono uguali per quanto riguarda l’aumento di peso.

Test a 2 code

Errore di primo tipo = 0,05

Lo studio riguarda animali già trattati, pertanto la numerositàcampionaria è definita in base al numero di animali già trattati con le due diete

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 60

Test t-Student (confronto tra medie di 2 campioni indipendenti).

Valutazione dei requisiti per il test:

La distribuzione del peso degli animali è gaussiana.

Gli animali sono dello stesso ceppo, si suppone quindi che la varianza del peso sia la stessa e che le due diete non modifichino la varianza comune.

31

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 61

I dati: incremento tra peso a 7 gg e peso a 60 gg

Dieta 1 Dieta 2134 70146 118104 101119 85124 107161 132107 948311312997123

0,1201 =X 0,1012 =Xn1 = 12 n2 = 7

( ) 0,1910112021 =−=−=∆ XXx

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 62

La stima della varianza nei due gruppi viene effettuata con una media pesata delle due varianze (nel primo e nel secondo gruppo). Viene indicata come varianza pooled.

( ) ( ){ } ( )[ ]2/ 21

2

22

2

112 −+−+−= ∑ ∑ nnXxXxS ii

( ) 00,50322

11 =−∑ Xxi

( ) 00,25522

22 =−∑ Xxi

{ } 12,44617/255250322 =+=S

32

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 63

L'errore standard viene quindi calcolato usando la deviazione standard pooled.

( ) ( )[ ]212

21 /1/1* nnsXXES +=−

( ) ( )[ ]7/112/1*12,44621 +=− XXES

90,100=

= 10,04

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 64

t17 = (120,0–101,0) / 10,04 = 1,89

33

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 65

Il valore di t con 17 gl corrispondente alla probabilità del 5% sulle due code è 2,110

Conclusione?

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 66

Calcoliamo l'intervallo di confidenza della differenza osservata tra i due gruppi.

Calcoliamo l'intervallo di confidenza al 95%:

( )[ ] =++− 212

025,0;21 /1/1** nnstxx gl

(120,0 - 101,0) + 2,110 * 10,04 = 40,18

Limite fiduciale inferiore ( )[ ]212

025,0;21 /1/1** nnstxx gl ++−=

(120,0 - 101,0) - 2,110 * 10,04= - 2,18

34

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 67

Esercizi consigliati da: Fowler et al, ed Edises.

• Cap 11 (p 229) es 4• Cap 11 (p 229) es 9• Cap 11 (p 229) es 12• Cap 11 (p 229) es 13• Cap 11 (p 229) es 14• Cap 15 (p 238) es 1