confronto di due misure campioni indipendenti o meglio...

37
1 Statistica7 – 2/11/2015 Confronto di due misure o meglio.…. Due serie di misure sono state estratte dalla stessa popolazione (popolazione comune o identica) o sono state estratte da due popolazioni diverse? Campioni indipendenti rispondere al quesito Cioè se un trattamento effettuato su metà degli animali induce una differenza fra le medie dei due gruppi.

Upload: vuxuyen

Post on 18-Feb-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

1

Statistica7 – 2/11/2015

Confronto di due misure

o meglio.….

Due serie di misure sono state estratte dalla stessa popolazione (popolazione comune o identica) o sono state estratte da due popolazioni diverse?

Campioni indipendenti

rispondere al quesito

Cioè se un trattamento effettuato su metà degli animali induce una differenza fra le medie dei due gruppi.

2

Tutti i test statistici consistono nel mettere alla prova ipotesi che certe caratteristiche delle popolazioni siano uguali: testare cioè la ipotesi nulla per negarne la possibiltà.

Lo scopo della statistica è quello di sottoporre le ipotesi scaturite dalla esperienza del professionista/ricercatore a dei test obbiettivi indipendenti dalla soggettività dello stesso.

Caratteristica di tutti i test statistici è quella di fornire sempre una risposta in termini probabilistici: probabilità e mai di certezze.

L’analisi statistica non ha il potere di scoprire fatti nuovi, né di fornire conclusioni assolute (è solo uno

strumento come può esserlo una bilancia).

3

La media A non risulta differire statisticamente da quella di B (anche se i valori sono esattamente uguali può sempre essere “un caso”).

Tutti i test statistici consentono quindi di individuare l’esistenza (probabilistica) di differenze ma non di individuare l’esistenza (probabilistica) di identità.

Nel campo scientifico non è possibile dimostrare che due “cose” sono uguali.

oppure

La media A risulta statisticamente differente da quella di B. A = B per p < 0,05 (oppure per p < 5%)

4

La media A non risulta statisticamente differente da quella di B.

La media A e quella di B sono probabilisticamente uguali

La numerosità dei campioni esaminati era insufficiente per qualsiasi conclusione scientificamente valida.

5

Tutto nel campo della biologia applicata deve essere “pensato” per “dimostrare ciò che

determina differenze (=effetti)”. Perché non possiamo dimostrare uguaglianze.

due farmaci hanno lo stesso effetto!

Frase comune ma:

6

Confronto di medie e/o confronto di varianze

Una popolazione è caratterizzata da 3 parametria) n. o g.l. (nella popolazione generica pari a infinito)b) la mediac) la deviazione standard (o altro indice di dispersione, es. varianza ecc….).

Due popolazioni possono differire per le medie, per le varianza o per entrambe.

Nella maggior parte dei casi il professionista/ biologo/ veterinario è interessato ad appurare l’esistenza di differenza fra le medie delle popolazioni.

7

Il confronto delle varianze è utilizzato:• Per lo studio della variabilità genetica di specie e di gruppo• per valutare la precisione di uno strumento di misura oppure• la precisione di una tecnicao ancora• nel controllo industriale dei difetti di fabbricazione ecc. ecc.

Confronto fra varianze

8

Confronto fra medie

Il test

L’analisi della varianza

Iniziamo analizzando

Il test

9

Il testLe differenze fra le medie, x, di campioni estratti da una popolazione e la media “vera” della popolazione, μ, rapportate a:

La deviazione standard vera, σ, della popolazione

L’errore standard stimato sm della vera deviazione standard (σ) della popolazione

Normale di t

Si distribuiscono intorno allo Ø secondo la distribuzione:

)x( z

smt

)x(

10

Consideriamo 2 popolazioni A e B caratterizzate da due medie vere μa e μb

Calcoliamo la differenza fra le medie che indichiamo con δ

Consideriamo 2 campioni delle popolazioni A e B; avremo delle medie xa e xb

Calcoliamo la differenza fra le medie dei due campioni che indichiamo con d

Analogamente a quanto fatto per la distribuzione normale standardizzata possiamo utilizzare come unità di misura la σ e quindi definire:

diff. fra medie campioni meno diff. fra medie popolazionedeviazione standard vera

(oppure stimata) dds

)d( d )d(

11

Le differenze fra le differenze delle medie dei campioni e la differenza fra le medie vere delle popolazioni di origine rapportata a:

La deviazione standard vera, della differenza σd

La deviazione standard stimata della differenza “dsd”

Normale di t

Si distribuiscono intorno allo Ø secondo la distribuzione

d

z

)d( dds

)d( t

Perfettamente analoga alla precedente sulle sole differenze

12

dds

I due campioni A e B possono essere definiti da un numero di individui na e nb

Le medie dei campioni possiedono un media x ed una deviazione standard della media dalla media di popolazione che è d.s. = σ/√n

nd.s.

nd.s. n*d.s.2

aa2a n*d.s. bb

2b n*d.s.

Valide solo se si estraggono campioni dalla popolazione!

deviazione standard delle differenze?“ ”

13

diff.fra medie campioni - diff.fra medie popolazione

deviazione standard stimata

Distribuzione di t

dds

)d(

le 2 popolazioni A e B uguali cioè μa = μb quindi δ = Ø

dds

)Ød(

dds

dDistribuzione

di t

14

dds

d

Un campione estratto da A si distribuisce intorno alla media con una deviazione standard pari a:

d È facile da calcolare, è “solo” la differenza fra le medie dei due campioni!

dds A

AA

nd.s.

Un campione estratto da B si distribuisce intorno alla media con una deviazione standard pari a: B

BB

nd.s.

La deviazione standard della differenza si distribuirà (non secondo la media di tutte e due) secondo la somma di tutte e due e cioè:

ddsB

2B

A

2A

B

B

A

ABA nnnn

d.s.d.s.

15

Perché si tratta di differenze! infatti: se estraiamo dei campioni da A e B le differenze d fra le medie trovate xa e xb si distribuiscono simmetricamente intorno alla vera differenza δ. La variabilità attorno a questo valore sarà il risultato della variabilità di xa intorno a μa e di xb intorno a μb, ma che cosa accade?•quando gli scarti sono dello stesso segno tutti e due positivi o tutti e due negativi la differenza tende ad essere più piccola di quella individuale ma quando gli scarti sono di segno opposto la differenza sarà più grande e pari alla somma delle due differenze; la dispersione totale (e quindi la relativa deviazione standard) sarà quindi pari alla somma delle due differenze!

Perché la somma e non la media (cioè la somma diviso 2)?

16

dds σA = σB

BA

AB2

n*n

nn

B

2B

A

2A

nn

BA

AB

n*n

nn

La deviazione standard della popolazione all’ipotesi Ø è unica ma noi disponiamo di due stime:

•una a partire dal campione A•una a partire dal campione B

dds=

17

Sono due stime indipendenti della stessa deviazione standard.Due stime sono meglio di una quindi possiamo combinarle (farne cioè un pool o stima combinata)

Stima di σ ricavata dal campione A

Stima di σ ricavata dal campione B

2

+

Perché?•Non devo dividere per 2 per gli stessi motivi di prima ma solo fare la somma delle dispersioni;•Le deviazione standard e le varianze non possiedono però le proprietà additive (non le posso usare direttamente);•le somme dei quadrati degli scarti ed i gradi di libertà possiedono le proprietà additive (devo usare loro!).

18

La stima combinata della varianza della popolazione si otterrà quindi facendo:

La somma delle somme dei quadrati degli scarti diviso la somma dei gradi di libertà cioè in formule:

)1n()1(n

)()(

BA

2B

2A

xxxx

ddsBA

AB

n*n

nn =

19

ddsBA

AB

n*n

nn = *

=BA

BA

BA

2B

2A

n*n

nn*

2nn

)()(

xxxx

)1n()1(n

)()(

BA

2B

2A

xxxx

dds

dDistribuzione

di t

)xx( d BA

dds

dDistribuzione di t =

=

BA

BA

BA

2B

2A

n*n

nn*

2nn

)()(

xxxx=

Formula finale per il calcolo del valore di t in due campioni da confrontare con i valori di t attesi

riportati nella tabella redatta da Student.

2121

MDS o DMS Minima Differenza Significativa

21

Valore di t calcolato dalle

due serie di misure

la radice quadrata di:somma dei quadrati degli scarti della prima serie più la somma dei quadrati degli scarti della seconda serie, il totale ottenuto per il numero totale delle osservazioni

e diviso peril prodotto del numero totale meno due per il prodotto del numero dei dati della prima serie per la seconda serie.

Differenza fra le medie delle due serie di misure

Diviso

Formula finale per il calcolo del valore di t in due campioni da confrontare con i valori di t attesi riportati nella tabella redatta da Student.

Differenza fra le media corrispondente alla probabilità di x% dove x% è il valore di probabilità scelto a priori (es. p= 0,05 o p= 0,01)

22

MDS

BA

BA

BA

2B

2A

n*n

nn*

2nn

)()(*

xxxxt

)xx( BA

Differenza minima fra le

medie per essere significativa

Valore di t per la radice quadrata di:somma dei quadrati degli scarti della prima serie più la somma dei quadrati degli scarti della seconda serie, il totale ottenuto per il numero totale delle osservazioni

e diviso il prodotto del numero totale meno due per il prodotto del numero dei dati della prima serie per la seconda serie.

2323

Somma dei quadrati degli

scarti

Somma dei quadrati di ciascuna osservazione meno la somma dei valori di ciascuna osservazione

elevata al quadrato e divisa per il numero delle osservazioni.

24

Il peso dei maschi è statisticamente differente da quello delle femmine?M = F per p < 0,05 (oppure no)

PESO ALLA NASCITA DEI BOVINI matricola PESO SESSO

1 40 F2 40 M3 47 F4 50 M5 40 F6 50 F7 38 F8 38 F9 47 M

10 42 F

25

F M

40 40

47 50

40 47

50

38

38

42

n = 7 3

media = 42,142857 45,666667

SS= 128,86 52,67

d.s. = 4,6342411 5,1316014

Poi lo confronto con i valori tabellari per sapere se il valore di t trovato è compreso o meno nella oscillazione casuale

)xx( d BA BA

BA

BA

2B

2A

n*n

nn*

2nn

)()(

xxxx

26

F M F M F M F M1 40 40 1600 1600 -2,143 -5,667 4,592 32,1112 47 50 2209 2500 4,857 4,333 23,592 18,7783 40 47 1600 2209 -2,143 1,333 4,592 1,7784 50 2500 7,857 61,7355 38 1444 -4,143 17,1636 38 1444 -4,143 17,1637 42 1764 -0,143 0,020

n = 7 3somma= 295 137 12561 6309 SS= 128,857 52,667

Somma^2= 87025 18769 DIVISO DIVISOtc= 12432,14 6256,33 6 2

media = 42,1429 - 45,6667 = -3,5238 VAR=SS= 21,476 26,333SS= 128,857 + 52,667 = 181,524 RADICEQUADRATA

VAR=SS= 21,476 26,333 d.s. = 4,634 5,132d.s. = 4,6342 5,1316e.s. = 1,7516 2,9627

ASS(A-B)= 3,5238

nA + nB = 10 181,5238 10

nA * nB = 21 8 21

nA + nB -2 = 8 = g.l.

0,059524 = 10 DIVISO 21 PER 8 probabilità3,5238 0,31503,2871 31,50%

VALORI TABULATI T(0,05)= 2,306 T(0,01)= 3,355

quadrati scarti quadrati scarti

ds 2d= 10,8050 ds d= 3,2871 t calcolato = 1,072

* = 10,8050

27

probabilità % di un valore più elevato di t trascurando il segno.due code 0,5 0,4 0,3 0,2 0,1 0,05 0,02 0,01 0,002 0,001

una coda 0,25 0,2 0,15 0,1 0,05 0,025 0,01 0,005 0,001 0,0005

g.l.

1 1,000 1,376 1,963 3,078 6,314 12,710 31,820 63,660 318,310 636,620

2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 22,327 31,599

3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 10,215 12,924

4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 7,173 8,610

5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 5,893 6,869

6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,208 5,959

7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,785 5,408

8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 4,501 5,041

9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,297 4,781

10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,144 4,587

11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,025 4,437

12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,930 4,318

13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,852 4,221

14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,787 4,140

15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,733 4,073

16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,686 4,015

17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,646 3,965

18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,610 3,922

19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,579 3,883

20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,552 3,850

21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,527 3,819

22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,505 3,792

23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,485 3,768

24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,467 3,745

25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,450 3,725

26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,435 3,707

27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,421 3,690

28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,408 3,674

29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,396 3,659

30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,385 3,646

40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,307 3,551

60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 3,232 3,460

80 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 3,195 3,416

100 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 3,174 3,390

1.000 0,675 0,842 1,037 1,282 1,646 1,962 2,330 2,581 3,098 3,300

infinito 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 3,090 3,291

Tav

ola

real

izza

ta c

on la

fun

zion

e in

vt d

el f

oglio

di c

alco

lo

28

<1,072014 2,306F M

n = 7 3

media = 42,142857 45,666667

SS= 128,86 52,67

d.s. = 4,6342411 5,1316014e.s. = 1,7515785 2,9627315

d (A-B)= 3,5238095

10

21

8 = g.l.

10,804989

3,2870943

t calcolato = 1,0720135

2,306

3,355

P = 0,314985

nA + n

B =

nA * n

B =

nA + n

B -2 =

ds2d=

dsd=

t 0,05

=

t 0,01

=

Il peso dei maschi non è statisticamente differente da quello delle femmine

Con questa variabilità e questa numerosità dei pesi quale avrebbe dovuto essere stata la differenza fra i pesi per essere considerata significativa?

F Mn = 7 3

media = 42,1 ns 45,7 nsd.s. = 4,63 5,13

nota: lettere diverse indicano differenze significative per p<0,05

Valore trovato valore tabulato

29

8 = g.l.nA + n

B -2 =

2,306

3,355

t 0,05

=

t 0,01

=

BA

BA

BA

2B

2A

n*n

nn*

2nn

)()(*

xxxxt

MDS0,05= 7,58

MDS0,01= 11,028

30

PESI DI A PESI DI B

59 62

45 46

57 79

49 79

20 82

54

n = 6 5

media = 47,333333 69,6

SS= 1.029,33 945,20

La media di A risulta statisticamente differente da quella di B? A = B per p < 0,05 (oppure no)?

Poi confrontalo con i valori tabellari per sapere se è compreso o meno nella oscillazione casuale

)xx( d BA BA

BA

BA

2B

2A

n*n

nn*

2nn

)()(

xxxx

31

n = 6 5

media = 47,333333 69,6

SS= 1.029,33 945,20

d.s. = 14,348054 15,372053e.s.= 5,8575687 6,8745909

d (A-B)= 22,266667

11

30

9 = g.l.

3,3

80,443951

t calcolato = 2,4826101

2,262

3,25

P = 0,0348

nA + n

B =

nA * n

B =

nA + n

B -2 =

ds2d=

t(9g.l.) 0,05

=

t(9g.l.) 0,01

=

= area esatta sotto la curva di t

>2,48261 2,262

La media di A differisce in modo significativo da quella di B.

47,3 è diverso da 69,8per p< 0,05

poiché

2,48261 3,25<La differenza non è altamente significativa ma solo significativa.

Valore trovato valore tabulato

Valore trovato valore tabulato

●Il valore di t trovato = 2,482 è più grande del valore di t per l'area del 95% (t = 2,262) quindi si trova meno del 5% delle volte. È significativo!●Il valore di t trovato = 2,482 non è più grande del valore di t per l'area del 99% (t = 3,25) quindi si trova non meno del 1% delle volte non è quindi altamente significativo ma solo significativo!

33

Calcolo l’e.s. per vedere quanti decimali riportaree.s. di A= 5,857568703 e.s. di B 6,874590897La prima cifra significativa è l’unità quindi la media deve avere un decimale e la d.s. un decimale in più della media

PESI DI A PESI DI Bn = 6 5

media = 47,3 a 69,6 bd.s. = 14,35 15,37

Nota: media con lettere diverse indicano una differenza statisticamente significativa(cioè p=probabilità < 0,05)

Differenza significativa

Probabilità uguale o inferiore al 5% (o inferiore a 0,05)

Abbreviato

p<0,05

si usano lettere minuscole per le mediee.g.: a,b,c,.....

Per convenzione è opportuno per meglio distinguere le due probabilitàscelte arbitrariamente dal consesso scientifico

Differenza altamente

significativa

Probabilità uguale o inferiore al 1% (o

probabilità inferiore a 0,01)

Abbreviato

p<0,01

si usano lettere maiuscole per le mediee.g.: A,B,C,.....

si usa un asterisco per indicare la differenza

si usa due asterischi per indicare la differenza

35

Quale è la MDS per p = 0,01 e per p = 0,05 fra le due serie A e B?

PESI DI A PESI DI B

59 62

45 46

57 79

49 79

20 82

54

n = 6 5

media = 47,333333 69,6

SS= 1.029,33 945,20

d.s. = 14,348054 15,372053

BA

BA

BA

2B

2A

n*n

nn*

2nn

)()(*

xxxxt

9 = g.l.nA + n

B -2 =

2,262

3,25

t 0,05

=

t 0,01

=

36

20,288003

29,149429

MDS0,05

=

MDS0,01

=

pesi din = 6 5

media = 47,3 a 69,6 bd.s. = 14,35 15,4

A B

nota: lettere diverse indicanodifferenze significative per p<0,05

PESI DI A PESI DI B

e.s. = 5,85836 6,873673

Devo calcolare gli e.s. Per decidere il numero di decimali!

37

Massima efficienza quando numero individui uguale in ciascun gruppo