l’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di...
TRANSCRIPT
![Page 1: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/1.jpg)
L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.
Due forme di inferenza statistica sono: la stima il test di ipotesi
![Page 2: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/2.jpg)
La popolazione statistica è definita
come l’insieme di tutte le possibili
unità statistiche, sulle quali possiamo
eseguire delle misure. Essa può
perciò essere infinita.
![Page 3: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/3.jpg)
Concetto (frequentista)Concetto (frequentista) di probabilitàdi probabilità
Se un esperimento casuale è ripetuto un numero infinito di volte, la frequenza relativa di un certo risultato converge, con probabilità = 1, ad un unico limite fisso. (Legge dei grandi numeri) Si potrebbe allora dire che la probabilità di quel certo risultato è tale limite, se questa definizione non fosse circolare.
![Page 4: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/4.jpg)
Legge dei grandi numeri: in generale stabilisce che più il campione è grande, più è probabile che la media aritmetica campionaria approssimi la media della popolazione.
![Page 5: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/5.jpg)
Concetto (Bayesiano) di probabilitàConcetto (Bayesiano) di probabilità
Secondo alcuni statistici, è possibile assegnare una probabilità ad un evento, anche quando non si dispone di una frequenza relativa che ce ne possa suggerire il valore. In questo caso la probabilità è desunta dall’esperienza di chi l’assegna, anche se tale esperienza non è formalmente costituita da una sequenza di esperimenti casuali.
![Page 6: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/6.jpg)
Assiomi di probabilitàAssiomi di probabilità
A AP 10
][]Ø[ BPAPBAPBA
ABPAPBAP |
1.
2.
3.
Legge della somma
Legge del prodotto
![Page 7: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/7.jpg)
Infezione da H.pylori
Madre affetta
Sì No
Sì No
6
16
112
729
Totale 22 841
Prevalenza di infezione da Helicobacter pylori in bambini di età Prevalenza di infezione da Helicobacter pylori in bambini di età pre-scolare, a seconda della presenza di ulcera nella madrepre-scolare, a seconda della presenza di ulcera nella madre
Brenner H, Rothenbacher D, Bode G, Adler G, Parental history of gastric or duodenal ulcer and prevalence of Helycobacter pylori infection in preschool children: population based study .BMJ 1998; 316:665.
![Page 8: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/8.jpg)
P(HB) = P( HB madre affetta) + P( HB madre non affetta)
P (HB madre affetta) = P( HB | madre affetta) • P(madre affetta)
118/863 = 6/ 863 + 112/863
6/863 = 6/22 • 22/ 863
Verifica della validità degli assiomi, sui dati di Brenner et al.Verifica della validità degli assiomi, sui dati di Brenner et al.
Legge della somma
Legge del prodotto
![Page 9: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/9.jpg)
Le variabili casuali (o stocastiche o aleatorie) sono variabili numeriche, che assumono valori diversi a caso.
Variabili casualiVariabili casuali
![Page 10: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/10.jpg)
Variabili casuali discreteVariabili casuali discrete
Non possono assumere tutti i valori in alcun intervallo. Per esempio, il numero di " teste " osservato dopo il lancio di due monete, assumerà valore 0, 1, o 2 ma non 1,75.
![Page 11: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/11.jpg)
Variabili casuali continueVariabili casuali continue
Possono assumere tutti i valori in un certo intervallo. Perciò, hanno un’infinità di valori possibili tra due valori qualunque.
![Page 12: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/12.jpg)
Una prova di Bernouilliprova di Bernouilli è un esperimento casuale con due soli esiti possibili, denominati “successo” e “insuccesso”. Non è importante quale di questi esiti sia considerato "successo "- questo è arbitrario – ma, una volta fatta la scelta, essa deve essere mantenuta per tutto il corso dei calcoli.La probabilità di successo è costante
![Page 13: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/13.jpg)
Il numero totale di successi X osservato in una serie di n prove di Bernouilli indipendenti è una variabile casuale variabile casuale binomialebinomiale.
![Page 14: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/14.jpg)
Le probabilità associate con tutti i possibili valori di una variabile casuale binomiale formano una distribuzione binomiale.
Distribuzione BinomialeDistribuzione Binomiale
![Page 15: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/15.jpg)
La distribuzione binomialedistribuzione binomiale descrive una famiglia di variabili casuali, ogni membro della quale è identificato dai valori dei parametri della distribuzione stessa:
nn il numero di prove indipendenti
ππ la probabilità di successo in ciacuna prova La notazione usata per indicare che una variabile casuale X è binomiale è la seguente:
X ~ B(n, π)
(si legge: " X è una variabile casuale binomiale con parametri n e π“).
![Page 16: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/16.jpg)
Il valore attesovalore atteso di una variabile binomiale casuale è la media d’infinite sue realizzazioni. Può essere calcolato con la formula:
E(X) nπ La varianzavarianza (²) di una variabile binomiale casuale quantifica la dispersione d’infinite sue realizzazioni . La formula per la varianza di una variabili binomiale è:
2 nπ(1-π)
![Page 17: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/17.jpg)
Diagramma a barre della distribuzione binomiale di Diagramma a barre della distribuzione binomiale di probabilità con parametri n = 4 e probabilità con parametri n = 4 e = 0,75 = 0,75
Numero di "successi"
Pro
babilità
0.0040.047
0.211
0.422
0.316
0 1 2 3 4
0.0
00
.15
0.3
00
.45
![Page 18: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/18.jpg)
Diagramma della funzione Diagramma della funzione FFXX((xx) = P(X ) = P(X xx),),
X è una variabileX è una variabile binomiale con parametri n = 4 e binomiale con parametri n = 4 e = 0,75. = 0,75.
FFXX((xx)) si chiama funzione di distribuzione di probabilità cumulata.si chiama funzione di distribuzione di probabilità cumulata.
0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
Numero di "successi"
Probabilità c
um
ula
ta
![Page 19: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/19.jpg)
Distribuzione di campionamento della Distribuzione di campionamento della media aritmeticamedia aritmetica::
È la distribuzione di frequenza delle medie campionarie, che si otterrebbero da ripetuti campioni indipendenti ciascuno di dimensione n, estratti a caso dalla popolazione .
![Page 20: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/20.jpg)
Stimatore non distortoStimatore non distorto
Produce una stima, il cui valore atteso è uguale al
parametro che si vuole stimare.
Per esempio,x (media campionaria) è uno stimatore
non distorto di (media dell’intera popolazione),
perché il valore atteso della media campionaria è uguale
alla media della popolazione.
![Page 21: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/21.jpg)
Aumentando la dimensione del campione, la
distribuzione di campionamento tende a restringersi
intorno alla media della popolazione. Questo è un aspetto
della legge dei grandi numeri, che afferma che la media
campionaria tende con probabilità 1 al valore atteso della
variabile casuale (media della popolazione), quando la
dimensione campionaria tende ad infinito.
![Page 22: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/22.jpg)
LL’errore standard della media’errore standard della media (ESM o ES o x) è:
rappresenta la deviazione standard della popolazione e n la dimensione campionaria. ESM tende a 0 al crescere di n, perciòx è una stima consistente di .
nESM
![Page 23: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/23.jpg)
La media aritmetica campionaria è una stima
non distorta
consistente
la più efficiente (con la minore varianza, a parità di n)
della media aritmetica della popolazione
![Page 24: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/24.jpg)
Intervallo di confidenzaIntervallo di confidenza::
è un intervallo, all’interno del quale si trova il parametro, che si desidera stimare, con probabilità uguale al livello di confidenza dell’intervallo stesso.
![Page 25: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/25.jpg)
•IV.A.6.c. Statistics
•Describe statistical methods with enough detail to enable a knowledgeable reader with access to the original data to verify the reported results. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as the use of P values, which fails to convey important information about effect size. References for the design of the study and statistical methods should be to standard works when possible (with pages stated). Define statistical terms, abbreviations, and most symbols. Specify the computer software used.
![Page 26: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/26.jpg)
![Page 27: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/27.jpg)
Problemi respirarori
gruppo di trattamento
Terbinafine placebo
presenti assenti
5
51
0
29
Totale 56 29
Numero di pazienti con problemi respiratori tra i trattati Numero di pazienti con problemi respiratori tra i trattati con Terbinafine o placebocon Terbinafine o placebo
Goodfield MJD,Andrew L,Evans EGV Short-term treatment of dermatophyte onchomyosis with terbinafine,.BMJ 1992; 304:1151-4.
![Page 28: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/28.jpg)
Intervallo di confidenza al 95%95% per la differenza fra le proporzioni di disturbi respiratori fra i pazienti trattati con terbinafine e placebo
-0,012 ; 0,190
Nota bene: la stima puntuale della differnza di proporzioni vale 0,09
(Calcolo eseguito con )R 2.0.1.lnk
![Page 29: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/29.jpg)
I più semplici intervalli di confidenza sono simmetrici I più semplici intervalli di confidenza sono simmetrici intorno alla stima puntuale del parametro da stimareintorno alla stima puntuale del parametro da stimare
![Page 30: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/30.jpg)
Caso particolare:Caso particolare:
Intervallo di confidenza per Intervallo di confidenza per quando quando è è conosciutoconosciuto
P[ x -- 1.96 1.96 ESM < µ < x 1.961.96 ESM]
= 0,95
L’origine dei valori 1,96 diventerà chiara, dopo avere fatto conoscenza con il modello gaussiano
![Page 31: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/31.jpg)
La distribuzione gaussianadistribuzione gaussiana (chiamata anche normale) è una distribuzione di probabilità continua, simmetrica, unimodale e caratterizzata da una forma a campana.
Si indica con X N( ) una qualunque variabile casuale, che segue la distribuzione gaussiana con media e deviazione standard .
![Page 32: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/32.jpg)
Questa particolare gaussiana (denominata standard) ha media = 0 e deviazione standard = 1
![Page 33: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/33.jpg)
Le curve di densità di probabilità hanno le proprietà seguenti: L’L’area totalearea totale sotto la curva di densità è uguale a 1 L’L’area sotto la curva (AUC)area sotto la curva (AUC) tra 2 punti qualunque, x1
ed x2, è la probabilità che la variabile casuale assuma
un valore nell’intervallo tra essi compreso. Da questo si deduce che la probabilità di un intervallo di larghezza 0, coincidente con un singolo valore, è uguale a 0
![Page 34: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/34.jpg)
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Densità gaussiana standard
Area = 0,025
Area = 0,025
-1,96 1,96
Area = 0,95
Origine dei valori 1,96 usati per il calcolo dell’intervallo di confidenza
![Page 35: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/35.jpg)
Quando la deviazione standard della popolazione non è conosciuta una stima dell’errore standard della media (SESM) è:
Dove s rappresenta la deviazione standard campionaria e n la
dimensione campionaria
n
ssSESM x
![Page 36: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/36.jpg)
Un altro caso particolare:Un altro caso particolare:
Intervallo di confidenza per Intervallo di confidenza per quando quando è è sconosciutosconosciuto
si utilizza la deviazione standard campionaria, s, come stima
di e si calcola un intervallo di confidenza al (1 ) 100%
per con:
x tn-1, 1-/2 SESM
dove tn-1, 1-/2 è il quantile, definito dalla frazione (1 – ),
della distribuzione t con n -1 gradi di libertà;
SESM vale: s /n.
![Page 37: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/37.jpg)
-6 -4 -2 0 2 4 6
0.0
0.1
0.2
0.3
Origine del valore tn-1, 1-/2 (in questo esempio n-1= 3 e
-t3, 1- /2= -3.18
Area 0.95 Area
0,025 Area 0,025
t3, 1- /2= 3.18
![Page 38: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/38.jpg)
Alcuni possibili usi degli Alcuni possibili usi degli intervalli di confidenza: intervalli di confidenza: Stima diStima di
Medie e loro differenze
Proporzioni e loro differenze
Indici “non parametrici” (mediane, quantili, ecc.)
Rischi relativi, rischi attribuibili e odds ratio
Tassi di incidenza e tassi standardizzati
Parametri di modelli lineari e regressione logistica
Azzardi e rapporti di azzardi (studi di sopravvivenza)
![Page 39: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/39.jpg)
A : Ipotesi nulle ed alternativeA : Ipotesi nulle ed alternative
Utilizziamo la notazione HH00 per indicare l’ipotesi
nulla ed HH11 (o Ha) per indicare l’ipotesi alternativa.
H0 corrisponde a “nessuna differenza” diversa da
quella che sarebbe ottenuta per puro caso. È l’ipotesi
che il ricercatore spera di poter rifiutare.
H1 è l’ipotesi che il ricercatore spera di poter
dimostrare, solitamente è l’esatto contrario di H0.
![Page 40: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/40.jpg)
La statistica teststatistica test è una quantità che
rispecchia i dati campionari, che, quando H0 è
vera, ha una distribuzione (o densità) di
probabilità completamente nota.
Essa è perciò lo strumento per determinare il
P-value.
![Page 41: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/41.jpg)
P-valueP-value
E’ la probabilità di ottenere dati
campionari altrettanto o meno probabili
di quelli ottenuti, allorché H0 è vera.
![Page 42: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/42.jpg)
P-value può perciò essere considerato una misura delle
prove fornite dai dati contro l’ipotesi nulla, infatti esso
risponde alla domanda seguente:
“Se l’ipotesi nulla fosse vera, quale sarebbe la
probabilità di osservare questo campione od uno
ancora più improbabile?”
Più P-value è piccolo, migliore è l’evidenza contro H0
![Page 43: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/43.jpg)
Livello di significativitàLivello di significatività
Prima di fare il test, stabiliamo il valore massimo
accettabile della probabilità di rifiutare erroneamente H0,
indicato con alfa ().
è solitamente posto uguale a 0,05 o 0,01.
![Page 44: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/44.jpg)
Conclusione della procedura di testConclusione della procedura di test
Per trarre delle conclusioni si calcola, tramite la statistica
test, il P-value.
Se P è inferiore o uguale a α, H0 è rifiutata
Se P è superiore a , H0 non è rifiutata
per mancanza di prove contrarie
Questa procedura assicura che la probabilità di rifiutare erroneamente H0 sia .
![Page 45: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/45.jpg)
Il P-valueP-value può essere interpretato come il
valore minimo di α che si deve scegliere
per potere rifiutare H0, in presenza dei
dati campionari ottenuti.
![Page 46: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/46.jpg)
Ipotesi nullaIpotesi nulla
Condizioni dei Condizioni dei datidati
Test statistico Test statistico consigliatoconsigliato
Uguaglianza della media Uguaglianza della media di una popolazione ad un di una popolazione ad un valore prefissatovalore prefissato
Osservazioni Osservazioni indipendenti indipendenti Variabili Variabili approssimativamente approssimativamente gaussianegaussiane
Test “t” per un solo Test “t” per un solo campionecampione
Uguaglianza delle medie Uguaglianza delle medie di due variabili misurate di due variabili misurate sugli stessi soggetti o sugli stessi soggetti o ciascuna su uno dei due ciascuna su uno dei due elementi di una coppia elementi di una coppia
I soggetti misurati due I soggetti misurati due volte oppure le coppie di volte oppure le coppie di osservazioni sono osservazioni sono indipendenti fra loroindipendenti fra loroDifferenza fra le due variabili Differenza fra le due variabili approssimativamente approssimativamente gaussianagaussiana
Test “t” per dati appaiatiTest “t” per dati appaiati
Uguaglianza delle medie Uguaglianza delle medie di due popolazionidi due popolazioni
Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni hanno Le due popolazioni hanno la stessa varianzala stessa varianzaVariabili Variabili approssimativamente approssimativamente gaussianegaussiane
Test “t” per campioni Test “t” per campioni indipendentiindipendenti
Uguaglianza delle medie Uguaglianza delle medie di due popolazionidi due popolazioni
Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni Le due popolazioni nonnon hanno la stessa varianzahanno la stessa varianza Variabili approssimativa-Variabili approssimativa-mente gaussianemente gaussiane
Test “t” per campioni Test “t” per campioni indipendenti con correzione indipendenti con correzione dei gradi di libertàdei gradi di libertà (Attenzione: se le popolazioni non (Attenzione: se le popolazioni non hanno la stessa varianza, può non hanno la stessa varianza, può non essere sensato testare se le essere sensato testare se le medie sono uguali)medie sono uguali)
![Page 47: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/47.jpg)
Ipotesi nullaIpotesi nulla
Condizioni dei datiCondizioni dei dati Test statistico Test statistico consigliatoconsigliato
La distribuzione delle differenze fra La distribuzione delle differenze fra le osservazioni rilevate sul le osservazioni rilevate sul medesimo soggetto o su soggetti medesimo soggetto o su soggetti appartenenti alla stessa coppia, è appartenenti alla stessa coppia, è simmetrica.simmetrica.
- - I soggetti misurati due volte, o le I soggetti misurati due volte, o le coppie di osservazioni sono coppie di osservazioni sono indipendenti fra loroindipendenti fra loro- Differenza fra le due variabili - Differenza fra le due variabili molto lontana dalla distribuzione molto lontana dalla distribuzione gaussianagaussiana
Test non parametrico Test non parametrico per dati appaiati per dati appaiati (wilcox.test)(wilcox.test)
Uguaglianza delle Uguaglianza delle distribuzioni di probabilità distribuzioni di probabilità di due popolazionidi due popolazioni
Tutte le osservazioni sono Tutte le osservazioni sono indipendenti indipendenti Le due popolazioni hanno Le due popolazioni hanno distribuzioni approssimativamente distribuzioni approssimativamente sovrapponibili salvo per la sovrapponibili salvo per la posizione.posizione. Variabili molto lontane dalla Variabili molto lontane dalla distribuzione gaussianadistribuzione gaussiana
Test non parametrico Test non parametrico per campioni per campioni indipendenti. indipendenti. (wilcox.test)(wilcox.test)
Uguaglianza di una Uguaglianza di una proporzione proporzione ad un valore prefissato ad un valore prefissato
Osservazioni Osservazioni indipendentiindipendenti
Test esatto per una Test esatto per una proporzione basato su proporzione basato su modello binomialemodello binomiale(binom.test)(binom.test)
Uguaglianza di due Uguaglianza di due proporzioni rilevate in proporzioni rilevate in campioni provenienti da campioni provenienti da due popolazioni, od due popolazioni, od indipendenza di due indipendenza di due variabili categorichevariabili categoriche
Osservazioni Osservazioni indipendentiindipendenti
Test chi Test chi quadratoquadrato
![Page 48: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/48.jpg)
l’ipotesi nulla e l’ipotesi alternativa possono prendere
una di queste 3 forme:
“una coda a destra”, “una coda a sinistra, e “due code”.
H0: 0 contro H1: >0
H0: 0 contro H1: < 0
H0: = 0 contro H1: 0
Test a una e a due codeTest a una e a due code
![Page 49: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/49.jpg)
Errori di tipo I (rifiuto di una ipotesi nulla vera)Errori di tipo II (non rifiuto di una ipotesi nulla falsa) Le conseguenze dell’esecuzione di un test statistico d’ipotesi possono essere riassunte come segue:
VERITA’ H0 vera H0 falsa
DECISIONE
Non rifiutare H0
Corretta accettazione di H0
Rifiutare H0
Errore di tipo Errore di tipo IIII
Errore di tipo IErrore di tipo I Corretto rifiuto di H0
![Page 50: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/50.jpg)
P (errore di tipo I) =
P (errore di tipo II) =
Pr (evitare un errore di tipo I) = 1-
Pr (evitare un errore di tipo II)= 1- “potenza”
Probabilità di errori di I e II tipoProbabilità di errori di I e II tipo
![Page 51: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/51.jpg)
![Page 52: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/52.jpg)
![Page 53: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/53.jpg)
![Page 54: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/54.jpg)
![Page 55: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/55.jpg)
p1 e p2
![Page 56: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/56.jpg)
60 70 80 90 100 110
7080
9010
011
012
013
0
pressione diastolica (mmHg)
pres
sion
e si
stol
ica
(mm
Hg)
Diagramma di pressione diastolica e sistolica in una popolazione
Pressione diastolica (mmHg)
Pre
ssio
ne s
isto
lica
(mm
Hg)
![Page 57: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/57.jpg)
60 70 80 90 100 110
7080
9010
011
012
013
0
pressione diastolica (mmHg)
pres
sion
e si
stol
ica
(mm
Hg)
Modello di regressione lineare di pressione sistolica rispetto alla pressione diastolica
![Page 58: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/58.jpg)
60 70 80 90 100 110
7080
9010
011
012
013
0
pressione diastolica (mmHg)
pres
sion
e si
stol
ica
(mm
Hg)
Stima e bande di confidenza (in blu scuro) della retta di regressione
![Page 59: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/59.jpg)
60 70 80 90 100 110
7080
9010
011
012
013
0
pressione diastolica (mmHg)
pres
sion
e si
stol
ica
(mm
Hg)
Banda di “tolleranza” stimata del modello di regressione (in fucsia)
![Page 60: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/60.jpg)
Fattore studiato Variabile dipendente
confondente
![Page 61: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/61.jpg)
y = a + bx + e
• Modello di regressione lineare semplice:
• Modello di regressione lineare multipla:
y = a + b1x1+ b2x2 + e
• Il modello permette di studiare l’effetto della variabile x1 sulla y, al netto dell’azione di x2
y – b2x2= a+ b1x1 + e
![Page 62: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/62.jpg)
Se desideriamo aggiungere alla previsione di y
(per esempio la glicemia delle nostre pazienti), una quantità b solo per le obese, ma non per le altre pazienti, possiamo
aggiungere alla formula della previsione un termine bx,
dove x vale 1 quando la formula si applica alle obese,
e vale 0 per le altre pazienti.
Questo equivale ad inserire la variabile x nel data-base e nel modello di previsione
![Page 63: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/63.jpg)
Per rendere una variabile qualitativa in un modello lineare, possiamo usare tante variabili indicatore quante sono le classi della variabile meno una.
Per esempio per codificare il gruppo ematico di classi 0, A, B, AB, possiamo usare tre variabili xA, xB, xAB, che hanno le seguenti caratteristiche:
xA=1 per i soggetti con gruppo ematico A, e xA= 0 per tutti gli altri
xB=1 per i soggetti con gruppo ematico B, e xB= 0 per tutti gli altri
xAB=1 per i soggetti con gruppo ematico AB, e xAB= 0 per tutti gli altri
Le variabili indicatore sono quantitative: forniscono il conteggio (0 od 1) dei rispettivi gruppi ematici in ogni soggetto
![Page 64: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/64.jpg)
Visti i valori delle variabili indicatore, per i soggetti appartenenti ai quattro gruppi ematici, l’equazione si riduce alle seguenti quattro espressioni:
La parte sistematica del modello è data dalla seguente equazione
E(y | gruppo ematico) = a + bA xA+ bB xB + bAB xAB
E(y | gruppo A) = a + bA
E(y | gruppo B) = a + bB
E(y | gruppo AB) = a + bAB
E(y | gruppo 0) = a
![Page 65: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/65.jpg)
Dalle equazioni precedenti risulta chiaro il significato
dei parametri bA, bB e bAB :
bA = E(y | gruppo A) - E(y | gruppo 0)
bB = E(y | gruppo B) - E(y | gruppo 0)
bAB = E(y | gruppo AB) - E(y | gruppo 0)
![Page 66: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/66.jpg)
religione
sesso
got
musulmana
cristiana
altro
F
M
Modello di analisi della varianza per la “got” con variabili esplicative religione e sesso
40
65
![Page 67: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/67.jpg)
Scatterplot e retta di regressione e banda di confidenza
Pulsazioni 1
Pul
sazi
oni 2
![Page 68: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/68.jpg)
Rappresentazione grafica di un modello di analisi della covarianza, comprensivo delle bande di confidenza delle rette di regressioneP
ulsa
zion
i (se
cond
a ri
leva
zion
e)
Pulsazioni (prima rilevazione)
Riposo
Corsa
![Page 69: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/69.jpg)
0 1000 2000 3000 4000 5000 6000
0.0
0.2
0.4
0.6
0.8
1.0
dose
fraz
ione
di b
atte
ri uc
cisi
Diagramma della frazione di batteri uccisi in relazione alla dose usata di farmaco, osservata in numerosi esperimenti
![Page 70: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/70.jpg)
Curva logistica di equazione y=exp(a+bx)/[1+exp(a+bx)] (ascissa del flesso = -1, pendenza nel flesso= 0,5)
![Page 71: L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione](https://reader036.vdocuments.site/reader036/viewer/2022062512/5542eb73497959361e8dadbe/html5/thumbnails/71.jpg)
0 5 10 15
0.0
0.2
0.4
0.6
0.8
1.0
anni
sopr
avvi
venz
aStima di Kaplan-Meyer della curva di sopravvivenza