Statistica
Descrittiva Inferenziale
Ho un insieme di dati e li voglio descrivere, sintetizzare e commentare
Ho un insieme di dati e li utilizzo per fare induzione e previsione
STATISTICA
insieme di procedure finalizzate al trattamento di informazioni relative a
fenomeni collettivi, che si manifestano con determinazioni tipicamente non costanti
Oggetto della STATISTICA sono quei fenomeni
che variano all’interno di un collettivo
di riferimento, la POPOLAZIONE STATISTICA,
costituito da UNITA’ STATISTICHE o elementari.
POPOLAZIONE
STATISTICA qualsiasi insieme di persone, animali, piante o cose da cui possono essere raccolte le informazioni
oggetto di interesse dell’indagine: insieme di entità sulle cui caratteristiche vogliamo trarre conclusioni
UNITA’
STATISTICA elemento di base della popolazione sul quale viene effettuata la rilevazione o la misurazione di uno o più fenomeni oggetto di studio
oggetto della raccolta dei dati, detentore dell’informazione che vogliamo rilevare e analizzare
Esempio: Italian Study on Asthma in
Young Adults (ISAYA):
indagine sulla salute respiratoria nella popolazione adulta italiana (20-44 anni)
nel 1998-2000
tutti gli adulti di età 20-44 anni
residenti in Italia nel periodo dello
studio
POPOLAZIONE STATISTICA
UNITÀ STATISTICA
singolo adulto di età 20-44
residente in Italia nel 1998-
2000
POPOLAZIONI DI INTERESSE PER LA STATISTICA
APPLICATA ALLA MEDICINA:
• insieme di esseri umani (residenti in una certa area; soggetti
sani, malati oppure deceduti);
• insieme di unità amministrative (reparti, ospedali, comuni);
• ematocriti dei ricoverati presso il reparto di ematologia del policlinico Umberto I nell’anno 2009
• tempi di sopravvivenza dopo il trapianto di cuore…
• aborti nell’ospedale di LT nel periodo 2000-2010
POPOLAZIONI DI INTERESSE PER LA STATISTICA
APPLICATA ALLA MEDICINA:
• insiemi di esseri umani
esempio (popolazione di residenti - sani o malati):
indagine ISAYA adulti di età 20-44 anni residenti in Italia nel 1998-2000 selezionati indipendentemente dallo stato di salute
esempio (popolazione di soggetti sani):
sperimentazione sull’effetto del fluoro nel prevenire
l’insorgenza di carie nei bambini bambini sani (senza carie)
esempio (popolazione di soggetti malati):
sperimentazione sull’effetto di un chemioterapico per la cura di una particolare patologia tumorale soggetti che presentano la patologia
Molte ricerche vengono programmate con lo scopo di pervenire a
conclusioni generali, valide per tutte le unità statistiche della
popolazione, sfruttando i risultati ottenuti da un numero ridotto di
osservazioni
CAMPIONE STATISTICO:
sottoinsieme di unità statistiche appartenti alla popolazione che vengono selezionate per l’analisi (sono quelle realmente studiate)
GENERALIZZAZIONE DELLE CONCLUSIONI
NB: il campione deve essere rappresentativo (stesse caratteristiche della popolazione dalla quale è stato estratto)
CAMPIONAMENTO CASUALE
vengono raccolte informazioni da tutti i residenti nel territorio italiano nell’anno del censimento (non su di un campione) numerosità e composizione demografica della popolazione residente italiana
3000 soggetti adulti di età 20-44 anni estratti casualmente dalle liste dei residenti in ciascuna delle 9 città coinvolte nell’indagine
ESEMPIO DI INDAGINE
CAMPIONARIA: ISAYA
ESEMPIO DI INDAGINE NON
CAMPIONARIA: censimento
SCHEMA LOGICO DELLA STATISTICA
STATISTICA DESCRITTIVA
POPOLAZIONE
CAMPIONAMENTO
teoria delle probabilità
CAMPIONE
Sintesi e presentazione dei
dati raccolti sul campione
STATISTICA INFERENZIALE
generalizzazione delle informazioni
raccolte sul campione
Studio delle caratteristiche
della popolazione
Nozioni di base
Si decide l’obiettivo della ricerca. Si identificano le modalità di raccolta dati (questionario, cartelle cliniche, analisi laboratorio,…)
Durante la raccolta dei dati, scelto il metodo di rilevazione, vengono individuate le unità statistiche che saranno prese in considerazione per portare a termine l’indagine
Nozioni di base
Unità statistica: è l’unità elementare in grado di fornire dati e informazioni relativamente ai caratteri presi in esame
L’insieme delle unità statistiche costituisce il collettivo (popolazione o campione) oggetto di studio
ES : maschio adulto ↓ popolazione Ipertesi coniugati ricoverati Paziente ricoverato ↓ unità statistica Cartella clinica ↓ Insieme di variabili (caratteri)
Nozioni di base
Scelta del fenomeno oggetto di studio
Individuazione dei caratteri
Definizione delle modalità
Nozioni di base
Caratteri
aspetti del fenomeno oggetto di studio
Modalità (xi)
modo di manifestarsi del carattere
I caratteri possono essere classificati in: -Caratteri qualitativi distinti in: - ordinabili: è possibile ordinare le modalità del carattere in senso crescente o decrescente (es: titolo di studio, livello di gravità della diagnosi...); - sconnessi: non c’è alcun ordinamento intrinseco tra le modalità (es: colore degli occhi, sesso,stato civile, religione...); - Caratteri quantitativi distinti in: - discreti: le modalità del carattere sono numeri interi (es: numero di medici, numero di figli per donna..) - continui: le modalità del carattere sono misurate su una scala continua (es: peso, altezza...).
La classificazione dei caratteri
Alla base di tale classificazione dei caratteri vi è la 'scala di misura' con cui sono espresse le modalità: se attraverso dei numeri o delle 'etichette'.
Tipi di Dati Quantitativo
Continuo Discreto
Pressione sanguigna, pH, [Na+], volume polmonare, altezza, peso, età, ecc..
Numero figli in una famiglia; frequenza degli attacchi d’asma; sedute terapeutiche; frequenza cardiaca; gg di assenza dal lavoro, ecc..
Qualitativo o Categorico
Ordinale Nominale
Stato del Paziente (MM, M, I, P, MP, D); stadio del Tumore (I, IA, II, IIA, …); grado di soddisfazione (Insufficiente, Sufficiente, Buono, …)
Sesso (M/F); stato civile (Ce, Nu, Co, Di); gruppo sanguigno (A, B, AB, 0); Vivo/Morto.
Variabile di Intervallo Variabile di Rapporto
Variabile ordinale con intervalli costanti e “zero” arbitrario. Stadio della patologia: pari gravità fra I e IA, IA e II,…; Quoziente di intelligenza (QI). Soglia di povertà.
Variabile di Intervallo con “zero” rappresentativo. Variabile quantitativa
• Variabili quantitative • Profondità di sondaggio in mm (PPD: probing
pocket depth) • Ampiezza della recessione in mm (Rec. Recession
depth) • Livello di attacco clinico in mm • ( PAL: probing attachment level)
Variabili qualitative
• Indice di placca (PI: plaque index) • Indice di gengivite ( GI: gingival index) • Sanguinamento al sondaggio (BOP: bleeding on
probing)
L'indice di placca (PlI)
(Silness J & Löe H), viene registrato, nel corso dell'esame clinico parodontale, in 6 siti per ciascun elemento dentale presente tramite sondaggio circonferenziale con sonda parodontale manuale. I 6 siti dentali considerati sono: buccale, mesio-buccale, disto-buccale, linguale, mesio-linguale e disto-linguale. Le sei misurazioni rilevate vengono sommate e divise per 6 per ottenere il PlI per singolo elemento. L'indice di placca per soggetto viene poi calcolato come media dell'indice dei singoli elementi (Media: somma degli indici dei singoli elementi dentali diviso il numero di elementi dentali considerati). In questo modo il parodontologo clinico ottiene una valutazione accurata della quantità di placca batterica non rimossa.
SCORES CRITERIA
0 Assenza di placca
1 Si evidenzia con il passaggio della sonda
2 È visibile a occhio nudo
3 È abbondante
L’indice di mobilità dentale, in
Codificato da "1" a "3" a seconda che il dente sia “movibile” in direzione orizzontale per 0.2 - 1 mm (grado 1), per più di 1mm (grado 2), e se è movibile anche in direzione verticale (grado 3).
CARATTERE SCALA
Sconnesso Nominale qualitativo
Ordinabile Ordinale
quantitativo Ad intervalli
(scala numerica discreta o continua)
Carattere
qualitativi
Operazioni sulle
modalità del
carattere sconnessi ordinabili
Quantitativi
(discreti/continui)
= ; si si si
> ; < no si si
+ ; - no no si
Classificazione dei caratteri e scala di misura
Operazioni che è possibile fare sui caratteri in base alla loro classificazione
Nozioni di base
In ogni collettivo ogni modalità può presentarsi più volte
Il numero delle volte che una modalità si presenta prende il nome di frequenza assoluta (ni) (o semplicemente frequenza)
Nozioni di base
L’insieme delle modalità e delle frequenze costituisce la distribuzione statistica
Nel caso di un carattere qualitativo (mutabile) la distribuzione si chiamerà serie
Nel caso di un carattere quantitativo (variabile) la distribuzione viene detta seriazione
Tabulazione dei dati
Tabelle semplici (singole): relative ad un unico carattere
Tabelle doppie (a doppia entrata): relative a 2 caratteri “incrociati”
Tabelle multiple: relative a 3 o più caratteri
I dati raccolti vengono riportati in apposite tabelle
Si distinguono:
Assegnare ad ogni valore (modalità/intervallo di classe) la frequenza (assoluta e/o relativa) corrispondente
FREQUENZA ASSOLUTA (ni) numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile
0 ni n
Ki=1 ni = n1 + n2 + .. + nK = n
n= numero totale delle osservazioni
K= numero dei valori/modalità/classi della variabile
ottenuta tramite un
CONTEGGIO
Distribuzioni di frequenza frequenze assolute
Una distribuzione di frequenza è la determinazione della frequenza con cui compare, in una certa popolazione, ciascun valore di una data variabile.
Giorni (x) Frequenza (ni)
1 2 3 4 5 6 7 8 9
1 3 3 7
11 8 4 2 1
40 Totale
Distribuzione di frequenze dei periodi
di incubazione della malattia in 40
pazienti
3 7 6 7 1 9 5 4 5 6
2 7 2 5 6 4 8 6 5 3
4 4 3 5 6 2 7 8 5 4
5 6 6 4 5 6 4 5 5 5
Periodi di incubazione di una malattia in
40 pazienti
FREQUENZA RELATIVA: (fi = ni / n) rapporto tra il numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile e la dimensione campionaria
0 fi 1
Ki=1 fi = f1 + f2 + .. + fK = 1
FREQUENZA RELATIVA PERCENTUALE: (fi% = ni / n * 100)
indica quanto volte un fenomeno si manifesta su una casistica di 100 osservazioni
0% fi% 100%
Ki=1 fi
% = f1 % + f2
% + .. + fK % = 100%
Giorni (xi) ni fi fi%
1 1 0,025 2,5
2 3 0,075 7,5
3 3 0,075 7,5
4 7 0,175 18
5 11 0,275 28
6 8 0,2 20
7 4 0,1 10
8 2 0,05 5
9 1 0,025 2,5
totale 40 1 100
Distribuzione di frequenze dei periodi di incubazione della malattia in 40 pazienti
29
PERCHÉ USARE LE FREQUENZE RELATIVE?
Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco viene somministrato a 150 pazienti nel gruppo A, mentre un placebo viene somministrato a 100 soggetti in B.
Per il confronto della distribuzione di una variabile in campioni di
dimensioni diverse
30
PERCHÉ USARE LE FREQUENZE RELATIVE?
FREQUENZE ASSOLUTE
EFFETTO n i (A) n i (B)
migliorato 50 33
invariato 80 53
peggiorato 20 14
150 100
0
10
20
30
40
50
60
70
80
90
migliorato invariato peggiorato
GRUPPO A GRUPPO B
31
PERCHÉ USARE LE FREQUENZE RELATIVE?
FREQUENZE RELATIVE
p i (A) p i (B)
0,33 0,33
0,53 0,53
0,14 0,14
1,00 1,00
EFFETTO n i (A) n i (B)
migliorato 50 33
invariato 80 53
peggiorato 21 14
150 100
0,00
0,10
0,20
0,30
0,40
0,50
0,60
migliorato invariato peggiorato
GRUPPO A
GRUPPO B
32
FREQUENZA RELATIVA CUMULATA (Pi = Fi / n; Pi
% = Fi /n * 100%)
Pi (- )=0 Pi (+ )=1
FREQUENZA CUMULATA
FREQUENZA ASSOLUTA CUMULATA (Fi) numero di osservazioni il cui valore è inferiore o uguale ad una data modalità o a un dato valore xi
Fi (- )=0 Fi (+ )=n
Distribuzioni di frequenza frequenze cumulate si sommano le frequenze assolute iniziando dalla prima Quando si vuol conoscere il numero totale di osservazioni che hanno un valore inferiore ad un certo limite, può essere utile conoscere le frequenze cumulative.
giorni ni Fi Fi% 1 1 1 2,5 2 3 4 10 3 3 7 17,5 4 7 14 35 5 11 25 62,5 6 8 33 82,5 7 4 37 92,5 8 2 39 97,5 9 1 40 100
totale 40
Tabulazione dei dati
Esempio 1:
tabella semplice, serie
Stato civile
Celibe/nubile
34
Coniugato/a 51
Divorziato/a 12
Vedovo/a 18
Totale 115
in
Esempio 2:
tabella semplice, seriazione, distribuzione semplice (le frequenze unitarie non vengono riportate)
Voti in latino in un
semestre
2
4
5
7
Esempio 3:
tabella semplice, seriazione, distribuzione di frequenza
Numero di figli
0 22
1 89
2 56
3 11
4 8
5 4
Totale 190
in
Tabulazione dei dati
Distribuzione di frequenza (carattere quantitativo)
CarattereFrequenza
ni
x 1 n 1
x 2 n 2
x 3 n 3
… …
x i n i
… …
x K n k
Totale N
Frequenze relative
CarattereFrequenza
nifi
x 1 n 1 n 1/N
x 2 n 2 n 2/N
x 3 n 3 n 3/N
… … …
x i n i n i/N
… … …
x K n k n k/N
Totale N 1
Frequenze percentuali
CarattereFrequenza
nifi fi %
x 1 n 1 n 1/N n 1.100/N
x 2 n 2 n 2/N n 2.100/N
x 3 n 3 n 3/N n 3.100/N
… … … …
x i n i n i/N n i.100/N
… … … …
x K n k n k/N n k.100/N
Totale N 1 100
Frequenze cumulate
CarattereFrequenza
nifi fi% Ni
x 1 n 1 n 1/N n 1.100/N N 1
x 2 n 2 n 2/N n 2.100/N N 2
x 3 n 3 n 3/N n 3.100/N N 3
… … … … …
x i n i n i/N n i.100/N N i
… … … … …
x K n k n k/N n k.100/N N
Totale N 1 100
Possiamo anche suddividere in 'classi' la popolazione secondo il carattere considerato, allora le modalità del carattere vengono raggruppate in classi ed otteniamo una distribuzione di 'frequenze', dove per frequenza della classe si intende il numero di individui che appartengono alla classe.
* Distribuzioni di frequenza
Classi di frequenza Spesso, quando abbiamo un numero elevato di valori, può essere utile
raggrupparli in classi, ottenendo così una notevole semplificazione ed una
maggiore chiarezza.
• L’ampiezza di una classe è l’arco dei valori compresi nella classe.
• L’insieme delle classi deve comprendere tutti i possibili valori della variabile.
• Le classi non devono essere fra loro sovrapposte.
• Va sempre considerato che un numero troppo elevato di classi causa una perdita di sinteticità mentre un numero troppo ristretto causa una descrizione meno dettagliata. NOTA: La Scala di Valutazione Globale del Funzionamento è utilizzata dagli psichiatri per valutare globalmente il funzionamento psicologico, sociale e lavorativo del paziente nell’ambito di un ipotetico continuum salute-malattia mentale. Il punteggio assegnato può variare in ordine decrescente di gravità da 1 a 100 (ad es., punteggi compresi fra 1 e 10 indicano un persistente pericolo di far male a se stesso o agli altri).
Consulenze psichiatriche effettuate dal S.E.P. del
Dip. Di Psichiatria dell’Univ. di Pisa (aa. 2000-02)
* Distribuzioni di frequenza
valori centrali delle classi di frequenza
Peso (kg) frequenza
60-65
65-70
70-75
75-80
80-85
7
16
40
28
9
totale 100
Peso dei 100 studenti maschi iscritti
all’Università di Pisa nel Corso di
Laurea in Scienze Infermieristiche per
l’anno accademico 2000-2001
Considerando la prima classe (60-65) della tabella, i numeri 60 e 65 sono detti rispettivamente il limite inferiore ed il limite superiore della classe.
La differenza fra il confine superiore ed il confine inferiore rappresenta l’ampiezza della classe. Se tutte le classi hanno uguale ampiezza, tale ampiezza viene generalmente indicata con a; nell’esempio abbiamo
a = 65-60 = 5.
Il valore centrale di una classe è ottenuto sommando i limiti inferiore e superiore e dividendo per 2; nell’esempio il valore centrale della prima classe è (60 + 65)/2 = 62,5.
* Distribuzioni di frequenza
Frequenze cumulative in dati raggruppati in classi
Peso (kg) ni Ni fi Fi cum
60-65
65-70
70-75
75-80
80-85
7
16
40
28
9
7
23
63
91
100
0,07
0,16
0,40
0,28
0,09
0,07
0,23
0,63
0,91
1
totale 100
Peso dei 100 studenti maschi iscritti all’Università di Pisa nel Corso di Laurea in Scienze
Infermieristiche per l’anno accademico 2000-2001
Anche in presenza di dati raggruppati in classi possiamo calcolare le frequenze cumulative.
Le distribuzioni cumulate si riferiscono in questo caso ai confini superiori delle classi.
Ad es. la percentuale degli studenti con peso inferiore a 74,5 Kg (terza classe in tabella) è 0,63x100=63%.
45
COSTRUZIONE DELLA DISTRIBUZIONE DI FREQUENZA PER VARIABILI QUALITATIVE
46
Esempio: I dati seguenti si riferiscono al grado del trauma in 100 ricoverati al pronto soccorso:
X= grado del trauma
xi:
0=assente 1=trauma lieve 2=trauma grave 3=lesioni permanenti 4=decesso
0 2 1 1 1 2 0 0 1 0 1 1 0 0 0 3 1 2 0 1 1 0 0 1 0 1 1 0 2 0 0 0 1 0 1 0 2 1 2 0 0 2 0 1 0 1 0 1 0 3 1 2 0 0 0 0 1 0 0 0 1 0 1 0 1 0 2 0 1 2 1 2 0 1 0 2 2 1 0 1 0 0 0 0 4 0 1 1 2 0 0 2 1 0 2 0 0 2 1 0
…per ogni
modalità
modalità
conteggio frequenza
assente
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
48
lieve
| | | | | | | | | | | | | | | | | | | | | | | | | |
32
grave
| | | | | | | | | | | | | |
17
lesioni permanenti
| |
2
decesso
|
1
100
Conteggio delle osservazioni…
47
MODALITA'
frequenza
assoluta
frequenza
relativa n i n i /n
assente 48 48/100 = 0,48 lieve 32 0,32
grave 17 0,17
lesioni permanenti 2 0,02 decesso 1 0,01
TOTALE 100
k=5
modalità tally frequenza
assente | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 48
lieve | | | | | | | | | | | | | | | | | | | | | | | | | | 32
grave | | | | | | | | | | | | | | 17
lesionipermanenti
| | 2
decesso | 1
100
Costruzione della tabella e calcolo di frequenze relative
48
esempio (grado del trauma):
distribuzione di frequenza assoluta, relativa e cumulativa della variabile “grado del trauma”
valore xi
assoluta ni
relativa pi
relativa
percentuale pi (%)
assoluta cumulata
Ni
relativa
cumulata Pi
relativa cumulata
percentuale Pi (%)
assente
48
0.48
48%
48
48 / 100 = 0.48
0.48 * 100 = 48%
lieve
32 0.32 32% 48 + 32 = 80 80 / 100 = 0.80 0.80 * 100 = 80%
grave
17 0.17 17% 80 + 17 = 97 97 / 100 = 0.97 0.97 * 100 = 97%
lesioni permanenti
2 0.02 2% 97 + 2 = 99 99 / 100 = 0.99 0.99 * 100 = 99%
decesso
1 0.01 1% 99 + 1 = 100 100 / 100 = 1 1 * 100 = 100%
TOTALE
100
1
100%
La matrice dei dati
I dati codificati in una in una rilevazione statistica su n
unità statistiche studiando x variabili sono raccolti in
forma di tabella (matrice di dati)
N sesso Età
(anni)
Peso
(Kg)
Titolo di
studio
n.°
ricoveri
1 M 42 83 laurea 2
2 F 48 65 diploma 1
... ... ... ... ....... ......
n F
61 79 Licenza
media
inferiore
4
La matrice dei dati
Ogni riga corrisponde ad una unità
statistica
N sesso Età
(anni)
Peso
(Kg)
Titolo di
studio
n.°
ricoveri
1 M 42 83 laurea 2
2 F 48 65 diploma 1
... ... ... ... ....... ......
n F
61 79 Licenza
media
inferiore
4
La matrice dei dati
Ogni colonna rappresenta una variabile
N sesso Età
(anni)
Peso
(Kg)
Titolo di
studio
n.°
ricoveri
1 M 42 83 laurea 2
2 F 48 65 diploma 1
... ... ... ... ....... ......
n F
61 79 Licenza
media
inferiore
4