statistica inferenziale.pdf
TRANSCRIPT
-
7/30/2019 Statistica Inferenziale.pdf
1/23
Media e varianza per distribuzioni
Sia X una variabile casuale continua con densita di
probabilita f(x). Il valor medio di x e
= E(X) =+
xf(x)dx
Se X e una variabile casuale con valor medio la
varianza di x e
2 = var(X) = E[(X )2].
La radice qudrata non negativa
=
var(X) =
E[(X )2]
e detta deviazione standard di X.
1
-
7/30/2019 Statistica Inferenziale.pdf
2/23
INFERENZA STATISTICA
Linferenza statistica (o statistica inferen-
ziale) si occupa di studiare alcuni parametri di una
popolazione traendo conclusioni utilizzando i dati ot-
tenuti su campioni estratti da essa. Con il termine
popolazione intendiamo un insieme o collezione di
oggetti,numeri,misure od osservazioni. Le popolazioni
sono di solito descritte dai valori delle loro distribuzioni
ed e comune riferirsi alle popolazioni in termini delle
loro distribuzioni. Per popolazioni finite si fa riferi-
mento alla effettiva distribuzione di frequenza dei val-
ori, per quelle infinite alla distribuzione o densita di
2
-
7/30/2019 Statistica Inferenziale.pdf
3/23
probabilita.
I metodi della statistica inferenziale riguardano essen-
zialmente due aree: la stima dei parametri e i test
dipotesi.
Il primo importante problema dellinferenza sta-
tistica e la stima dei parametri di una popo-
lazione,media,varianza,scarto quadratico medio, per
mezzo dei corrispondenti parametri campionari.
Questi parametri vengono anche detti statistiche.
Per studiare i parametri di una popolazione si fa uso
di campioni e si traggono da essi, ossia si inferiscono,
dati sullintera popolazione.
3
-
7/30/2019 Statistica Inferenziale.pdf
4/23
La teoria dei campioni e quella che stu-
dia le relazioni tra una popolazione e i campi-
oni estratti da essa. Tale teoria e utile per
ottenere la stima dei parametri ignoti di una
popolazione,media,varianza,scarto quadratico medio
quando si conoscano i valori corrispondenti del campi-
one. E utile anche per stabilire se le differenze rilevate
tra due campioni possano essere dovute al caso o se
siano significative: le risposte a questo ripo di quesito
implicano luso dei test dipotesi.
Affinche i risultati della teoria dei campioni siano va-
lidi bisogna che i campioni scelti siano rappresentativi
4
-
7/30/2019 Statistica Inferenziale.pdf
5/23
dellintera popolazione.
Il miglior modo per assicurarsi un campione non dis-
torto consiste nel fornire a ogni membro della popo-
lazione una eguale possibilita di essere incluso nel cam-
pione: questa e la definizione di campione casuale.
5
-
7/30/2019 Statistica Inferenziale.pdf
6/23
Distribuzioni di campionamento.
Consideriamo tutti i possibili campioni casuali di
ampiezza n che possono essere estratti da una popo-
lazione. Per ciascun campione si puo calcolare una
statistica come la media, la varianza o lo scarto
quadratico medio,che potra variare da campione a
campione. Quindi possiamo considerare la statistica
in questione come variabile aleatoria e studiarne la
distribuzione. In tal modo otteniamo una di-
stribuzione della statistica, detta distribuzione di
campionamento della statistica stessa. Se ad
esempio la statistica usata e la media, la distribuzione e
6
-
7/30/2019 Statistica Inferenziale.pdf
7/23
detta distribuzione della media campionaria.
Le distribuzioni di campionamento si possono calcolare
direttamente campionando da una popolazione finita.
Se la popolazione e infinita le distribuzioni si derivano
matematicamente.
Distribuzione della media campionaria.
Si puo dimostrare che la distribuzione della media cam-
pionaria, qualsiasi sia la popolazione, e legata alla
distribuzione normale. Piu precisamente si dimostra il
Teorema del limite centrale. (Teorema 2 Par.6.3
pag.172) Sia data una popolazione con media e var-
ianza 2, da essa si estraggano campioni casuali di
7
-
7/30/2019 Statistica Inferenziale.pdf
8/23
ampiezza n; indichiamo con X la media campionaria.
La distribuzione della media campionaria e approssi-
mativamente normale con media e varianza 2/n
per n sufficientemente grande.
8
-
7/30/2019 Statistica Inferenziale.pdf
9/23
Distribuzione della varianza campionaria.
Supponiamo di avere una popolazione normale ed
estraiamo tutti i possibili campioni casuali di ampiezza
n determinando per ciascuno la varianza
s2 =1
n 1
ni=1
(xi x)2
Anche in questo caso i valori della varianza possono
essere visti come valori assunti da una variabile aleato-
ria che indichiamo con S2 e che viene detta varianza
campionaria.
9
-
7/30/2019 Statistica Inferenziale.pdf
10/23
Teorema.(Teorema n.4 Par.6.5.pag.178) Sia data
una popolazione normale avente varianza 2 e da
essa si estraggano campioni casuali di ampiezza
n. Indichiamo con S2 la varianza campionaria. La
variabile
2 =(n 1)S2
2
e una variabile aleatoria avente la distribuzione 2
(chi quadro) di parametro = n 1. Il valore
prende il nome di grado di liberta.
Non definiamo esattamente la funzione di
distribuzione 2. Si dimostra comunque che la dis-
tribuzione 2 ha media = e varianza 2 = 2.
10
-
7/30/2019 Statistica Inferenziale.pdf
11/23
La distribuzione chi-quadro e definita solo per valori
positivi di x e in generale e asimmetrica.Lasimmetria
diminuisce per valori elevati di .
11
-
7/30/2019 Statistica Inferenziale.pdf
12/23
STIMA DEI PARAMETRI
Il primo problema dellinferenza statistica e quello
di determinare i parametri relativi a una popo-
lazione,media, varianza, scarto quadratico medio, per
mezzo dei corrispondenti parametri campionari o
statistiche del campione.
Il valore del parametro da stimare per la popolazione
e incognito e possiamo solo chiederci se, dopo ripetuti
campionamenti, la distribuzione della statistica ha
certe proprieta che possono garantirci che la statistica
sia vicina al valore incognito del parametro.
Ad esempio sappiamo che la distribuzione della media
12
-
7/30/2019 Statistica Inferenziale.pdf
13/23
campionaria ha la stessa media della popolazione da
cui e stato ottenuto il campione. Possiamo percio
aspettarci che, dopo piu campionamenti, la media
campionaria sia vicina alla media della popolazione.
I parametri che capita frequentemente di dover sti-
mare sono la media, la varianza o la differenza tra le
medie di due popolazioni,la proporzione di individui
che appartengano a una certa classe di interesse. Le
stime che si usano sono rispettivamente la media cam-
pionaria, la varianza campionaria, la differenza tra le
medie campionarie di due campioni indipendenti, la
proporzione campionaria.
13
-
7/30/2019 Statistica Inferenziale.pdf
14/23
Definizione 1. Se la media di una distribuzione
campionaria di una statistica e uguale al corrispon-
dente parametro della popolazione, la statistica e
detta stimatore corretto o non distorto del
parametro.
I valori corrispondenti di tali statistiche sono dette
stime corrette del parametro. Ad esempio, la me-
dia della distribuzione campionaria della media X e
uguale alla media della popolazione. Quindi la me-
dia campionaria x e una stima corretta della media
della popolazione.
Si dimostra che anche la mediana campionaria e una
14
-
7/30/2019 Statistica Inferenziale.pdf
15/23
stima corretta per la media di una popolazione. La
varianza campionaria e a sua volta una stima corretta
della varianza di una popolazione.
Definizione 2. Se due statistiche sono entrambe
stimatori corretti di un parametro, lo stimatore piu
efficiente e quello per cui e minore la varianza della
sua distribuzione campionaria.
Si dimostra che tra tutte le statistiche che stimano la
media di una popolazione, la media campionaria e la
piu efficiente.
15
-
7/30/2019 Statistica Inferenziale.pdf
16/23
TEST DIPOTESI
Un problema importante per linferenza statistica e
quello di decidere se unaffermazione riguardante un
parametro di una popolazione sia vera o falsa. Con op-
portune verifiche si puo determinare se tali congetture
siano compatibili con i dati disponibili dal campione.
Definizione. Unipotesi formulata in termini di
parametri di una popolazione, come media e varianza,
e detta ipotesi statistica. Il procedimento che con-
sente di rifutare o accettare uniptesi statistica utiliz-
zando i dati di un campione, viene chiamato test di
ipotesi.
16
-
7/30/2019 Statistica Inferenziale.pdf
17/23
La verifica delle ipotesi statistiche inizia con la
definizione del problema in termini di ipotesi sul
parametro di interesse. Per prima cosa si sta-
bilisce lipotesi da sottoporre a test, detta ipotesi
nulla,indicata con H0, ossia lipotesi che si ritiene vera
fino a prova contraria. Oltre allipotesi nulla occorre
specificare anche unadeguata ipotesi alternativa,
indicata con H1, ossia unaffermazione che contraddice
lipotesi nulla.
Dopo aver formulato le ipotesi, occorre specifi-
care quale risultato del campione portera al rifiuto
dellipotesi nulla. In generale, utilizzando le proprieta
17
-
7/30/2019 Statistica Inferenziale.pdf
18/23
della distribuzione di campionamento della statistica
soggetta a test, si puo identificare un intervallo di val-
ori di quella statistica che verosimilmente non si pre-
sentano se lipotesi nulla e vera.
La distribuzione di campionamento della statistica test
e, di solito, una distribuzione nota, come la normale e
ricorriamo a queste distribuzioni per sottoporre a ver-
ifica unipotesi nulla. La distribuzione di campiona-
mento della statistica test e divisa in due regioni, una
regione di rifiuto (insieme dei valori che conducono al
rifiuto dellipotesi nulla) e una di accettazione (insieme
dei valori che portano allaccettazione dellipotesi
18
-
7/30/2019 Statistica Inferenziale.pdf
19/23
nulla), delimitate da uno o piu valori, detti valori
critici.
19
-
7/30/2019 Statistica Inferenziale.pdf
20/23
Test chi-quadro di adattamento
Ci occuperemo adesso di un metodo statistico utile per
stabilire se un campione di dati osservati si adatta a
una distribuzione teorica assegnata. I test statistici
che servono a verificare se una certa distribuzione e
compatibile con i dati campione sono detti test sulla
bonta delladattamento.
Per effettuare il test supponiamo di avere un campi-
one di n osservazioni di una variabile, raggruppate in
una tabella contenente k classi (tabella di frequenza
assoluta).
20
-
7/30/2019 Statistica Inferenziale.pdf
21/23
Supponiamo di avere per ciascuna classe, oltre alla
frequenza osservata Oi, una frequenza attesa
Ai con cui si vuole confrontare la frequenza osservata;
le frequenze attese sono quelle che si osserverebbero se
i dati del campione fossero distribuiti esattamente sec-
ondo la distribuzione ipotizzata. Per valutare quanti-
tativamente la bonta delladattamento delle frequenze
osservate alle frequenze attese si utilizza la statistica
test
2 =k
i=1
(Oi Ai)2
Ai
che viene detta il chi-quadro calcolato dal cam-
pione.
21
-
7/30/2019 Statistica Inferenziale.pdf
22/23
Si dimostra che, per n sufficientemente grande, questa
statistica ha approssimativamente la distribuzione 2,
con grado di liberta = k 1m, dove m e il nu-
mero dei parametri della distribuzione teorica stimati
servendosi dei dati del campione.
Se lipotesi nulla H0 e che i dati si dattino alla dis-
tribuzione teorica ipotizzata, la regola di decisione
sara: si rifiuti lipotesi nulla se il valore della stati-
stica 2 calcolato dai dati e maggiore del valore critico
2
2:
2 > 2
dove e il livello di significativita stabilito e il grado
22
-
7/30/2019 Statistica Inferenziale.pdf
23/23
di liberta della distribuzione 2 e = k 1m.
Questa procedura, detta test chi-quadro di adat-
tamento, e valida purche le frequenze assolute attese
siano tutte maggiori o uguali a 5. Se, dopo aver cal-
colato le frequenze attese, si osserva che qualcuna di
queste e minore di 5, bisogna accorpare due o piu
classi contigue.
23