statistica inferenziale.pdf

7/30/2019 Statistica Inferenziale.pdf

1/23

Media e varianza per distribuzioni

Sia X una variabile casuale continua con densita di

probabilita f(x). Il valor medio di x e

= E(X) =+

xf(x)dx

Se X e una variabile casuale con valor medio la

varianza di x e

2 = var(X) = E[(X )2].

La radice qudrata non negativa

=

var(X) =

E[(X )2]

e detta deviazione standard di X.

1


2/23

INFERENZA STATISTICA

Linferenza statistica (o statistica inferen-

ziale) si occupa di studiare alcuni parametri di una

popolazione traendo conclusioni utilizzando i dati ot-

tenuti su campioni estratti da essa. Con il termine

popolazione intendiamo un insieme o collezione di

oggetti,numeri,misure od osservazioni. Le popolazioni

sono di solito descritte dai valori delle loro distribuzioni

ed e comune riferirsi alle popolazioni in termini delle

loro distribuzioni. Per popolazioni finite si fa riferi-

mento alla effettiva distribuzione di frequenza dei val-

ori, per quelle infinite alla distribuzione o densita di

2


3/23

probabilita.

I metodi della statistica inferenziale riguardano essen-

zialmente due aree: la stima dei parametri e i test

dipotesi.

Il primo importante problema dellinferenza sta-

tistica e la stima dei parametri di una popo-

lazione,media,varianza,scarto quadratico medio, per

mezzo dei corrispondenti parametri campionari.

Questi parametri vengono anche detti statistiche.

Per studiare i parametri di una popolazione si fa uso

di campioni e si traggono da essi, ossia si inferiscono,

dati sullintera popolazione.

3


4/23

La teoria dei campioni e quella che stu-

dia le relazioni tra una popolazione e i campi-

oni estratti da essa. Tale teoria e utile per

ottenere la stima dei parametri ignoti di una

popolazione,media,varianza,scarto quadratico medio

quando si conoscano i valori corrispondenti del campi-

one. E utile anche per stabilire se le differenze rilevate

tra due campioni possano essere dovute al caso o se

siano significative: le risposte a questo ripo di quesito

implicano luso dei test dipotesi.

Affinche i risultati della teoria dei campioni siano va-

lidi bisogna che i campioni scelti siano rappresentativi

4


5/23

dellintera popolazione.

Il miglior modo per assicurarsi un campione non dis-

torto consiste nel fornire a ogni membro della popo-

lazione una eguale possibilita di essere incluso nel cam-

pione: questa e la definizione di campione casuale.

5


6/23

Distribuzioni di campionamento.

Consideriamo tutti i possibili campioni casuali di

ampiezza n che possono essere estratti da una popo-

lazione. Per ciascun campione si puo calcolare una

statistica come la media, la varianza o lo scarto

quadratico medio,che potra variare da campione a

campione. Quindi possiamo considerare la statistica

in questione come variabile aleatoria e studiarne la

distribuzione. In tal modo otteniamo una di-

stribuzione della statistica, detta distribuzione di

campionamento della statistica stessa. Se ad

esempio la statistica usata e la media, la distribuzione e

6


7/23

detta distribuzione della media campionaria.

Le distribuzioni di campionamento si possono calcolare

direttamente campionando da una popolazione finita.

Se la popolazione e infinita le distribuzioni si derivano

matematicamente.

Distribuzione della media campionaria.

Si puo dimostrare che la distribuzione della media cam-

pionaria, qualsiasi sia la popolazione, e legata alla

distribuzione normale. Piu precisamente si dimostra il

Teorema del limite centrale. (Teorema 2 Par.6.3

pag.172) Sia data una popolazione con media e var-

ianza 2, da essa si estraggano campioni casuali di

7


8/23

ampiezza n; indichiamo con X la media campionaria.

La distribuzione della media campionaria e approssi-

mativamente normale con media e varianza 2/n

per n sufficientemente grande.

8


9/23

Distribuzione della varianza campionaria.

Supponiamo di avere una popolazione normale ed

estraiamo tutti i possibili campioni casuali di ampiezza

n determinando per ciascuno la varianza

s2 =1

n 1

ni=1

(xi x)2

Anche in questo caso i valori della varianza possono

essere visti come valori assunti da una variabile aleato-

ria che indichiamo con S2 e che viene detta varianza

campionaria.

9


10/23

Teorema.(Teorema n.4 Par.6.5.pag.178) Sia data

una popolazione normale avente varianza 2 e da

essa si estraggano campioni casuali di ampiezza

n. Indichiamo con S2 la varianza campionaria. La

variabile

2 =(n 1)S2

2

e una variabile aleatoria avente la distribuzione 2

(chi quadro) di parametro = n 1. Il valore

prende il nome di grado di liberta.

Non definiamo esattamente la funzione di

distribuzione 2. Si dimostra comunque che la dis-

tribuzione 2 ha media = e varianza 2 = 2.

10


11/23

La distribuzione chi-quadro e definita solo per valori

positivi di x e in generale e asimmetrica.Lasimmetria

diminuisce per valori elevati di .

11


12/23

STIMA DEI PARAMETRI

Il primo problema dellinferenza statistica e quello

di determinare i parametri relativi a una popo-

lazione,media, varianza, scarto quadratico medio, per

mezzo dei corrispondenti parametri campionari o

statistiche del campione.

Il valore del parametro da stimare per la popolazione

e incognito e possiamo solo chiederci se, dopo ripetuti

campionamenti, la distribuzione della statistica ha

certe proprieta che possono garantirci che la statistica

sia vicina al valore incognito del parametro.

Ad esempio sappiamo che la distribuzione della media

12


13/23

campionaria ha la stessa media della popolazione da

cui e stato ottenuto il campione. Possiamo percio

aspettarci che, dopo piu campionamenti, la media

campionaria sia vicina alla media della popolazione.

I parametri che capita frequentemente di dover sti-

mare sono la media, la varianza o la differenza tra le

medie di due popolazioni,la proporzione di individui

che appartengano a una certa classe di interesse. Le

stime che si usano sono rispettivamente la media cam-

pionaria, la varianza campionaria, la differenza tra le

medie campionarie di due campioni indipendenti, la

proporzione campionaria.

13


14/23

Definizione 1. Se la media di una distribuzione

campionaria di una statistica e uguale al corrispon-

dente parametro della popolazione, la statistica e

detta stimatore corretto o non distorto del

parametro.

I valori corrispondenti di tali statistiche sono dette

stime corrette del parametro. Ad esempio, la me-

dia della distribuzione campionaria della media X e

uguale alla media della popolazione. Quindi la me-

dia campionaria x e una stima corretta della media

della popolazione.

Si dimostra che anche la mediana campionaria e una

14


15/23

stima corretta per la media di una popolazione. La

varianza campionaria e a sua volta una stima corretta

della varianza di una popolazione.

Definizione 2. Se due statistiche sono entrambe

stimatori corretti di un parametro, lo stimatore piu

efficiente e quello per cui e minore la varianza della

sua distribuzione campionaria.

Si dimostra che tra tutte le statistiche che stimano la

media di una popolazione, la media campionaria e la

piu efficiente.

15


16/23

TEST DIPOTESI

Un problema importante per linferenza statistica e

quello di decidere se unaffermazione riguardante un

parametro di una popolazione sia vera o falsa. Con op-

portune verifiche si puo determinare se tali congetture

siano compatibili con i dati disponibili dal campione.

Definizione. Unipotesi formulata in termini di

parametri di una popolazione, come media e varianza,

e detta ipotesi statistica. Il procedimento che con-

sente di rifutare o accettare uniptesi statistica utiliz-

zando i dati di un campione, viene chiamato test di

ipotesi.

16


17/23

La verifica delle ipotesi statistiche inizia con la

definizione del problema in termini di ipotesi sul

parametro di interesse. Per prima cosa si sta-

bilisce lipotesi da sottoporre a test, detta ipotesi

nulla,indicata con H0, ossia lipotesi che si ritiene vera

fino a prova contraria. Oltre allipotesi nulla occorre

specificare anche unadeguata ipotesi alternativa,

indicata con H1, ossia unaffermazione che contraddice

lipotesi nulla.

Dopo aver formulato le ipotesi, occorre specifi-

care quale risultato del campione portera al rifiuto

dellipotesi nulla. In generale, utilizzando le proprieta

17


18/23

della distribuzione di campionamento della statistica

soggetta a test, si puo identificare un intervallo di val-

ori di quella statistica che verosimilmente non si pre-

sentano se lipotesi nulla e vera.

La distribuzione di campionamento della statistica test

e, di solito, una distribuzione nota, come la normale e

ricorriamo a queste distribuzioni per sottoporre a ver-

ifica unipotesi nulla. La distribuzione di campiona-

mento della statistica test e divisa in due regioni, una

regione di rifiuto (insieme dei valori che conducono al

rifiuto dellipotesi nulla) e una di accettazione (insieme

dei valori che portano allaccettazione dellipotesi

18


19/23

nulla), delimitate da uno o piu valori, detti valori

critici.

19


20/23

Test chi-quadro di adattamento

Ci occuperemo adesso di un metodo statistico utile per

stabilire se un campione di dati osservati si adatta a

una distribuzione teorica assegnata. I test statistici

che servono a verificare se una certa distribuzione e

compatibile con i dati campione sono detti test sulla

bonta delladattamento.

Per effettuare il test supponiamo di avere un campi-

one di n osservazioni di una variabile, raggruppate in

una tabella contenente k classi (tabella di frequenza

assoluta).

20


21/23

Supponiamo di avere per ciascuna classe, oltre alla

frequenza osservata Oi, una frequenza attesa

Ai con cui si vuole confrontare la frequenza osservata;

le frequenze attese sono quelle che si osserverebbero se

i dati del campione fossero distribuiti esattamente sec-

ondo la distribuzione ipotizzata. Per valutare quanti-

tativamente la bonta delladattamento delle frequenze

osservate alle frequenze attese si utilizza la statistica

test

2 =k

i=1

(Oi Ai)2

Ai

che viene detta il chi-quadro calcolato dal cam-

pione.

21


22/23

Si dimostra che, per n sufficientemente grande, questa

statistica ha approssimativamente la distribuzione 2,

con grado di liberta = k 1m, dove m e il nu-

mero dei parametri della distribuzione teorica stimati

servendosi dei dati del campione.

Se lipotesi nulla H0 e che i dati si dattino alla dis-

tribuzione teorica ipotizzata, la regola di decisione

sara: si rifiuti lipotesi nulla se il valore della stati-

stica 2 calcolato dai dati e maggiore del valore critico

2

2:

2 > 2

dove e il livello di significativita stabilito e il grado

22


23/23

di liberta della distribuzione 2 e = k 1m.

Questa procedura, detta test chi-quadro di adat-

tamento, e valida purche le frequenze assolute attese

siano tutte maggiori o uguali a 5. Se, dopo aver cal-

colato le frequenze attese, si osserva che qualcuna di

queste e minore di 5, bisogna accorpare due o piu

classi contigue.

23

statistica inferenziale.pdf

Documents