covarianza e correlazione. regressione lineare consideriamo due variabili casuali x e y e supponiamo...

15
COVARIANZA e CORRELAZIONE

Upload: orso-guidi

Post on 02-May-2015

240 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

COVARIANZA

e

CORRELAZIONE

Page 2: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

REGRESSIONE LINEARE

Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo dei minimi quadrati.

Page 3: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

REGRESSIONE LINEARE

Page 4: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

REGRESSIONE LINEARE

Primo metodo:

Page 5: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

REGRESSIONE LINEARE

Se la dipendenza fra le due variabili non è lineare (ad esempio quadratica, esponenziale, logaritmica, etc.), il grafico dei residui rispetto ai valori predetti enfatizzerà questa dipendenza non lineare. Vediamo questo fatto con un esempio.

Page 6: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

REGRESSIONE LINEARE

Page 7: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

REGRESSIONE LINEARE

Page 8: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

REGRESSIONE LINEARE

Page 9: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

In statistica la covarianza è un indice che misura la "contemporaneità" della variazione (in termini lineari) di due variabili casuali. Essa può assumere sia valori positivi che negativi. Nel caso di valori positivi indica che al crescere di una variabile statisticamente cresce anche l'altra, nel caso di valori negativi accade il contrario. Quando due variabili sono tra di loro indipendenti, allora la loro covarianza è nulla (l'inverso non è necessariamente verificato).

Si utilizza spesso la notazione: cov(x,y) = xy, dove

essendo x e y rispettivamente la media aritmetica di x e y.

Secondo metodo:

Covarianza

Page 10: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

È un operatore simmetrico, cioè

A volte la covarianza viene citata mnemonicamente come la media del prodotto degli scarti dalla media.

La covarianza può essere scomposta in due termini, diventando:

ovvero la media dei prodotti meno il prodotto delle medie.

Dividendo la covarianza per il prodotto delle deviazioni standard delle due variabili, si ottiene l‘indice di correlazione di Bravais-Pearson, di utilizzo più comune per misurare la dipendenza lineare tra due variabili:

Covarianza

Page 11: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

Il coefficiente di correlazione lineare o coefficiente di correlazione tra due variabili aleatorie o due variabili statistiche X e Y è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

dove xy , è la covarianza tra X e Y x , y sono le due deviazioni standard.

Il coefficiente di correlazione è un indice di quanto bene i punti (xi, yi) si adattano ad una retta.

Coefficiente di correlazione lineare

Page 12: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

Il coefficiente assume valori compresi tra -1 e +1.

Se è vicino a 1, allora i punti giacciono vicino a qualche linea retta (se è vicino a +1 si parla di correlazione positiva, se è vicino a -1 si parla di correlazione negativa); se è vicino a 0, allora i punti non sono correlati (linearmente), con poca o nessuna tendenza a giacere su una linea retta.

Nel caso di indipendenza il coefficiente assume valore zero, mentre non vale la conclusione opposta, ovvero dal coefficiente nullo non si può desumere l'indipendenza, cioè la condizione è necessaria, ma non sufficiente per l'indipendenza delle due variabili.

Coefficiente di correlazione lineare

Page 13: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

Come possiamo decidere oggettivamente se il coefficiente di correlazione ricavato è “ragionevolmente vicino” a 1 ?

Possiamo rispondere a questa domanda con il seguente ragionamento. Supponiamo che due variabili x ed y siano in realtà non correlate; al limite per un numero di misure tendente all’infinito il coefficiente di correlazione dovrebbe essere 0. Dopo un numero finito di misure, è molto improbabile che sia esattamente 0. Si può calcolare la probabilità che sia più grande di un qualche valore specifico . Il calcolo di questa probabilità è piuttosto complesso, ma i risultati per alcuni valori rappresentativi dei parametri sono riportati nella tabella seguente.

Coefficiente di correlazione lineare

Page 14: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

Una misura più quantitativa dell’adattamento si può trovare usando la tabella sottostante, che riporta, in funzione di N e o , la probabilità percentuale che N misure di due variabili non correlate diano un coefficiente di correlazione con valore assoluto > o (gli spazi bianchi indicano probabilità minori dello 0.05%). o

N 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

3 100 94 87 81 74 67 59 51 41 29 0

4 100 90 80 70 60 50 40 30 20 10 0

5 100 87 75 62 50 39 28 19 10 3.7 0

6 100 85 70 56 43 31 21 12 5.6 1.4 0

7 100 83 67 51 37 25 15 8.0 3.1 0.6 0

8 100 81 63 47 33 21 12 5.3 1.7 0.2 0

9 100 80 61 43 29 17 8.8 3.6 1.0 0.1 0

10 100 78 58 40 25 14 6.7 2.4 0.5 0

11 100 77 56 37 22 12 5.1 1.6 0.3 0

12 100 76 53 34 20 9.8 3.9 1.1 0.2 0

13 100 75 51 32 18 8.2 3.0 0.8 0.1 0

14 100 73 49 30 16 6.9 2.3 0.5 0.1 0

15 100 72 47 28 14 5.8 1.8 0.4 0

16 100 71 46 26 12 4.9 1.4 0.3 0

17 100 70 44 24 11 4.1 1.1 0.2 0

18 100 69 43 23 10 3.5 0.8 0.1 0

19 100 68 41 21 9.0 2.9 0.7 0.1 0

20 100 67 40 20 8.1 2.5 0.5 0.1 0

25 100 63 34 15 4.8 1.1 0.2 0

30 100 60 29 11 2.9 0.5 0

35 100 57 25 8.0 1.7 0.2 0

40 100 54 22 6.0 1.1 0.1 0

Page 15: COVARIANZA e CORRELAZIONE. REGRESSIONE LINEARE Consideriamo due variabili casuali X e Y e supponiamo di avere fatto una regressione lineare con il metodo

Più piccola è la probabilità che ricaviamo dalla tabella mostrata in precedenza, migliore è l’evidenza che le due variabili x ed y sono realmente correlate. Se la probabilità è minore del 5% diciamo che la correlazione è significativa; se è minore dell’1% che la correlazione è altamente significativa.

Coefficiente di correlazione lineare