statistica · 2017-01-10 · intervallo di confidenza di livello 10kper #: ... il modello di...
Post on 17-Feb-2019
216 Views
Preview:
TRANSCRIPT
Regressione-2
STATISTICA
Fare sempre il grafico!
Fig. 5.12 pg 178, “Statistica” di S. Iacus
0 2 4 6 8 10
02
46
810
x
y
Fare sempre il grafico!
�=+0.79
�=-1
outliero
dato influente
Inferenza
� � � � ��
Il modello dellaregressione lineare
semplice:
� � � � ��⟺ �~���, ��� �������������
�� � � � ��� � �
��~��� � ���, ���
��� � �
� � ���
Il valore medio di �� in corrispondenza a tutte le unità statistiche per cui � � � è
� � ���
InferenzaIl modello della
regressione linearesemplice:
�� � � � ��� � �
��~��� � ���, ���! �� � � � ���
� � � � ��⟺ �~���, ��� �������������
Inferenza
� � � � ��
Il modello dellaregressione lineare
semplice:
� � � � ��⟺ �~���, ��� �������������
�� � � � ��� � �Il modello ha tre parametri incogniti: ", #, $%
1. Stimare ", #e$%
2. Verificare se il vero valore della pendenza nella popolazione è davvero diverso da zero (⇔ previsione) oppure no:
() ∶ # � 0, (, ∶ # - 0
Inferenza
� � � � ��
� � � � ��⟺ �~���, ��� �������������
�� � � � ��� � �
.� � /� 0 /1�/1� � "1 � #2 �
3.� � 04
�5,
�6 � ��7���
�89∑ ��� 0 �;��7� 0 7;�9�58
89∑ ��� 0 �;��9�58
�< � 7; 0 �6�;
7�
7<�
Inferenza
� � � � ��
� � � � ��⟺ �~���, ��� �������������
�� � � � ��� � �
=% � 1? 0 23.�%
4
�5,.� � /� 0 /1�stima di $%
7�
/1� � "1 � #2 �
7<�
3.� � 04
�5,
varianza deglierrori
errori residui
Inferenza
A4 � ∑��� 0 �B4�� � 0 ;�∑� � 0 ;�%
C4 � �B4 0 A4 ;
D�~E�0, $%�
��~E�" � # � , $%�
C4 e A4 v.c. gaussiane
dalle stime agli stimatori:
() ∶ # � 0 (, ∶ # - 0
=% � 1? 0 23.�%
4
�5,
#2=%
∑ � � 0 ;�%4�5,
> G�9 0 ��H%
rifiutiamo () se:
Inferenza
A4 � ∑��� 0 �B4�� � 0 ;�∑� � 0 ;�%
C4 � �B4 0 A4 ;
D�~E�0, $%�
��~E�" � # � , $%�
C4 e A4 v.c. gaussiane
dalle stime agli stimatori:
I� ∶ � � �� I8 ∶ � - ��
=% � 1? 0 23.�%
4
�5,
#2 0 #)=%
∑ � � 0 ;�%4�5,
> G�9 0 ��H%
rifiutiamo () se:
Inferenza
A4 � ∑��� 0 �B4�� � 0 ;�∑� � 0 ;�%
C4 � �B4 0 A4 ;
D�~E�0, $%�
��~E�" � # � , $%�
C4 e A4 v.c. gaussiane
dalle stime agli stimatori:
=% � 1? 0 23.�%
4
�5,
#2 0 G�9 0 ��H%× =%
∑ � � 0 ;�%4�5,, #2 � G�9 0 ��H
%× =%
∑ � � 0 ;�%4�5,
Intervallo di confidenza di livello 1 0 K per # :
Inferenza
A4 � ∑��� 0 �B4�� � 0 ;�∑� � 0 ;�%
C4 � �B4 0 A4 ;
D�~E�0, $%�
��~E�" � # � , $%�
C4 e A4 v.c. gaussiane
dalle stime agli stimatori:
=% � 1? 0 23.�%
4
�5,
#2 0 G�9 0 ��H%× =%
∑ � � 0 ;�%4�5,, #2 � G�9 0 ��H
%× =%
∑ � � 0 ;�%4�5,
Intervallo di confidenza di livello 1 0 K per # :
E SE CONTIENE LO 0?
Tipo:(-1.23, 2.17)
Inferenza() ∶ " � ") (, ∶ " - ")"1 0")
=% 1? � %
∑ � � 0 ;�%4�5,
> G�? 0 2�H%
"1 0 G�9 0 ��H%× 1
? � %∑ � � 0 ;�%4�5,
, "1 � G�9 0 ��H%× 1
? � %∑ � � 0 ;�%4�5,
Intervallo di confidenza di livello 1 0 K per " :
Inferenza per la previsione
7<�
��
7�/1) ∓ G�? 0 2�H%× =% 1 � ?N, � ��� 0 �;�%
∑ � � 0 �%4�5,
�;
Esercizio 2
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
1900 1920 1940 1960 1980 2000
150
200
250
300
350
400
450
500
y
� anno, � consumo medio annuo procapite di pane
Esercizio 2
1900 1920 1940 1960 1980 2000
150
200
250
300
350
400
450
500
y
� 1957.78/B � 277.65
$U% � 1089.51$V% � 13193.36
XYZ , / � 03344.877
�UV � 03344.877 1089.51 × 13193.36 � 0�. \\
]% � �00.88�%� �. ^^
� anno, � consumo medio annuo procapite di pane
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
Esercizio 2
1900 1920 1940 1960 1980 2000
150
200
250
300
350
400
450
500
y
$U% � 1089.51XYZ , / � 03344.877
#2 � 03344.8771089.51 � 0_. �^
"1 � 277.65 � 3.07 × 1957.78 � `�\\. �
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
� anno, � consumo medio annuo procapite di pane
� 1957.78/B � 277.65
Esercizio 2
1900 1920 1940 1960 1980 2000
150
200
250
300
350
400
450
500
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
� anno, � consumo medio annuo procapite di pane
�1900, 455.0�
��;, 7;�
$U% � 1089.51XYZ , / � 03344.877
� 1957.78/B � 277.65
#2 � 03344.8771089.51 � 0_. �^
"1 � 277.65 � 3.07 × 1957.78 � `�\\. �
Esercizio 2
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
7< 455 408.95 347.55 286.15 255.45 224.75 209.4 178.7 132.65
� anno, � consumo medio annuo procapite di pane
$U% � 1089.51XYZ , / � 03344.877
� 1957.78/B � 277.65
#2 � 0_. �^() ∶ # � 0 (, ∶ # - 0
#2=%
∑ � � 0 ;�%4�5,
� 3.073759.85
9 × 1089.51�
� 4.958?>?G�7�).)b%
� 2.3646"1 � 6288.0
=% � 173 /� 0 /1� % � 3759.85
c
�5,⇒ = � 61.318
rifiutiamo l’ipotesiche # � 0!
Esercizio 2
1900 1920 1940 1960 1980 2000
150
200
250
300
350
400
450
500
previsione per � 1920/1 � 6288.0 0 3.07 × 1920 � 393.6 kg
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
� anno, � consumo medio annuo procapite di pane
in media
CONSUMO MEDIO SU TUTTE LE
PERSONE DEL 1920
Esercizio 2
1900 1920 1940 1960 1980 2000
150
200
250
300
350
400
450
500
previsione per � 1920/1 � 6288.0 0 3.07 × 1920 � 393.6 kg
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
� anno, � consumo medio annuo procapite di pane
/1) ∓ G�? 0 2�H%× =% 1 � ?N, � � ) 0 �%
∑ � � 0 �%4�5,
=% � 3759.833 � � 0 �%
4
�5,� ?$U% � 7626.57
K � 0.05; G�? 0 2�H%� 2.3646
393.6 ± 8`g. � ∶ �228.4, 558.8�
PER UNA PERSONA QUALUNQUE
Esercizio 2
1900 1920 1940 1960 1980 2000
150
200
250
300
350
400
450
500
previsione per � 2020/1 � 6288.0 0 3.07 × 2020 � 86.6 kg
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
� anno, � consumo medio annuo procapite di pane
86.6 ∓ 8\h. g
/1) ∓ G�? 0 2�H%× =% 1 � ?N, � � ) 0 �%
∑ � � 0 �%4�5,
=% � 3759.833 � � 0 �%
4
�5,� ?$U% � 7626.57
K � 0.05; G�? 0 2�H%� 2.3646
Esercizio 2
#2 � 03344.8771089.51 � 03.07
"1 � 277.65 � 3.07 × 1957.78 � 6288.0
1900 1920 1940 1960 1980 2000
150
200
250
300
350
400
450
500
previsione per � 2050/ � 6288.0 0 3.07 × 2050 � 0g. g kg
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
� anno, � consumo medio annuo procapite di pane
Esercizio 2
1900 1920 1940 1960 1980 2000
150
200
250
300
350
400
450
500
previsione per � 2050/ � 6288.0 0 3.07 × 2050 � 0g. g kg
“previsioni di lungo periodo”
sono fuori dal range dei dati!
Meglio non farle! Ma se proprio…
attenzione al senso!
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
� anno, � consumo medio annuo procapite di pane
Esercizio 2
previsione per � 2050/ � 6288.0 0 3.07 × 2050 � 0g. g kg
6288.0 0 3.07 × �� � 0 ⟺
) �6288.03.07 � 2048.21
previsione a lungo terminesolo fino al 2048…
1900 1950 2000 2050
010
020
030
040
050
0
��
X 1900 1915 1935 1955 1965 1975 1980 1990 2005
Y (kg) 500 350 325 400 180 218 180 205 140
� anno, � consumo medio annuo procapite di pane
66 68 70 72
140
150
160
170
180
w
Il modello di regressione lineare
Y
X
7<�
X
�� � � � ��� � � , �~���, ���
��
7�In questo modello, mi aspetto
di osservare il valore 7<�(sulla retta),
ma l’incertezza del fenomeno può produrre un’osservazione7� che non sta sulla retta. Questo errore, i� � 7� 0 7<�, è
supposto gaussiano, quindi non può essere troppo grande
(" 0 3$, 3$"�, e deve essere simmetrico.
Il modello di regressione lineare
�� � " � # � � D� , �~���, ���
/� 0 /1� =% � 1? 0 23.�%
4
�5,
5 10 15
-20
-10
010
20
i�
- non sono «troppo grandi»: (03=%, �3=%);
- sono in parte positivi e in parte negativi;
- il loro grafico è “sparpagliato”.
nell’ordine dei dati
GRAFICO DEI RESIDUI
0 10 20 30 40
-20
-10
010
20
res1
Verifica della Gaussianità
i�
0 10 20 30 40
-20
-10
010
20
res1
Verifica della Gaussianità
i�
-2 0 2 4 6 8-2
0-1
00
1020
/1�
i�
Verifica della Gaussianità
0 20 40 60 80 100
-60
-40
-20
020
4060
80
La varianza non è costante
i�
Verifica della Gaussianità
-2 -1 0 1 2
-2-1
01
2 Q-Q plot
Quantili di una E�0,1�
Quantili
deire
sid
uista
ndard
izzati
Verifica della Gaussianità
-2 -1 0 1 2
-2-1
01
2 Q-Q plot
Quantili di una E�0,1�
Quantili
deire
sid
uista
ndard
izzati
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
k, � 00.57
k%
kl
m).c)
m).,)m).c) � 1.38k,
Verifica della Gaussianità
Q-Q plot
Quantili di una E�0,1�
Quantili
deire
sid
uista
ndard
izzati
dato anomalo/ outlier
Ci sono tecniche di diagnostica ad hoc
Verifica della Gaussianità
http://condor.depaul.edu/sjost/it223/documents/normal-plot.htm
Esercizio 3Variabile Coeff. Dev. std. Statistica t p-value
Intercetta 3.8199 9.0891 0.420 0.677
X 2.0642 0.3029 6.816 0
�� = 0.624
0 10 20 30 40
020
4060
8010
012
0
X
Y
X0 10 20 30 40
020
4060
8010
012
0
Y
Esercizio 3Variabile Coeff. Dev. std. Statistica t p-value
Intercetta 3.8199 9.0891 0.420 0.677
X 2.0642 0.3029 6.816 0
�� = 0.624
= 3.8199 + 2.0642� + �
Esercizio 3
valori della statistica per i due test d’ipotesi�� ∶ � = 0 e �� ∶ � = 0 :
��
��
∑ (� − � � )�� !
�"
�� 1#
+��
∑ (� − � � )�� !
e
Variabile Coeff. Dev. std. Statistica t p-value
Intercetta 3.8199 9.0891 0.420 0.677
X 2.0642 0.3029 6.816 0
�� = 0.624
= 3.8199 + 2.0642� + �
Esercizio 3Variabile Coeff. Dev. std. Statistica t p-value
Intercetta 3.8199 9.0891 0.420 0.677
X 2.0642 0.3029 6.816 0
�� = 0.624
valori del denominatore nella statistica per i due test d’ipotesi�� ∶ � = 0 e �� ∶ � = 0 :
��
%&
∑ ('( − ' � )&)( *
�"
%& *)
+'�&
∑ ('( − ' � )&)( *
e
= 3.8199 + 2.0642� + �
Esercizio 3Variabile Coeff. Dev. std. Statistica t p-value
Intercetta 3.8199 9.0891 0.420 0.677
X 2.0642 0.3029 6.816 0
�� = 0.624
valori del denominatore nella statistica per i due test d’ipotesi�� ∶ � = 0 e �� ∶ � = 0 :
��
%&
∑ ('( − ' � )&)( *
�"
%& *)
+'�&
∑ ('( − ' � )&)( *
e
= 3.8199 + 2.0642� + �
+,-..
/-0. 123= 1242562574 8
Esercizio 3
p-value per i due test d’ipotesi �� ∶ � = 0 e �� ∶ � = 0
non sappiamo #, però
Variabile Coeff. Dev. std. Statistica t p-value
Intercetta 3.8199 9.0891 0.420 0.677
X 2.0642 0.3029 6.816 0
�� = 0.624
-20 -10 0 10 20
0.0
0.1
0.2
0.3
0.4
Statistica t p-value
0.420 0.677
6.816 0
Esercizio 3
:(# − 2)
non sappiamo #, però:1. Non rifiutiamo �� ∶ � = 0
2. Rifiutiamo �� ∶ � = 0 a qualunque livello di significatività
p-value per i due test d’ipotesi�� ∶ � = 0 e �� ∶ � = 0
0.677
2
top related