©ming-chi chen 社會統計 page.1 社會統計 第十講 相關與共變. ©ming-chi chen...
Post on 19-Dec-2015
252 views
TRANSCRIPT
©Ming-chi Chen 社會統計 Page.1
社會統計
第十講相關與共變
©Ming-chi Chen 社會統計 Page.2
Covariance, 共變量
• 當 X, Y 兩隨機變數不互為獨立時,表示兩者間有關連。其關連的形式有很多種,最常見的關連為線性的共變關係。
• 隨機變數 X,Y 間的線性關係可用兩個統計量來測量 (1) 共變數 (covariance) (2)
相關係數 (correlation coefficient) 。兩者都能衡量兩變數之間是否有線性關係存在。
觀念觀念
©Ming-chi Chen 社會統計 Page.3
Stochastic Relationships and Scatter Diagrams
• Scatter Plot 可以顯示兩連續變數 x, y 之間的關聯形式與強度:
觀念觀念
¦¬¤J
1000800600400200®
T¼
Öªá
¶O
100
90
80
70
60
50
40
30
20
),( ii yx
自變項 x
依 變項y
©Ming-chi Chen 社會統計 Page.4
X
Y
(a)
X 與 Y 之間的關係為線性還是非線性?
©Ming-chi Chen 社會統計 Page.5
X
Y
(b)
X 與 Y 之間的關係為線性還是非線性?
©Ming-chi Chen 社會統計 Page.6
X
Y
(c)
X 與 Y 之間的關聯強度為何?
©Ming-chi Chen 社會統計 Page.7
X
Y
(d)
X 與 Y 之間的關係是正向還是反向?
©Ming-chi Chen 社會統計 Page.8
Covariance, 共變量
• 我們用簡單圖形可以來瞭解兩變數 x 與 y
之間的關係。另一種分析兩變數關係的統計技術為相關分析 (correlation analysi
s) 。• 兩個隨機變數之間的共變關係為何?
觀念觀念
©Ming-chi Chen 社會統計 Page.9
Covariance, 共變量
• 假設兩隨機變數 Y 與 X 之間具有某種關聯,母體 X 的平均值為 ux、母體變異數 σx
2,母體 Y
的平均值為 uy 、母體變異數 σy2,
觀念觀念
22XX XE
22YY YE
1
22
n
xxs i
X
1
22
n
yys i
Y
樣本變異數
母體變異數
©Ming-chi Chen 社會統計 Page.10
Covariance, 共變量
• 測量兩變數之間是否有關連的一個有效指標為共變數 (covariance)
觀念觀念
YXXY YXEYX ,Cov
1
n
yyxxs ii
XY
©Ming-chi Chen 社會統計 Page.11
Covariance, 共變量
先生的收入 (x) 與太太的收入 (y) 關係如下表,請計算共變量 (covariance)
觀念觀念
Joint Distribution of X and Y
x 10 20 30 40 p(x)10 0.20 0.04 0.01 0.2520 0.10 0.36 0.09 0.5530 0.05 0.10 0.1540 0.05 0.05
p(y) 0.3 0.45 0.2 0.05
y
©Ming-chi Chen 社會統計 Page.12
Covariance, 共變量觀念觀念
Joint Distribution of X and Y
x 10 20 30 40 p(x)10 0.20 0.04 0.01 0.2520 0.10 0.36 0.09 0.5530 0.05 0.10 0.1540 0.05 0.05
p(y) 0.3 0.45 0.2 0.05
y YX
XY
YXE
YX
,Cov
),()()( yxfYEYXEXx y
20)05(.40)15(.30)55(.20)25(.10
)()(
xxfXE
20)05(.40)20(.30)45(.20)30(.10
)()(
yyfYE
©Ming-chi Chen 社會統計 Page.13
Covariance, 共變量觀念觀念
)05)(.2020)(2030(
),()()(
yxpYEYXEXx y
x 10 20 30 40 p(x)10 (-10)(-10)(.20) (-10)(0)(.04) (-10)(10)(.01) 0.2520 (0)(-10)(.10) (0)(0)(.36) (0)(10)(.09) 0.5530 (10)(0)(.05) (10)(10)(.10) 0.1540 (20)(20)(.05) 0.05
p(y) 0.3 0.45 0.2 0.05
y
49 XY
©Ming-chi Chen 社會統計 Page.14
例題
i xi yi x-E(x) y-E(y) (x-E(x))(y-E(y))1 3 6 -2 -4 82 5 12 0 2 03 1 3 -4 -7 284 6 13 1 3 35 8 14 3 4 126 7 12 2 2 4
30 60 55
求 x與 y的 covariance?
11
16
55
1
n
yyxxs ii
XY
©Ming-chi Chen 社會統計 Page.15
2
4
6
8
10
12
14
16
0 2 4 6 8 10
X
Y
y
x
II
III IV
I⊕
⊕
(14-10)(8-5)
=(4)(3)
(6-10)(3-5)=(-4)(-2)
©Ming-chi Chen 社會統計 Page.16
2
4
6
8
10
12
14
16
0 2 4 6 8 10
X
Yy
x
II
III IV
I
⊕
(13-10)(8-5)
=(-3)(3)
(5-10)(8-5)=(-5)(3)
⊕
©Ming-chi Chen 社會統計 Page.17
Covariance, 共變量
• 證明:
觀念觀念
YXXY YXEYX ,Cov
)()()()( YEXEYEXYXEXYE
)()()()()()()( YEXEYEXEYEXEXYE
)()()( YEXEXYE
)()()( YEXEXYExy
©Ming-chi Chen 社會統計 Page.18
Covariance, 共變量
• 證明: if X, Y are independent,
觀念觀念
YXXY YXEYX ,Cov
X Y
yxpyEyxEx ),())())(((
0xy
X Y
ypxpyEyxEx )()())())(((
0)())(()())(( X y
ypyEyxpxEx
)()(),( ypxpyxp
©Ming-chi Chen 社會統計 Page.19
The Population Correlation Coefficient, ρ母體相關係數
• 用共變量來衡量兩變數的關係有一個缺點,即 σxy及 sxy的值會受到 x 與 y 衡量單位的影響。
i xi yi1 3 62 5 123 1 34 6 135 8 146 7 12
30 60 11XYs
xi yi x-E(x) y-E(y) (x-E(x))(y-E(y))30 60 -20 -40 80050 120 0 20 010 30 -40 -70 280060 130 10 30 30080 140 30 40 120070 120 20 20 400
300 600 5500
1100XYs
©Ming-chi Chen 社會統計 Page.20
The Population Correlation Coefficient, ρ母體相關係數
11XYs 1100XYs
yi
0
5
10
15
0 5 10
yi
0
20
40
60
80
100
120
140
160
0 20 40 60 80 100
©Ming-chi Chen 社會統計 Page.21
The Population Correlation Coefficient, ρ母體相關係數
• 因此,我們將 covariance 分別除上 x 與 y 的標準差 σx、 σy,得到標準化後的指標稱之為相關係數 :
yx
xy
yVarxVar
yxCov
)()(
),(母體相關係數
©Ming-chi Chen 社會統計 Page.22
Sample Correlation Coefficient, r樣本相關係數
• 樣本 相關係數 :
yx
xy
SS
Sr
1
)(
1
)(1
22
n
yy
n
xxn
yyxx ii
22 )()( yyxx
yyxx ii
2222 ynyxnx
yxnxy
yxnxy
yxnxnyynxxy
yxnxyyxxy
yxyxyxxy
yyxx ii
)()(
)(
))((
©Ming-chi Chen 社會統計 Page.23
相關係數的特性
• 相關係數衡量兩變數之間是否有線性關係,相關係數愈大,代表兩變數之間的線性關係愈強。相關係數為零,代表兩變數沒有線性關係。
• 相關係數的值介於正負 1 之間,正 1 代表兩者呈完全正相關,負 1 代表兩者呈現完全負相關。
• 如果 x 與 y 為獨立,則相關係數 ρ=0 。• 如果 ρ=0 , x 與 y 不一定為獨立,因為他們可能具有非線性關係。
©Ming-chi Chen 社會統計 Page.24
相關係數的特性
• 證明:若 x 為 y 之線性函數 y=a+bx ,則 x 與 y 的相關係數為 ±1 。
))())(((),cov( yEyxExEyx ))())((( bxaEbxaxExE
))())((( xbEabxaxExE )())(( 2 xbVarxExbE
)var()var()var( 2 xbbxay
)var()var(
)var(
)()(
),(2 xxb
xb
yVarxVar
yxCov
0b 1
0b 1
©Ming-chi Chen 社會統計 Page.25
X
Y
(a)
r = 0.8
©Ming-chi Chen 社會統計 Page.26
X
Y
(b)
r = .95
©Ming-chi Chen 社會統計 Page.27
X
Y
(c)
r = 0
©Ming-chi Chen 社會統計 Page.28
X
Y
(a)
r = 0
©Ming-chi Chen 社會統計 Page.29
X
Y
(d)
r = -.90
©Ming-chi Chen 社會統計 Page.30
X
Y
(c)
r = -0.5
©Ming-chi Chen 社會統計 Page.31
相關係數的強弱
• r = 1 為完全相關• r = 0 為無相關
為高度相關 17.0 r
為中度相關 7.03.0 r
為低度相關 3.00 r
©Ming-chi Chen 社會統計 Page.32
例題
求 x與 y的 correlation?i xi yi x-E(x) y-E(y) (x-E(x))(y-E(y)) (x-E(x))2(y-E(y))2
1 3 6 -2 -4 8 4 162 5 12 0 2 0 0 43 1 3 -4 -7 28 16 494 6 13 1 3 3 1 95 8 14 3 4 12 9 166 7 12 2 2 4 4 4
30 60 55 34 98
953.9834
55
YX
XY
ss
sr
©Ming-chi Chen 社會統計 Page.33
例題
求 x與 y的 correlation?i xi yi xy x2 y21 3 6 18 9 362 5 12 60 25 1443 1 3 3 1 94 6 13 78 36 1695 8 14 112 64 1966 7 12 84 49 144
30 60 355 184 698
2222 ynyxnx
yxnxyr
953.
)10)(10(6698)5)(5(6184
)10)(5(6355
©Ming-chi Chen 社會統計 Page.34
母體相關係數的檢定• 樣本相關係數 r 為母體相關係數的估計式。
rs
rt
0
0:0 H
若 (x, y) 為一組具有雙邊常態分配 (bivariate normal distribution) 的隨機變數
)2(~ nt
2
1 2
n
rsr
21 2
nr
rt
©Ming-chi Chen 社會統計 Page.35
母體相關係數的檢定
• 利用檢定斜率的公式:0:0 H
)2(~
)( 2
2
11
nt
xxS
bt
i
e
相當於檢證 0: 10 H
2
n
SSESe
xx
xyyyii SS
SSSSyySSE
22 )(
)ˆ(
)1())(
1( 2222
2
rSSS
SSSS y
xy
xyyy
)2(~
)2(
)1(2
22
nt
nS
rS
S
Sr
t
x
y
x
y
©Ming-chi Chen 社會統計 Page.36
例題• 續上例
953.9834
55
YX
XY
ss
sr
?0:0 H檢定
21 2
nr
rt 29.6
26953.1
953.2
132.24,05. t
©Ming-chi Chen 社會統計 Page.37
相關係數與因果關係
• 相關僅代表兩變數間有線性關係,不必然隱含因果關係,下列情況皆有可能
yx xy
z
yx Two variables are said to be spuriously correlated when their correlations is nonzero and there is no reason to believe that the variables are related to one another.
©Ming-chi Chen 社會統計 Page.38
相關係數與因果關係
• 商品的價格愈高,需求愈低?• 美國職業運動的票價每年都在增長,但需求不減反增。
• 相關分析僅考慮兩個變數 x, y 之間的關係,而忽略其他可能影響 y 的因素。
• 人口增加、收入增加、職業運動受歡迎的程度增加等
©Ming-chi Chen 社會統計 Page.39
相關係數不受單位尺度變換的影響
0, , cadcY NbaXM iiii 且 yxnm rr ,, 則
ii
ii
iii
nmNNMM
NNMMr
22,)()(
))((
ii
ii
iii
dYcdcYbXabaX
dYcdcYbXabaX
22 )()(
))((
ii
ii
iii
YYXXca
YYXXca
22 )()(
))((
©Ming-chi Chen 社會統計 Page.40
例題• 某校 MBA 畢業生的在學成績 (x) 與工作起薪
(y) 的資訊如下:
• 求 r 並檢定 H0: =0
41.9593,06.256,24.1564
81.17,3.534,9.2,87,3022
iiii
ii
yxyx
yyxxn
©Ming-chi Chen 社會統計 Page.41
例題
41.9593,06.256,24.1564
81.17,3.534,9.2,87,3022
iiii
ii
yxyx
yyxxn
8651.0)81.17(3041.9593)9.2(3006.256
81.179.23024.156422
r
21 2
nr
rt 126.9
230)8651(.1
8651.2