2群の関係を把握する方法 (相関分析・単回帰分...
TRANSCRIPT
Data Science Institute
2群の関係を把握する方法(相関分析・単回帰分析)
2018年10月2, 4日データサイエンス研究所
伊藤嘉朗
Data Science Institute
Data Science Institute
相関分析(散布図)
セールスマンの訪問回数と売上高
訪問回数 売上高38 52325 38473 75882 81343 49266 67838 49529 41871 723
Data Science Institute
3
Data Science Institute
相関関係
正の相関 負の相関 無相関
相関関係には正の相関、負の相関、無相関。点の集中度が関係の強さを測定する手がかり。
Data Science Institute
4
Data Science Institute
散布図の作成法(SAS EG)
月 4 5 6 7 8 9 10 11 12 1 2 3
広告費 12 10 17 59 75 64 33 24 49 43 36 26
売上高 83 74 60 109 125 115 78 70 114 87 97 99
1. データを入力(「ファイル」→「新規作成」→「データ」)
EG
Data Science Institute
5
Data Science Institute
相関関係の強さ
ピアソンの積率相関係数( r )
r=0.97 r=0.32
-1 ≦ r ≦ 1
0
50
100
150
200
250
300
350
50 150 250 350
100
120
140
160
180
200
220
240
80 90 100 110 120 130
Data Science Institute
10
Data Science Institute
X-平均 Y-平均 (X-平均)(Y-平均)
① + + +② - + -③ - - +④ + - -
計 合計
①、③の領域に点が多ければ正の相関②、④の領域に多く点があると負の相関全ての領域にあれば相殺され無相関
合計が大きければ相関が強い
Data Science Institute
12
Data Science Institute
積率相関係数(r)の計算式
Xの標準偏差×Yの標準偏差r= 共分散
相関が強い
「合計÷データ数」(共分散)が大きい
-1 < r <+1
共分散をXの標準偏差、Yの標準偏差で割る
Data Science Institute
13
Data Science Institute
積率相関係数(r)の計算例
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Y
X
X Y1 1 2 2 3 4 4 3 5 5
平均 3 3
Data Science Institute
14
Data Science Institute
標準偏差の計算方法
2)変動2乗
1 - 3 = -2 42 - 3 = -1 13 - 3 = 0 04 - 3 = 1 15 - 3 = 2 4
1) 平均 : ( 1+2+ 3+4+5 )÷ 5 = 3
計 0 10
3)分散 : 10 ÷ 5 = 2
4)標準偏差 : √ 2 = 1.414・・・
例)1,2,3,4,5
Data Science Institute
15
Data Science Institute
Xの標準偏差×Yの標準偏差r= 共分散
=1.414×1.414
1.8=0.900
X ①(X-平均) Y ②(Y-平均) ①×②1 -2 1 -2 4.0 2 -1 2 -1 1.0 3 0 4 1 0.0 4 1 3 0 0.0 5 2 5 2 4.0
平均 3 3 合計 9.0標準偏差 1.414 1.414 合計÷5 1.8
Data Science Institute
16
Data Science Institute
積率相関係数(r)の検定
有意確率(p)=0.0374 < 0.05
r=0ではないと判断したときの危険率
有意水準5%において、相関関係は有意である
相関関係の強さ
Data Science Institute
24
Data Science Institute
A支店の広告費と売上高
r=0.775
月 4 5 6 7 8 9 10 11 12 1 2 3広告費 42 26 35 68 103 90 88 58 79 80 48 60売上高 47 40 51 67 85 100 70 52 65 81 72 85
強い正の相関!
0
20
40
60
80
100
120
0 20 40 60 80 100 120
Data Science Institute
25
Data Science Institute
B支店の広告費と売上高
r=0.863
強い正の相関!
月 4 5 6 7 8 9 10 11 12 1 2 3
広告費 12 10 17 59 75 64 33 24 49 43 36 26
売上高 83 74 60 109 125 115 78 70 114 87 97 99
0
20
40
60
80
100
120
140
0 20 40 60 80
Data Science Institute
26
Data Science Institute
(A支店+B支店)の広告費と売上高
r=0.272
???
0
20
40
60
80
100
120
140
0 20 40 60 80 100 120
Data Science Institute
27
Data Science Institute
0
20
40
60
80
100
120
140
0 20 40 60 80 100 120
A支店
B支店
(A支店+B支店)の広告費と売上高
Data Science Institute
28
Data Science Institute
A支店の広告費と売上高
r=0.016
無相関!
月 4 5 6 7 8 9 10 11 12 1 2 3
広告費 43 51 62 76 41 51 62 82 40 51 60 71
売上高 94 102 109 100 46 51 47 62 115 112 122 115
0
20
40
60
80
100
120
140
30 40 50 60 70 80 90
Data Science Institute
29
Data Science Institute
B支店の広告費と売上高
r=0.040
無相関!
月 4 5 6 7 8 9 10 11 12 1 2 3
広告費 92 102 111 122 88 102 112 132 89 99 110 121
売上高 152 160 167 175 147 146 142 157 210 207 217 210
0
50
100
150
200
250
80 90 100 110 120 130 140
Data Science Institute
30
Data Science Institute
(A支店+B支店)の広告費と売上高
r=0.823
???
0
50
100
150
200
250
20 40 60 80 100 120 140
Data Science Institute
31
Data Science Institute
(A支店+B支店)の広告費と売上高
0
50
100
150
200
250
20 40 60 80 100 120 140
A支店
B支店
Data Science Institute
32
Data Science Institute
都道府県 売上高 広告費北海道 245 26
青森 123 14
・・・ ・・・ ・・・・・・ ・・・
東京 5,672 492 ・・・ ・・・ ・・・・・・ ・・・ ・・・沖縄 59 6
地域別の売上高と広告費
都道府県別広告費と売上高実績
Data Science Institute
33
Data Science Institute
支店 広告費 売上高
北海道 92 44
東北 93 102
関東 332 288
北陸 78 54
中部 181 118
近畿 108 138
中国 113 138
四国 72 86
九州 243 152
沖縄 13 22
◇支店別広告費と売上高
Data Science Institute
35
Data Science Institute
支店 広告費 売上高 人口
北海道 92 44 5,506
東北 93 102 9,335
関東 332 288 42,604
北陸 78 54 5,443
中部 181 118 18,127
近畿 108 138 12,912
中国 113 138 15,554
四国 72 86 3,976
九州 243 152 13,204
沖縄 13 22 1,393
◇支店別広告費、売上高、人口
Data Science Institute
37
Data Science Institute
広告費と売上高人口と広告費人口と売上高
EG
r = 0.902
r = 0.895r = 0.951
Data Science Institute
38
Data Science Institute
売上高 宣伝広告費
宣伝広告費人口
売上高
広告宣伝費は売上高に貢献?
人口の影響を除いたときの広告費と売上高
の積率相関係数 偏相関係数
Data Science Institute
39
Data Science Institute
1.データを入力し、「分析」-「多変量解析」-「相関分析」を選択する。
偏相関係数の求め方(SAS EG )EG
Data Science Institute
40
Data Science Institute
・コンビニ数と甲子園勝率?
・コンビニ数と人口
人口の多い都道府県はコンビニ件数が多い。
・人口と甲子園勝率
人口が多いと高校の数や高校生の数も多く、結果として
野球のレベルも上がる。
EG
人口の影響を除いた相関係数(偏相関係数)Data Science Institute
44
Data Science Institute
EG
2.「データ」をクリックし、分析変数、及び部分変数(人口)を設定する。
1.データを入力し、「分析」-「多変量解析」-「相関分析」を選択する。
Data Science Institute
45
Data Science Institute
◇10名の児童の算数と国語のテストの順位。
スピアマンの順位相関係数(rs)
算数 国語
1 3
2 2
3 4
4 1
5 8
6 5
7 6
8 7
9 10
10 9
Data Science Institute
47
Data Science Institute
1.データを入力し、「分析」-「多変量解析」-「相関分析」を選択。2.「データ」をクリックし、「分析変数」の設定。3.「オプション」をクリックし、スピアマン(Spearman)を選択。
スピアマンの順位相関係数(SAS EG)EG
Data Science Institute
48
Data Science Institute
◇2016年のプロ野球パ・リーグ
解説者5名のシーズン開幕前の予想順位。
解説者の予想の正確さを比較。
チーム 実際 赤星 張本 稲葉 福本 野村日本ハム 1 2 2 3 3 2ソフトバンク 2 1 1 2 1 1ロッテ 3 5 5 5 4 5西武 4 4 3 4 5 3楽天 5 6 6 6 6 4
オリックス 6 3 4 1 2 6
Data Science Institute
50
Data Science Institute
◇男性10名
中性脂肪値とGOTの値
極端な値(外れ値)
GOTに極端な値
順位相関係数
№ 中性脂肪 GOT
1 77 21
2 103 28
3 125 35
4 119 19
5 89 27
6 157 35
7 146 32
8 173 42
9 130 28
10 164 345
Data Science Institute
52
Data Science Institute
例)売上高と売上高に影響を与える要因との関係
売上高⇐広告宣伝費、人口、セールスマン数、・・・
説明変数が1つ:単回帰説明変数が2つ以上:重回帰
従属変数⇐説明変数(独立変数)
回帰分析
回帰式(y=a+bx)を求める。
目的:回帰式を求め、予測する。
Data Science Institute
54
Data Science Institute
走行距離と車両価格
価格:万円 距離:千km
車両価格 走行距離従属変数 説明変数
単回帰分析
№ 1 2 3 4 5 6 7 8 9車両価格 119 89.9 78 169.6 98 26.8 43.8 33.8 105走行距離 47 46 51 27 85 101 89 138 46
3 4 5 6 7 8 9 10 11車両価格 105 113 79 75 59 89 55 49 31走行距離 70 48 76 61 62 70 105 92 119
Data Science Institute
55
Data Science Institute
相関分析
r = -0.827
0
20
40
60
80
100
120
140
160
180
0 20 40 60 80 100 120 140 160
車両価格
走行距離
Data Science Institute
56
Data Science Institute
0
20
40
60
80
100
120
140
160
180
0 20 40 60 80 100 120 140 160
車両価格
走行距離
回帰分析
回帰式(y=a+bx)を求める。
Data Science Institute
57
Data Science Institute
・車両価格=155.98-1.042×走行距離
走行距離1千km増えると車両価格は約1万円低下する。
EG
Data Science Institute
62
Data Science Institute
回帰式の信頼性
1)偏回帰係数のt検定
有意確率の確認
走行距離の偏回帰係数の有意確率<0.0001 < 0.05
2)決定係数の大きさ
0.5(50%)が目安
(必須)
自由度調整済み決定係数=0.6635
⇒ 回帰式により約66.35%説明できる
Data Science Institute
63
Data Science Institute
年 市場規模 消費支出
2012 8 6
2013 9 6
2014 13 7
2015 11 5
2016 14 8
2017 17 10
2018 ? 11
年度別市場規模と消費支出
Data Science Institute
64
Data Science Institute
市場規模=0.625+1.625×消費支出
市場規模 ⇐ 消費支出
自由度調整済み決定係数=0.6931
2018年予測値=0.625+1.625×11=18.5
EG
Data Science Institute
68
Data Science Institute
・年度間の差に着目
年度 売上高1996 1 1997 2 1998 3 1999 4 2000 5 2001 6 2002 7 2003 8 2004 9 2005 10 2006 11 2007 12 2008 13 2009 14 2010 15 2011 16 2012 17 2013 18 2014 19 2015 20
・年度間の比に着目
+1
比率は年々減少!
前年比-
2.001.501.331.251.201.171.141.131.111.101.091.081.081.071.071.061.061.061.05
Data Science Institute
70
Data Science Institute
0
50
100
150
200
250
300
4月 5月 6月 7月 8月 9月 10月 11月 12月
目の動きは棒をイメージして上下に動かすべき
目を斜めに動かすグラフは対数目盛
折れ線グラフと棒グラフの違いは何か?
Data Science Institute
72
Data Science Institute
4月 5月 差 前月比東北 216 266 50 1.231関東 752 802 50 1.066沖縄 63 113 50 1.794
8月 9月 差 前月比東北 200 260 60 1.3関東 910 1183 273 1.3沖縄 50 65 15 1.3
1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
東北 188 192 201 216 266 238 225 200 260 213 198 218
関東 730 648 813 752 802 868 856 910 1183 1020 923 955
沖縄 41 40 55 63 113 42 53 50 65 48 45 47
支店(東北、関東、沖縄)別売上高
Data Science Institute
73
Data Science Institute
2.「重ね合わせの縦列折れ線グラフ」を選択する。
3.「データ」をクリックし、月を「X軸」に、東北、関東、沖縄を「Y軸」に設定する。
EG
Data Science Institute
75
Data Science Institute
対数目盛の設定法(SAS EG)
「Y軸・目盛」をクリックし、Y軸の目盛を「対数」、「Y軸の底」を「底10」に設定する。
EG
Data Science Institute
77
Data Science Institute
訪問回数 売上高
1月 38 523
2月 25 384
3月 73 758
4月 82 813
5月 43 492
6月 66 678
7月 38 495
8月 29 418
9月 71 723
(単位:回、百万円)
◇セールスマンの訪問回数と売上高
Data Science Institute
79
Data Science Institute
2.「重ね合わせの縦列折れ線グラフ」を選択する。
3.「データ」をクリックし、月を「X軸」に、訪問回数、売上高を「Y軸」に設定する。
EG
Data Science Institute
81
Data Science Institute
新製品 主力製品
1月 38 523
2月 25 384
3月 73 758
4月 82 813
5月 43 492
6月 66 678
7月 38 495
8月 29 418
9月 71 723
(百万円)
◇新製品と主力製品の売上高
Data Science Institute
84
Data Science Institute
人間の五感は対数に変換されている
◇ウェーバー・フェヒナーの法則弁別閾(気づくことができる最小の刺激差)は刺激の値に比例
手に重りを100gのせ、少しずつ重りを加え、重さの違いを感じたのが110gのとき、手に重りを200gのせ、1gずつ重りを加え、重さの違いを感じるのは220gのときである。
デシベル、PH、マグニチュード、等星・・・
Data Science Institute
89