2つの数値項目の関連を探る方法を知り予測出来るようになる

59
1 Excelを使って学ぶ、統計の基礎 3限目 2つの数値項目の関連を探る方法 を知り、予測出来るようになる 講師: 米 谷

Upload: webcampusschoo

Post on 19-Jun-2015

392 views

Category:

Business


2 download

TRANSCRIPT

Page 1: 2つの数値項目の関連を探る方法を知り予測出来るようになる

1

Excelを使って学ぶ、統計の基礎

3限目 2つの数値項目の関連を探る方法

を知り、予測出来るようになる

講師: 米 谷 学

Page 2: 2つの数値項目の関連を探る方法を知り予測出来るようになる

今夜の主な内容

① 過去の実績を基に予測をするときの考え方

② 2つの数値項目の関連を探る ~ 相関とは

③ 直線的な傾向を利用した数値予測

演習用のExcelワークシートをダウンロードし 後で演習ができるよう、準備をしておきましょう。

2

Page 3: 2つの数値項目の関連を探る方法を知り予測出来るようになる

【1】 過去の実績を基に

予測をするときの考え方

3

Page 4: 2つの数値項目の関連を探る方法を知り予測出来るようになる

過去のデータを基に分析・予測

メリット:

成功・失敗の原因の検証

意思決定までの過程の視覚化

後任者への意思決定の継承

意思決定内容の理解・訴求の向上

4

Page 5: 2つの数値項目の関連を探る方法を知り予測出来るようになる

過去のデータを基に分析・予測

デメリット:

過去の規則性・周期性から外れると、予測精度が低下する可能性がある。

上昇から下降、下降から上昇傾向へのターニング・ポイントの見極めが困難。

相関関係は探ることができても、因果関係を見出すことが難しいことがある。

5

Page 6: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関関係とは?-①

6 出典:社団法人電気通信事業者協会 累計加入者数

0

20,000

40,000

60,000

80,000

100,000

120,000

1998年 1999年 2000年 2001年 2002年 2003年 2004年 2005年 2006年 2007年 2008年

携帯電話契約数(単位:千件)

Page 7: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関関係とは?-②

7 出典: 総務省 労働力調査

17,000

17,500

18,000

18,500

19,000

19,500

1998年 1999年 2000年 2001年 2002年 2003年 2004年 2005年 2006年 2007年 2008年

0~14歳人口

Page 8: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関関係とは?-③

8

40,000

50,000

60,000

70,000

80,000

90,000

100,000

110,000

120,000

17,000 17,500 18,000 18,500 19,000 19,500

携帯

電話

契約

数(千

件)

0~14歳人口

散布図

Page 9: 2つの数値項目の関連を探る方法を知り予測出来るようになる

過去のデータを基に分析・予測

デメリット:

過去の規則性・周期性から外れると、予測精度が低下する可能性がある。

上昇から下降、下降から上昇傾向へのターニング・ポイントの見極めが困難。

その変化に気づくことが重要。

変化には原因がある? 9

Page 10: 2つの数値項目の関連を探る方法を知り予測出来るようになる

過去のデータを基に分析・予測

デメリット:

相関関係は探ることができても、因果関係を見出すことが難しいことがある。

相関関係の有無だけでは、因果関係の有無は判断できない。 因果関係を探るには、必ず人間(分析する人)が介在する。

10

Page 11: 2つの数値項目の関連を探る方法を知り予測出来るようになる

過去のデータを基に分析・予測

デメリット:

相関関係は探ることができても、因果関係を見出すことが難しいことがある。

ただ、因果関係が見出せなくても、一定の相関関係が見いだせれば、その関係を利用できることも。

11

Page 12: 2つの数値項目の関連を探る方法を知り予測出来るようになる

説明のため極端な例ですが……

12

0

2

4

6

8

10

12

14

16

18

1 2 3 4 5 6 7 8 9 10 11 12 13

経過月 数量

Page 13: 2つの数値項目の関連を探る方法を知り予測出来るようになる

13

予測の考え方のポイント

● 特定の業種 ≠ 特定の予測手法

● 特定の業種 ≠ 特定の変数(項目)

予測が当たらない

分析に採り入れた 以外に、他の項目が必要な可能性がある

だんだん予測が 外れてきた

得られた予測モデルは、未来永劫使える

わけでは無い (環境の変化など)

当たり前の結果しか得られなかった

高度な手法を使っても、必ず新発見が できるとは限らない

Page 14: 2つの数値項目の関連を探る方法を知り予測出来るようになる

予測手法を選ぶポイント

• 過去の傾向がどうなっているかを探る

直線的/曲線的な上昇傾向・下降傾向を示している場合、今後もそのまま伸びると仮定し、その傾向を延伸させ予測する方法

上昇・下降傾向に無いが有効な例 (年間の周期性と季節性を考慮)

予測したい項目以外の項目の関連と共に分析し予測をする方法 ……例: 回帰分析など

• 分析に必要なデータの型に合うデータを準備

• もちろん予測値が得られた後は必ず検証を 14

Page 15: 2つの数値項目の関連を探る方法を知り予測出来るようになる

15

【2】 2つの数値項目の関連を探る

「相関」とは?

Page 16: 2つの数値項目の関連を探る方法を知り予測出来るようになる

販売個数の時系列データ

16

Page 17: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関関係を利用した事例

① 背景: 日ごとの「最高気温」・「販売個数」データ

② 仮説 暑い日はアイスクリームがより売れるだろう

③ 仮説に基づいてデータを採る

④ グラフに表わす ~ 2項目間の関連を探るので、散布図を使用する。

⑤ 関連の度合いを把握

⑥ 予測に活かすことへの期待

Page 18: 2つの数値項目の関連を探る方法を知り予測出来るようになる

最高気温と販売個数のデータ

18

Page 19: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関係数とは?

• 2つの対応するデータについて、直線的な関係度合いについて、数値の単位等の違いに関係なく比較できるよう、データを標準化させた値。

• ここでいう相関係数は、正しくは「ピアゾンの積率相関係数」と呼び、一般に「相関係数」はこれを指すことが多い。

19

Page 20: 2つの数値項目の関連を探る方法を知り予測出来るようになる

(参考)ちなみに標準化とは

• データの平均値を0、標準偏差を1となるように、データを変換すること。

•データ−平均値

標準偏差

• ExcelではSTANDARDIZE関数

• 標準偏差: 平均値からのばらつき具合を表わす指標 分散の平方根をとったもの

20

Page 21: 2つの数値項目の関連を探る方法を知り予測出来るようになる

𝑥の偏差 × 𝑦の偏差

𝑥の標準偏差 × 𝑦の標準偏差

【重要!】 常に-1~1の間の値に収まる

相関係数を求める数式

21

n

i

i

n

i

i

n

i

ii

yyxx

yyxx

r

1

2

1

2

1

← 共分散

Page 22: 2つの数値項目の関連を探る方法を知り予測出来るようになる

直線的な関係を探る~相関-①

22

0

20

40

60

80

100

120

140

0 10 20 30 40

強い正の相関がある例

相関係数:0.99

Page 23: 2つの数値項目の関連を探る方法を知り予測出来るようになる

0

10

20

30

40

50

60

70

80

90

0 10 20 30 40

やや強い正の相関がある例

直線的な関係を探る~相関-②

23

相関係数:0.65

Page 24: 2つの数値項目の関連を探る方法を知り予測出来るようになる

直線的な関係を探る~相関-③

24

0

20

40

60

80

100

120

140

160

0 10 20 30 40

相関がない例

相関係数:0

Page 25: 2つの数値項目の関連を探る方法を知り予測出来るようになる

直線的な関係を探る~相関-④

25

0

10

20

30

40

50

60

70

80

90

0 10 20 30 40

やや強い負の相関がある例

相関係数:-0.65

Page 26: 2つの数値項目の関連を探る方法を知り予測出来るようになる

直線的な関係を探る~相関-⑤

26

0

20

40

60

80

100

120

140

0 10 20 30 40

強い負の相関がある例

相関係数:-0.99

Page 27: 2つの数値項目の関連を探る方法を知り予測出来るようになる

共分散とは?

27

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

yの平均値

xの平均値

Page 28: 2つの数値項目の関連を探る方法を知り予測出来るようになる

正の相関……(+)×(+)

28

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

yの平均値 xとyが+

xとyが- xの平均値

Page 29: 2つの数値項目の関連を探る方法を知り予測出来るようになる

負の相関……(+)×(-)

29

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

yの平均値

xが+

yが-

xが-

yが+

xの平均値

Page 30: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関係数と相関の強さ

但し統一的な指標ではない

相関係数の絶対値: 相関の強さ:

0.8以上 …… 強い相関がある

0.6以上 …… やや強い相関がある

0.4以上 …… 相関がある

0.2以上 …… やや相関がある

0.2未満 …… 相関がない 30

Page 31: 2つの数値項目の関連を探る方法を知り予測出来るようになる

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

2項目間の関連

31

Page 32: 2つの数値項目の関連を探る方法を知り予測出来るようになる

32

【3】 Excelの関数で

相関係数を求める

● Excelワークシートを準備をしましょう ●

Page 33: 2つの数値項目の関連を探る方法を知り予測出来るようになる

33

【4】 直線的な関係を基に 直線の数式を求める

Page 34: 2つの数値項目の関連を探る方法を知り予測出来るようになる

直線の式を求める

34

y = 9.7791x + 73.069

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

Page 35: 2つの数値項目の関連を探る方法を知り予測出来るようになる

直線の決定のされ方

35

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

Page 36: 2つの数値項目の関連を探る方法を知り予測出来るようになる

直線の決定のされ方

36

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

残差・誤差

Page 37: 2つの数値項目の関連を探る方法を知り予測出来るようになる

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

直線の決定のされ方

37

残差・誤差

残差・誤差 残差・誤差

Page 38: 2つの数値項目の関連を探る方法を知り予測出来るようになる

直線の決定のされ方

38

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

これでは

残差の合計が0になっちゃう!

Page 39: 2つの数値項目の関連を探る方法を知り予測出来るようになる

直線の決定のされ方

39

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

そこで、残差を自乗し、

その合計が最小となるようにする

Page 40: 2つの数値項目の関連を探る方法を知り予測出来るようになる

40

【5】 Excelの散布図から 直線の式を求める

● Excelワークシートを準備をしましょう ●

Page 41: 2つの数値項目の関連を探る方法を知り予測出来るようになる

統計学の教科書的には……

𝑦 = 𝑎𝑥 + 𝑏 来店客数(予測)=9.779 × 32 + 73.069

→ 386(個)と予測する 𝑦: 目的変数・従属変数 → 予測したい項目

𝑎: 回帰係数 (傾き) → 説明変数の値が1増える ごとにyがいくら増えるか

𝑥: 説明変数・独立変数 → ここでは最高気温

𝑏: 切片・定数 → 説明変数の値が0のときのyの値

Page 42: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関係数の注意!

① 散布図と共に確認を(外れ値に影響)

42

0

5

10

15

20

25

30

35

40

0 2 4 6 8

項目2

項目1

データ③

外れ値を含む

データ

Page 43: 2つの数値項目の関連を探る方法を知り予測出来るようになる

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7

項目2

項目1

データ③´

相関係数の注意!

① 散布図と共に確認を(外れ値に影響)

43

外れ値を 取り除くと……

Page 44: 2つの数値項目の関連を探る方法を知り予測出来るようになる

0

5

10

15

20

25

30

0 10 20 30 40 50

項目2

項目1

データ④

相関係数の注意!

② 異なる傾向を示すデータの混在(層別を!)

44

Page 45: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関係数の注意!

③ 異なる傾向を示すデータの混在(層別を!)

45

120

130

140

150

160

170

180

10 15 20 25 30 35 40 45 50 55

y

X

データ⑤ 散布図

一見すると

無相関のデータ

Page 46: 2つの数値項目の関連を探る方法を知り予測出来るようになる

小田

高橋

大竹

麻木

安部

清水

鈴川

渡辺

唐橋

菊川

吉田

春日田中

小島

宮城

財津

大野

松本

河本

大久保

姫野

品川

丹野

大橋

若林

上田

石田

藤本

伊藤

森永

矢口

120

130

140

150

160

170

180

10 15 20 25 30 35 40 45 50 55

y

x

ラベル付き散布図

相関係数の注意!

③ 異なる傾向を示すデータの混在(層別を!)

46

実は異なる

性別が混在

Page 47: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関係数の注意!

③ 異なる傾向を示すデータの混在(層別を!)

47

小田

鈴川

田中

小島

宮城

大野

松本

大久保

姫野

品川

丹野

若林

藤本

伊藤

矢口

120

130

140

150

160

170

180

10 15 20 25 30 35 40 45 50 55

y

x

ラベル付き散布図・男性のみ

男性のみでは

負の相関がある

Page 48: 2つの数値項目の関連を探る方法を知り予測出来るようになる

高橋

大竹

麻木

安部

清水

渡辺

唐橋

菊川

吉田

春日

財津

河本

大橋

上田

石田

森永

120

130

140

150

160

170

180

10 15 20 25 30 35 40 45 50 55

y

x

ラベル付き散布図・女性のみ

相関係数の注意!

③ 異なる傾向を示すデータの混在(層別を!)

48

女性のみでは

正の相関がある

Page 49: 2つの数値項目の関連を探る方法を知り予測出来るようになる

相関係数の注意!

④ 全体では一見相関関係がありそうでも……

49

0

5

10

15

20

25

0 5 10 15 20

Page 50: 2つの数値項目の関連を探る方法を知り予測出来るようになる

0

5

10

15

20

25

0 5 10 15 20

男性

女性

相関係数の注意!

④ 層別すると個別には無関係な例も

50

Page 51: 2つの数値項目の関連を探る方法を知り予測出来るようになる

最高気温と販売個数のデータ

51

Page 52: 2つの数値項目の関連を探る方法を知り予測出来るようになる

まず1つの変数で外れ値がある

52

外れ値

Page 53: 2つの数値項目の関連を探る方法を知り予測出来るようになる

この1つの変数で外れ値はない

53

Page 54: 2つの数値項目の関連を探る方法を知り予測出来るようになる

この1つの変数でも外れ値はない

54

Page 55: 2つの数値項目の関連を探る方法を知り予測出来るようになる

しかし2つの変数で見てみると…

55

Page 56: 2つの数値項目の関連を探る方法を知り予測出来るようになる

しかし2つの変数で見てみると…

56

Page 57: 2つの数値項目の関連を探る方法を知り予測出来るようになる

質疑応答

57

Page 58: 2つの数値項目の関連を探る方法を知り予測出来るようになる

課題

① 相関係数とは常に (a) から (b) の値に収まり、 (c) 関係の強さを表わすものである。 【語群】 1 ・ 因果 ・ -1 ・ 線形の ・ 0

② 最高気温(x)を基に来店客数(y)を予測するため式を求めたところ、y = 18.483x + 39.07 となりました。 ここから、最高気温が29℃のときの来店客数は何人と予測できるでしょうか?

58

Page 59: 2つの数値項目の関連を探る方法を知り予測出来るようになる

ご清聴ありがとうございました

59

講師: 米谷 学

講師 Twitter ID: manab7 ハッシュタグ: #ynr48

http://www.datamining.jp

http://www.datamation.jp