2つの数値項目の関連を探る方法を知り予測出来るようになる

Post on 19-Jun-2015

392 Views

Category:

Business

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Excelを使って学ぶ、統計の基礎

3限目 2つの数値項目の関連を探る方法

を知り、予測出来るようになる

講師: 米 谷 学

今夜の主な内容

① 過去の実績を基に予測をするときの考え方

② 2つの数値項目の関連を探る ~ 相関とは

③ 直線的な傾向を利用した数値予測

演習用のExcelワークシートをダウンロードし 後で演習ができるよう、準備をしておきましょう。

2

【1】 過去の実績を基に

予測をするときの考え方

3

過去のデータを基に分析・予測

メリット:

成功・失敗の原因の検証

意思決定までの過程の視覚化

後任者への意思決定の継承

意思決定内容の理解・訴求の向上

4

過去のデータを基に分析・予測

デメリット:

過去の規則性・周期性から外れると、予測精度が低下する可能性がある。

上昇から下降、下降から上昇傾向へのターニング・ポイントの見極めが困難。

相関関係は探ることができても、因果関係を見出すことが難しいことがある。

5

相関関係とは?-①

6 出典:社団法人電気通信事業者協会 累計加入者数

0

20,000

40,000

60,000

80,000

100,000

120,000

1998年 1999年 2000年 2001年 2002年 2003年 2004年 2005年 2006年 2007年 2008年

携帯電話契約数(単位:千件)

相関関係とは?-②

7 出典: 総務省 労働力調査

17,000

17,500

18,000

18,500

19,000

19,500

1998年 1999年 2000年 2001年 2002年 2003年 2004年 2005年 2006年 2007年 2008年

0~14歳人口

相関関係とは?-③

8

40,000

50,000

60,000

70,000

80,000

90,000

100,000

110,000

120,000

17,000 17,500 18,000 18,500 19,000 19,500

携帯

電話

契約

数(千

件)

0~14歳人口

散布図

過去のデータを基に分析・予測

デメリット:

過去の規則性・周期性から外れると、予測精度が低下する可能性がある。

上昇から下降、下降から上昇傾向へのターニング・ポイントの見極めが困難。

その変化に気づくことが重要。

変化には原因がある? 9

過去のデータを基に分析・予測

デメリット:

相関関係は探ることができても、因果関係を見出すことが難しいことがある。

相関関係の有無だけでは、因果関係の有無は判断できない。 因果関係を探るには、必ず人間(分析する人)が介在する。

10

過去のデータを基に分析・予測

デメリット:

相関関係は探ることができても、因果関係を見出すことが難しいことがある。

ただ、因果関係が見出せなくても、一定の相関関係が見いだせれば、その関係を利用できることも。

11

説明のため極端な例ですが……

12

0

2

4

6

8

10

12

14

16

18

1 2 3 4 5 6 7 8 9 10 11 12 13

経過月 数量

13

予測の考え方のポイント

● 特定の業種 ≠ 特定の予測手法

● 特定の業種 ≠ 特定の変数(項目)

予測が当たらない

分析に採り入れた 以外に、他の項目が必要な可能性がある

だんだん予測が 外れてきた

得られた予測モデルは、未来永劫使える

わけでは無い (環境の変化など)

当たり前の結果しか得られなかった

高度な手法を使っても、必ず新発見が できるとは限らない

予測手法を選ぶポイント

• 過去の傾向がどうなっているかを探る

直線的/曲線的な上昇傾向・下降傾向を示している場合、今後もそのまま伸びると仮定し、その傾向を延伸させ予測する方法

上昇・下降傾向に無いが有効な例 (年間の周期性と季節性を考慮)

予測したい項目以外の項目の関連と共に分析し予測をする方法 ……例: 回帰分析など

• 分析に必要なデータの型に合うデータを準備

• もちろん予測値が得られた後は必ず検証を 14

15

【2】 2つの数値項目の関連を探る

「相関」とは?

販売個数の時系列データ

16

相関関係を利用した事例

① 背景: 日ごとの「最高気温」・「販売個数」データ

② 仮説 暑い日はアイスクリームがより売れるだろう

③ 仮説に基づいてデータを採る

④ グラフに表わす ~ 2項目間の関連を探るので、散布図を使用する。

⑤ 関連の度合いを把握

⑥ 予測に活かすことへの期待

最高気温と販売個数のデータ

18

相関係数とは?

• 2つの対応するデータについて、直線的な関係度合いについて、数値の単位等の違いに関係なく比較できるよう、データを標準化させた値。

• ここでいう相関係数は、正しくは「ピアゾンの積率相関係数」と呼び、一般に「相関係数」はこれを指すことが多い。

19

(参考)ちなみに標準化とは

• データの平均値を0、標準偏差を1となるように、データを変換すること。

•データ−平均値

標準偏差

• ExcelではSTANDARDIZE関数

• 標準偏差: 平均値からのばらつき具合を表わす指標 分散の平方根をとったもの

20

𝑥の偏差 × 𝑦の偏差

𝑥の標準偏差 × 𝑦の標準偏差

【重要!】 常に-1~1の間の値に収まる

相関係数を求める数式

21

n

i

i

n

i

i

n

i

ii

yyxx

yyxx

r

1

2

1

2

1

← 共分散

直線的な関係を探る~相関-①

22

0

20

40

60

80

100

120

140

0 10 20 30 40

強い正の相関がある例

相関係数:0.99

0

10

20

30

40

50

60

70

80

90

0 10 20 30 40

やや強い正の相関がある例

直線的な関係を探る~相関-②

23

相関係数:0.65

直線的な関係を探る~相関-③

24

0

20

40

60

80

100

120

140

160

0 10 20 30 40

相関がない例

相関係数:0

直線的な関係を探る~相関-④

25

0

10

20

30

40

50

60

70

80

90

0 10 20 30 40

やや強い負の相関がある例

相関係数:-0.65

直線的な関係を探る~相関-⑤

26

0

20

40

60

80

100

120

140

0 10 20 30 40

強い負の相関がある例

相関係数:-0.99

共分散とは?

27

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

yの平均値

xの平均値

正の相関……(+)×(+)

28

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

yの平均値 xとyが+

xとyが- xの平均値

負の相関……(+)×(-)

29

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

yの平均値

xが+

yが-

xが-

yが+

xの平均値

相関係数と相関の強さ

但し統一的な指標ではない

相関係数の絶対値: 相関の強さ:

0.8以上 …… 強い相関がある

0.6以上 …… やや強い相関がある

0.4以上 …… 相関がある

0.2以上 …… やや相関がある

0.2未満 …… 相関がない 30

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

2項目間の関連

31

32

【3】 Excelの関数で

相関係数を求める

● Excelワークシートを準備をしましょう ●

33

【4】 直線的な関係を基に 直線の数式を求める

直線の式を求める

34

y = 9.7791x + 73.069

250

270

290

310

330

350

370

390

410

430

450

20 22 24 26 28 30 32 34 36

売上個数

最高気温(℃)

散布図

直線の決定のされ方

35

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

直線の決定のされ方

36

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

残差・誤差

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

直線の決定のされ方

37

残差・誤差

残差・誤差 残差・誤差

直線の決定のされ方

38

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

これでは

残差の合計が0になっちゃう!

直線の決定のされ方

39

y = 2.6786x + 0.1429

0

2

4

6

8

10

12

14

16

18

20

0 1 2 3 4 5 6 7 8

y

x

そこで、残差を自乗し、

その合計が最小となるようにする

40

【5】 Excelの散布図から 直線の式を求める

● Excelワークシートを準備をしましょう ●

統計学の教科書的には……

𝑦 = 𝑎𝑥 + 𝑏 来店客数(予測)=9.779 × 32 + 73.069

→ 386(個)と予測する 𝑦: 目的変数・従属変数 → 予測したい項目

𝑎: 回帰係数 (傾き) → 説明変数の値が1増える ごとにyがいくら増えるか

𝑥: 説明変数・独立変数 → ここでは最高気温

𝑏: 切片・定数 → 説明変数の値が0のときのyの値

相関係数の注意!

① 散布図と共に確認を(外れ値に影響)

42

0

5

10

15

20

25

30

35

40

0 2 4 6 8

項目2

項目1

データ③

外れ値を含む

データ

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7

項目2

項目1

データ③´

相関係数の注意!

① 散布図と共に確認を(外れ値に影響)

43

外れ値を 取り除くと……

0

5

10

15

20

25

30

0 10 20 30 40 50

項目2

項目1

データ④

相関係数の注意!

② 異なる傾向を示すデータの混在(層別を!)

44

相関係数の注意!

③ 異なる傾向を示すデータの混在(層別を!)

45

120

130

140

150

160

170

180

10 15 20 25 30 35 40 45 50 55

y

X

データ⑤ 散布図

一見すると

無相関のデータ

小田

高橋

大竹

麻木

安部

清水

鈴川

渡辺

唐橋

菊川

吉田

春日田中

小島

宮城

財津

大野

松本

河本

大久保

姫野

品川

丹野

大橋

若林

上田

石田

藤本

伊藤

森永

矢口

120

130

140

150

160

170

180

10 15 20 25 30 35 40 45 50 55

y

x

ラベル付き散布図

相関係数の注意!

③ 異なる傾向を示すデータの混在(層別を!)

46

実は異なる

性別が混在

相関係数の注意!

③ 異なる傾向を示すデータの混在(層別を!)

47

小田

鈴川

田中

小島

宮城

大野

松本

大久保

姫野

品川

丹野

若林

藤本

伊藤

矢口

120

130

140

150

160

170

180

10 15 20 25 30 35 40 45 50 55

y

x

ラベル付き散布図・男性のみ

男性のみでは

負の相関がある

高橋

大竹

麻木

安部

清水

渡辺

唐橋

菊川

吉田

春日

財津

河本

大橋

上田

石田

森永

120

130

140

150

160

170

180

10 15 20 25 30 35 40 45 50 55

y

x

ラベル付き散布図・女性のみ

相関係数の注意!

③ 異なる傾向を示すデータの混在(層別を!)

48

女性のみでは

正の相関がある

相関係数の注意!

④ 全体では一見相関関係がありそうでも……

49

0

5

10

15

20

25

0 5 10 15 20

0

5

10

15

20

25

0 5 10 15 20

男性

女性

相関係数の注意!

④ 層別すると個別には無関係な例も

50

最高気温と販売個数のデータ

51

まず1つの変数で外れ値がある

52

外れ値

この1つの変数で外れ値はない

53

この1つの変数でも外れ値はない

54

しかし2つの変数で見てみると…

55

しかし2つの変数で見てみると…

56

質疑応答

57

課題

① 相関係数とは常に (a) から (b) の値に収まり、 (c) 関係の強さを表わすものである。 【語群】 1 ・ 因果 ・ -1 ・ 線形の ・ 0

② 最高気温(x)を基に来店客数(y)を予測するため式を求めたところ、y = 18.483x + 39.07 となりました。 ここから、最高気温が29℃のときの来店客数は何人と予測できるでしょうか?

58

ご清聴ありがとうございました

59

講師: 米谷 学

講師 Twitter ID: manab7 ハッシュタグ: #ynr48

http://www.datamining.jp

http://www.datamation.jp

top related