excel による データ分析 -...

19
Excel による データ分析 多変量解析編 矢野 佑樹 2013/07/27

Upload: others

Post on 20-Sep-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

Excel による

データ分析

多変量解析編

矢野 佑樹

2013/07/27

Page 2: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

1

Excel で学ぶデータ分析(多変量解析編)

多変量解析では,気温とアイスの売上個数の関係や,最寄り駅からの距離と来店者数の

関係など,2 つ以上の変数を一度に分析します.では,早速 2 つのデータ間の関係を Excel

によって分析しましょう.

<散布図と相関>

例1. あるアイスクリーム販売店では,1 日あたりの適性在庫量を確保するために,アイ

スクリーム販売量と最高気温の関係を知りたいと考えています.実際にデータを集

めてみると,以下の表のようになりました.

散布図を作成する

1. ice_cream.xlsx というファイルを開く.

2. C2~D16 までの範囲を選択し,挿入タブの散布図の中にある「散布図(マーカーのみ)」

を選択する.グラフを選択したまま右クリックをして,「グラフの移動」を押し,「新

しいシート」を選択する.

3. グラフのレイアウトから,グラフタイトルと軸ラベルを追加する.グラフタイトルに

「最高気温とアイスクリーム販売量の散布図」,縦軸に「販売量(個)」,横軸に「最高

気温(度)」と入力する.

4. 軸の目盛の最小値を指定する場合は,軸を選択し,「軸の書式設定」→「軸のオプショ

ン」で,最小値に固定値(例えば横軸であれば 20)を指定する.

日付 最高気温(度) 販売量(個)8月1日 31 1008月2日 30 958月3日 36 1508月4日 29 888月5日 27 808月6日 30 918月7日 32 1128月8日 31 1058月9日 33 1258月10日 34 1408月11日 27 808月12日 29 908月13日 28 878月14日 32 119

Page 3: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

2

フォントサイズなどを調整すると,以下のような散布図が出来上がったと思います.

散布図から,最高気温が高ければ販売量も多くなるという関係があることがわかります(正

の相関).2 変数間の関係を分析したいときは,まず散布図を描いて視覚的にデータの特徴

を捉えることをお勧めします.

相関係数を計算する

1. 「分析ツール」の「相関」をクリックする.

2. C2~D16 までの範囲を選択し,新規ワークシートに相関係数を出力する.データ方向

は「列」を選択し,「先頭行をラベルとして使用」にチェックを入れる.

以下の表が,新しいワークシートにできたと思います.

相関係数は約 0.97 ですので,最高気温とアイスクリームの販売量の間には「強い正の相関」

最高気温(度) 販売量(個)最高気温(度) 1販売量(個) 0.973957624 1

Page 4: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

3

があると判断できます.一般に,相関係数と関連性の強さは以下の表のようになっていま

すので,参考にしてください.

演習問題 1

以下の表は,あるドラッグストアチェーンの店舗の売上高,店舗面積,駐車場面積のデー

タを示しています.新たな店舗を出店する場合,店舗面積と駐車場面積のどちらを広くし

た方がよいでしょうか.「店舗面積と売上高」,「駐車場面積と売上高」の散布図を作成し,

それぞれの相関係数を求めて分析してください.drug_store.xlsx

相関係数 関連性の強さ(正の相関) 相関係数 関連性の強さ(負の相関) 0~0.2 ほとんど関連なし(無相関) -0.2~0 ほとんど関連なし 0.2~0.4 やや関連あり -0.4~-0.2 やや関連あり 0.4~0.7 かなり関連あり -0.7~-0.4 かなり関連あり 0.7~1.0 強い関連あり -1.0~-0.7 強い関連あり

店舗 店舗面積(m2) 駐車場面積(m2) 売上高(万円)

1 970 420 3200

2 680 500 2000

3 530 460 1600

4 880 250 3100

5 740 330 2800

6 640 400 2900

7 500 260 2600

8 480 310 2000

9 670 400 2600

10 620 200 2400

11 630 300 2500

12 770 480 2800

13 860 490 3200

14 560 500 2800

15 760 320 3000

16 570 170 2200

17 800 490 3100

18 810 510 3000

19 760 500 2900

20 910 360 3400

Page 5: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

4

<単回帰分析>

散布図及び相関係数の値から,2 種類のデータ間の関係の強さがわかりましたが,それら

の関係を数式で表し,予測などに用いることはできないでしょうか.そこで,データの集

まりについて,できるだけ真ん中を通る直線を描くことを考えます(データを代表する一

本の直線).この直線のことを回帰直線と呼びます.この手法は実証分析などでもよく用い

られます.

直線の引き方

xと y という 2 つの変数間の関係を考えます.ここで, x の値が y の値に影響を与えると

いう因果関係を想定します.例えば,最高気温とアイスクリーム販売量の例では,最高気

温( x)がアイスクリームの販売量( y )に影響を与えると考えられます.下の x と y の散

布図の中に,データのできるだけ真ん中を通る直線が描かれているのがわかると思います.

この回帰直線は,直線と観測値の y 軸方向のずれ(つまり,観測値から直線までの縦のずれ)

を全体として最小にするように描かれています.

※より専門的には,それぞれの観測値と直線の y 軸方向のずれの二乗をすべて足し合わせたもの(平方和)

を最小にするように直線の式が決められますが,ここでの詳しい解説は省略します(最小二乗法).

Page 6: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

5

この直線の式を一般的に表すと, bxay と書くことができ,データから a とb の値を

最小二乗法によって求めることで,回帰直線の式を導くことができます.計算は Excel が

自動的に行ってくれます.では実際に,ice_cream.xlsx のデータを用いて回帰分析を行って

みましょう.

回帰直線を描く

1. 散布図でデータ系列を選択する.

2. 右クリックで「近似曲線の追加」,もしくは「グラフツール」の「レイアウト」から「そ

の他の近似曲線オプション」を選ぶ.

3. 近似曲線のオプションで,「線形近似」を選択し,「グラフに数式を表示する」と「グ

ラフに R-2 乗値を表示する」にチェックを入れる.

以下のようにデータを代表する一本の線形の近似曲線(回帰直線)が描かれたと思います.

数式は,〔販売量(個)= 8.1841 × 最高気温(度)- 146.36〕であることを表していま

す.また,2R (決定係数)は直線の当てはまりの良さを表しており,0~1 の間の値を取り

ます.1 に近ければ近いほど,直線がよく当てはまっていることがわかります.逆に 0 に近

ければ,直線の当てはまりがよくないと言えます.この場合 0.9486 なので,直線はよく当

てはまっているといえるでしょう.

Page 7: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

6

では,この回帰式を用いて予測をしてみましょう.例えば,気温 35 度のときの販売量を

予測したいのであれば,上の式に 35 を代入するだけで予測値が得られます.

販売量(個)= 8.1841 × 35 - 146.36 = 286.44 - 146.36 = 140.08 (約 140 個)

このように回帰式を予測に用いることができますが,分析に用いたデータの範囲からあま

りにも離れている値を予測に用いることはお勧めできません.

回帰分析を実行して信頼性を確かめる(より詳しい分析)

1. 「分析ツール」の「回帰分析」をクリックする.

2. 入力 Y 範囲で D2~D16 までを選択,入力 X 範囲で C2~C16 までを選択する.

3. 「ラベル」にチェックを入れ,出力オプションでは「新規ワークシート」を選択し,「残

差」と「標準化された残差」,「残差グラフの作成」にチェックを入れる.

以下のように結果が出力されたと思います.

「回帰統計」では,「重決定 R2」が重要です.重決定 R2 は,前に計算された決定係数2R と

同じものです.次に解説する重回帰分析の場合,補正 R2(自由度修正済み決定係数)の方

がよいのですが,単回帰分析の場合は重決定 R2 でもよいです.重決定 R2 の値が 0.4 以上

であれば,モデルの当てはまりに問題はないでしょう.

「分散分析表」では,一番右の「有意 F」のところの値に着目してください.この値が,0.05

以下であれば,係数の推定値の少なくとも一つは意味があるものであることを示していま

す.この例では,4.25809E-09( 91025809.4 )で,0.05 よりも圧倒的に小さいので,モ

デルが意味のあるものであることがわかります.※単回帰の場合は係数の P 値と一致する.

回帰統計重相関 R 0.973957624重決定 R2 0.948593454補正 R2 0.944309575標準誤差 5.194804019観測数 14

分散分析表

自由度 変動 分散 観測された分散比 有意 F回帰 1 5975.596706 5975.596706 221.4333057 4.25809E-09残差 12 323.8318655 26.98598879合計 13 6299.428571

Page 8: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

7

次の表では,「係数」とその「P-値」に着目してください.切片の係数は, bxay の式

の a,最高気温の係数はb の推定値になっています(前と同じ).ここで重要なのが,最高

気温の P-値です.P 値は,推定された係数の値が 0 である確率を示しています.つまり,

最高気温とアイスクリームの販売量の間には関連性がない確率を表しているわけです.こ

の例では,P 値が 4.25809E-09( 91025809.4 )というものすごく小さい値ですので,関

連性がない確率はものすごく小さいと考えることができます.よって,データ間には関連

性があると結論付けます.一般に,P 値が 0.05 以下であれば,推定された係数は意味のあ

るものであると考えてよいでしょう.逆に 0.05 より大きな値であれば,データ間に関連性

がない確率が高いと考えられます.※切片は 0 であってもよいので P 値は気にしなくて大丈夫です.

最後に,直線(予測値)と観測値の y 軸方向のずれを「残差」と呼びますが,その残差と

最高気温(度)のプロットを確認しましょう.点の集まりにあまり規則性がないような感

じであれば(無相関であれば),分析の信頼性には問題ないと考えてよいでしょう.何かし

らの規則性がある感じであれば(例えば,最高気温が上がるにしたがって,点の散らばり

が大きくなる),不均一分散や系列相関といった問題が考えられます.より高度な分析手法

が必要になりますので注意してください.

係数 標準誤差 t P-値切片 -146.3570857 16.91024584 -8.65493542 1.66516E-06最高気温(度) 8.184147318 0.54998642 14.88063526 4.25809E-09

下限 95% 上限 95% 下限 95.0% 上限 95.0%-183.2013463 -109.5128251 -183.2013463 -109.51282516.985829849 9.382464787 6.985829849 9.382464787

Page 9: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

8

演習問題 2

以下の表は,ある商品を売る 20 人のセールスマンの営業活動の適性テストの得点と,テス

ト後一定期間における販売実績(個数)を示したものです.適性テストの得点が販売実績

に結び付いているかを確かめてみましょう.散布図の中に回帰直線を描き,分析ツールで

回帰分析を行ってください.残差グラフも作成しましょう.また,新たに採用されたセー

ルスマンの適性テストの得点が 48点であった場合,商品の販売個数を予測してみましょう.

sale.xlsx

<重回帰分析>

単回帰分析では,ある 1 つの変数 x の値が,もう 1 つの変数 y の値に影響を与えるという

ことを考えました.では,2 つ以上の変数が y の値に影響を与えるケースを考えるときはど

のようにすればよいでしょうか.y の動きを説明する変数が 2 つ以上ある場合は,単回帰分

析の式を拡張して重回帰分析を行います.例えば,あるドラッグストアチェーンの店舗面

積 1x と駐車場面積 2x が,売上高 y (演習問題 1 のデータ)にどのような影響を与えている

かどうかを分析してみます.拡張された式は, 22110 xaxaay となり, 210 ,, aaa は推定

するパラメータです.とにかく,Excel で重回帰分析を行ってみましょう.手順は単回帰分

析のときと同じですが,入力 X 範囲を拡張します.

No 適性テスト得点 販売実績(個)1 41 322 35 203 34 304 40 245 33 276 42 287 37 318 42 339 30 2510 43 4011 38 2912 38 3313 46 3614 36 2315 32 2216 43 3817 42 2618 30 2119 41 3020 45 30

Page 10: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

9

重回帰分析を実行する

1. drug_store.xlsx を開き,「分析ツール」の「回帰分析」をクリックする.

2. 入力 Y 範囲で E2~E22 までを選択,入力 X 範囲で C2~D22 までを選択する.

3. 「ラベル」にチェックを入れ,出力オプションでは「新規ワークシート」を選択し,「残

差」と「標準化された残差」,「残差グラフの作成」にチェックを入れる.

以下のように結果が出力されたと思います.

重回帰分析の場合,補正 R2(自由度修正済み決定係数)に着目してください.補正 R2 の

値が 0.4 以上であれば,モデルの当てはまりに問題はないでしょう.この場合,0.59 なの

で,当てはまりの良さはまあまあです.補正 R2 の方がよい理由の一つとしては,重回帰分

析では変数の数が増えると決定係数がどんどん大きくなっていってしまうという計算上の

問題があるからです.

「分散分析表」では,「有意 F」の値が 0.05 以下であれば,推定された係数の少なくとも一

つは意味があるものであることを示しています.この例では 0.000195 ですので,推定され

たモデルが意味のあるものであることがわかります.

この表では単回帰のときと同様に,「係数」とその「P-値」に着目してください.切片の係

数は, 22110 xaxaay の式の 0a ,店舗面積の係数は 1a ,駐車場面積の係数は 2a の推定

値になっています.上述の通り,P 値は推定された係数の値が 0 である確率を示しています.

回帰統計重相関 R 0.796174438重決定 R2 0.633893736補正 R2 0.59082241標準誤差 300.3725329観測数 20

分散分析表

自由度 変動 分散 観測された分散比 有意 F回帰 2 2655698 1327849 14.71730281 0.000195残差 17 1533802 90223.66合計 19 4189500

係数 標準誤差 t P-値切片 889.568729 380.0692 2.340544 0.031706393店舗面積(m2) 2.690506489 0.509822 5.277349 6.15931E-05駐車場面積(m2) -0.226815207 0.657193 -0.34513 0.734231971

Page 11: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

10

P 値を見ると,店舗面積の P-値は非常に低く,駐車場面積の P-値は 0.73 と 0.05 よりだい

ぶ大きいことがわかります.このことと係数の符号から,店舗面積が広くなれば売上高が

上がるという関係があり,駐車場面積は売上高には影響を及ぼさないということが言えま

す.よって,駐車場面積はモデルから除外してしまってよいでしょう.つまり,店舗面積

から売上高を予測する単回帰分析でよいということになります.

重回帰分析(2)

例2. 次の表は,C 社が発売している既存の缶コーヒーブランドの,初年度の販売ケース

数,それにかけた広告費と販売促進費のデータを示しています.marketing.xlsx

上と同じ手順で分析すると,以下のような結果が得られます.

ブランド広告費(万円)

販促費(万円)

販売ケース数(万ケース)

A 6200 5900 2500B 8000 5900 3000C 6700 5500 2200D 5100 4000 1000E 6300 6400 2500F 7500 6500 3100G 5500 5500 1500H 6500 5700 2400I 5900 5100 1900J 9900 6500 3400

回帰統計重相関 R 0.964261877重決定 R2 0.929800967補正 R2 0.9097441標準誤差 221.7869823観測数 10

分散分析表

自由度 変動 分散 観測された分散比 有意 F回帰 2 4560673.741 2280336.871 46.3582364 9.17E-05残差 7 344326.2586 49189.46551合計 9 4905000

Page 12: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

11

補正 R2 の値を見るとモデルの精度には問題がないことがわかります.広告費と販促費の P

値は共に 0.05 より小さく,係数の符号はプラスですので,どちらかもしくは両方増えれば

販売ケース数は多くなるということがいえます.販売ケース数の予測には以下の式を使い

ます.

販売ケース数= 0.27 × 広告費 + 0.52 × 販促費 - 2455.44

もし,新たな商品(ブランド)を追加するときに,広告費 8200 万円,販促費 5800 万円を

設定するならば,販売ケース数は,

販売ケース数= 0.27 × 8200 + 0.52 × 5800 - 2455.44 = 2774.56

2774 個と予測できます.ちなみに,残差分析では「残差と予測値」の散布図( Ye ˆ プロッ

ト)を用います(説明変数が 2 つ以上あるため).点の集まりに規則性がなければ特に問題

はないでしょう.

重回帰分析における注意点

予測に用いる変数間に高い強い相関があると,多重共線性という問題が発生します.説明

変数間に 0.7~1 の強い相関がある場合は注意してください.

係数 標準誤差 t P-値切片 -2455.442508 560.6626773 -4.37953623 0.003236291広告費(万円)

0.273289776 0.072272235 3.781393716 0.006879744

販促費(万円)

0.518948004 0.133308809 3.892826039 0.00595366

Page 13: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

12

<数量化理論Ⅰ類>

数量化理論Ⅰ類は,『0』,『1』データを用いた回帰分析です.よって分析手法はこれまで

と同じですが,データの質が異なります.例を用いて解説します.

例3. 次の表は,あるチョコレート菓子の様々なブランドが売り出されたときの,テレビ

CM の有無と新聞広告の有無,そのとき対象となったお菓子の認知率のデータを示

しています.ad.xlsx

まず,このデータを次のような『0』,『1』データ(質的データ)に変換します.

ブランド テレビCM 新聞広告 認知率(%)

A 2 2 21.8B 1 1 48.3C 1 1 46.7D 2 1 28.3E 2 2 16.7F 1 2 25.8G 2 1 34.2H 1 1 50.0I 1 2 34.3J 2 1 21.0K 1 1 43.5L 1 1 41.3M 1 1 41.7N 2 1 26.2O 1 2 27.7

※1は「あり」,2は「なし」を示している

ブランド テレビCMあり テレビCMなし 新聞広告あり 新聞広告なし 認知率(%)

A 0 1 0 1 21.8B 1 0 1 0 48.3C 1 0 1 0 46.7D 0 1 1 0 28.3E 0 1 0 1 16.7F 1 0 0 1 25.8G 0 1 1 0 34.2H 1 0 1 0 50.0I 1 0 0 1 34.3J 0 1 1 0 21.0K 1 0 1 0 43.5L 1 0 1 0 41.3M 1 0 1 0 41.7N 0 1 1 0 26.2O 1 0 0 1 27.7

※該当するなら1,該当しないなら0

Page 14: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

13

分析には,「あり」と「なし」のどちらかのデータを用います.なぜなら,どちらか一方が

決まればもう一方の値も決まるので,2 つも必要ないからです.今回は,「テレビ CM あり」

と「新聞広告あり」の列を使って分析を行います.今回のデータを用いて重回帰分析を行

うと以下の結果が得られます.

補正 R2 も有意 F の値も問題なく,テレビ CM ありと新聞広告ありの P 値も小さい値なの

で問題ありません.係数の値から,認知率の予測式がわかります.

認知率 = 15.22 × テレビ CM あり + 12.86 × 新聞広告あり + 16.13

ここで,テレビ CM ありと新聞広告ありの値は 0 か 1 ですので,例えばテレビ CM ありで

新聞広告なしの場合の認知率の予測値は,

認知率 = 15.22 × 1 + 12.86 × 0 + 16.13 = 31.35(%)

と予想されます.

ところで,数量化理論Ⅰでは係数の値を正規化します.調整は以下のように行います.「テ

レビ CM なし」の『1』の数は 6 で,分析から除外しているので係数は 0 とします.「テレ

ビ CM あり」の『1』の数は 9 で,係数は 15.22 です.その平均値を求めると,

132.915/)922.1560(

回帰統計重相関 R 0.918640707重決定 R2 0.843900749補正 R2 0.817884207標準誤差 4.621239212観測数 15

分散分析表

自由度 変動 分散 観測された分散比 有意 F回帰 2 1385.443 692.7216 32.43708377 1.44679E-05残差 12 256.2702 21.35585合計 14 1641.713

係数 標準誤差 t P-値切片 16.12666667 2.531157 6.371263 3.55044E-05テレビCMあり15.22222222 2.435607 6.249868 4.25526E-05新聞広告あり 12.86 2.531157 5.080681 0.000270346

Page 15: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

14

重回帰分析で求めた係数からこの値を差し引いた値を,各ダミー変数への重みとします.

テレビ CM なしは 132.9132.90 ,テレビ CM ありは 09.6132.922.15 となります.同様

に新聞広告なしは 57.8 ,新聞広告ありは 29.4 となります.定数項を調整してあげると,

認知率 = 6.09 × テレビ CM あり + 4.29 × 新聞広告あり + 33.83

となります.もう一つの式は,

認知率 = -9.13 × テレビ CM なし -8.57 × 新聞広告なし + 33.83

となります.認知率が前と同じになるかを計算してみましょう.

<コンジョイント分析>

例 4. 以下の表は来年発売可能なノートパソコンの「属性」と「水準」を示しています.

どのような組み合わせの商品がよいでしょうか?

新商品開発のヒントを得るためには消費者アンケートが有効です.この場合,2 水準に対

して属性が 4 つあるので,すべての組み合わせについて満足度を聞くとすれば,16 通りの

商品案を提示しなければなりません.しかし,あまり案が多いとアンケートに回答する側

が大変になってしまいます.そこで,商品案を絞りつつバランスの良い商品案リストを作

ります.コンジョイント分析では「直交表」というものを使って商品案を作成します.

バッテリー持続時間 3時間 6時間ハードディスク容量 100GB 160GB

メモリ容量 512MB 1GB価格 5万円 10万円

水準

属性

商品案 持続時間ハードディスク容量

メモリ容量 価格

1 3時間 100GB 512MB 10万2 3時間 100GB 512MB 20万3 3時間 160GB 1GB 10万4 3時間 160GB 1GB 20万5 6時間 100GB 1GB 10万6 6時間 100GB 1GB 20万7 6時間 160GB 512MB 10万8 6時間 160GB 512MB 20万

Page 16: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

15

上の表は,L8 直交表を用いて作成した商品案です.今回はそれぞれの商品案について,消

費者に 7 段階(1 点~7 点)で評価してもらうことにしました.以下の表は,その結果をま

とめたものです.

分析をするためには,それぞれの回答者について商品 1~8 までのデータを,以下のような

『0』,『1』データに変換します.

回答者 2,3,4,についても同様にデータを加工します.加工が終わったら,再度回帰分析

を用いて分析をします.

数量化理論Ⅰ類のときと同様に,0,1 データなので,一方の列を削除して分析を行いま

す.今回は,3 時間の列,100GB の列,512MB の列,20 万の列を削除します.データが

加工できたら,「回帰分析」の「入力 Y 範囲」に満足度の列を指定し,「入力 X 範囲」には

6 時間,160GB,1GB,10 万の列を指定して重回帰分析を行ってください(laptop.xlsx).

結果を見ると,補正 R2 も有意 F の値も問題なく,すべての説明変数の P 値は 0.05 より

も小さくなっています.

商品案 持続時間ハードディスク容量

メモリ容量

価格 回答者1 回答者2 回答者3 回答者4

1 3時間 100GB 512MB 10万 2 4 4 42 3時間 100GB 512MB 20万 1 1 1 13 3時間 160GB 1GB 10万 6 6 7 54 3時間 160GB 1GB 20万 4 3 3 25 6時間 100GB 1GB 10万 5 5 7 76 6時間 100GB 1GB 20万 2 2 2 37 6時間 160GB 512MB 10万 7 7 5 68 6時間 160GB 512MB 20万 3 2 3 2

満足度

回答者 商品案 3時間 6時間 100GB 160GB 512MB 1GB 10万 20万 満足度1 1 1 0 1 0 1 0 1 0 21 2 1 0 1 0 1 0 0 1 11 3 1 0 0 1 0 1 1 0 61 4 1 0 0 1 0 1 0 1 41 5 0 1 1 0 0 1 1 0 51 6 0 1 1 0 0 1 0 1 21 7 0 1 0 1 1 0 1 0 71 8 0 1 0 1 1 0 0 1 32 1 1 0 1 0 1 0 1 0 4

持続時間ハードディス

ク容量メモリ容量 価格

Page 17: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

16

係数の値から,満足度の予測式は以下のように書けます.

満足度 = 0.875×持続時間+1.25×HDD+1×メモリ容量+3.25×価格+0.625

機能高水準で 20 万の商品と,機能は低水準だが 10 万円の商品のどちらの満足度が高いで

しょうか?(3.76,3.88)

属性の重要度

それぞれの係数の値は,説明変数が 0 から 1 へ変化したときの満足度の変動幅を表して

います.よって,すべての係数の値を合計し,それに対するそれぞれの係数の大きさの割

合を求めることで,属性の重要度がわかります.この例では価格が満足度の変動幅の 50%

を占めていますので,消費者が価格を非常に重要視していると判断できます.

コンジョイント分析の注意点

あまりにも「属性」もしくは「水準」の数が多くなると,直交表を用いて絞り込んでも

商品案が多くなってしまいます.分析対象とする属性と水準をなるべく絞り込んでから直

交表を用いるようにしてください.

回帰統計重相関 R 0.928585重決定 R2 0.86227補正 R2 0.841865標準誤差 0.810807観測数 32

分散分析表

自由度 変動 分散 観測された分散比 有意 F回帰 4 111.125 27.78125 42.25880282 3.01072E-11残差 27 17.75 0.657407合計 31 128.875

係数 標準誤差 t P-値切片 0.625 0.320499 1.950081 0.0616202616時間 0.875 0.286663 3.05236 0.005051579160GB 1.25 0.286663 4.360514 0.000169541GB 1 0.286663 3.488411 0.00168287310万 3.25 0.286663 11.33734 9.00056E-12

Page 18: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

17

付録Ⅰ:残差分析

回帰分析において,残差の特徴を見ることは非常に重要です.単回帰の場合は,散布図

を描くことで特徴がすぐわかりますが,重回帰分析ではグラフを描くのが大変なため,残

差の特徴で分析の正確さを判断します.以下の 4 つのデータセットで回帰分析を行うと,

すべてほぼ同じ回帰式となります.しかし,データの特徴(残差の特徴)は全然違います

ので,確かめてみてください.

出所:F.J.Anscombe, “Graphs in Statistical Analysis”, The American Statistician, Vol.27, No.1,1973, pp.17-21.

no x1 y1 x2 y2 x3 y3 x4 y4

1 10 8.04 10 9.14 10 7.46 8 6.58

2 8 6.95 8 8.14 8 6.77 8 5.76

3 13 7.58 13 8.74 13 12.74 8 7.71

4 9 8.81 9 8.77 9 7.11 8 8.84

5 11 8.33 11 9.26 11 7.81 8 8.47

6 14 9.96 14 8.1 14 8.84 8 7.04

7 6 7.24 6 6.13 6 6.08 8 5.25

8 4 4.26 4 3.1 4 5.39 19 12.5

9 12 10.84 12 9.13 12 8.15 8 5.56

10 7 4.82 7 7.26 7 6.42 8 7.91

11 5 5.68 5 4.74 5 5.73 8 6.89

パターン1 パターン2 パターン3 パターン4

Page 19: Excel による データ分析 - yzy8911.web.fc2.comyzy8911.web.fc2.com/excel/excel_data_analysis01.pdf · r (決定係数)は直線の当てはまりの良さを表しており,0~1

18

パターン 1 は特に問題はありません.パターン 2 は,回帰式が線形でないことを示して

います.また,このようなパターンは,系列相関がある場合によく見られます.パターン 3

は,1 つの外れ値が回帰直線を曲げてしまう(大きな影響を与えてしまう)ことを示してい

ます.このような場合には,外れ値を除くことで違った回帰直線が得られます.パターン 4

は,1 つの外れ値が全く異なった結果を与えることを示しています.外れ値を除いたら垂直

な回帰線が得られることがわかります.とにかく,規則性の見られる残差がプロットされ

る場合には注意が必要です.

付録Ⅱ:分析ツールが表示されていない場合

1. 「ファイル」→「オプション」をクリック

2. アドインの中の「分析ツール」を選択し,設定を押す.

3. 「分析ツール」にチェックを入れて OK を押す.データタブの中に「データ分析」ア

イコンができる.