データ分析入門( 3 )

39
1 デデデデデデデ3 第 3 第 第第第第第第第第第 第第第第

Upload: evita

Post on 09-Jan-2016

47 views

Category:

Documents


2 download

DESCRIPTION

データ分析入門( 3 ). 第 3 章 データの収集と編成 廣野元久. 本章の概要. データの性質と測定の尺度 量的なデータ 質的なデータ データの探し方 政府官庁データ,民間のシンクタンクなど データの編成と入力準備 データ表. 1. データの性質と測定尺度. 1.1 量的データ 間隔尺度,比例尺度      1.2 質的データ 名義尺度,順序尺度      1.3 測定の尺度    . 1.1  量的データ. 量的データ: Quantitative Data 連続的に変化するもの :体重,身長,気温 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: データ分析入門( 3 )

1

データ分析入門( 3 )

第 3 章 データの収集と編成廣野元久

Page 2: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 2/39

本章の概要

データの性質と測定の尺度量的なデータ質的なデータ

データの探し方政府官庁データ,民間のシンクタンクなど

データの編成と入力準備データ表

Page 3: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 3/39

1. データの性質と測定尺度

1.1 量的データ間隔尺度,比例尺度     

1.2 質的データ名義尺度,順序尺度     

1.3 測定の尺度    

Page 4: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 4/39

1.1  量的データ

量的データ: Quantitative   Data連続的に変化するもの :体重,身長,気温

   連続変量: Continuous Variate :計量データ

整数値しかとらないもの:結婚件数,勝敗 離散変量: Discrete Variate   :計数デー

変量:与えられた確率で,色々な値を取る    もの

Page 5: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 5/39

1.1  変量:サイコロを例にとると

いかさまのないサイコロの目の出方は, 平等であるから, 1/6 の確率で出現する

1 /6

確率

1 2 3 4 5 6

Page 6: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 6/39

1.2 質的データ

質的データ : Qualitative Data状態や評価を表す,直接量れないデータ例)

材料メーカーの評価の違いA 社のパスタソース, B 社のパスタソース

質的データを計るには状態を評価する評価用語の利用(評価の)分類に用いた区分をカテゴリ

( Category,Class )

Page 7: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 7/39

1.2 評価や状態の区分例( 1 )

あなたは, A 社のデジカメの写りについてどのくらい満足していますか

1. 大変満足している   2. まあ満足している3. 普通である     4. やや不満である    5. 大変不満である

評価に順序がつく回答肢に得点をつけることもできる

1.   5 点   2.   4 点  3.   3 点    4.   2 点   5.   1 点         

 など

Page 8: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 8/39

1.2 評価や状態の区分例( 2 )

あなたは, A 社のデジカメの写りの色合いについてどうお思われますか

1. 緑みが強い      2. 赤みが強い3. 黄みが強い      4. 青みが強い

評価に順序がつかないので回答肢に得点をつけることは無意味

Page 9: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 9/39

1.3 測定の尺度( 1 )

比例尺度 (Ratio Scale)原点( 0 )に意味がある.0 ~∞(とっても大きい値)をとる間隔や比率に意味があるデータの加減乗除ができる.

物理量(絶対温度,抵抗値),工場の不良率など地震のマグニチュードなど

Page 10: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 10/39

1.3 測定の尺度( 2 )

間隔尺度( interval Scale )原点( 0 )に意味がない(移動可能)

摂氏や華氏は間隔尺度摂氏は,水が氷になる温度を便宜的に 0℃

-∞から∞までの値をとるSFC の Ω 館を基点( 0 )にして東を + ,西を-にして

 距離をmで測る

間隔には意味がるデータの足し算,引き算ができる

Page 11: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 11/39

1.3 測定の尺度( 3 )

連続尺度( Continuous Scale )比例尺度と間隔尺度をまとめる実際のデータ分析では,両者は同じように取り扱う

JMP でも両者を区別しない皆さんも,いまは神経質になる必要はない

   

Page 12: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 12/39

1.3 測定の尺度( 4 )

順序尺度( Ordinal Scale )カテゴリの順序はつくが,間隔や比が不明

先の満足度の設問について,各カテゴリにどのような配点をするのか厳密には難しい

加減乗除には意味がない名義尺度( Nominal Scale )

カテゴリの順序さえつかない          (評価に方向がない)

JMP でも順序尺度と名義尺度は区別

Page 13: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 13/39

1.3 測定の尺度( 4 )

まとめ

Page 14: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 14/39

2  データの収集

2.1  データの種類2.2  データの調査・作成主体

2.2.1  政府機関のデータ2.2.2  企業や民間の諸機関

2.3  データの利用2.3.1  データ利用の社会的ルール2.3.2  統計データの探索2.3.3  社会調査データの探索

Page 15: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 15/39

2.1  データの種類

集計データ (Aggregate Data)個別調査の結果を調査票から集計してあるデータ全体の傾向や集計単位ごとの比較など情報公開度は高い

個票データ( Individual data )集計前の原データ集計データよりも細かい情報を必要とする場合情報公開度は日本では僅か,ルールなど未整備

Page 16: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 16/39

データの作成:簡単なアンケート

受講番号: 名前:

Excel の使用経験 1 なし2 あり

Excel の使用経験「あり」の人

実力の自己評価 1 初級2 中級3 上級

ルート、対数の計算 1 経験なし2 できる

 フィル ハンドルを使い 1 経験なし   1,2,...,100 の作成 2 できる

複数セルの合計 1 経験なし   関数による計算 2 できる

Excel の使用経験、データの編成は?

Page 17: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 17/39

集計データの例

Excel  2003の使用経験、 年臨床系新人 : データの個数 受講番号 回答

質問番号 質問 0 1 2 総計Q1 Excel の使用経験 1 17 18Q1.1 実力の自己評価 1 14 3 18Q1.2 ルート、対数の計算 1 9 8 18Q1.3 フィルハンドル 1 10 7 18Q1.4 関数による計算 1 3 14 18Q1.5 RND一様乱数、 1 17 18Q1.6 分析ツール 1 13 4 18Q1.7 フィルター 1 13 4 18Q1.8 ピボットテーブル 1 13 4 18Q2 MS Access の使用経験 16 2 18総計 8 109 63 180

2003 12 17年 月 日

Page 18: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 18/39

個票の例

受講番号 名前 質問番号 質問 回答 チェック 差1 Q1 Excel の使用経験 2 2 01 Q1.1 実力の自己評価 1 1 01 Q1.2 ルート、対数の計算 1 1 01 Q1.3 フィルハンドル 1 1 01 Q1.4 関数による計算 2 2 01 Q1.5 RND一様乱数、 1 1 01 Q1.6 分析ツール 1 1 01 Q1.7 フィルター 1 1 01 Q1.8 ピボットテーブル 2 2 01 Q2 MS Access の使用経験 1 1 02 Q1 Excel の使用経験 2 2 02 Q1.1 実力の自己評価 1 1 02 Q1.2 ルート、対数の計算 1 1 02 Q1.3 フィルハンドル 1 1 02 Q1.4 関数による計算 1 1 02 Q1.5 RND一様乱数、 1 1 02 Q1.6 分析ツール 1 1 02 Q1.7 フィルター 1 1 02 Q1.8 ピボットテーブル 1 1 02 Q2 MS Access の使用経験 1 1 0

Page 19: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 19/39

2.2.1  政府機関のデータ( 1 )

( 1 )政府統計大規模,継続性,信頼性,優れている日本

第一義統計(調査統計) 国勢調査,事業所統計調査,工業統計調査 な

ど第二義統計(業務統計)

 通関統計,犯罪統計,司法統計 など加工統計

 経済統計,鉱工業生産指数

Page 20: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 20/39

2.2.1  政府機関のデータ( 2 )

( 2 )行政情報白書,インターネット情報テーマ,話題別の情報(非長期,非継続的)非公開なものもある

Page 21: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 21/39

感染症のデータ(例)

http://idsc.nih.go.jp/kanja/monthlydata/data99-3s.html

Page 22: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 22/39

データの取り込み(例)

Page 23: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 23/39

2.2.2企業や民間の諸機関 

企業内情報(非公開)財務指標,満足度,市場動向,技術動向業界団体情報

場合によっては公開消費者 (製品情報など公開)   センター

調査機関販売,コンサルタント,モニターの貸出し報道機関:新聞紙面など学術研究機関:刊行物の発行

Page 24: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 24/39

2.3  データの利用

2.3.1  データ利用の社会的ルール2.3.2  統計データの探索

(1)統計情報の索引(2)総合統計書 ,年鑑類(3)統計データベースとインターネット

2.3.3  社会調査データの探索( 1 )世論調査の索引( 2 )データアーカイブ

Page 25: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 25/39

2.3.1  データ利用の社会的ルール

データにも著作権 ,DB や書籍にも著作権日本は著作権に対してルーズな国と思われている淑女紳士的態度で利用しよう利用データの出典を明らかにする著者 ,書籍 ,DB,発行年などDB などは , 利用ルールを厳守する個票データにはプライバシーの保護を !!!情報公開とプライバシー保護の問題は難しい

Page 26: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 26/39

2.3.2  統計データの探索

統計情報の索引から統計調査項目を利用年鑑類から数字を見ながら探す

データの出典なども利用(1)統計情報の索引統計情報インデックス ,統計調査総覧データ出典などにより直接 ,役所へ問い合わせる

(2)総合統計書 ,年鑑類日本統計年鑑 ,朝日年鑑 ,読売年鑑 ,国連世界統計年鑑 , 理科年表

統計データベース (CD ROM) とインターネット検索エンジンの利用日経 NEEDS など

Page 27: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 27/39

2.3.3 社会調査データの探索

(1)世論調査の索引世論調査年鑑

(2) データアーカイブ統計データの保存 ,蓄積 , 利用 機関米国は先進国 (情報化大国 IT戦略 )世論調査:ローパーセンター社会科学:コンソーシアム

Page 28: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 28/39

3. データの編成

生の食材は扱いにくい野菜は ,丁度良い大きさに切り揃える魚は ,焼く場合も ,皮がパリと焼けるよう包丁をいれる

データも分析しやすいように表にまとめる

データを取ってから編成を考えてはダメデータ分析のストーリに沿って収集&編成

Page 29: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 29/39

3.1 データの編成

分析の目的に応じて ,データを並べる順序を示す編成を変える時間の推移による状況を把握するには , データは時間順序に

時系列データ; Time Series Data株価や為替の分析寿命の分析 (Survival Data)

同じ時点について ,異なる対象を観測して ,その特徴を調べる

クロスセクションデータ; Cross-Section Data工程データは , 変数の取られる工程順に特徴が近いと思われる項目を近くに配置するデータ分析後に並べ替えられることもある

複数時点での異なる対象を観測 (3 元データ ); Panel Data

Page 30: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 30/39

データの編成 (時系列データ )

時点 価格 出来1985 12500 19

1986 12800 19

1987 8600 12

1988 11400 18

1989 21000 19

1990 22500 18

1991 10500 14

1992 9800 12

1993 8800 12

1994 10500 16

1995 21400 17

シャトー XXX (ボルドー赤ワイン ) の初出荷時の価格

時間 t

項目 i

Page 31: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 31/39

データの編成 ( クロスセクションデータ )

機種 画像濃度 階調性 解像度 ハーフトーンA114X 1 .3 4 8 .3 3 5 .6 5 0 .0 4

A112Y 1 .2 9 10 .6 7 7 .1 9 0 .0 6

B3540 1 .3 10 7 .2 5 0 .0 3

B1854 1 .3 4 10 6 .6 5 0 .0 4

C1923 1 .3 6 10 .3 3 6 .5 8 0 .0 7

C1105 1 .4 0 10 7 .0 7 0 .0 4

D5040 1 .2 8 9 8 .2 2 0 .0 5

E50SS 1 .1 5 9 7 .1 4 0 .1 1

F3000 1 .0 5 9 .6 7 8 .5 5 0 .1 1

レーザープリンタの画質評価

地域 , 種類 ,個体 ,刺激など j

項目 i

Page 32: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 32/39

データの編成 ( パネルデータ )

企業 環境経営 顧客満足 従業員満足 独創性ホンダ

IBM日本ソニー松下電器東芝

日本電気アサヒビール

花王

企業 環境経営 顧客満足 従業員満足 独創性ホンダ

IBM日本ソニー松下電器東芝

日本電気アサヒビール

花王

企業 環境経営 顧客満足 従業員満足 独創性ホンダ

IBM日本ソニー松下電器東芝

日本電気アサヒビール

花王

企業 環境経営 顧客満足 従業員満足 独創性ホンダ

IBM日本ソニー松下電器東芝

日本電気アサヒビール

花王

地域 , 種類 ,個体 ,刺激など j

項目 i時間 t 個体 k( 官能評価など )

Page 33: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 33/39

3.2 データ入力のための準備

氏名 性別 金メダル 銀メダル 銅メダル 1質問 2質問船木和喜 男 2 1 0 1 3

原田雅彦 男 1 0 1 3 1

清水宏保 男 1 0 1 2 1

岡部孝信 男 1 0 0 2 2

斎藤浩哉 男 1 0 0 1 5

里谷多英 女 1 0 0 5 4

西谷岳文 男 1 0 0 3 4岡崎朋美 女 0 0 1 4 3

植松仁 男 0 0 1 3 1

このデータを実際に JMP に取り込んでみよう

Page 34: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 34/39

3.2 データ入力のための準備

変量名 Sex GOLD Silver Bronze Q1 Q2

文字属性 文字 数字 数字 数字 数字 数字尺度 名義 連続 連続 連続 連続 連続1 M 2 1 0 1 3

2 M 1 0 1 3 1

3 M 1 0 1 2 1

4 M 1 0 0 2 2

5 M 1 0 0 1 56 F 1 0 0 5 47 M 1 0 0 3 48 F 0 0 1 4 3

9 M 0 0 1 3 1

データは番号など

列情報で指定

Page 35: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 35/39

関連 Web リンク集を選ぶ

Page 36: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 36/39

学協会 各種団体 …を選ぶ・ ・

Page 37: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 37/39

円グラフの例

http://www.jiko.nite.go.jp/

Page 38: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 38/39

円グラフの例

http://www.jiko.nite.go.jp/

Page 39: データ分析入門( 3 )

第 3  章 データの収集と編成 廣野元久 &高橋行雄 39/39

帯グラフの例

http://www.jiko.nite.go.jp/