英語教育研究法セミナー(量的分析) celes2015

49
量的 データ分析 をつけたい つのこと Seven Points that Every Foreign Language Teacher and Researcher Should Be Careful About in Data Analysis 草薙邦広 名古屋大学大学院 日本学術振興会特別研究員 中部地区英語教育学会研究法セミナー 2015/6/28 和歌山大学

Upload: kusanagi-kunihiro

Post on 06-Aug-2015

532 views

Category:

Education


3 download

TRANSCRIPT

Page 1: 英語教育研究法セミナー(量的分析) CELES2015

量的なデータ分析で

気をつけたい7つのこと

Seven Points that Every Foreign Language Teacher and Researcher

Should Be Careful About in Data Analysis

草薙邦広 名古屋大学大学院 日本学術振興会特別研究員

中部地区英語教育学会研究法セミナー 2015/6/28 和歌山大学

Page 2: 英語教育研究法セミナー(量的分析) CELES2015

コンテンツ

1. 記述統計ってなにを報告すればいいの?

2. 母集団って本当にあるの?

3. 統計的仮説検定って結局はどういうこと?

4. 効果量ってなに?

5. 相関係数と決定係数ってなにを意味するの?

6. モデリングってなに?

7. 最後に気をつけたいこと

Page 3: 英語教育研究法セミナー(量的分析) CELES2015

コンテンツ

1. 記述統計ってなにを報告すればいいの?

2. 母集団って本当にあるの?

3. 統計的仮説検定って結局はどういうこと?

4. 効果量ってなに?

5. 相関係数と決定係数ってなにを意味するの?

6. モデリングってなに?

7. 最後に気をつけたいこと

Page 4: 英語教育研究法セミナー(量的分析) CELES2015

1. 記述統計

• 記述統計

– 手元のデータの様子を数値であらわすこと

• 積率統計量(モーメント)

• 順序統計量

Page 5: 英語教育研究法セミナー(量的分析) CELES2015

1. 記述統計

• 積率統計量

– 距離のn乗の期待値 • 一次:平均(原点0からの距離の期待値)

• 二次:分散(平均からの距離の二乗期待値)

• 三次:歪度(標準化した原点からの距離の三乗期待値)

• 四次:尖度(標準化した原点からの距離の四乗期待値)

𝐸 𝑥 − 𝑎 𝑛

Page 6: 英語教育研究法セミナー(量的分析) CELES2015

1. 記述統計

1 2 3 4 5 6

02

04

06

08

0

Va

lue

1 2 3 4 5 6

02

04

06

08

0

Va

lue

1 2 3 4 5 6

-3-2

-10

12

3

Va

lue

1 2 3 4 5 6

-3-2

-10

12

3

Va

lue

原点からの距離

平均からの距離二乗

標準化した原点からの距離三乗

標準化した原点 からの

距離四乗

Page 7: 英語教育研究法セミナー(量的分析) CELES2015
Page 8: 英語教育研究法セミナー(量的分析) CELES2015

1. 記述統計

• 順序統計量

– 五数要約 • 最大値(上から0%)

• 第一四分位点(上から25%)

• 中央値(上から50%)

• 第三四分位点(上から75%)

• 最小値(上から100%)

Page 9: 英語教育研究法セミナー(量的分析) CELES2015

1. 記述統計 3

04

05

06

07

08

0 最大値

第一四分位点

中央値

第三四分位点

最小値

Page 10: 英語教育研究法セミナー(量的分析) CELES2015

1. 記述統計

20 40 60 80

0.0

00

0.0

10

0.0

20

Value

De

nsity

平均と分散はおなじ

30

40

50

60

20

30

40

50

60

70

80

順序統計量もあまり有益ではない

分離することで 適切な記述ができる

Page 11: 英語教育研究法セミナー(量的分析) CELES2015

1. 記述統計

• 望ましい記述統計の報告

– 必ず平均と標準偏差または分散

– できれば歪度と尖度も

– 五数要約も推奨される

– 必ず分布についてひとこと

Page 12: 英語教育研究法セミナー(量的分析) CELES2015

1. 記述統計

• 報告例 – 「分析にもちいたすべての変数は正規分布に

従っていると判断した」

– 「尖度と歪度を検討したところ,変数3は正規性を大きく逸脱していた」

積率統計量 五数要約

平均 分散 歪度 尖度 最小値 第三 四分位点

中央値 第一 四分位点

最大値

変数1

変数2

変数3

Page 13: 英語教育研究法セミナー(量的分析) CELES2015

量的なデータ分析で

気をつけたいことその1

平均と標準偏差を 報告するだけで十分か?

Page 14: 英語教育研究法セミナー(量的分析) CELES2015

1. 記述統計

• 汚いデータ? – ほんとうに汚いデータとは調査者や実

験者側の落ち度によって,観測するべきものとは独立した傾向がデータに混入し,統計をもちいた推論の正当性を妨げるもの

– 正規性を逸脱するデータ≠汚い

– It doesn’t make you look bad, but hiding the data really does.

Page 15: 英語教育研究法セミナー(量的分析) CELES2015

コンテンツ

1. 記述統計ってなにを報告すればいいの?

2. 母集団って本当にあるの?

3. 統計的仮説検定って結局はどういうこと?

4. 効果量ってなに?

5. 相関係数と決定係数ってなにを意味するの?

6. モデリングってなに?

7. 最後に気をつけたいこと

Page 16: 英語教育研究法セミナー(量的分析) CELES2015

2. 母集団

• 母集団と標本

母集団 (population)

母数

μ(母平均) σ(母標準偏差)

標本 m(標本平均)

s(標本標準偏差)

標本化 サンプリング

推測統計 (a)点推定 (b)区間推定 (c)仮説検定

分からない

分かる

Page 17: 英語教育研究法セミナー(量的分析) CELES2015

2. 母集団

• 母集団ってあるの?

– 教育に関わる研究では,合理的に母集団を明確に想定できるわけではない • 教育は実験ではない

• 「指導は過去に起きた一度きりのできごと」

– 常に母数に関心があるわけではない

– 推測統計はしなくてもよい?

– 適切な考えかたのひとつ

Page 18: 英語教育研究法セミナー(量的分析) CELES2015

2. 母集団

• ただし… – 推測統計をもちいた推論のあり方による

メリットも十分にある

– 我々の知識はそもそも論理形式で記述できる情報というよりは,むしろ我々の認識論における二者間の確率論的な関係性 • If A is true, then B

• もしも日本人であったなら,/r/の発音が下手 – 論理上の対偶:/r/の発音が下手でなければ,日本人では

ない→容易に後件が否定できる

– 論理的にはかなり怪しい

だいぶ 草薙の私見です

Page 19: 英語教育研究法セミナー(量的分析) CELES2015

2. 母集団

• 確率論的な関係性? – 「日本人であること」と「/r/が下手であるこ

と」

日本人 /r/が下手

全人類 それ以外は/r/が上手

日本語を 母語とする

/r/が上手

こういうように考えない

Page 20: 英語教育研究法セミナー(量的分析) CELES2015

2. 母集団

標本 指導に効果

あり

日本人英語学習者全体 それ以外は知らない

高い指導効果

日本人英語学習者にある程度共通する性質

固定的な 母集団観

Page 21: 英語教育研究法セミナー(量的分析) CELES2015

2. 母集団

• 実用性と柔軟性 – 母集団の想定と一般化について,固定的に捉え

るというよりは,標本と同じような性質を持てば持つほど標本の結果を再現する可能性が高い(典型的である)と理解してもよい

– そのような観点下では,測定誤差などを積極的に考慮し,一般化を目指す考えかたのほうが実用的

– ただし,統計的に適切な推論が可能な場合のみ

– 仮定を無視してまで統計的な分析を推し進める意味はない

Page 22: 英語教育研究法セミナー(量的分析) CELES2015

量的なデータ分析で

気をつけたいことその2

母集団について 柔軟に考えられているか?

Page 23: 英語教育研究法セミナー(量的分析) CELES2015

コンテンツ

1. 記述統計ってなにを報告すればいいの?

2. 母集団って本当にあるの?

3. 統計的仮説検定って結局はどういうこと?

4. 効果量ってなに?

5. 相関係数と決定係数ってなにを意味するの?

6. モデリングってなに?

7. 最後に気をつけたいこと

Page 24: 英語教育研究法セミナー(量的分析) CELES2015

3. 統計的仮説検定

• 統計的仮説検定が有意? – 母集団がもつある値(母数)を任意の値に設

定したときに(例えば0),標本がもつ値が,あらかじめ決めておいた基準よりも低確率で発生する(ありそうもない,整合性が低い)事象であるということ

– 確率論的な整合性を二値判断であらわす

Page 25: 英語教育研究法セミナー(量的分析) CELES2015

3. 統計的仮説検定

• 超能力 – 私が透視で二択問題を100問解く – もし超能力がなければ正答数は50(帰無仮説) – 100,000人の普通のひとに同じことをしてもらう – 私の正答数は61 – 100,000人のうち60点以上をとったひとは2.5%だ

け(cf. 二項分布の確率質量関数) – 私の透視能力は,5%を基準とする(有意水準)と

普通のひととしては,確率論的な整合性がない – 私が普通のひとだとはいえない→超能力者だろう

(cf. 二項検定,符号検定)

Page 26: 英語教育研究法セミナー(量的分析) CELES2015

3. 統計的仮説検定

• 確率論的な整合性? – 2.5%のひと(2,500人)は超能力者?

• 有意水準は本当にこれでいいの

• 世の中は超能力バトルでいっぱいだ

– 確率論的に低くくとも起きるものは起きる

– 確率に関わる感覚を大事に

Hit

Fre

qu

en

cy

35 45 55 65

05

00

10

00

15

00

Page 27: 英語教育研究法セミナー(量的分析) CELES2015

3. 統計的仮説検定

• 検定の有意性が意味するところ – t検定が有意

• 母平均差を0とすると,標本のこの値は,確率論的に整合性がない(でも整合性がないことも起こりうるのが世の

中だよね~)

• とりあえず母平均差が0であるという可能性を積極的に議論しなくともよい証拠はある

– 査読者「その平均差はただの誤差じゃないか?」

– 執筆者「それは確率論的に見てなさそうです」

• これだけです

Page 28: 英語教育研究法セミナー(量的分析) CELES2015

量的なデータ分析で

気をつけたいことその3

統計的仮説検定が意味する以上の ことを議論していないか?

Page 29: 英語教育研究法セミナー(量的分析) CELES2015

コンテンツ

1. 記述統計ってなにを報告すればいいの?

2. 母集団って本当にあるの?

3. 統計的仮説検定って結局はどういうこと?

4. 効果量ってなに?

5. 相関係数と決定係数ってなにを意味するの?

6. モデリングってなに?

7. 最後に気をつけたいこと

Page 30: 英語教育研究法セミナー(量的分析) CELES2015

4. 効果量

• 効果量 – 考えかた自体はかなり古いが,現在進行中の

統計改革運動(statistical reform movement)によって広く知られる

• ほとんどすべての行動科学系分野における動き

– 現象のつよさ(strength of phenomenon)というけども…

– データが持つばらつきのうち,研究者が注目する一部の要因が担う割合

Page 31: 英語教育研究法セミナー(量的分析) CELES2015

4. 効果量

• 超能力ふたたび – 自称超能力者10,000人が1,000回の透視実

– 10,000人の正答率の平均は50%よりも有意に高かった

– 超能力の実在が示唆された

– 正答率の平均は52%だった

– 二択の正答率を偶然よりも2%あげる超能力

– わあ!なんと実用的!

Page 32: 英語教育研究法セミナー(量的分析) CELES2015

4. 効果量

• 実質科学的な解釈? – 標本サイズが大きくなればいずれ有意性は得

られる可能性が高い

– 検定統計量 = 効果の大きさ × 標本の大きさ

– 効果の大きさを議論するには効果量を

というけども…

Page 33: 英語教育研究法セミナー(量的分析) CELES2015

4. 効果量

• 効果量の誤差 – ただし,効果量も標本による推定値にすぎな

– 効果量の誤差は非常に大きい

• 95% CI [-.27, .78]

– 効果量の誤差,信頼区間も考慮しなければならない

Page 34: 英語教育研究法セミナー(量的分析) CELES2015

4. 効果量

• Don’ts – 統計的な有意性が得られないときに,効果量の値に

よって議論を進める • 有意じゃなかったけど,効果量ありまぁす! • 有意差も得られないような精度では危険

– 「小」「中」「大」という形容詞を実質科学的な意味として容易に使うこと • 効果量の値として慣習的に「小」「中」「大」というので

あって,実質科学的な意味での効果の大きさは完全に時と場合による

– 前提の満たされない指標の使用 • Cohen’s dなど • 指標はたくさんあるので適したものを使うこと

Page 35: 英語教育研究法セミナー(量的分析) CELES2015

量的なデータ分析で

気をつけたいことその4

効果量の誤差を考慮した 議論をしているか?

Page 36: 英語教育研究法セミナー(量的分析) CELES2015

コンテンツ

1. 記述統計ってなにを報告すればいいの?

2. 母集団って本当にあるの?

3. 統計的仮説検定って結局はどういうこと?

4. 効果量ってなに?

5. 相関係数と決定係数ってなにを意味するの?

6. モデリングってなに?

7. 最後に気をつけたいこと

Page 37: 英語教育研究法セミナー(量的分析) CELES2015

5. 相関係数と決定係数

• 相関 – ある集団のなかで,片方の変数の値が高けれ

ば,もう片方の変数の値も高いさま

– これだけの意味

40 45 50 55 60

40

45

50

55

60

x

y

Page 38: 英語教育研究法セミナー(量的分析) CELES2015

5. 相関係数と決定係数

• 相関係数の奇妙な解釈 – 原因ー結果関係

• 靴のサイズが漢字テストの成績の原因?

– 認知機能担当率の誤謬

• 読解テストと文法テストの相関係数は.80だった

• 読解は文法の力を80%使っている

• 読解に関わる認知プロセスの80%は文法処理

– 個人内の変動

Page 39: 英語教育研究法セミナー(量的分析) CELES2015

5. 相関係数と決定係数

• 決定係数 – 回帰分析において従属変数がもつ全分散のう

ち,予測値によって説明される分散が占める割合

– 決定だの説明だの – 全体平方和 = 予測平方和 + 残差平方和

40 45 50 55 60

40

45

50

55

60

x

y

Page 40: 英語教育研究法セミナー(量的分析) CELES2015

5. 相関係数と決定係数

• 決定係数の奇妙な解釈 – 原因解明率?

• 原因の80%をあきらかにしている

– 認知機能解明率の誤謬

• 読解能力の95%をあきらかにしている

– ひとつイベントにおける原因の内訳

• 彼氏が好きな理由の30%分は容姿

Page 41: 英語教育研究法セミナー(量的分析) CELES2015

量的なデータ分析で

気をつけたいことその5

相関係数や決定係数に 奇妙な解釈を与えていないか?

Page 42: 英語教育研究法セミナー(量的分析) CELES2015

コンテンツ

1. 記述統計ってなにを報告すればいいの?

2. 母集団って本当にあるの?

3. 統計的仮説検定って結局はどういうこと?

4. 効果量ってなに?

5. 相関係数と決定係数ってなにを意味するの?

6. モデリングってなに?

7. 最後に気をつけたいこと

Page 43: 英語教育研究法セミナー(量的分析) CELES2015

6. モデル

• モデル – 現実そのものではなく,現実の写像・模型 – 種類は無数にある

• 一般線形モデル – y = a + bxというモデル

• 一般化線形モデル • グラフィカルモデル • 変数指向

– 潜在変数モデル(因子分析・構造方程式モデリング)

• 人指向 – 潜在クラスモデル

• 反応指向 – 潜在特性モデル(ラッシュ分析,IRT)

Page 44: 英語教育研究法セミナー(量的分析) CELES2015

6. モデル

• モデルのよさ

– 現実にそっくりなこと

– 簡潔,複雑でないこと

– 外挿が取れること

Page 45: 英語教育研究法セミナー(量的分析) CELES2015

6. モデル

• モデリングの自己目的化 – モデルを作ること自体が目的であることは少

ない

• 近年の研究に多い悪習のひとつ

– モデルでなにができるか,なにがあきらかになるか

– モデルを作ったことによる結果的側面の検証

Page 46: 英語教育研究法セミナー(量的分析) CELES2015

量的なデータ分析で

気をつけたいことその6

モデルはどんな役に立ったか?

Page 47: 英語教育研究法セミナー(量的分析) CELES2015

コンテンツ

1. 記述統計ってなにを報告すればいいの?

2. 母集団って本当にあるの?

3. 統計的仮説検定って結局はどういうこと?

4. 効果量ってなに?

5. 相関係数と決定係数ってなにを意味するの?

6. モデリングってなに?

7. 最後に気をつけたいこと

Page 48: 英語教育研究法セミナー(量的分析) CELES2015

量的なデータ分析で

気をつけたいことその7

ひとのいうことを無批判に 聞かないこと

Page 49: 英語教育研究法セミナー(量的分析) CELES2015

7. まとめ

• 自分で考えることをやめない – ただひとつの最適な分析方法が常にあるとは

限らない – 統計分析の方法は,使用者の目的や研究対象

の実質科学的な要素などに左右される – 結局は自分にしかわからない事情が重要な場

合も大いにある – 無批判に「統計の先生」の話を受け入れるの

ではなく,自分で最後まで徹底的に考えること

– ただ,専門家の意見を聞くことはほとんどの場合に有益