第2講:1次元のデータ - chiba universitywang/teaching/b123.pdf多次元データ...

39
第2 :1 データ 1

Upload: others

Post on 17-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

第2講:1次元のデータ

1

Page 2: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

統計学の目的:データの要約� �

統計学は、与えられたデータを整理し、有用な情報を取り出すための方法論である。例: Hitomi’s English Tests

1 2 3 4 5 6 7 8 9 10 11 12 13 14

1 1 0 1 1 0 1 0 0 0 1 0 0 1 0

2 0 0 1 1 0 0 0 0 0 1 1 1 1 0

3 1 1 0 0 0 0 1 0 1 0 1 0 1 1

4 1 1 0 1 0 1 1 1 1 0 0 0 1 1

5 1 1 0 1 1 1 1 0 0 1 0 1 0 0

6 0 0 0 0 0 1 1 0 0 1 1 0 1 0

7 1 1 0 1 0 1 1 0 0 1 0 0 0 1

8 1 0 1 0 0 0 1 0 0 0 1 0 0 1

9 0 0 1 1 1 1 1 0 0 1 1 0 1 1

10 1 0 0 0 0 0 1 0 0 0 0 0 1 1� �

2

Page 3: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

統計学の目的:データの要約� �

True Scores of 1000 Tests

Scores of randomly chosen tests

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

� �

3

Page 4: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

量的データと質的データ� �

定義 1 (量的データ)  表??のように、定量的な値で表しているデータを量的データと呼ぶ。量的データには、長さ、重さ、体積、面積、金額、温度、時間など数値でその値を測定できるものが含まれる。

統計学を履修した学生 15人の身長

学生 1 2 3 4 5 6 7 8

9 10 11 12 13 14 15

身長 178 165 168 152 175 175 165 162

164 170 169 155 153 162 168� �

4

Page 5: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

質的データ� �

定義 2 (質的データ)  表??のように、数値として観測することではなく、あるカテゴリーに属していることや、ある状態にあることだけがわかるデータを質的データと呼ぶ。質的データには、性別(男・女)、学歴(大卒・高卒・中卒)、天気(晴・曇・雨・雪)、居住地域(都市・農村)など多くのものが含まれる。

統計学を履修した学生 15人の性別学生 1 2 3 4 5 6 7 8

9 10 11 12 13 14 15

性別 男 男 男 女 男 男 男 女女 男 男 女 女 女 男

� �

5

Page 6: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

1次元データと多次元データ� �

定義 3 (1次元データ) 前の表のように、一人の学生に対して、1つの観測値(身長)だけが与えられている場合、このようなデータを1

次元データ one-dimensional data と呼ぶ。

1次元データに関しては、度数分布表を描いたり平均などの代表値や分散を求めて分析を行う。

� �

6

Page 7: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

多次元データ� �

定義 4 (多次元データ) 前の表のように、1つの観測対象に対して、2つの観測値(身長・体重など)が与えられているとき、このようなデータを2次元データ two-dimensional data と呼ぶ。一般に、1つの対象に対して、1つ以上の観測値、例えば、身長・体重・血圧、が与えられているとき、このようなデータを多次元データ high-dimensional

data と呼ぶ。

統計学を履修した学生 15人の身長

学生 1 2 3 4 5 6 7 8 9 10

11 12 13 14 15

身長 178 165 168 152 175 175 165 162 164 170

169 155 153 162 168

体重 63 62 69 41 71 61 62 48 52 55

69 48 44 49 69� �

7

Page 8: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

時系列データ� �

定義 5 (時系列データ) 表??のように、同一の対象の異なった時点での観測値からなるデータを時系列データ time series data と呼ぶ。時系列データは、経済分析や気象学・天文学の現象の分析などに幅広く利用されている。

日本の人口(単位:1000人)

年次(昭和) 15 20 25 30 35 40

45 50 55 60

人口 71,933 72,147 83,200 89,276 93,419 98,275

103,720 111,940 117,060 121,049� �

8

Page 9: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

時系列データの例� �

日本の人口(単位:1000人)

20 30 40 50 60Year

80000

90000

100000

110000

120000

Population

� �

9

Page 10: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

時系列データの例� �

筋電データ(握り)

0 2000 4000 6000 8000 10000

-1.5

-1

-0.5

0

0.5

1

1.5

� �

10

Page 11: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

度数分布とヒストグラム� �

受験者 373人の統計学の試験における得点の度数分布表

階     級 階級値 度 数 相対 累積 累積度数 度数 相対度数

0点以上   10点未満 5 12 0.032 12 0.032

10 〃    20 〃  15 10 0.027 22 0.059

20 〃    30 〃  25 19 0.051 41 0.110

30 〃    40 〃  35 42 0.113 83 0.223

40 〃    50 〃  45 72 0.193 155 0.416

50 〃    60 〃  55 82 0.220 237 0.635

60 〃    70 〃  65 54 0.145 291 0.780

70 〃    80 〃  75 38 0.102 329 0.882

80 〃    90 〃  85 25 0.067 354 0.949

90 〃    100点以下 95 19 0.051 373 1.000

合     計 373 1.00� �

11

Page 12: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

度数分布について� �

• 階級値:階級を代表する値で、通常階級の中間値とする。• 度数 frequency:各階級に属する観測値の個数

• 相対度数 relative frequency:各階級に属する観測値の割合

• 累積度数 cumulative frequency:度数を下の階級から順に積み上げたときの度数

• 累積相対度数 cumulative relative frequency:度数を下の階級から順に積み上げたときの相対度数

� �

12

Page 13: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

度数分布・ヒストグラム� �

定義 6 (度数分布) 観測値のとりうる値をいくつかの階級 class に分け、それぞれの階級で観測値がいくつあるか度数 frequency を数えて、表にしたものを度数分布(frequency distribution)という。

定義 7 (ヒストグラムとは) 度数分布をグラフにしたものをヒストグラ histogram ムという。

� �

13

Page 14: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

ヒストグラムの作り方� �

• 階級に対して階級幅を横幅とし、柱の高さを度数とするように定める。

• 階級数、階級幅を変化させることによって、ヒストグラムの様子が大きく変わる。

• スタージェスの公式: 観測値の数をnとするとき、階級数を次のように決める公式

k ≈ 1 + log n/ log 2

例えば、試験の得点の場合、

n = 373 −→ k = 9.543 · · ·� �

14

Page 15: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

ヒストグラムの例� �

統計学の得点データのヒストグラム:階級数が 10の場合

20 40 60 80 100Score

0

20

40

60

80

Frequency

� �

15

Page 16: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

ヒストグラムの例 (つづき)� �

統計学の得点データのヒストグラム:階級数が 5の場合

20 40 60 80 100Score

0

25

50

75

100

125

150

Frequency

� �

16

Page 17: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

代表値: 標本平均� �

定義 8 (標本平均) n 個の観測値の算術平均

y =1

n

n∑

i=1yi

=1

n(y1 + y2 + · · · + yn−1 + yn)

を標本平均 sample mean という。� �

17

Page 18: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

代表値 (つづき)� �

定義 9 (順序統計量) order statistics: 標本 y1, y2, · · · , yn−1, yn を小さいものの順に

y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n)

並べ替えられたものを順序統計量という。

定義 10 (メディアン(中央値、中位数)) median: 標本数 nが偶数と奇数の場合に分ける

⎧⎪⎨⎪⎩

ymed = y(m+1) 奇数の場合: n = 2m + 1

ymed =y(m)+y(m+1)

2 偶数の場合: n = 2m� �

18

Page 19: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

代表値 (つづき)� �

定義 11 (百分位点) percentile: ある 0 ≤ p ≤ 1 に対し、順序統計量

y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n)

の 100p 番目の値を、100p% 分位点という。

定義 12 (四分位点) quantile: 順序統計量

y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n)

を 4等分したときの三つの分割点。

25%分位点 −→ 第 1四分位点50%分位点 −→ 第 2四分位点(メディアン)

75%分位点 −→ 第 3四分位点� �

19

Page 20: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

代表値 (つづき)� �

定義 13 (モード) mode:

度数分布表において、その度数が最大である階級の階級値。

定義 14 (ミッド・レンジ) mid-range: 

ymid =y(1) + y(n)

2

注意: 最もよく使われるのが

• 平均• メディアン• モード

� �

20

Page 21: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

散らばりの尺度: 分散� �

定義 15 (標本分散) variance: 最もよく使われるのが標本分散である

S2n =

1

n

n∑

i=1(yi − y)2

=1

n

{(y1 − y)2 + (y2 − y)2 + · · · + (yn − y)2

}

次の計算式が便利である。

S2n =

1

n

⎧⎨⎩

n∑

i=1y2

i − ny2

⎫⎬⎭

� �

21

Page 22: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

散らばりの尺度: 標準偏差/変動係数� �

定義 16 (標準偏差) standard deviation: 標本分散の平方根:

Sn =√

S2n =

√√√√1

n

n∑

i=1(yi − y)2

標準偏差の利点: 観測値と同じ単位をもつこと。

定義 17 (変動係数) coefficient of variation: 標準偏差と平均の比:

CV =標準偏差平均

=Sn

y

変動係数の利点: 単位を持たないため、異なる母集団を比較するのに便利である。

� �

22

Page 23: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

データの標準化� �

• データ y1, · · · , yn に対して、一次変換を行ったもの

z1 =y1 − y

Sn, z2 =

y2 − y

Sn, · · · zn =

yn − y

Sn

を標準化 standardizationといい、z1, · · · , zn を標準得点(Z得点)

standard score という。

• 標準得点 z1, · · · , znの平均は 0、分散は1。

• 平均 50、標準偏差 10となるように、標準得点に一次変換

z1 = 10z1 + 50, · · · , zn = 10zn + 50

を便宜的に施したものが偏差値得点である。� �

23

Page 24: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

第3講:2次元データ:�

24

Page 25: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

2次元データ・散布図� �

定義 18 (2次元データ) two-dimensional data 1つの観測対象に対して、2つの測定値が得られている。

例 1 (身長・体重)  表??のように、一人の学生に対して、(身長,体重)が測定されている。

統計学を履修した学生 15人の身長と体重

学生 1 2 3 4 5 6 7 8

9 10 11 12 13 14 15

身長 178 165 168 152 175 175 165 162

164 170 169 155 153 162 168

体重 63 62 69 41 71 61 62 48

52 55 69 48 44 49 69� �

25

Page 26: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

2次元データ・散布図 (つづき)� �

数学的記法: 記号で書くと、次のようになる。

(x1, y1), (x2, y2), · · · , (xn, yn)

定義 19 (散布図) scattergram  2次元データ

(x1, y1), (x2, y2), · · · , (xn, yn)

は、(x, y)平面上のn個の点で表せる。このような図を散布図という。� �

26

Page 27: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

2次元データの例� �

統計学を履修した学生 15人の身長と体重

155 160 165 170 175Height

45

50

55

60

65

70

Weight

� �

27

Page 28: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

2次元データの例� �

筋電データ(握り):チャンネル1 vs. チャンネル2

-4 -2 0 2C1

-4

-3

-2

-1

0

1

2

3

C2

� �

28

Page 29: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

相関係数� �

• 変数 x の標本分散:

sxx =1

n

n∑

i=1(xi − x)2 =

1

n

n∑

i=1x2

i − x2

• 変数 y の標本分散:

syy =1

n

n∑

i=1(yi − y)2 =

1

n

n∑

i=1y2

i − y2

• 変数 (x, y) の共分散 ( covariance ): 

sxy =1

n

n∑

i=1(xi − x)(yi − y) =

1

n

n∑

i=1xiyi − xy

� �

29

Page 30: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

相関係数 (つづき)� �

定義 20 相関係数 (correlation coefficient)  2次元データ

(x1, y1), (x2, y2), · · · , (xn, yn)

が与えられたとき、変数 x と y の間の相関係数は次のように定義される。

r =sxy√sxxsyy

=

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2√∑n

i=1(yi − y)2

定理 1 (相関係数の性質: �)

−1 ≤ r ≤ 1

用語: r > 0: 正の相関; r < 0: 負の相関; r = 0: 無相関� �

30

Page 31: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

−1 ≤ r ≤ 1 の証明� �

証明 定義より

r =

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2 ∑ni=1(yi − y)2

したがって、

ai = (xi − x), bi = (yi − y) i = 1, · · · , n

と置けば、次式を証明すればよい。

Schwarz の不等式:

⎧⎨⎩

n∑

i=1aibi

⎫⎬⎭

2

≤n∑

i=1a2

i

n∑

i=1b2i

Schwarz の不等式を証明するのに、次の実数 t に関する 2次関数を考えればよい。

n∑

i=1(ai + bit)

2 ≥ 0

� �

31

Page 32: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

相関係数の性質: �� �

相関係数はデータの線形変換に対して不変である。すなわち、

ui = axi + b, vi = cyi + d (i = 1, 2, · · · , n)

に対して、sxy√sxxsyy

=suv√suusvv

(ac > 0)

⇓⇓⇓

演習問題� �

32

Page 33: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

みかけ上の相関と偏相関係数� �

例 2 血圧の高い人は給料が高い?

事実: 血圧と給料の間に正の相関がある!ある会社で何十人かの社員に給料と血圧のアンケート調査をしたとしましょう。この結果から血圧を横軸、給料を縦軸にとって散布図を描くと、きれいな正の相関があることが分かります。取るべき行動(?):

給料を上げるために塩辛い味噌汁を飲み続ける?これが真の関連であるとするならば、給料を上げるためには塩辛い味噌汁を毎日飲めば良いことになりますが、そんなことをする人はいないと思います。

� �

33

Page 34: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

血圧と給料の関係:真実� �

真実: 年齢が邪魔している!

日本は年功序列社会です。基本的には年齢の上昇と共に給料は増加するはずです。また年齢と共に血圧が上がるというのは医学的な事実です。したがって年齢が高い人は、血圧も給料も共に高くなり、見かけ上の相関が生じます。

定義 21 (交絡) confounding このように第3の変数が、2つの変数両方に関連して、見かけ上の関連を生じさせる現象のことを交絡といいます。

� �

34

Page 35: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

交絡:他の例� �

例 3 耳たぶのしわのある人は冠動脈疾患にかかり易い?

耳たぶのしわと冠動脈疾患に相関があると一時騒がれた。耳たぶのしわも冠動脈疾患も肥満と相関があり,肥満という第 3の因子を介して冠動脈疾患との相関を見ていたに過ぎない。

例 4 身長の高い人は成績がよい?

小学校の全学年の児童に対して、身長と成績のデータをとると,「高い相関がある」。交絡要因は年齢。

� �

35

Page 36: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

みかけ上の相関・偏相関係数� �

定義 22 (みかけ上の相関) spurious correlation: xと yに相関関係が認められても,実際には第 3要素を介しての相関である。

定義 23 (偏相関係数) partial correlation coefficient:

rxy : xと yの相関rxz : xと zの相関ryz : yと zの相関

変数 z の影響を取り除いたときの、x と y の偏相関係数

rxy·z =rxy − rxz ryz√

1 − r2xz

√1 − r2

yz

� �

36

Page 37: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

橈骨の長い人は身長が高い?� �

例 5 (橈骨と身長) K. Pearson (1898)が 50人の男性の身長 (stature),

大腿 (だいたい, femur)の長さ、上腕 (じょうわん, humerus)の長さ、脛骨(けいこつ, tibia)の長さ;橈骨 (とうこつ, radius)の長さに基づいて、次のような相関行列を得た ( Krzanowski and Marriott, 1994,

p.23)

大腿F 上腕H 脛骨T 橈骨R 身長S

大腿F 1 0.8421 0.8058 0.7439 0.8105

上腕H 1 0.8601 0.8451 0.8091

脛骨T 1 0.7804 0.7769

橈骨R 1 0.6956

身長S 1� �

37

Page 38: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

橈骨の長さと身長(続き)� �

• 相関行列によれば、身長と橈骨の相関

rSR = 0.6956

となる。

• 大腿の影響を取り除いた後の相関行列は次のようになる。上腕H 脛骨T 橈骨R 身長S

上腕H 1 0.5682 0.6068 0.4007

脛骨T 1 0.4574 0.3569

橈骨R 1 0.2367

身長S 1

例えば、rSR·F = rSR−rSF rRF√

1−r2SF

√1−r2

RF

= 0.6956−0.8105×0.7439√1−0.81052

√1−0.74392

= 0.2367� �

38

Page 39: 第2講:1次元のデータ - Chiba Universitywang/teaching/b123.pdf多次元データ 定義4(多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような

橈骨の長さと身長(続き)� �

さらに上腕の影響を取り除いた後の相関行列は次のようになる。

脛骨T 橈骨R 身長S

脛骨T 1 0.1772 0.1714

橈骨R 1 −0.0088

身長S 1

例えば、rSR·HF = rSR·F−rSH·F rRH·F√

1−r2SH·F

√1−r2

RH·F

= 0.2367−0.4007×0.6068√1−0.40072

√1−0.60682

= −0.0088� �

39