多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

41
多多多 多多 多 多 多多多多多多多多多多多多 一DNA 多多多多多多多多多多多 多多多多多多 2011/09/10 多多多多多多多多多多多多 多多多多多多多 多多多多多 多多

Upload: wilmer

Post on 16-Jan-2016

34 views

Category:

Documents


0 download

DESCRIPTION

多人数一括DNAプロファイリングのため の 確率計 算法に関する考察. 法数学勉強会 2011/09/10 京都 大学大学院医学研究科 統計遺伝学 分野 奈良原 舞子 山田 亮. 状況. 大災害が発生 多数の行方不明者 多数の身元不明遺体 外見や所持品などから身元が特定された遺体はすでに遺族に返還されている。 残っている遺体の手がかりは、主に遺伝情報. 使える データ. 遺体 ジェノタイプ 発見時の状況など 行方不明者 家系情報 家族のジェノタイプ. 個人の鑑定 簡単 に描くと. b1. 行方不明者  Missing. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

多人数一括DNAプロファイリングのための

確率計算法に関する考察法数学勉強会

2011/09/10京都大学大学院医学研究科

統計遺伝学分野奈良原舞子 山田 亮

Page 2: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

状況• 大災害が発生• 多数の行方不明者• 多数の身元不明遺体• 外見や所持品などから身元が特定された

遺体はすでに遺族に返還されている。• 残っている遺体の手がかりは、主に遺伝

情報

Page 3: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

使えるデータ• 遺体– ジェノタイプ– 発見時の状況など

• 行方不明者– 家系情報– 家族のジェノタイプ

Page 4: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

m1

b1

行方不明者  Missing 身元不明者 

found Body

集団の誰か

個人の鑑定簡単に描くと

Page 5: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

m1

.

..

..

.

m2

m3

..

..

..

mN

b1

b2

b3

bN

集団の鑑定行方不明者  Missing

身元不明者 found Body

Page 6: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

• N! = N×(N-1) ×(N-2) ×... ×2×1 通り– (m1,m2,...,mN)=(b(s1),b(s2),...,b(sN))– 割り付け方 :Si=(s1,s2,...,sN) が N! 通り

集団の鑑定N 人を N 体に割り付け

Page 7: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

Si=(i1,i2,...,iN) という割り付け

m1 = b(s1) m2 = b(s2) m1 = b(s2)

mN = b(sN)

... ...

Page 8: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

Si=(i1,i2,...,iN) という割り付けを

観察する確率は?

m1 = b(s1) m2 = b(s2) m1 = b(s2)

mN = b(sN)

... ...

P(m1=b(s1)) P(m3=b(s3))P(m2=b(s2))

P(mN=b(sN))

× ×

× × ×

Page 9: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

N! 通りの確率• P(S1),P(S2),...,...,...,...,P(SN!)

• 最も大きな P(Si) となる Si は最尤推定割り付けがある

• N! 通りの割り付けのすべての確率を計算して、最大の場合を見つける?

Page 10: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

N! 通りの確率• P(S1),P(S2),...,...,...,...,P(SN!)

• 計算する ...?– 1!=1– 2!=2– 3!=6– 4!=24– 5!=120– 6!=720– 7!=5040– 8!=40320– 9!=362880– 10!=3,628,800

• 3 百万

• 11!=39,916,800• 12!=479,001,600– 4.8 億

• 15!=1.3 x 1012

• 20!=2.4 x 1018

Page 11: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

多すぎて N! 通りを計算できない

• N! 通りを計算しないで、最尤割り付けがわかる?– 重みづけ最適化・重みづけマッチング• ハンガリアン・アルゴリズムなど

Page 12: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

最尤推定割り付けがわかればそれが「答え」なのか?

• P(Si) と P(Sj) とが第一位、第二位だとする– P(Si) と P(Sj) とが等しかったら…– P(Si) と P(Sj) とがほぼ等しかったら…– P(Si) と P(Sj) とが数倍の違いしかなかったら…

Page 13: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

第1 , 2 ,…n 位割り付けがわかればそれが「答え」なのか?

• 「僅差」の割り付けがあったら、結局、どうしたらよいのかわからない

尤度が高い割り付けパターンを探すだけでは、解決しないかも

Page 14: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

• ある家族– 「我が家の行方不明者 m は、遺体 b1,...,bN の

うちのどれか1体だと言えますか?それとも、言いかねますか?」

• ある遺体を保管しているところ– 「この遺体 b は、探されている行方不明者

m1,...,mN のだれか1人だと言えますか?それとも、言いかねますか?」

Page 15: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

  N=3 で考える• 3 体の遺体と3人の不明者を割り付ける

場合の数

M1 M2 M3

仮説1

B1 B2 B3

仮説 2 B1 B3 B2

仮説 3 B2 B1 B3

仮説 4 B2 B3 B1

仮説 5 B3 B1 B2

仮説 6 B3 B2 B1

N=3  の場合

確率行列

6 通りの割り付け

B1 B2 B3

M1 P ( M1=B1)

P ( M1=B2)

P ( M1=B2)

M2 P ( M2=B1)

P ( M2=B2)

P ( M2=B3)

M3 P ( M3=B1)

P ( M3=B2)

P ( M3=B3)

各仮説の尤度:3つのペア全てでジェノタイプ が一致する確率

Page 16: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

仮説 2

M1 M2 M3

仮説1

B1 B2 B3

仮説 2 B1 B3 B2

仮説 3 B2 B1 B3

仮説 4 B2 B3 B1

仮説 5 B3 B1 B2

仮説 6 B3 B2 B1

N=3  の場合

確率行列

6 通りの割り付け

B1 B2 B3

M1 P ( M1=B1)

P ( M1=B2)

P ( M1=B3)

M2 P ( M2=B1)

P ( M2=B2)

P ( M2=B3)

M3 P ( M3=B1)

P ( M3=B2)

P ( M3=B3)この仮説の尤度=

P ( M1=B1 ) xP ( M2=B3 ) xP ( M3=B2 )

Page 17: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

M1 M2 M3

仮説1

B1 B2 B3

仮説 2 B1 B3 B2

仮説 3 B2 B1 B3

仮説 4 B2 B3 B1

仮説 5 B3 B1 B2

仮説 6 B3 B2 B1

N=3  の場合

確率行列

6 通りの割り付け

B1 B2 B3

M1 P ( M1=B1)

P ( M1=B2)

P ( M1=B3)

M2 P ( M2=B1)

P ( M2=B2)

P ( M2=B3)

M3 P ( M3=B1)

P ( M3=B2)

P ( M3=B3)この仮説の尤度=

P ( M1=B1 ) xP ( M2=B2 ) xP ( M3=B3 )

M1=B1, それ以外の割り付けはなんでもあり仮説 1+2

Page 18: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

M1 M2 M3

仮説1

B1 B2 B3

仮説 2 B1 B3 B2

仮説 3 B2 B1 B3

仮説 4 B2 B3 B1

仮説 5 B3 B1 B2

仮説 6 B3 B2 B1

N=3  の場合

確率行列

6 通りの割り付け

B1 B2 B3

M1 P ( M1=B1)

P ( M1=B2)

P ( M1=B3)

M2 P ( M2=B1)

P ( M2=B2)

P ( M2=B3)

M3 P ( M3=B1)

P ( M3=B2)

P ( M3=B3)この仮説の尤度=

P ( M1=B1 ) xP ( M2=B3 ) xP ( M3=B2 )

M1=B1, それ以外の割り付けはなんでもあり仮説 1+2

Page 19: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

行列式 (Determinant)

Wikipedia割り付けの場合ごとに掛け算をする「加える」要素と「引く」要素がある

Page 20: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

パーマネント

割り付けの場合ごとに掛け算をする全部を「加える」

Page 21: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

パーマネント• 行列式の計算は簡単で正確• この6通りの確率の和が3次正方行列の

パーマネント• パーマネントを求めるためのいくつかの

方法がある– 正確– 近似的

• 近似法を使うことでだいぶ速く計算できる。

Page 22: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

パーマネントの計算方法• 今日は、割愛– 気になる方は• Wikipedia http://en.wikipedia.org/wiki/Permanent か

ら情報の入手は可能です

Page 23: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

 近似法は速い

計算にかかる時間

近似法

正確法

( sec )

( N: 行列サイズ)

Page 24: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

Fluctuation of estimation• もとが N x N 行列なら 2 x N 個の L(All) が出る

– 各列和・各行和• その L(All) は推定値なので、誤差がある

– 最大値と最小値の差は 0.102

注:scale 調整後

Page 25: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

パーマネント計算 近似法の精度

• 「真のパーマネント」を大きな行列で計算するのは非現実的なので、「真の精度」を評価するのは難しいのですが

これは別なパーマネント近似法ですが…

Approximating the Permanent with BeliefPropagation, by Bert Huang and Tony Jebara@ http://www.cs.columbia.edu/~bert/permanentTR.pdf

Page 26: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

尤度の NxN 行列• 「 mi=bj 、あとは何でもあり」に対応する

(N-1)! 仮説の確率を合算する• この行列の各行の和は、どの行も等しい– 各行の和は以下の和• 「 mi=b1 、あとは何でもあり」• 「 mi=b2 、あとは何でもあり」• …• 「 mi=bN 、あとは何でもあり」

– これは「 mi も何でもあり、他も何でもあり」だから

Page 27: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

尤度の NxN 行列• 「 mi=bj 、あとは何でもあり」に対応する

(N-1)! 仮説の確率を合算する• この行列の各列の和もやはり等しい• 各列の和は、各行の和とも等しい

Page 28: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

行を列に入れ替えても同じこと家族が知りたいことにも、遺体保管者が知りたいことにも、答えられる• 行– ある家族

• 「我が家の行方不明者 m は、遺体 b1,...,bN のうちのどれか1体だと言えますか?それとも、言いかねますか?」

• 列– ある遺体を保管しているところ

• 「この遺体 b は、探されている行方不明者 m1,...,mN のだれか1人だと言えますか?それとも、言いかねますか?」

Page 29: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

尤度割合の NxN 行列• 尤度の NxN 行列の各列の和、各行の和は

すべて等しいので、その値で、尤度の NxN行列のすべての成分を割ってやる

• それを「尤度割合の NxN 行列」とする– 各行、各列の和は、すべて1

Page 30: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

2つの NxN 行列• 確率行列– P(mi = bj) の行列

• 尤度割合行列– 「 m1=b2 、あとは何でもあり」に対応する

(N-1)! 仮説の確率を合算

Page 31: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

NxN の確率行列

B1 B2 B3 ・・・・

・・・・

・・・・

・・・・

・・・・

BN

M1 P ( M1=B1 )

P ( M1=B2 )

P ( M1=B2 )

M2 P ( M2=B1 )

P ( M2=B2 )

P ( M2=B3 )

M3 P ( M3=B1 )

P ( M3=B2 )

P ( M3=B3 )

: : : :

: : : :

: : : :

: : : :

: : : :MN P ( MN=B

1 )P ( MN=B

2 )P ( MN=B

3 )

• 割り付けの計算のために正方行列がほしい。• 全ての遺体と行方不明者が1対1対応すると仮定• 仮定できなければ、足りない分を一般集団で補う

Page 32: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

NxN 尤度割合行列• L(mi=bj)   / L(ALL)  の  NxN 行列ができ

る• 基準 v を満たしたペアの割り付けが決定

する– v = 0.99 としたら、

B1 B2 B3 B4 B5 ・・・・

・・・・

・・・・

BN

M1 0.9998 0.0000 0.0000

M2 0.0000 0.9953 0.0000

M3 0.0000 0.0000 0.7

M4 0.0000 0.0030 0.0000

M5 0.0001 0.0000 0.3

: : : :

: : : :

: : : :MN 0.0000 0.0000 0.0000

Page 33: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

行を列に入れ替えても同じこと家族が知りたいことにも、遺体保管者が知りたいことにも、答えられる• 行– ある家族

• 「我が家の行方不明者 m は、遺体 b1,...,bN のうちのどれか1体だと言えますか?それとも、言いかねますか?」

• 列– ある遺体を保管しているところ

• 「この遺体 b は、探されている行方不明者 m1,...,mN のだれか1人だと言えますか?それとも、言いかねますか?」

Page 34: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

遺体引き取り と 遺体引き渡し

• NxN 尤度割合行列のセルの値を使って、「遺体引き取り」「遺体引き渡し」の判断ができるだろう

• 閾値は…

Page 35: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

処理フローMissings

血縁関係情報血縁者のDNA型

Bodies遺体のDNA型

確率行列

尤度割合行列

パーマネント計算

引き取り・引き渡し判定

Page 36: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

simulation data

• 想定した全体– 全ての行方不明者: 104 人– 100 家系 + 重複 4 家系

• 重複:行方不明者が複数いる家系• 手元のデータ– 100 家系のうち 68 家系( incl. 重複3家系)

• 本当は全部使う予定だったが時間の関係で途中まで計算したところで割り付けをしたので家系も足りない状況になった。

– 104 人の不明者のうち、 54 人をランダムに選択– 家系も遺体も足りない状況

Page 37: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

Simulation  結果

Page 38: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

• 正解のペア全: 30 ペア– v > 0.999 : 27 ペア ☆• 全て正解

– v > 0.9 : 1 ペア !• 正解

– 家系として 0.999 を満たす• 1 家系ー2遺体 が該当

– 正解

0.999 で感度 27/30  

ハズレなし

Page 39: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

• permanent 計算後の確率(尤度比)が0でなかったペアの値を sort して plot したもの

同一家系の 2 人正解ペア

はずれペア

正解ペア

Page 40: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

尤度比の自然対数  vs   1/(1-p) の自然対数 ( p: 尤度割合)

Page 41: 多人数一括DNAプロファイリングのため の 確率計 算法に関する考察

可能性と課題• 可能性– 「事前確率」を取り込める

• 性別・所持品等の情報を容易に取り込める– 「一般化」

• 個人鑑定を同じ枠組みで考えることが (おそらく ) 可能• 課題– 申請のない行方不明者と発見されていない遺体の

とりあつかい– 1家系に複数の行方不明者がいる場合

• 非独立な確率・・・行列を使った計算が苦手