prml11 sup

15
PRML11章 サンプリング補遺 サンプリングの意義がいまいちわらかない君へ贈る バイオインフォ周辺における使用例

Upload: hirotaka-matsumoto

Post on 16-Jul-2015

206 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Prml11 sup

PRML11章 サンプリング補遺

サンプリングの意義がいまいちわらかない君へ贈る バイオインフォ周辺における使用例

Page 2: Prml11 sup

マルチプルアライメント

Page 3: Prml11 sup

複数の配列を同時にアライメント •  DPで最適解を解くには、「配列の長さの本数乗」で計算量が大きい。

•  現状のマルチプルアライメントは種々のヒューリスティックを使って求めている。(よって最適解ではない)

•  ギブスサンプリングを使う手もある。

Page 4: Prml11 sup

ギブスサンプリングでMA 1. 適当に初期化 2. ランダムに1本選択 3. その配列のオフセットをアライメントスコアなどに基づいた確率分布からサンプリング 4. 繰り返し

1 2 3

オフセット

何らかの距離

Page 5: Prml11 sup

多サンプルのgenotypeから haplotypeを推定する

Page 6: Prml11 sup

Haplotypeとは •  背景:haplotypeとは – 同一染色体上に存在する塩基の組み合わせ

Page 7: Prml11 sup

Haplotypeを推定する •  Haplotypeを実験的に決定することは難しい。 •  Genotypeは比較的得やすい。 •  Haplotypeの連鎖不平衡等により多様性は低く、個人間で似ていると期待される。

•  以上の背景から、多サンプルのgenotypeを取得し、それを説明できる多様性の低いhaplotypeの組み合わせを求めたい。

•  ハプロタイプの可能な組み合わせはSNPの数で指数関数的に増えるので、解析的に解くのは大変なので、サンプリングを用いる。

Page 8: Prml11 sup

ギブスサンプリングを用いる手法

•  適当に各genotypeに一致する全サンプルのhaplotypeを初期化

•  適当にⅠ個人を選択し、haplotypeを以下の基準に基づきサンプリング –  Haplotypeは個人間で共通していると期待されるので、他の人がもつhaplotypeに似たようなhaplotypeが選ばれるような確率に基づく。(実際には組み替えも考慮している。)

•  どんどん、haplotypeを更新していく。

Page 9: Prml11 sup

系統樹推定

Page 10: Prml11 sup

系統樹をMCMCで推定する 1.  初期化 2.  現時点の系統樹を部分的に変化させた系統樹候補を作る 3.  データ(距離行列等)をもとにした確率で受理確率が決まる 4.  繰り返す

A            A      C            G    A          C        

枝のつけ替え等

A            A      C            A    G          C        

何らかのモデルに基づいた確率に基づいて受理or棄却

Page 11: Prml11 sup

タンパク質立体構造予測

Page 12: Prml11 sup

タンパク質立体構造をMCMCで予測する

•  系統樹と同様のアプローチ

1.  現時点での立体構造に基づいた、立体構造候補を作成 2.  もとの立体構造と、候補の各自由エネルギーに基づいて受理or棄却

Page 13: Prml11 sup

細胞の動態シミュレーション

※思いつきで書いてるので、間違っているかも

Page 14: Prml11 sup

細胞の動態シミュレーションとは •  細胞の時系列の動きを観測したい。 •  でも直接観測することは難しこともある。

•  細胞の形のパラメータ(張力など)という部分的な情報から、サンプリングを用いて時系列変化をシミュレーションする。 •  個人的疑問 – 微分方程式と確率モデルとの使い分けってどうやるんだろうね。

Page 15: Prml11 sup

多分、こんな感じ

•  細胞の歪度などからエネルギーが計算でき、それに基づいたサンプリングをする?

•  ほんとは新しく頂点ができたり消えたりがあるよ

細胞 細胞

ランダムに頂点を選択し、 位置をサンプリング