短い部分文字列のミスマッチトレランスを高速計算するアルゴリズム

短い部分文字列のミスマッチトレランスを

高速計算するアルゴリズム

宇野毅明　（情報研）

2004 年 1 月 30 日 COMP 研

ミスマッチトレランスとはミスマッチトレランスとは

・文字列 L と ( L より短い ) 文字列 S に対してL の中で S に最も似ている ( S と同じ長さの ) 部分列との違いの大きさを「「 S のミスマッチトレンランのミスマッチトレンランス」ス」という

・「似ている」の尺度には、ハミング距離を用いる

　　　　　 ATGCCG 　　　　　　　 ATGCTG

　　　　　 ATCCCG AATGCT

　　　　　　　距離 1 　　　　　　　距離 5

応用：ジェンチップとマイクロアレイ

・「 DNA の中に、指定した 20 文字程度の部分列があると反応する試薬（ジェンチップ）」ができた

・ Q Q さんが X という遺伝子を持つか：　　１． X を 20 文字ずつにぶつ切り（オーバーラップするようにする）、　　２．それらに反応するような試薬を作る　　３． Q Q さんの DNA を入れて反応を見る

・全部に同じように反応するならば、遺伝子があるだろう

遺伝子遺伝子

QQ さんのさんの DNADNA

精度の高い判定をするために

・標的の部分以外に類似する部分列があると、そこが反応してしまうかも

・なるべく固有な（似たものがない）部分列で判定したい

・ミスマッチトレランスが大きい部分列に切る分ける

ミスマッチトレランスの既存研究ミスマッチトレランスの既存研究

入力：入力：　　　文字列 L 　　　と　　文字列 S

出力：出力：　　　 S のミスマッチトレランス

・ O(|L|+|S|) 時間で簡単にできる

・ suffix array のように、ある種のデータ構造を作成してから質問 (S のミスマッチトレランス ) に高速に答えるようなことは難しいようだ　（ QueryQuery と呼ぶ。ほんとはこれがしたい）

・「ミスマッチトレランスの下界」なら、データ構造で質問に高速回答できる（ O(|S|K) 時間、 K はパラーメータ、定数）（山田森下 02)

・一般のエディット距離でできるともっとうれしい

今回の問題今回の問題

入力：入力：　　　文字列 L 　　　と　　長さ k

出力：出力：　　　 L の各部分列のミスマッチトレランス　　（文字種は定数とする。総ミスマッチ計算総ミスマッチ計算と呼ぶ）

・普通に計算すると O(|L|2) 時間かかる

・ゲノムのような長い文字列に対しては、動かない　　　　　　 ( 30 億の 2 乗／ 1000MIPS 90≒ 億秒 ≒ 270270年年 )

・もう少しオーダーの小さい、あるいは実際に速いアルゴリズムが欲しい

今回の結果今回の結果

・総ミスマッチ計算に対する O(|L|2k) 時間アルゴリズム　　　　（線形時間！線形時間！ K=20 なら 30 億 ×100 万、もとの 300 倍）・実用的に高速にする改良　　　　（ K=20 なら 30 億 ×100? 、もとの 300 万倍）

・こんなこともできる　　・類似するペアを列挙（複数の文字列間も可）　　　　　⇒　ゲノムの比較に使える！　　・ O(|L|2k) メモリを使うと Query が O(2k) 時間で解ける　　・一般のエディット距離（係数が大きくなる）

基本のアイデア：類似の条件基本のアイデア：類似の条件

子問題１：子問題１：各部分列 S に対して、異なりが d 文字以下の部分列があるか

・ Yes 　⇔　 S と i1,…, ik-d 番目の文字が等しい部分列がある

子問題２：子問題２：i1,…, ik-d を固定。 i1,…, ik-d 文字目が等しい

他の部分列が存在する部分列を列挙

・ Radix ソートで O(|L|k) 時間

AC T CG T AC G CG AGA G TG AGA C TG CTG G TG A

基本のアイデア２：分類基本のアイデア２：分類

子問題３：子問題３：全ての i1,…, ik-d に対して、 i1,…, ik-d 文字目が等しい

他の部分列が存在する部分列を列挙　⇒ 各部分列のミスマッチトレランスが d 以下かどうか分かる


基本のアイデア２：分類基本のアイデア２：分類

子問題３：子問題３：全ての i1,…, ik-d に対して、 i1,…, ik-d 文字目が等しい

他の部分列が存在する部分列を列挙　⇒ 各部分列のミスマッチトレランスが d 以下かどうか分かる


O(|L|k kCd) 時間でできる

p=0,…,k 全てについて行うとO(|L|k 2k) 時間

実用上の高速化　１実用上の高速化　１

・全ての i1,…, ik-d に対して、毎回律儀にソートする必要は無い

・まず 1 文字目でソートしておけば、 i1,…, ik-d が 1 文字目を含むなら、このソートの結果を共同利用できる

・同様に、再帰的に i 文字目のソート結果を再利用できる

・何文字かでソートした際に、すでに等しい部分列がないものがでたら、以後それは考慮しなくて良い　⇒　計算時間の短縮

実用上の高速化　２実用上の高速化　２

！早めに共通部分のソートをした方が、同値類が小さくなる

・添え字集合 i1,…, ik-d を分類

　１． k/2 以下の添え字が k/2+1 以上のものより同じか少ない　２． k/2+1 以上の添え字が k/2 以下の添え字より少ない

１．は 1,…,k/2 文字目を先にソート２．は k/2+1,…,k 文字目を先にソートこれを再帰的に繰り返す

実用上の高速化　３実用上の高速化　３

・何文字かでソートした際に、すでに等しい部分列がないものがでたら、以後それは考慮しなくて良い

・何文字かでソートした際に、等しい部分列が少なくなったら、直接比較したほうが速い

（等しい部分列のグループ　＝　同値類同値類）

実用上の高速化　４実用上の高速化　４

・ i 文字目までをソートした

・そこまでの同値類で、全てのメンバーのミスマッチトレランスが d 以下だとすでにわかっている

⇒ その同値類は以後計算する必要はない

実験実験

・東芝ノート PC

・ Pentium III 750MHz 、 RAM 256MB （実際は 80MB 　）・ C で組み、 Windows 上の Linux 、 Cygwin で実行

・ Radix sort を 2k 回行ったもの、改良 1,2,3,4 を順々に加えたものを比較

・ d を k の 1-2割とし、ミスマッチトレランスがそれ以上のものは「それ以上」とだけ答えるようにした（実用性＆計算時間から）

実験：実験： k=20, d=2k=20, d=2

0.1

1

10

100

1000

10000

210 700 2100 7000 22950length

time(sec)

Originalmethod1method2method3method4

実験：実験： k=20, d=3k=20, d=3

1

10

100

1000

10000

210 700 2100 7000 22950length

time(sec)


実験：実験： k=40, d=4k=40, d=4

110

1001000

10000100000

1000000

length

time(sec)


実験：長さを実験：長さを 200200 万、ミスマッチ率万、ミスマッチ率10%10%

で固定、で固定、 kk を変化させるを変化させる

1

10

100

1000

10000

100000

20 30 40 50 60 70 80 length

time(sec)


Query Query に答えるに答える

・計算の再帰構造をメモリに記憶する

・与えられた文字列 S に対して、 S に関係する再帰だけをトレースすると、 S を含む同値類が列挙できる

　　⇒ S のミスマッチトレランスがわかる

・人間の Y染色体で行うと、 10GB くらいのメモリを使うことになるようだ。

類似する部分列のペアを列挙類似する部分列のペアを列挙

・各 i1,…, ik-p での同値類を計算し、大きさ 2 以上の同値類のメンバー同士は、ハミング距離が p 以下。そういうペアを全部出力

・ハミング距離が p 未満だと、複数回出力される（ちょうど p だと、ちょうど１回出力される）　　⇒ ハミング距離がちょうど p のペアのみ出力　　　　 p を 1 から k まで順に大きくする

・ゲノム A の部分列と B の部分列で似ているものを列挙、ということもできる

一般のエディット距離に拡張一般のエディット距離に拡張

・各 i1,…, ik-p でと j1,…, jk-p の組に対して、 i1 番目と j1 番目、 i2 番目と j2 番目 ,…,ik-p 番目と jk-p 番目が同じ部分列の組を見つければよい

　　　　　 A T G C C G 　　　　　　　 A T G C T G

　　　　　 A T C C C G A A T G C T

　　　　　　　距離 1 　　　　　　　距離 2

まとめ

・文字列の、長さ k の各部分列のミスマッチトレランスを線形時間で計算する、分類型アルゴリズムを提案した

・実用上速くなる手法を提案した（再帰的に分類、無用な再帰の省略）

・計算実験の結果を示した（ノート PC でも、何とかゲノムが扱える）

・類似する部分列のペアの列挙、一般の距離への拡張などの応用を示した

短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム

Documents

短い部分文字列のミスマッチトレランスを高速計算するアルゴリズム