de novo assembly and clc genome finishing module...2016/07/22 · sample to insight...
TRANSCRIPT
![Page 1: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/1.jpg)
Sample to Insight
De novo assembly and CLC Genome Finishing Module
株式会社キアゲン アプライドアドバンストゲノミクス
1
De Novo
Assembly
Design
Primers
Join Contigs Align Contigs Export
Contigs
contigs
against
contigs
contigs
against
related reference
genome
Manual
Editing
Tools
• Join overlapping contigs
• Resolve Misassemblies
• Close gaps
Error
correction
Long Read
Assembly
Sequence PCR
products
Raw
PacBio data
Add Reads
to Contigs
![Page 2: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/2.jpg)
Sample to Insight
データ管理
2
• データロケーション • Genomics Workbench ではデータ保存の階層のトップをLocationと呼びます。
• デフォルトのLocationはCLC_Dataが作成されていますが、左の図のようにLocationは追加可能です。
• Location の新規追加は、Navigation Area 左上のアイコンから作成可能です。シークエンスデータはサイズが大きいため、容量が大きいディスクへLocationを作成することをお勧めします。
• また解析が一通り終了し、バックアップや外付けのディスクへ移動する場合は、このLocation単位での移動をお願いします。
Location
Folder
Location 作成
Folder 作成
![Page 3: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/3.jpg)
Sample to Insight
今日のデータ
3
• データインポート
今日のデータは大腸菌のデータです。IlluminaのデータとPacBioのデータがそれぞれデモデータに入っています。
![Page 4: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/4.jpg)
Sample to Insight
4
CLC Genomics Workbench
データインポート
![Page 5: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/5.jpg)
Sample to Insight
データインポート
5
• リードデータインポート
SAM/BAMインポート*
シークエンサーデータインポート
SAM/BAMファイルは、マッピング後のデータにおいて利用される一般的なフォーマットです。
次世代シークエンサー以外のファイル
アノテーションファイルのインポート
![Page 6: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/6.jpg)
Sample to Insight
データインポート
6
• リードデータインポート:イルミナ
• リードファイルの選択
General options:共通のオプション
• Paired reads: ペアかどうか
• Discard reads names: リード名を捨てるかどうか(捨てないことをお勧め)
• Discard quality scores: クオリティスコアを捨てるかどうか(捨てないことをお勧め)
Paired options:ペアのオプション
• Paired-end: ペアエンドかどうか
• Mate-pair: メイトペアかどうか
ペアを選んだ場合はリード長を含めた距離を入力。
古いバージョンのIlluminaのソフトウェアで処理されたデータの場合は、バージョンを指定。
![Page 7: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/7.jpg)
Sample to Insight
データインポート
7
• リードデータインポート:イルミナ
Result handling:結果の扱い方
• Open: インポート後開く
• Save: インポートして保存
• Into separate folders: データごとにフォルダを作成するかどうか。複数ファイルをインポートする場合は、チェックを入れておくことで、データごとにフォルダが作成され、管理が容易になります。
![Page 8: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/8.jpg)
Sample to Insight
データインポート
8
• リードデータインポート:Ion Torrent
• リードファイルの選択
General options:共通のオプション
• Paired reads: ペアかどうか
• Discard reads names: リード名を捨てるかどうか(捨てないことをお勧め)
• Discard quality scores: クオリティスコアを捨てるかどうか(捨てないことをお勧め)
Paired options:ペアのオプション
• Paired-end: ペアエンドかどうか
• Mate-pair: メイトペアかどうか
ペアを選んだ場合はリード長を含めた距離を入力。
Ion Torrent オプション: .sffファイルでのインポートの場合、Clippingされた情報を使うかどうか、選択できる。
• Fastqかsffを選択可能
![Page 9: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/9.jpg)
Sample to Insight
データインポート
9
• リードデータインポート:Ion Torrent
Result handling:結果の扱い方
• Open: インポート後開く
• Save: インポートして保存
• Into separate folders: データごと
にフォルダを作成するかどうか。複数ファイルをインポートする場合は、チェックを入れておくことで、データごとにフォルダが作成され、管理が容易になります。
![Page 10: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/10.jpg)
Sample to Insight
データインポート
10
• リードデータインポート:Ion Torrent (Unmapped BAMファイル) ※注意
• Ion Torrentのシークエンサーデータを処理するTorrent Suitでは、バージョン3.0以降、デフォルトでは、fastqファイルやsffファイルが作成されず、Unmapped BAM ファイルが作成されます。Unmapped BAM ファイルは、Import > Standard Import よりインポートいただくことで、fastqファイルをインポートした場合と同じようにインポートが可能です。
マッピングデータとしてインポートされます。
リードデータとしてインポートされます。
![Page 11: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/11.jpg)
Sample to Insight
データインポート
11
• ゲノムインポート
• ゲノムデータは、よく知られているモデル動物についてはのDownload Genome よりインポートできます。
![Page 12: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/12.jpg)
Sample to Insight
データインポート
12
• ゲノムインポート
•ドロップダウンリストから生物種を選択。
• Download genome sequence: 新規にゲノムをダウンロードする場合。
• Use exsting genome sequence track: すでにダウンロードしたゲノムにアノテーションを追加する場合。以下のようにトラックのフォーマットになっているゲノムを選択。
![Page 13: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/13.jpg)
Sample to Insight
データインポート
13
• ゲノムインポート
•希望するアノテーションにチェックを入れる。ゲノム配列をダウンロードするときは、Sequences にもチェックを入れる。
•選択した生物種により、表示されるアノテーションの種類は異なります。
![Page 14: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/14.jpg)
Sample to Insight
14
NCBIで検索してインポート
または
• NCBI のサイトに検索をかけて、直接ゲノム配列をダウンロードすることができます
データインポート
![Page 15: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/15.jpg)
Sample to Insight
15
• 検索のキーワードを入れて、Start search をクリックします
• 目的の配列を選択して、Download and Save で配列をダウンロードできます
Search for Sequences at NCBI
データインポート
![Page 16: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/16.jpg)
Sample to Insight
データインポート
16
• アノテーションインポート
• Download Genome 以外にも、アノテーションファイルをインポート可能です。
• アノテーションとして取り込めるファイルは以下のフォーマットです。
• アノテーションファイルをインポートする際には、対象となるゲノム配列がすでにインポートされ、Trackのフォーマットになっていることが前提です。
• VCF
• GFF/GTF/GVF
• BED
• Wiggle
• Complete Genomics Var file
• UCSC Variation table damp
• COSMIC variation database
• ※変異のデータについても、アノテーションとして自分の変異へアノテーションとして情報の追加や比較ができるため、アノテーションのインポート可能フォーマットに含めています。
![Page 17: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/17.jpg)
Sample to Insight
データインポート
17
• アノテーションインポート
• アノテーションのインポートは、Import > Tracks より行います。
![Page 18: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/18.jpg)
Sample to Insight
データインポート
18
• トラックインポート
インポートするファイルのタイプを選択
インポートするファイルを選択
対象とする参照配列(ゲノム配列)を選択。あらかじめインポートされている必要があります。
![Page 19: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/19.jpg)
Sample to Insight
19
クオリティチェックとトリミング
![Page 20: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/20.jpg)
Sample to Insight
クオリティチェックとトリミング
20
• Quality Report作成: Create Sequencing QC Report
• インポートしたリードのクオリティがどのぐらいか、その後のトリミングや、PCR
Duplicate の状況などを確認するためにレポートを作成。
• トリミング: Trim Sequences
• アダプターの除去、クオリティスコアによる除去、長さを指定した除去などを選択・組み合わせてトリミング。
上記処理の後に再度Quality Reportを作成すると処理前と処理後でのリードのクオリティを比較でき、便利です。
![Page 21: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/21.jpg)
Sample to Insight
クオリティトリミング:原理
21
• クオリティスコア
• シークエンサーから出てきたリードは、各塩基ごとにエラーの確率の値を持っている。
• Genomics Workbench へインポートされた時点で、Phred Score に変換されるようになっています。Pred Score は、塩基のエラー確率のLogを取り、-10をかけてスコア化したものです。値が大きくなるほど精度が高いことをあらわしています。
Phred Score Error の確率 Base call の精度
10 1/10 90%
20 1/100 99%
30 1/1,000 99.9%
40 1/10,000 99.99%
50 1/100,000 99.999%
60 1/1,000,000 99.9999%
𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒 = −10 log10 𝑃𝑒𝑟𝑟
![Page 22: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/22.jpg)
Sample to Insight
QCレポート作成:Create Sequencing QC Report
22
• Navigation Areaから使用するリードデータを選択。
• Toolboxから NGS Core Tools > Create Sequencing QC Report を選択、ダブルクリック。
• ウィザードが起動し、選択したデータが選ばれていることを確認。
![Page 23: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/23.jpg)
Sample to Insight
QCレポート作成:Create Sequencing QC Report
23
• Quality analysis: クオリティスコアに関する解析。
• Over-representations analysis: 過度に現れているような塩基配列などの解析。
• Create graphical report: グラフィカルなレポート作成。
• Create supplementary report: 数値のレポート作成。
• Create duplicated sequence list: 重複のあった配列のリスト作成。
![Page 24: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/24.jpg)
Sample to Insight
QCレポート作成:Create Sequencing QC Report
24
24
• Graphical Report はグラフでのレポートです。
• Supplementary QC Report は、Graphical Report の数字版となり、エクスポートして作図に利用可能です。
![Page 25: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/25.jpg)
Sample to Insight
トリミング原理
25
• 3種類のトリミング
• あらかじめ登録されているアダプターの除去
•新規で独自の配列を登録することも可能 アダプター除去
• Quality Score を使い、Quality の低い配列が連続するようになる箇所からカット
•正確に読めていない塩基をいくつ許容するか クオリティトリミング
•塩基数を指定して、5末端、3末端をカット
• Quality Scoreでカット後、短くなりすぎた配列をカット
長さによる除去
![Page 26: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/26.jpg)
Sample to Insight
クオリティトリミング:原理
26
• クオリティスコア
• Trimming ではQuality Score を使い、累積のQuality Score がある一定の値より大きいものが続いた場合に、その箇所を取り除く、という処理を行います。
• 具体的には以下:
1. Phred Score をp値へ変換
2. Trimming 中に設定するパラメータ(Limit)とp値の差を計算
3. 差の累積和を計算。このとき、0以下の値は0とする
4. Trimming後のリード開始点は累積和がはじめて0以上になった点。Trimming後のリード終了点は累積和が最大の点
𝑃𝑒𝑟𝑟 = 10−𝑃ℎ𝑟𝑒𝑑𝑆𝑐𝑜𝑟𝑒
10
![Page 27: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/27.jpg)
Sample to Insight
27
0
20
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
リード配列 G C C C A T G T T C G A T G C
Phred score 4 8 15 30 32 23 10 31 31 20 15 11 10 10 9
p値 0.40 0.16 0.03 0.00 0.00 0.01 0.10 0.00 0.00 0.01 0.03 0.08 0.10 0.10 0.13
Limit - p値 (D) -0.35 -0.11 0.02 0.05 0.05 0.04 -0.05 0.05 0.05 0.04 0.02 -0.03 -0.05 -0.05 -0.08
(D)の累積和 0.00 0.00 0.02 0.07 0.12 0.16 0.11 0.16 0.21 0.25 0.27 0.24 0.19 0.14 0.06
スタート点:
累積和が0より大きくなった塩基
終了点:
累積和が最大を示す塩基
Phred score の棒グラフ
グラフより、ある程度クオリティが高くなった場所からリードを使い、クオリティが連続して悪くなっている箇所からリードをトリムしていることがわかる。
※途中、1塩基のみクオリティが低いような場合は、必ずしもトリムされない。これはできるだけリードを長く保とうとするため。
Limit = 0.05の場合
クオリティトリミング:原理
原理
27
![Page 28: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/28.jpg)
Sample to Insight
トリミング
28
• Navigation Areaから使用するデータを選択。
• Toolboxから Trim Sequences を選択、ダブルクリック。
• ウィザードが起動し、選択したデータが選ばれていることを確認。
![Page 29: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/29.jpg)
Sample to Insight
トリミング
29
• Trim using quality scores :トリミングに使用するLimitパラメータを決定
• Trim ambiguous nucleotides:N表
示される塩基について、最大何塩基まで保持させるか。
• 今回はアダプターは設定なし。
![Page 30: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/30.jpg)
Sample to Insight
トリミング
30
Trim bases
• 5末、3末の塩基数を指定してカット
Filter on length
• Quality Scoreによるトリミングであまり
に短いリードの除去など長さによるトリミング
• レポートの作成にチェック。
![Page 31: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/31.jpg)
Sample to Insight
トリミング結果
31
結果
• トリミング後は、トリムされたリードと、レポートを作成を選択した場合は、そのレポートが作成されます。
• トリミング結果のデータはファイル名の後に
trimmed という名前が付いています。ファイル
内容はインポート後のデータ同様に、配列と、クオリティスコアを含んだファイルとなっています。
![Page 32: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/32.jpg)
Sample to Insight
トリミングレポート
32
結果
![Page 33: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/33.jpg)
Sample to Insight
QCレポート 再作成による比較
33
エクササイズ
• トリミング後のデータでレポートを作成してみましょう!
Before After
![Page 34: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/34.jpg)
Sample to Insight
アダプターリストの作成
34
• 作成されたアダプターリストは、Trimmingツールの中で指定することが出来るようになります。
![Page 35: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/35.jpg)
Sample to Insight
35
De novo アセンブリ原理
![Page 36: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/36.jpg)
Sample to Insight
De novo assembly
36
• 原理
• Genomics Workbench では de brujin グラフというネットワーク理論に基づいた方法で de novo アセンブリを実行します。
• 各リードからさらに短い長さの配列のセットを作成し、グラフを作成。
• de Bruijn を利用しているオープンソースの方法ではvelvet が有名です。
ライブラリ配列
リード
Word セット
![Page 37: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/37.jpg)
Sample to Insight
De novo assembly
37
Word Size
de Bruijn グラフではリードを短い配列に分断し(word)、グラフを作成します。
(例) リード長 20, word size = 10 の場合は11個のwordができる。
すべてのリードに対して、同様にWordを作成。
リード
AGTTGATCTTACTAGAGGAA
1 AGTTGATCTT
2 GTTGATCTTA
3 TTGATCTTAC
4 TGATCTTACT
5 GATCTTACTA
6 ATCTTACTAG
7 TCTTACTAGA
8 CTTACTAGAG
9 TTACTAGAGG
10 TACTAGAGGA
11 ACTAGAGGAA
![Page 38: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/38.jpg)
Sample to Insight
De novo assembly
38
グラフ作成 (簡単な例としてWord size = 5 で考える)
AACGT
ACGTC
CGTCA
GTCAA
TCAAG
AACGT – ACGTC – CGTCA – GTCAA - TCAAG
AACGT
ACGTC
CGTCA
CGTCG
GTCAA
TCAAG
CGTCA - GTCAA – TCAAG
AACGT – ACGTC
CGTCG
AACGTCAAG
AACGTCAAG
AACGTCG
![Page 39: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/39.jpg)
Sample to Insight
De novo assembly
39
CGTCA - GTCAA – TCAAG - CAAGT - AAGTC
AACGT – ACGTC AGTCC - GTCCA
CGTCG - GTCGA - TCGAG - CGAGT - GAGTC
CGTCA - GTCAA – TCAAG
AACGT – ACGTC
CGTCG
このように作成される多くのグラフから様々なステップを経て、より確からしいContigを作成していく。
![Page 40: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/40.jpg)
Sample to Insight
40
• Word size = {21,31,41,51,61},
• Bubble size = {200,300,400,500,600}
• 計25パターンの組み合わせをそれぞれトリミング前・トリミング後のデータで実施
![Page 41: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/41.jpg)
Sample to Insight
41
De novo アセンブリ操作方法
![Page 42: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/42.jpg)
Sample to Insight
De novo assembly
42
• Navigation Areaから de novo assembly するデータを選択。
• Toolboxから De Novo Assembly を選択、ダブルクリック。
• ウィザードが起動し、選択したデータが選ばれていることを確認。
![Page 43: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/43.jpg)
Sample to Insight
De novo assembly
43
Guidance only reads:ここで指定したリードのセット
はグラフ作成には使われず、グラフにより作成されたContigの分岐やリピートを解消するために利用されます。
Contig length:作成するContigの最小長
Paired reads:
Auto-detect paired distances:ペアの距離を自動で推定する
Scaffoldingを行うかどうか。
Graph parameters
• Automatic word size:これにチェックを入れると、Wordサイズは自動で入力されたリード数
に応じて決定される。チェックをはずすと、任意で指定可能となる。
• Automatic bubble size:これにチェックを入れると自動でbubble size が決まる。自動の場合、110bp以下のリード長では50、それ以上ではリードの平均の長さがbubble sizeとなる。チェックをはずすと任意で指定可能。
![Page 44: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/44.jpg)
Sample to Insight
De novo assembly
Title, Location, Date 44
• Create simple contig sequence
(fast):コンティグのみ作成
• Map reads back to contigs (slow):
作成したコンティグにリードを張り付ける。作成されたコンティグの評価などのために行う。あとからリードをマッピング可能。
![Page 45: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/45.jpg)
Sample to Insight
De novo assembly
45
Map read back to contigs を選択した場合のパラメータ
• Mismatch cost:ミスマッチコスト
• Insertion cost:挿入のコスト
• Deletion cost:欠失のコスト
• Length fraction:フィルタリングで対象とする長さ
• Similarity fraction:Length fractionの
うち、どの程度の一致率以上のものを残すか。
• Global alignment:グローバルアライメントの有無
• Color space alignment, cost: SOLID
カラースペースのオプション
• Update contigs:マッピングの結果をContigに反映させるかどうか
• Create list of un-mapped reads:
マップされなかったリードのリストを作成するかどうか。
![Page 46: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/46.jpg)
Sample to Insight
De novo assembly
46
• 結果
• Contig 作成のみ
• Contig にリードをマッピングした場合
• Contig作成のみの場合と、マッピングをした場合は、結果を示すアイコンが少し違うので、気をつけましょう。
![Page 47: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/47.jpg)
Sample to Insight
De novo assembly
47
コンティグのみの場合の結果
• Reportには、N50やMax length などの統計情報
• 作成されたContig はMulti fasta としてエクスポートも可能
![Page 48: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/48.jpg)
Sample to Insight
De novo assembly
48
コンティグのみの場合の結果
• Alternative excluded: グラフからコンティグを作成する際に、枝分かれが排除された個所
• Contigs joined:コンティグが連結された個所
• Scaffold:スキャッフォールドされた場所でNNNが入っている場所
![Page 49: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/49.jpg)
Sample to Insight
De novo assembly
49
結果の見方
• マッピングテーブルの中から興味の対象となるContigを開くと、リードのマッピング結果が表示される。
![Page 50: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/50.jpg)
Sample to Insight
De Novo 注意点
50
クオリティトリミング
• De Novoでは、エラーが多いデータを使うと、非常に複雑なグラフが作成
され、メモリが非常に多く必要となります。データのクオリティを確認しながら、必要に応じて厳しめのトリミングを実行してください。
• クオリティの向上は作成されるContig数を減らすだけでなく、必要となるメモリが少なくなり、計算速度にも影響してきます。
![Page 51: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/51.jpg)
Sample to Insight
De Novo 注意点
51
• パラメータ設定
• 最適なWordサイズは、データ毎に異なります。何度か設定を変えて実行し、最適な値を決定するようになります。まずは自動で行ってみて、自動で決定されたWord sizeの前後10bp、または20bp
など幅をとって値を変更し、N50やContigの数が減少するかなどを見て、最適な値を決定してみてください。
• バブルサイズも同様ですが、バブルサイズを任意で変更して効果があるデータは454やIon PGM
などリード長が長く、ホモポリマーのエラーなどが含まれる場合に改善することがあります(詳細はホワイトペーパーに記載されています)。サイズの設定は、リード長の半分程度から、いくつか値を振って最適な値を検討するようになります。
![Page 52: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/52.jpg)
Sample to Insight
De novo の評価方法
• Contiguity
– N50の値が高いほどよい
– Contigの数が少ないほどよい
– 類似したゲノム、同様のシーケンス法での結果と比較する
• Completeness
– ゲノム領域のどれだけの部分がカバーされたか
• Correctness
– ミスアセンブリのチェック
– コンタミがないか?
![Page 53: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/53.jpg)
Sample to Insight
Microbial Genome Finishing Module 概要
53
• Add Reads to Contigs:リードをコンティグに追加(コンティグは近縁種にマップされていることが前提)
• Align Contigs:コンティグを近縁種にマップ。
• Analyze Contigs:コンティグにリードを張り付けた結果を解析。
• Annotate from Reference:参照配列のアノテーションをコンティグへ付ける。
• Collect Paired Read Statistics:ペアエンドの情報が正しくコンティグに反映されているか確認。
• Create Amplicons:リシーケンスするための個所をアノテーションとしてつけるツール
![Page 54: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/54.jpg)
Sample to Insight
Genome Finishing Module 概要
54
• Create Primers:プライマー設計のためのツール
• Extend Contigs:コンティグにリードをマッピングし、その結果からコンティグを伸長させる。
• Find Sequence:目的の配列を検索するツール。
• Join Contigs:コンティグ同士の連結
• Reassemble Regions:コンティグについて指定した領域を再アセンブリする。
• Remove Extension of Contigs:Extend Contigs にて伸長した部分を削除する。
• Sample Reads:リードが多すぎるような場合に指定した量を取り出すツール
• Correct PacBio Reads (beta): PacBio のエラー補正
• De Novo Assemble PacBio Reads (beta): PacBio アセンブラー
![Page 55: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/55.jpg)
Sample to Insight
Join Contigs
55
• Navigation AreaからIlluminaのコンティグデータを選択。
• Toolboxから Genome Finishing Module > Join Contigs を選択、ダブルクリック。
•ウィザードが起動し、選択したデータが選ばれていることを確認。
![Page 56: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/56.jpg)
Sample to Insight
Join Contigs
56
• Output options:
Create table of joined contigs: 連結されたコンティグのテーブル作成
Create tble of contigs not joined: 連結
されなかったコンティグのテーブル作成
• Use long reads: PacBio のエラーコレクション後のリードを選択
![Page 57: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/57.jpg)
Sample to Insight
Join Contigs
57
• Joinされた情報はアノテーションとして残っています。
Gap:ギャップのある個所
Old sequence: Joinされる前の配列
Overlap:オーバーラップのあった場所
![Page 58: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/58.jpg)
Sample to Insight
Join Contigs
58
結果
• Joinされたコンティグの方向性や重なった時の状態などが文字で記載されています。
![Page 59: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/59.jpg)
Sample to Insight
Join Contigs
59
結果
• Joinされなかったコンティグと、その理由が記載されている。
![Page 60: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/60.jpg)
Sample to Insight
Align Contigs
60
• Navigation AreaからIlluminaのコンティグデータを選択。
• Toolboxから Genome Finishing Module > Align Contigs を選択、ダブルクリック。
•ウィザードが起動し、選択したデータが選ばれていることを確認。
![Page 61: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/61.jpg)
Sample to Insight
Align Contigs
61
• References
Use input contigs as reference: コンティグ同士をアライメントさせる場合
Use selected references:指定した参照ゲノムへアライメントさせる場合
• BLAST options
BLAST word size:BLAST検索のWord size
Maximum BLAST e-value:BLAST検索のe-
value。小さい方が厳しい
• Match options
Minimum match size:表示させる際に、一致すべき最小塩基数。
![Page 62: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/62.jpg)
Sample to Insight
Align Contigs
62
結果
•開くとコンティグの情報がまず表示されます。参照ゲノムに張り付いた状態を調べるため、ビューを変更します。
![Page 63: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/63.jpg)
Sample to Insight
Align Contigs
63
表示の変更
•左から2つ目のShow Contigs Match
Table アイコンをクリック。
•各コンティグがどの程度参照ゲノムに張り付いたかを示す表が現れる。
![Page 64: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/64.jpg)
Sample to Insight
Align Contigs
64
表示の変更
•さらに見やすいビューを表示するために、どれか一つコンティグを選択した状態で、Show Contigs Matches ボタンをクリック
![Page 65: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/65.jpg)
Sample to Insight
Align Contigs
65
表示の変更
• Setting パネルより以下を行う
• Compactness をLow
• Show Annotation のチェックを外す
![Page 66: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/66.jpg)
Sample to Insight
Align Contigs
66
•コンティグがきれいに参照ゲノムへ張り付いているのが分かる。色が薄くなっているところは、完全一致していないところだが、同じコンティグにギャップが入ったり、重複があるとこのように表示される。
•ズームイン、ズームアウトでより大きく拡大して塩基レベルでの確認もできる。
![Page 67: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/67.jpg)
Sample to Insight
Map reads to Contigs
67
• Navigation AreaからIlluminaのリードを選択。
• Toolboxから Genome Finishing Module > Map reads to Contigs を選択、ダブルクリック。
•ウィザードが起動し、選択したデータが選ばれていることを確認。
![Page 68: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/68.jpg)
Sample to Insight
Map reads to Contigs
68
• Contigs used as Reference:参照するコンティグを選択
• Contig masking: マスキングの有無
No masking: マスクなし
Exclude annotated: 指定したアノテーション領域を排除
Include annotated only: 指定したアノテーション領域のみにマップ
• Contig update: マップされた塩基の多数決によりコンティグを補正する
![Page 69: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/69.jpg)
Sample to Insight
Map reads to Contigs
69
• Create reads track: トラックの作成
• Create stand-alone read mappings: スタンドアロンフォーマットの作成
• Create report: レポートの作成
• Collect un-mapped reads: マップされなかったリードをリストとして作成
![Page 70: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/70.jpg)
Sample to Insight
Map reads to Contigs
70
結果
![Page 71: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/71.jpg)
Sample to Insight
Map reads to Contigs
71
![Page 72: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/72.jpg)
Sample to Insight
72
マッピング原理
![Page 73: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/73.jpg)
Sample to Insight
マッピング原理
73
• 2つのステップ
1. ローカルアライメント
• 参照配列と似ている場所を探す
2. フィルタリング
• どの程度参照配列と一致しているリードをその後の解析に残すか
![Page 74: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/74.jpg)
Sample to Insight
マッピング原理
74
• マッピング原理
• スコアリング
• 最適なマップ場所をLocal Alignmentで探索
• Match = 1, Mismatch cost = 2
•
• リード配列(20bp)が全て一致した場合
CGTATCAATCGATTACGCTATGAATG
||||||||||||||||||||
ATCAATCGATTACGCTATGA
アライメントスコア = 20
![Page 75: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/75.jpg)
Sample to Insight
マッピング原理
75
• マッピング原理
• スコアリング
CGTATCAATCGATTACGCTATGAATG
|||||||||||||||||||
TTCAATCGATTACGCTATGA
CGTATCAATCGATTACGCTATGAATG
|||||| ||||||||||||
TTCAATCAATTACGCTATGA
CGTATCAATCGATTACGCTATGAATG
|||||| ||| |||||||
TTCAATCAATTGCGCTATGC
アライメントスコア = 19
アライメントスコア = 16
アライメントスコア = 10
![Page 76: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/76.jpg)
Sample to Insight
マッピング原理
76
• Affine gap cost :アフィンGapコスト
AATTCGCGCGGCATTCGCGCC
AAATCG----GCATTCGCGCC
50 match 50 + 6 + 4 x (-3) + 11 = 55
50 + 6 = 56
AATTCGCGCGGCATTCGCGCC
AAATCG----GCATTCGCGCC
AATTCGCGCGGCATTCGCGCC
AAATCG----GCATTCGCGCC
50 + 6 + (-6) + 4 x (-1) + 11 = 57
Read
Genome
アフィンGapコストを使った場合 (Gap open = 6, Gap extend = 1)
Linear gap cost の場合(Deletionコストが3の場合)
A
B
C
これまでのマッピングでは、Aのように本来マッピングすべきような場合でも、リードの末端部分をアライメントしない(Bのブルーの箇所)場合のほうが、アライメントスコアが高くなるため、大きな挿入や欠失がうまくマップできていないことがありました。アフィンGapコストの場合、このような問題を防ぐことができます。またGapを開くときのコスト(Open)と延長するときのコスト(Extend)が別に設定できることで、より細かくコントロールが可能になる場合があります。
![Page 77: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/77.jpg)
Sample to Insight
マッピング原理
77
• マッピング原理
• フィルタリング
• 最も高いアライメントスコアにマップされたリードのうち、どの程度参照配列と類似しているリードをその後の解析に残すのかを決定します。
![Page 78: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/78.jpg)
Sample to Insight
マッピング原理
78
• フィルタリング原理
• Length FractionとSimilarity パラメータを使って、どの程度アライメントされたリードを、マッピングされたものとして保持するか、決定します。
• Length Fraction とSimilarity は2つのパラメータの組み合わせで使用されます。
• Length fraction: フィルターをかける際に、考慮する長さ
• Similarity: Length Fraction で指定した長さのうち、どの程度類似しているものを残すか。
リード長:100 bp
デフォルトのLength Fraction, 0.5 100 bp x 0.5 = 50 bp,
デフォルトのSimilarity 0.8 50bp x 0.8 = 40 50塩基中40塩基が完全一致していることがフィルタリングの条件となる
Reference
![Page 79: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/79.jpg)
Sample to Insight
マッピング原理
79
• 2つのパラメータを使う理由
– リードの一部は似ているけれども、大きな挿入や、欠失によりリードの一部が参照配列と一致しない可能性がある場合
– トリミングが完全にできなかったクオリティの低い配列が末端部にある場合
(Length Fraction を小さくすることで、リードの一部に限定してアライメントの類似度を設定できる)
– 参照配列とほぼ一致するが、所々、1塩基の変異があると想定される場合
Reference
Reference
![Page 80: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/80.jpg)
Sample to Insight
Analyze Contigs
80
• Navigation Areaからリードをマップしたコンティグを選択。
• Toolboxから Genome Finishing Module > Analyze Contigs を選択、ダブルクリック。
•ウィザードが起動し、選択したデータが選ばれていることを確認。
![Page 81: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/81.jpg)
Sample to Insight
Analyze Contig
81
• General Parameters:
Minimum length:アノテーションする最小の長さ
Minimum distance to contig ends:コンティグの端の長さ
Ignore scaffold regions:Scaffold領域を無視するかどうか
• Coverage
Detect sudden change in coverage:カバレッジの急激な変化を検出させるか
Detect low coverage: 低いカバレッジ側の設定
Detect high coverage: 高いカバレッジ側の設定
• Unaligned reads
Detect unaligned read ends: アライメントされなかったリード末端の検出
![Page 82: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/82.jpg)
Sample to Insight
Analyze Contig
82
• Single stranded coverage: 1種類の方向のみのリードがマップされている領域の検出
• Nonspecific coverage: 繰り返し領域など、ユニークでない領域の検出
• Broken pairs: ペアが保たれていない個所の検出
![Page 83: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/83.jpg)
Sample to Insight
Analyze Contig
83
• Output options
Add analysis annotations:結果をアノテーションとして付加するかどうか
Create report:レポート作成の有無
Include contig specific statistics:コンティグ別に作成するかどうか
• Create annotation table:アノテーションの詳細を示すテーブルの作成
![Page 84: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/84.jpg)
Sample to Insight
Analyze Contig
84
結果
![Page 85: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/85.jpg)
Sample to Insight
Analyze Contig
85
結果
![Page 86: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/86.jpg)
Sample to Insight
Create Amplicons
86
•リシーケンスを行う領域を指定するため、まずはAnalyze
Contigs でアノテーションを付けたコンティグを抜き出します。
•コンティグをすべて選び、Extract Contigs を選択
![Page 87: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/87.jpg)
Sample to Insight
Create Amplicons
87
結果
•アノテーションが付いた状態のコンティグが作成できました。
![Page 88: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/88.jpg)
Sample to Insight
Create Amplicons
88
• Navigation Areaからコンティグを選択。
• Toolboxから Genome Finishing Module > Create Amplicons を選択、ダブルクリック。
•ウィザードが起動し、選択したデータが選ばれていることを確認。
![Page 89: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/89.jpg)
Sample to Insight
Create Amplicons
89
•Amplicon options: 作成したいアンプリコン
の長さを入れる。オーバーラップを許す場合、その長さも
•Amplicon placement: アンプリコンを作成したいアノテーションを選択
![Page 90: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/90.jpg)
Sample to Insight
Create Amplicons
90
•コンティグにアンプリコンと言うアノテーションが付いたことが確認できます。
![Page 91: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/91.jpg)
Sample to Insight
Create Primers
91
• Navigation Areaからコンティグを選択。
• Toolboxから Genome Finishing Module > Create Primers を選択、ダブルクリック。
•ウィザードが起動し、選択したデータが選ばれていることを確認。
![Page 92: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/92.jpg)
Sample to Insight
Create Primers
92
• Select regions to amplify: 増幅した
い領域のアノテーションを選ぶ。今回はアンプリコンとしてアノテーションを付けているので、アンプリコンを選ぶ。
• Primer type: PCR, Sequence
Forward, Sequence Reverse より選ぶ
• Edge Primers: チェックを入れると、
対象となる配列向きにプライマーが設計される。
• Primer placement: プライマー設計する位置
![Page 93: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/93.jpg)
Sample to Insight
Create Primers
93
![Page 94: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/94.jpg)
Sample to Insight
Create Primers
94
• Mispriming parameters: 間違ったプライ
マーのチェックを行うかどうか、完全一致するもののみを作成するかどうか
• Primerの名前の付け方
![Page 95: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/95.jpg)
Sample to Insight
Create Primers
95
•プライマーはアノテーションとしても確認できる。
![Page 96: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/96.jpg)
Sample to Insight
Create Primers
96
•プライマー配列はテーブルから閲覧でき、このままExportできる
![Page 97: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/97.jpg)
Sample to Insight
まとめ
• Genome Finishing Module はフィニッシングに必要な様々なステップをできるだけマニュアル作業なしで行えるツール群です。
• ビューアと組み合わせることでイメージしやすく、より効率的なフィニッシング作業が行えます。
• Genome Finishing Module はワークフローツールと組み合わせることで、自動化が可能です。
97
![Page 98: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/98.jpg)
Sample to Insight
98
PacBio 101
![Page 99: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/99.jpg)
Sample to Insight
PacBio 101
Title, Location, Date 99
• Why long reads?
Lee H, Gurtowski J, Yoo S: Error correction and assembly complexity of single molecule sequencing reads. bioRxiv 2014:1–17.
![Page 100: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/100.jpg)
Sample to Insight
PacBio 101
Title, Location, Date 100
Koren S, Phillippy AM: One chromosome, one contig: complete microbial genomes from long-read sequencing
and assembly. Curr Opin Microbiol 2015, 23:110–120.
![Page 101: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/101.jpg)
Sample to Insight
PacBio 101
Title, Location, Date 101
• Comparison with short reads technology
• These are rRNA regions which contains highly repetitive sequences.
Miyamoto M, Motooka D, Gotoh K, Imai T, Yoshitake K, Goto N, Iida T, Yasunaga T, Horii T, Arakawa K, Kasahara M, Nakamura S: Performance comparison of
second- and third-generation sequencers using a bacterial genome with two chromosomes. BMC Genomics 2014, 15:699.
![Page 102: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/102.jpg)
Sample to Insight
PacBio アセンブラー
102
ワークフローが搭載されており、このワークフローを実行すると自動でエラー補正、アセンブリが実行できます。
![Page 103: De novo assembly and CLC Genome Finishing Module...2016/07/22 · Sample to Insight データインポート 6 • リードデータインポート:イルミナ • リードファイルの選択](https://reader035.vdocuments.site/reader035/viewer/2022062505/5e99bc991441b313585ea1ac/html5/thumbnails/103.jpg)
Sample to Insight
103
お疲れ様でした。