ゲノムアセンブルのための TruSeq® Synthetic Long

Data Sheet: DNA Sequencing
ゲノムアセンブルのための TruSeq® Synthetic
Long-Read DNA ライブラリー調製キット
合成ロングリード技術とシンプルな解析の組み合わせが高精度なゲノムを提供します
特長
• 精度の高いアセンブル
図 1:TruSeq Synthetic Long-Read DNA
ライブラリー調製キットおよびバーコードキット
ショートリードをロングリードにアセンブルすることで、
de novo シーケンスおよびゲノムフィニッシングアプリ
ケーションを強化
• 包括的なライブラリー調製
マスターミックス試薬およびインデックスを予めいれた
384 ウェルプレートによりマニュアルでのピペット操作を
最小限に抑え、プロトコールを効率化
• 柔軟性をもたらすアプリケーション
イルミナ次世代シーケンサーを活用し、追加システムが
なくてもロングリードを構築
• 統合的解析及びアセンブル
ライブラリー調製からロングリードのワンクリックアセン
ブルまで、シーケンスフローのすべてを包括的にサポート
TruSeq Synthetic Long-Read DNA ライブラリー調製キットおよびバー
コードキットは合成ロングリードを生成するためにデザインされた DNA ラ
イブラリー調製キットです。 TruSeq Long-Read Assembly アプリは、
ショートリードからロングリードを構築することで、精確なゲノムアセンブ
ルおよびゲノムフィニッシングを可能にします。
はじめに
ロングリードは、ゲノム解析において、ショートリードを補完する
ために使用されています。ロングリードを使うことで、アライメン
トを容易に実施することができ、繰り返し配列などのこれまで解
析が困難な領域の詳細情報を得ることにより、ゲノムアセンブ
ルの精度を向上します。このような特長は、複雑な倍数体植物
ゲノムのアセンブル、または複雑な環境サンプルの特性評価な
どのメタゲノム研究に特に有用です。
TruSeq Synthetic Long-Read DNA ライブラリー調製キット
およびバーコードキット(図 1)は、高精度なロングリードを生成
する DNA ライブラリー調製用にデザインされています。また、
BaseSpace® 環境の TruSeq Long-Read Assembly アプリは、
ショートリードからロングリードを構築し、従来の方法よりさらに
精確なアセンブルを提供します。この方法は、広く利用されてい
る TruSeq テクノロジーとユーザーフレンドリーなソフトウェアを
組み合わせることで高精度なデータを提供し、de novo アセン
ブルおよびゲノムフィニッシングアプリケーションを強化します。
独自のライブラリー調製ケミストリー
TruSeq Synthetic Long-Read DNA ライブラリー調製キット
およびバーコードキットは、TruSeq および Nextera® ケミストリー
と合成ロングリードテクノロジーを組み合わせ、シーケンス用の
DNA ライブラリーを調製します(図 2)。バーコードキットには、
各ウェル中のサンプルをラベル化するための 384 のインデックス
が含まれています。これらのインデックスは、シーケンス後、合
成ロングリードを精確に構築するために使用されます。キットに
は、マスターミックス試薬およびインデックスプライマーが予め
入った 384 ウェルプレートが含まれています。このようなデザイン
により、マニュアルでのピペット操作のステップを最小限に抑え、
簡単な遠心ステップを使用して PCR によるバーコード化を可能
にします。別売りの TruSeq Synthetic Long-Read DNA アク
セサリーキットには、プレートのアレンジおよび遠心ステップのた
めのアライメントリングが含まれています。
ライブラリー調製は、500ng のゲノム DNA を約 10kb に断片化
することから始まります。アダプターをライゲーションした後、
10kb の断片をサイズ選択します(図 2A)。 次に、Nextera タ
グメンテーション反応により、各ウェル内の DNA 断片をさらに短
く断片化し、同時にタグ化を行います。(図 2B)。その後 PCR
増幅ステップで、サンプルに固有のインデックスを付加します。
384 のすべてのウェル由来のインデックス化された DNA 断片を
プールし、精製後にサイズ選択します
(図 2C)。このライブラリー
調製ステップは、6 時間のハンズオン時間を含め 3 日間で完了
することができます。調製したライブラリーは、イルミナ次世代
シーケンサーでシーケンスを行い(図 2D)
、TruSeq Long-Read
Assembly アプリによりショートリードを使用してロングリードを
構築します。
Data Sheet: DNA Sequencing
図 2:TruSeq Synthetic Long-Read による
DNA ライブラリー調製ワークフロー
図 3:C. elegans (線虫)由来の、エンドマークできた
ロングリードのサイズ分布
A
2,500
リード数
2,000
ライブラリー構築は、ゲノム DNA を約 10kb の長さに断片化する
1,500
1,000
0
ゲーションします。
1,500
1,900
2,300
2,700
3,100
3,500
3,900
4,300
4,700
5,100
5,500
5,900
6,300
6,700
7,100
7,500
7,900
8,300
8,700
9,100
9,500
9,900
10,300
10,700
11,100
11,500
11,900
12,300
12,700
13,100
13,500
13,900
14,300
14,700
500
ことからスタートします。その後、アダプターを DNA 断片にライ
リード長(bp)
B
C. elegans 由来の DNA ライブラリーは TruSeq Synthetic Long-Read
DNA ライブラリー調製キットを使用して調製し、ロングリードは TruSeq
Long-Read Assembly アプリを使用してアセンブルしました。その結果
をリード長(X 軸)ごとに完全にアセンブルされたロングリードの数(Y 軸)
で示しています。この図に使ったロングリードは、両末端がマーカーで
DNA 断片を 384 ウェル内で、クローン増幅します。
ラベル化され、かつ末端からもう一方の末端へアセンブルできたリードの
サブセットを表しています。リード長の中央値は約 8∼10kb です。
C
表 2:O. sativa (イネ)のゲノムアセンブル
増幅された DNA 断片は、さらにタグメント化され、PCR 反応に
より独自のインデックスが付加されます。その後、384 のすべての
ウェル由来のインデックス化された DNA 断片をプールし、精製後
にサイズ選択を行います。
パラメーター
結果
ロングリードの GC 含量
40.5%
ロングリードのリファレンスゲノムへの
アライメント
99.8%
コンティグのミスアセンブル率
D
2.5%
N50 サイズ
7,095bp
ロングリードに完全にアセンブルされた塩基
1,088Mb
GC 含量は QUAST を使用して算出しました。リファレンスゲノムにアラ
インしたロングリードの割合は、MUMmer を使用して決定しました。コン
調製したライブラリーのシーケンスを行います。TruSeq Long-Read
Assembly アプリにより、ショートリードからロングリードを構築します。
ティグのミスアセンブル率は、QUAST により定義されたミスアセンブル
ブレークポイントにアラインするロングリードの合計の割合を算出するこ
とによって決定しました。
TruSeq Synthetic Long-Read DNA ライブラリー調製キットは、シーケン
ス用に DNA ライブラリーを調製します。 TruSeq Long-Read Assembly
アプリにより、ショートリードをロングリードにアセンブルします。
図 4:O. sativa (イネ)由来の、エンドマークできた
ロングリードのサイズ分布
1,600
1,400
結果
ロングリードの GC 含量
35.6%
ロングリードのリファレンスゲノムへの
アライメント
99.9%
コンティグのミスアセンブル率
1.0%
N50 サイズ
9,125bp
ロングリードに完全にアセンブルされた塩基
1,182Mb
GC 含量は QUAST3 を使用して算出しました。リファレンスゲノムにアラ
インしたロングリードの割合は、MUMmer4 を使用して決定しました。コン
ティグのミスアセンブル率は、QUAST により定義されたミスアセンブル
ブレークポイントにアラインするロングリードの合計の割合を算出するこ
とによって決定しました。
1,000
800
600
400
200
0
1,500
1,800
2,100
2,400
2,700
3,000
3,300
3,600
3,900
4,200
4,500
4,800
5,100
5,400
5,700
6,000
6,300
6,600
6,900
7,200
7,500
7,800
8,100
8,400
8,700
9,000
9,300
9,600
9,900
10,200
10,500
10,800
11,100
11,400
11,700
12,000
12,300
12,600
12,900
13,200
13,500
13,800
14,100
14,400
14,700
パラメーター
リード数
1,200
表 1:C. elegans (線虫)のゲノムアセンブル
リード長(bp)
O. sativa Nipponbare 由来の DNA ライブラリーは TruSeq Synthetic
Long-Read DNA ライブラリー調製キットを使用して調製し、ロングリード
は TruSeq Long-Read Assembly アプリを使用して作成しました。その
結果をリード長(X 軸)ごとに完全にアセンブルされたロングリードの数(Y
軸)で示しています。この図に使ったロングリードは、両末端がマーカー
でラベル化され、かつ末端からもう一方の末端へアセンブルできたリード
のサブセットを表しています。リード長の中央値は約 8∼10kb です。
Data Sheet: DNA Sequencing
高精度なゲノムアセンブル
図 5:簡素化された解析
TruSeq Synthetic Long-Read DNA ライブラリー調製キットお
よびバーコードキットは、実績のある TruSeq テクノロジー 1 を
使用して、ロングリード用のライブラリーを調製します。また、
TruSeq Long-Read Assembly アプリでは、得られたショート
リードからロングリードを構築します。 TruSeq Synthetic LongRead テクノロジーを使うことで、追加のシーケンサーや更なる
カバレッジを必要とすることなく、高精度な結果をもたらします。
同様の精度を達成するために、より高いシーケンス深度および
特別な設備を必要とする従来の方法への依存が回避されます。
TruSeq 法では、約 6∼10kb の長さの隣接フラグメント(コン
ティグ)が構築されるため、相同性の高い反復領域間の識別に
は有用です。これらの長いコンティグは、ゲノムカバレッジを向上
させ、de novo ゲノムアセンブルをサポートします(表 1∼2)2。
サイズ選 択された長 い 断 片には両 末 端に特 異 的タグまたは
エ ンド マ ー カ ー が 含 ま れ て い る た め、TruSeq Long-Read
Assembly アプリを使 用して完 全にアセンブルされたロング
リードの数を可視化することができます(図 3∼4)。 TruSeq
Synthetic Long-Read テクノロジーは、精度を犠牲にすること
なく、解析が困難な領域のカバレッジを向上させるため、得られ
るアセンブルの信頼性が高まります。
直観的なユーザーインターフェースを特長とする TruSeq Long-Read
Assembly アプリは、バイオインフォマティックスに関する専門的知見に
関わらず、あらゆる生物学研究者のデータ解析を簡素化します。結果は
分かり易い表およびグラフにより表示されます。
図 6:TruSeq Long-Read Assembly アプリの
ワークフロー
装置のフレキシビリティー
ロングリードライブラリー調製
およびシーケンス
TruSeq Synthetic Long-Read DNA ライブラリーは、イルミナ
の HiSeq® 2500 または HiSeq 2000 システム上でシーケンス
することが可能です。 TruSeq 法では、複数のアプリケーション
に対して 1 台のシーケンス装置で貴重なロングリード情報への
ショートリードの前処理
シーケンスおよび PCR エラー補正
アクセスが可能なため、特別な装置を追加する必要はありま
せん。この方法により、従来のアプローチにかかるコストのほん
の一部で、ゲノムのより詳細な情報が提供されます。
コンティグアセンブル
ストリンググラフアセンブラー(SGA)
シンプルな解析およびアセンブル
BaseSpace 環境でのプッシュボタン解析により、ロングリード
のアセンブルを簡素化します。データはイルミナのシーケンサー
から BaseSpace クラウドに 即 座 に 転 送 さ れ ま す。 TruSeq
Synthetic Long-Read DNA ライブラリー 調 製 キットおよび
バーコードキットとともに使用するようデザインされた TruSeq
Long-Read Assembly アプリ 5 は、ショートリードからロングリー
ドを構築します。直観的なユーザーインターフェース(図 5)は、
データ解析を簡素化し、プロジェクトおよびファイルの保存先を
選択するだけでデータ解析が行えます。アプリではショートリー
ドを処理し、オーバーラップベースの方法を使用してイニシャル
コンティグをアセンブルし、最後に合成的にロングリードを構築
するためにコンティグのスキャフォールドを作成します(図 6)。
アセンブルされたリードはスタンダードの FASTQ フォーマットと
して出力され、さらなる解析のためにダウンストリームのアセン
ブ ルツー ルに直 接 取り込 むことが可 能です。 TruSeq LongRead Assembly アプリにより、初心者ユーザーでも、高度な
専門知識または基盤を必要とせずに、ワンクリックのインフォマ
ティックスが可能となります。
ロングリードアセンブル
コンティグのスキャフォールディング
アセンブルされたロングリード
(FASTQ)
TruSeq Long-Read Assembly アプリはシーケンスデータを使用して
ロングリードを構築し、結果は FASTQ ファイルで提供されます。
まとめ
ショートリードと TruSeq Synthetic Long-Read テクノロジーを
組み合わせることにより、1 台のシーケンサーから、従来のアプ
ローチと比較して高精度なロングリードを入手することが可能とな
ります。生物学者による利用を考慮してデザインされた TruSeq
Long-Read Assembly アプリは、バイオインフォマティックスを
簡素化することにより、研究者がデータ解析に費やす時間を短縮
し、 さら に 研 究 に 集 中 す る こと を 可 能 とし ま す。 TruSeq
Synthetic Long-Read テクノロジーは、ゲノムアセンブルおよび
ゲノムフィニッシングのための包括的ソリューションを提供します。
Data Sheet: DNA Sequencing
参考文献
製品情報
1. TruSeq | Illumina (www.illumina.com/truseq) Accessed 06 June
2014.
製品名
カタログ番号
TruSeq Synthetic Long-Read DNA
Library Prep Kit(4 サンプル)
FC-126-1001
TruSeq Synthetic Long-Read DNA
Barcode Kit(1 サンプル)
FC-126-1002
TruSeq Synthetic Long-Read DNA
Barcode Kit(4 サンプル)
FC-126-1003
TruSeq Synthetic Long-Read DNA
Accessory Kit
FC-126-1004
2. Public Data - BaseSpace (basespace.illumina.com/datacentral)
Accessed 06 June 2014.
3. Gurevich A, Saveliev V, Vyahhi N, Tesler G (2013) QUAST: quality
assessment tool for genome assemblies. Bioinformatics 15: 1072–5.
4. Kurtz S, Phillippy A, Delcher AL, Smoot M, Shumway M, et al. (2004)
Versatile and open software for comparing large genomes. Genome
Biol 5: R12.
5. BaseSpace (basespace.illumina.com) Accessed 06 June 2014.
イルミナ株式会社
〒108 - 0014
東京都港区芝 5 - 36 -7 三田ベルジュビル 22 階
Tel ( 03 ) 4578 -2800 Fax ( 03 ) 4578 -2810
www.illuminakk.co.jp
本製品の使用目的は研究に限定されます。
© 2014 Illumina, Inc. All rights reserved.
Illumina, BaseSpace, HiSeq, Nextera, TruSeq, the pumpkin orange color, and the Genetic Energy
streaming bases design are trademarks or registered trademarks of Illumina, Inc.
その他の会社名や商品名は、各社の商標または登録商標です。予告なしに仕様を変更する場合があります。
Pub. No. 770-2014-J011 12SEP2014
代理店