ヒト全ゲノムフェージングのための TruSeq

Data Sheet: DNA Sequencing
ヒト全ゲノムフェージングのための
TruSeq® Synthetic Long-Read DNA
ライブラリー調製キット
精確なゲノムフェージングにより共遺伝アリルおよびハプロタイプ情報を同定し、
複雑なヒトゲノムの包括的な情報を提供します。
特長
• ゲノム多型に関する詳細な情報
図 1:TruSeq Synthetic Long-Read DNA
ライブラリー調製キットおよびバーコードキット
フェージング情報により、従来法と比較してより包括的な
ハプロタイピングおよびアリル特異的な解析が実現
• 包括的なライブラリー調製
マスターミックス試薬およびプライム化 384 ウェルプレー
トによりマニュアルでのピペット操作を最小限に抑え、
プロトコールを効率化
• 簡単なフェージング解析
プッシュボタンソフトウェアでゲノムワイドのフェージング
解析を実施
• 高精度なデータ
ショートリードの精度とロングリードの豊富な情報を組み
合わせた方法により、より優れたゲノムフェージングカバ
レッジを提供
はじめに
これまでの全ゲノムシーケンスでは、一つのコンセンサス配列が
生成されますが、多型の起源である染色体の同定までは行われ
ません。つまり、現在使用されているショートリードのシーケンス
では、ゲノム中の一塩基変異多型(SNP)および挿入と欠失
(Indel)を同定することは可能ですが、これらがどちらの染色体
に由来するかは同定できませんでした。しかし、最近の研究結果
から、ヒトの二つの相同染色体に特徴的なコンテンツであるハプ
ロタイプまたはフェーズ情報が、DNA 配列と表現型との間の関
係を理解するために有用である可能性が示されています 1。 2 種
類の有害と考えられる変異が遺伝子内に発生した場合、アリルが
遺伝子の一方または両方のコピーの機能にどのような影響を与え
るかを知ることが、疾患の遺伝的要因の同定に役立つ可能性が
あります。
イルミナのフェージングテクノロジーは、合成ロングリードを使用
して、ヒトの全ゲノムフェージングを従来の方法よりも簡便、
かつ精確に、さらには費用効率の高いものとします 2。 TruSeq
Synthetic Long-Read DNA ライブラリー調製キットおよびバー
コードキット
(図 1)
は、全ゲノムシーケンスおよびそれに続くフェー
ジング解析のための DNA ライブラリー調製用にデザインされて
います。また、
BaseSpace® TruSeq Phasing Analysis アプリは、
高精度なショートリードからロングリードを構築し、相同染色体に
ハプロタイプ 情 報 を 対 応 さ せます。TruSeq Synthetic LongRead テクノロジーにより、de novo 変異をフェーズ化し、集団に
おける共遺伝アリルを同定することが可能となり、ヒトゲノムに関
するより詳細な情報が提供されます。
TruSeq Synthetic Long-Read DNA ライブラリー調製キットおよびバー
コードキットは全ゲノムシーケンスおよびフェージングのための DNA ライ
ブラリー調製用にデザインされています。 TruSeq Phasing Analysis ア
プリは、ショートシーケンスリードから長いフラグメントを構築することで、
ハプロタイプ情報の同定を可能にします。
ヒトゲノムのより詳細な情報
フェージングによりハプロタイプ情報を調べることにより、アリル
特異的解析、および変異の連鎖解析が可能となります(図 2)。
このような遺伝パターンにより、複数の遺伝子およびアリル間の
相互作用の影響を受けることが多い、複雑な形質感受性の研究
に情報がもたらされます。また、単一染色体上のシスまたはトラン
ス位のアリル、さらには染色体の乱れがいくつかの遺伝性疾患の
原因となる可能性があることから、フェージングは遺伝病研究に
も貴重な情報を提供することが可能です 3。
TruSeq Synthetic Long-Read テクノロジーでは、高精度なショー
トリードをロングリードにアセンブルし、ハプロタイプ情報を得る
ことで、トリオ解析および統計的推定などの、従来の不完全な
フェージング法への依存を回避しています。トリオ解析には、母
親と父親のゲノムのシーケンスが含まれるため、子供における
de novo 変異のフェージングは不可能です。 TruSeq 法では、ト
リオゲノムではなく、1 つのゲノムのみ必要とするため、トリオ解
析と比較してごくわずかなシーケンス材料しか使用しません。統
計的推定では、データベースのアップデートが頻繁に行われない
場合や、研究対象のゲノムが統計パターンを反映していない場
合、あるいはゲノム情報が不十分である場合には、性能が低下
する可能性があります。これとは対照的に、TruSeq 法では、シー
ケンスデータを統計的に補完しながら対象ゲノムを直接解析しま
す。このようなアプローチにより、有意な集団からのゲノムに対
して、長いハプロタイプ情報をもたらします。
Data Sheet: DNA Sequencing
図 2:フェージングによるハプロタイプ情報の同定
染色体上の多型配置
母系染色体
ATTGCATTCTATG
父系染色体
ATTACATTCGATG
染色体上の多型配置
G
T
ATTCATTCATG
A
G
フェージング無(コンセンサス配列)
ATTGCATTCTATG
ATTACATTCGATG
フェージング有(2 種類の異なる配列の同定)
ゲノムフェージングにより、相同染色体上の多型の識別が行われ、リンクパターンおよびアリル特異的な発現についての研究が可能となります。
独自のライブラリー調製ケミストリー
TruSeq Synthetic Long-Read DNA ライブラリー調製キット
およびバーコードキットは、TruSeq および Nextera® ケミストリー
と合成ロングリードテクノロジーを組み合わせ、シーケンス用の
DNA ライブラリーを調製します(図 3)。バーコードキットには、
各ウェル中のサンプルをラベル化するための 384 のインデックス
が含まれています。これらのインデックスは、シーケンス後、合
成ロングリードを精確に構築するために使用されます。キットには、
マスターミックス試薬およびインデックスプライマーが予め入った
384 ウェルプレートが含まれています。このようなデザインにより、
マニュアルでのピペット操作のステップを最小限に抑え、簡単な
遠心ステップを使用して PCR によるバーコード化を可能にしま
す。別売りの TruSeq Synthetic Long-Read DNA アクセサリー
キットには、プレートのアレンジおよび遠心ステップのためのアラ
イメントリングが含まれています。
ライブラリー調製は、500ng のゲノム DNA を約 10kb に断片化
することから始まります。アダプターをライゲーションした後、
10kb の断片をサイズ選択します(図 3A)。次に、Nextera タグ
メンテーション反応により、各ウェル内の DNA 断片をさらに短く
断片化し、同時にタグ化を行います。(図 3B)。その後 PCR 増
幅ステップで、サンプルに固有のインデックスを付加します。
384 のすべてのウェル由来のインデックス化された DNA 断片を
プールし、精製後にサイズ選択します(図 3C)。このライブラリー
調製ステップは、6 時間のハンズオン時間を含め 3 日間で完了す
ることができます。続いてライブラリーのシーケンスをイルミナ
次世代シーケンサーシステムで行います
(図 3D)。シーケンス後、
TruSeq Phasing Analysis アプリによりショートリードから合成
ロングリードが生成された後に、ゲノムフェージングが行われ、ハ
プロタイプ情報および変異リンクを同定します。
図 3:TruSeq Synthetic Long-Read DNA
ライブラリー調製ワークフロー
A
ライブラリー構築は、ゲノム DNA を約 10kb の長さに断片化する
ことからスタートします。その後、
アダプターを DNA 断片にライゲー
ションします。
B
DNA 断片を 384 ウェル内で、クローン増幅します。
C
増幅された DNA 断片は、さらにタグメント化され、PCR 反応によ
り独自のインデックスが付加されます。その後、384 のすべてのウェ
ル由来のインデックス化された DNA 断片をプールし、精製後にサ
イズ選択を行います。
D
調製したライブラリーのシーケンスを行います。TruSeq Long-Read
Assembly アプリにより、ショートリードからロングリードを構築します。
TruSeq Synthetic Long-Read DNA ライブラリー調製キットは、シーケン
スおよびフェージング用に DNA ライブラリーを調製します。 TruSeq
Phasing Analysis アプリでは、変異リンクおよび染色体特異的な変異を
同定し、ヒトゲノムの包括的な情報を提供します。
Data Sheet: DNA Sequencing
図 4:シンプルなフェージング解析
図 5:フェージング解析ワークフロー
ヒト全ゲノムシーケンス結果
フェージングライブラリー調製
(VCF)
およびシーケンス
ハプロイドフラグメント同定
ローカルフェージング
直観的なユーザーインターフェースを特長とする TruSeq Phasing
Analysis アプリにより、バイオインフォマティクスに関する専門的知見
グローバルフェージング
に関わらず、あらゆる生物学研究者のゲノムフェージングを簡素化しま
す。結果は分かり易い表およびグラフにより表示されます。
フェージング VCF
シンプルなフェージング解析
ライブラリー 調 製に加 えて、TruSeq のフェージング 法には
BaseSpace 環 境におけるプッシュボタン解 析が含まれます。
TruSeq Synthetic Long-Read DNA ライブラリー調製キット
およびバーコードキットとともに使用するようデザインされた
TruSeq Phasing Analysis アプリは、全ゲノムシーケンス結果を
ロングリードのデータと組み合わせることにより、ハプロタイプ
コンティグを生成します。直観的なユーザーインターフェース(図
4)は、データ解析を簡素化します。全ゲノムシーケンス結果を
変異コールフォーマット(VCF)でアップロードしてアプリを立ち
上げるだけで全ゲノムのフェージングが行えます。
先ず、アプリは TruSeq Synthetic Long-Read DNA バーコード
キットからのインデックスに関連したショートリードを使用して、各
ウェルから隣接したハプロイドフラグメントを同定します。次に、
オーバーラップするヘテロ接合性 SNP を有するフラグメントをつ
なぎ合わせることにより、ローカルフェージングが行われます。
最後に、グローバルフェージング過程において、統計学的補完を
利用してハプロタイプフラグメントがフェージングされた全ゲノム
配列にアセンブルされます
(図 5)。アプリはハプロタイプコンティ
グおよび信頼性スコアを、フェージングされた VCF ファイルで提
供します。この業界標準のフォーマットは、詳しい解析および視
覚化を行うための様々な下流解析ツールと互換性があります。
TruSeq Phasing Analysis アプリは、複雑な統計解析を必要とし
ない、ワンクリックのゲノムフェージングを可能とします。
高精度なデータ
TruSeq 法は、96% 以上の SNP のフェージングのために、独自
のライブラリー調製ケミストリーと統計解析を組み合せます。
TruSeq Phasing Analysis アプリは、全遺伝子 5 内の 94% 以上
において 70% 以上の変異をフェージングし(表 1 )、 99% を
超える精度を達成しています(図 6)。高品質のデータを新しい
ア ルゴリズムと組 み 合 わ せることにより、TruSeq Synthetic
Long-Read 技術は、実験的または統計的なアプローチと比較
して、より包括的なハプロタイプ情報を提供します。
TruSeq Phasing Analysis アプリは、複雑な解析も統計計算も必要とせ
ずに、ゲノムワイドのフェージングを可能とします。 VCF ファイルをアップ
ロードして、適切なシーケンスランを BaseSpace 内で選択するだけです。
アプリはハプロタイプフラグメントをアセンブルしてゲノム全体において遺
伝子および変異をフェージングし、フェージング VCF ファイルを提供し
ます。
表 1:TruSeq Phasing Analysis アプリの結果
個人
個人
個人
個人
NA12877
NA12878
NA12891
NA12892
グローバル
N50(bp)
846,345
581,317
700,672
597,340
フェージング
(ローカル)
92.2%
90.7%
92.5%
90.7%
フェージング
(グローバル)
98.7%
98.2%
98.5%
98.1%
グローバル
N50(bp)
860,793
587,396
712,926
606,037
フェージング
(ローカル)
86.3%
85.4%
87.9%
85.5%
フェージング
(グローバル)
92.8%
92.8%
93.8%
92.8%
パラメーター
SNP
SNP および Indel
遺伝子フェージング(SNP およびインデル)
100% の変異
フェージング
45%
44%
47%
44%
70% の変異
フェージング
95%
95%
95%
94%
個人 NA12877、NA12878 および NA12891 は、血縁関係であり、
個 人 NA12892 は 血 縁 関 係 で は あ りま せ ん。 TruSeq Synthetic
Long-Read DNA ライブラリー調製キットを使用して DNA ライブラ
リーを調製し、解析は TruSeq Phasing Analysis アプリを使用して行
いました。TruSeq Phasing Analysis アプリからの結果はフェージング
された多型の割合およびハプロタイプフラグメントの N50 長を示し、
アプリによりヒトゲノム内の大部分の変異と遺伝子がフェージングされ
たことが示されています。
Data Sheet: DNA Sequencing
TruSeq Synthetic Long-Read DNA ライブラリー調製キットお
よびバーコードキットは、ヒト全ゲノムのシーケンスおよびフェー
ジング用のライブラリー調製のためにデザインされています。
ショートリードから合成ロングリードを構築することにより、従来の
トリオ解析および統計的推定と比較してより包括的で精確な
フェージングが提供されます。 BaseSpace 内でのシンプルな解析
により、最短のハンズオン時間でゲノム全体のフェージングを行
うことが可能となります。 TruSeq Synthetic Long-Read DNA
ライブラリー調製キット、バーコードキット、および専用アプリ
の組合せにより、シンプルで精確かつコスト効率の高い全ゲノム
フェージングが実現します。
図 6:高いフェージング精度
100
99.5
99
精度パーセント
まとめ
98.5
98
ローカル
97.5
グローバル
97
96.5
96
95.5
95
NA12877
NA12878
NA12891
ゲノム
フェージング精度は、ローカルハプロタイプの編集率およびグローバ
参考文献
1. Tewhey R, Bansal V, Torkamani A, Topol EJ, Schork NJ (2011) The
importance of phase information for human genomics. Nat Rev Genet
12:215–23.
2. Kuleshov V, Xie D, Chen R, Pushkarev D, Ma Z, et al. (2014)
Whole-genome haplotyping using long reads and statistical methods.
Nat Biotechnol 32:261–6.
ルのスイッチエラー率に基づくものです。 TruSeq Phasing Analysis
8
アプリは Browing, SR ら(2011 年)
の方法を改良して、Platinum
Genomes Project 6(NA12877 および NA12878)および Complete
Genomics7(NA12891)由来のリファレンスデータとの比較において、
99% を超える精度を達成しています。これらの結果は、CEPH ファミ
リー由来の高品質 DNA を使用して生成されました。
3. Kleinjan DJ, Coutino P (2009) Cis-ruption mechanisms: disruption of
cis-regulatory control as a cause of human genetic disease. Brief
FunctGenomic Proteomic 8: 317–32.
製品情報
4. BaseSpace (basespace.illumina.com) Accessed 04 June 2014.
製品名
5. Public Data - BaseSpace (basespace.illumina.com/datacentral)
Accessed 04 June 2014.
6. Platinum Genomes | Illumina (www.illumina.com/platinumgenomes)
Accessed 04 June 2014.
7. Complete Genomics > > LFR (www.completegenomics.com/LFR)
Accessed 04 June 2014.
8. Browning SR, Browning BL (2011) Haplotype phasing: existing
methods and new developments. Nat Rev Genet 12: 703–14.
イルミナ株式会社
〒108 - 0014
東京都港区芝 5 - 36 -7 三田ベルジュビル 22 階
Tel ( 03 ) 4578 -2800 Fax ( 03 ) 4578 -2810
www.illuminakk.co.jp
本製品の使用目的は研究に限定されます。
© 2014 Illumina, Inc. All rights reserved.
Illumina, BaseSpace, Nextera, TruSeq, the pumpkin orange color, and the Genetic Energy
streaming bases design are trademarks or registered trademarks of Illumina, Inc.
その他の会社名や商品名は、各社の商標または登録商標です。予告なしに仕様を変更する場合があります。
Pub. No. 770-2014-J010 25SEP2014
カタログ番号
TruSeq Synthetic Long-Read DNA Library
FC-126-1001
Prep Kit(4 サンプル)
TruSeq Synthetic Long-Read DNA
Barcode Kit(1 サンプル)
FC-126-1002
TruSeq Synthetic Long-Read DNA
Barcode Kit(4 サンプル)
FC-126-1003
TruSeq Synthetic Long-Read DNA
Accessory Kit
FC-126-1004
代理店