アノテーション・フィルタリング用パイプラインと クリニカルレポートの作成

アノテーション・フィルタリング用パイプラインと
クリニカルレポートの作成
フィルジェン株式会社 バイオサイエンス部
([email protected])
1
クリニカルシーケンス解析パイプライン
1. リファレンスゲノム配列への
アライメント/マッピング
2. 変異の検出
3. アノテーション付けとフィルタ
リング
4. レポートの作成
2
臨床現場で活用する場合は・・・
 シンプルな操作性で、高度な専門知識がなくても使用できる。
 データを外部サーバーにアップロードせず、ローカルコンピュータ
のみで解析を行う。
 検出された変異データをまとめ、疾患情報と関連付けた
レポートを作成できる。
3
VarSeq®
 シンプルな操作で、変異データのアノテーショ
ン付け、フィルタリング、データの解釈が可能
 ワークフローを用いたユーザー独自の解析パ
イプラインを作成可能
 各種公共データベース、ユーザー独自定義
データベースによるアノテーション付け
• dbSNP
• ClinVar
• COSMIC
• 1000 Genome
• NHLBI 6500 Exomes
• SIFT and PolyPhen
...など
 家族内サンプルを用いたトリオ解析、
がん-正常サンプルの解析に対応
 各種グラフ表示機能
•
•
•
•
LD(連鎖不平衡)プロット
数値データプロット
BAMファイルプロット(ゲノムブラウザー)
アレル配列プロット
...など
4
製品ラインナップ
OncoMD-Access
VSPipeline
VSReport
•
がん関連変異データベース
•
コマンドライン解析用ツール
•
レポート作成モジュール
•
変異データへのアノテーション
付けに利用
•
複数サンプルデータのバッチ処
理に利用
•
フィルタリングを行った変異デー
タから、疾患レポートを作成
•
臨床試験やFDA承認薬の情
報などを含む
•
VarSeq®で作成したワークフ
ローを実行可能
•
変異と疾患との関連付けには
、OMIMデータベースの情報を
利用
•
ユーザー独自で構築したバイ
オインフォマティクス解析パイプ
ラインに組み込んでの使用が
可能
•
遺伝子パネルを用いた解析結
果のサマリーに有用
5
VarSeq®メイン画面
 クラウドコンピューティングを利用せず、ローカルマシンで解析を実行。
 シンプルなインターフェースを搭載し、直観的な操作で解析が可能。
フィルタリングワークフロー
変異データテーブル
ゲノムブラウザー
6
サンプルデータのインポート
VCFファイル
7
アノテーションデータのダウンロード

アノテーションデータはGolden Helix社のサーバー
から、データベース管理ツールを使ってダウンロード。

各アノテーションデータは、Golden Helix社によって
データの精査、メンテナンスが行われている。

データは生物種ごとに分類されており、解析に使用
する生物のデータをダウンロード可能。
8
アノテーションデータ例
Annotation例
•
AceViewGenes
•
ClinVitae
•
CCDS Genes
•
dbNSFP Functional Predictions
•
COSMIC Genes
•
dbscSNV Splice Altering Predictions
•
CpG Islands
•
dbSNP
•
Ensembl Genes
•
dbSNP Common
•
GenBank Genes
•
DGV Variants
•
NCBI Genes
•
ExAC VEP Annotations
•
OMIM Genes
•
GWAS Catalog
•
RefSeq Genes
•
NHLBI ESP6500SI-V2 Exomes Variant
•
1kG Phase3 – CNVs and Large Variants 5
•
SIFT Prediction for SNVs
•
1kG Phase3 – Variant Frequencies 5
•
PolyPhen2
•
1kG Pilot All – Low Coverage Sites
•
Pfam Domain Genes
•
ClinVar
•
UniProt Variants
•
ClinVar CNVs and Large Variants
...etc
9
フィルタリングワークフロー
フィルタリング項目
初期変異データ数
各フィルタリング項目の
条件をクリアしたデータ
数
フィルタリング結果の変
異データ数
 フィルタリングワークフローでは、フィルタリング項目が表示。
 フィルタリング項目は自由に追加・並べ替えが可能。
 フィルタリング条件を柔軟に変更し、変更結果がリアルタイムで反映される。
10
トリオ解析ワークフロー例
 家族内サンプルなど、複数データを同時に比較するワークフローを組む事も可能。
11
変異データテーブル
 Table画面では変異のテーブルデータが表示。
 テーブルデータには様々なアノテーションを追加することが可能
12
アノテーション情報
Annotation
 アノテーションカラムは自由に並び替えたり、表示・非表示に設定したりすることが可能。
13
変異データ詳細情報
 Detail画面では各変異の詳細情報や、カテゴリー分類のヒストグラムを確認
14
グラフ表示機能
 Linkage Disequilibrium(連鎖不平衡)プロット
 BAMファイルプロット
 数値データプロット
 アリル配列プロット
15
解析結果画面
解析手順
1. 解析サンプルのVCFファイルをインポート
2. アノテーション付加のデータベースを選択
3. フィルタリング条件の設定
4. 解析結果の変異データの詳細を確認
16
OncoMD-Access

がん研究にフォーカスした、ヒューマンキュレーションのナレッジデータベース

VarSeq®からアクセスし、アノテーション
付けに使用可能

変異や遺伝子の、関連する臨床試験
やFDA承認薬、さらに薬物ターゲットなど
の情報を含む
17
VSPipeline

解析作業のオートメーション化に利用

作成したワークフローのコマンドプログラムをロー
ドし、複数サンプルデータのバッチ処理が可能
18
VSReport

OMIMデータベースの情報に基づき、変異
または遺伝子の臨床情報とリンクしたレ
ポートを作成

レポートには、サンプル情報や実験情報な
ども記載し、カスタマイズも可能
19
VerSeq Viewer

無償で利用できる、専用のビューワーソフ
トを使用し、解析結果の共有や視覚化が
可能
20
日本人サンプルを用いた解析例
21
日本人変異データの準備
HGVDデータベースの活用

VarSeq®では、独自フォーマットの変異データファイルのインポートにも対応し、
HGVD (http://www.genome.med.kyoto-u.ac.jp/SnpDB/index.html) などの日本人
変異データの利用が可能。

インポートした日本人変異データは、アノテーション付けやフィルタリングに利用し、サンプル変異データ
から、日本人集団内で低頻度に存在する変異のみを抽出することが可能。

フィルタリングを行う際は、HGVDデータ内の変異データのサンプル数やリード深度情報も活用し、信
頼性の低い変異を除外することが可能。
22
独自フォーマットファイルのインポート
 テキストファイルであれば、HGVD以外にも様々なファイルをインポート可能。
23
ワークフロー例
例1:
がん関連変異の検出

HGVDデータ中に高頻度で存在する変異を除去し、日本人集団内に低頻
度で存在する変異のみのデータとしたうえで、がん関連データベースCOSMIC
に登録されている変異を抽出する。
HGVD
• 100サンプル以上かつリード深度30以上の
データを除去する。
COSMIC
• データベース内に含まれるデータのみを抽出
する。
24
ワークフロー例
例2:
病原性をもつと予測される変異の検出

日本人集団内に低頻度で存在する変異のみのデータとしたうえで、タンパク
質アミノ配列に変化を及ぼす変異、さらにそれらの中から病原性をもつと推定
される変異をピックアップする。
非同義変異
• タンパク質アミノ酸配列に変化を及ぼす変異
のみを抽出する。
PolyPhen2
• 生体に有害と判定された変異のみを抽出す
る。
25
ワークフロー例
例3:
トリオ解析によるde Novo mutationの検出

日本人集団内に低頻度で存在する変異のみのデータとしたうえで、父親、母
親、子供のデータでトリオ解析を実行する。
トリオ解析

父親、母親、子供のデータを読み込み、アリルが
両親では変異なしのホモ、子供ではヘテロのデータ
を抽出する。
26
レポート作成例
•
Illumina TruSight Myeloid Sequencing Panel
– Three replicates at different percentages of Horizon Dx known somatic
mutations with NA12877 (increase in dilution from 10%, 25% and 50%)
•
Comprehensive coverage of 54 genes designed to target exons of key
tumor suppressor genes and frequently cited oncogenes mutated
frequently in myeloid malignancies
•
BAM and VCF files for each replicate are available
•
Targeted regions are available in a BED file
•
High Coverage, average read depth over the targeted regions
– For the three replicate the average read depth is 2043 reads
27
レポート作成例
患者、サンプル、実験情報
パネルに含まれる遺伝子
検出された変異や遺伝子
の臨床情報
28
ソフトウェアの詳細は、以下の弊社Webサイトをご覧ください。
VarSeq®:
http://www.filgen.jp/Product/Bioscience4/goldenhelix/index2.html
お問い合わせ先:フィルジェン株式会社
TEL 052-624-4388 (9:00~17:00)
FAX 052-624-4389
E-mail: [email protected]
29