RDF化のガイドラインについて - DBCLS | ライフサイエンス統合

ライフサイエンスデータベース統合推進事業「統合化推進プログラム」
平成26年度キックオフミーティング
RDF化のガイドラインについて
片山 俊明 <[email protected]>
http://jp.linkedin.com/in/toshiakikatayama
情報・システム研究機構
ライフサイエンス統合データベースセンター
2014/6/2 @ NBDC (JST東京本部別館)
RDF 化に利用できるツール
• TogoDB - ユーザのデータを受け入れて DB 化、RDF 化
• RDF による統合, 高度検索技術, 情報統合化, コンテンツ整備
• TogoWS - ネット上の公共 DB を検索、データ取得、RDF 化
• インターネットを活用した高度検索技術の開発
• OntoFinder, OntoFactory - 適切なオントロジーの検索・構築
• キーワードから適切な BioPortal のオントロジーを検索、作成
• BioInterchange - GFF, GTF, GVF, VCF などの RDF 変換
• FALDO/SIO/GFVO オントロジーによるゲノム情報・変異情報の RDF 化
• その他 - 一般のツール、内製ツールなど
• Raptor/Rapper, ConvRDF, insdc2ttl, ensembl2ttl, taxdump2owl etc.
BioInterchange
http://togodb.org
TogoDB - 表形式のデータから高機能DBを構築
TogoDB
Create your DB in 5min
configure
外部URL
upload
CSVファイル
DBごとに汎用の
オントロジー管理
RDF生成
SPARQL検索
deploy
http://togodb.org/sparql/yourdb
endpoint
HTML, CSS, JS
カスタマイズ
分散REST検索 → Atom
http://togodb.org/search/yourdb/query
http://togodb.org/entry/yourdb/123
http://togodb.org/db/yourdb?column1=/regexp/&colmun2>50
TogoWS - RDF 変換を on-the-fly で実行
• エントリをウェブサービスで取得、TogoWS サーバ内でパースして動的に変換
• http://togows.org/entry/pubmed/20472643.ttl @prefix
@prefix
@prefix
@prefix
@prefix
TogoWS
様々な DB の最新情報を
その場で RDF 化
dc: <http://purl.org/dc/elements/1.1/> .
dcterms: <http://purl.org/dc/terms/> .
rdfs: <http://www.w3.org/2000/01/rdf-sch
prism: <http://prismstandard.org/namespa
medline: <http://togows.org/ontology/ncb
<http://pubmed.org/20472643>
medline:pmid
rdfs:label
"pmid:20472643" ;
dc:title
"pmid:20472643" ;
dc:identifier
<http://pubmed.org/20472
medline:own
"NLM" ;
medline:stat
"MEDLINE" ;
medline:da
"2010-06-25" ;
medline:dcom
"2010-09-27" ;
medline:lr
"2013-05-29" ;
medline:is
"1362-4962 (Electronic)"
medline:is
"0305-1048 (Linking)" ;
medline:vi
"38" ;
prism:volume
"38" ;
medline:dp
"2010 Jul" ;
prism:publicationDate
"2010-07" ;
medline:ti
"TogoWS: integrated SOAP
dc:title
"TogoWS: integrated SOAP
medline:pg
"W706-11" ;
prism:startingPage
"W706" ;
medline:ab
"Web services have becom
medline:ad
"Human Genome Center, In
medline:fau
"Katayama, Toshiaki" ;
dcterms:creator "Katayama, Toshiaki" ;
medline:fau
"Nakao, Mitsuteru" ;
dcterms:creator "Nakao, Mitsuteru" ;
medline:fau
"Takagi, Toshihisa" ;
dcterms:creator "Takagi, Toshihisa" ;
medline:au
"Katayama T" ;
On-the-fly SPARQL エンドポイント
• データのセマンティクスを明確にした RDF による運用が理想
• RDB については D2RQ などのミドルウェア
• NoSQL については ruby-rdf などを利用したミドルウェア
SPARQL検索 : SPARQL 1.1 の SERVICE クエリで分散統合検索
D2RQ
On the fly converter
GTF
RDF DB
triple store
RDB
relational DB
NoSQL DB
HyperEstraier
File
BAM, FASTQ
既存の運用中 DB があり移行が困難な場合
RDF データの可視化ツール
• TogoGenome - 基盤となるゲノム情報を RDF で集積、DB 化
• データベースの RDF による統合化, 大規模データの利用技術開発
• TogoStanza - TogoGenome, MicrobeDB.jp などで利用のフレームワーク
• RDF に対する SPARQL クエリの結果を HTML テンプレートで可視化
• その他 - SPARQL の結果は XML or JSON なので JavaScript で処理
• SIMILE Widgets の Exhibit など
• Google Visualization API による sgvizler
•
:
• jQuery, D3.js などの利用などなど
TogoGenome - RDF利用のメリット
• ゲノム情報の白地図を提供 (cf. Google マップ)
• RDF により多種多様なデータをゲノム座標に一元的に集約可能
• 異種データが統合されて初めて可能となる横断的な統計解析
• 世界中の研究者で分散アノテーションを協力して行う集合知
• ファセット検索 (cf. ショッピングサイト)
• オントロジーを利用して多様な切り口からデータを絞り込み可能
• 曖昧なキーワード検索では不可能だった意味に基づく正確な検索
• 今後の課題:統合すべきデータの拡充と標準化
• ヒトを含む真核生物ゲノムのサポートとドラフトゲノムへの対応
• INSDC/Ensembl/UniProt 等の国際連携による RDF データの標準化
• データ更新とバージョン管理、個人ゲノムのセキュリティなど
TogoGenome - RDFを活用したファセット検索
TogoGenomeでは全ゲノム情報に対し複数のオントロジーをファセットとして用いた
絞り込み検索が可能で、検索結果から環境・生物種・遺伝子などのレポートを表示
環境
生物系統
遺伝子機能
該当ゲノム・遺伝子のリスト
TogoStanza - RDFデータの可視化パーツ
ゲノムデータベースで多用される部品をスタンザと名付け、組み合わせて再利用可能
なカタチで提供 (MicrobeDB.jp, MBGD, CyanoBase 等と共同開発・相互利用)
遺伝子属性スタンザ
遺伝子分布スタンザ
遺伝子配列スタンザ
ゲノムブラウザ
TogoStanza - スタンザサーバの開発と相互利用
スタンザのユーザ
各地のサーバから自由に
スタンザを組み合わせて
自分のDBで利用
スタンザの開発者
Stanza
Stanza
Stanza
スタンザサーバを提供
SPARQL検索の結果を
SPARQL検索
結果
HTMLのIFRAMEで可視化
RDF DB
RDF DB
RDF DB
RDF DB
→ DBCLSではスタンザを容易に作成しサーバを公開するためのフレームワークも開発・提供
RDF サミット 2014/5/17-20
ヒトゲノム情報のRDF標準化のための国際戦略
INSDC
国際塩基配列DBのRDF標準化を働きかけ
ゲノムアノテーションのRDF標準化
配列座標の共通オントロジー開発
トランスクリプトームと転写制御
バイオ系DBのRDFで利用するURIを標準化
日本人・個人ゲノムとセキュリティ
制御領域
ゲノム
↑
rRNA遺伝子
コーディング遺伝子
↑ ↑
↑ ↑ ↑
↑
<exon>
rdf:type
<gene>
rdf:type
obo:SO_0000704 ;
faldo:location [ ... ] ;
rdfs:label
"geneA" ;
rdfs:seeAlso <UniProt> .
INSDC/RefSeq/Ensembl RDF:
↑
obo:SO_0000147 .
←
←
←
←
Sequence オントロジーの型
FALDO オントロジーの座標
遺伝子名などのラベル
関連情報へのリンク
<chromosome> sio:is-part-of <http://identifiers.org/refseq> .
<gene> rdf:type so:gene ;
sio:is-transcribed-into <mRNA> ;
so:so_part_of <chromosome> .
<mRNA> rdf:type so:mRNA ; # or so:transcript
sio:has-ordered-part <p1>, <p2>, ... .
<p1> sio:has-value "1"^^xsd:integer;
sio:referes-to <exon1> .
<p2> sio:has-value "2"^^xsd:integer;
sio:referes-to <exon2> .
<exon1> rdf:type so:exon ;
faldo:location <region1> .
<region1> rdf:type faldo:Region ;
faldo:begin <position1> ;
faldo:end <position2> .
<position1> rdf:type faldo:ExactPosition, faldo:ForwardStrandPosition ;
faldo:position 12345 ;
faldo:reference <chromosome> .
制御領域
ゲノム
↑
rRNA遺伝子
コーディング遺伝子
↑ ↑
↑ ↑ ↑
↑
↑
<exon>
rdf:type
<gene>
rdf:type
obo:SO_0000704 ;
faldo:location [ ... ] ;
rdfs:label
"geneA" ;
rdfs:seeAlso <UniProt> .
Reference annotations
(e.g., from Ensembl)
obo:SO_0000147 .
RDF
GFF
GFF
GFF
BioInterchange
GTF
GTF
GTF
GTF
GTF
GTF
GVF GVF GVF
GVF
GVF
GVF
←
←
←
←
Sequence オントロジーの型
FALDO オントロジーの座標
遺伝子名などのラベル
関連情報へのリンク
SPARQL to
• select a region of interest (FALDO)
• query reference annotations
• compare datasets for statistics
SIO/GFVO ontology for
• standardize annotation data
VCF
VCF
VCF
VCF
VCF
VCF
... those files require normalization as they often violate standards ...
http://genomicsandhealth.org/
Global Alliance for Genomics and Health
Over 180 organizations world wide (2013-14)
+ Google (since 2014/2/28)
To enable secure sharing of genomic and clinical data
The greatest need was a common framework of international standards
designed to enable and oversee how genomic and clinical data are
shared in an effective, responsible, and interpretable manner.
to develop this common framework, enabling learning from data
while protecting participant autonomy and privacy.
RDF 化のためのガイドライン
• URI が共通でないと RDF のグラフが繋がらない
• データベースプロバイダが提供するカノニカルな URI は cool URI でない事が多い
• RDF では Identifiers.org や Bio2RDF.org の URI を使用
• http://identifiers.org/taxonomy/9606
•
•
•
•
→
→
→
→
http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=9606
http://purl.bioontology.org/ontology/NCBITAXON/obo:NCBITaxon_9606
http://www.uniprot.org/taxonomy/9606
http://www.ebi.ac.uk/ena/data/view/Taxon:9606
• RDF のモデルやオントロジーが共通でないと SPARQL が再利用できない
• 類似のデータはできるだけ共通のオントロジーを利用
• SPARQL を書くには RDF を参照したり、
literal
literal
literal
URI
URI
literal
literal
• サンプルの SPARQL を参考にしたり、
• データ関係図を参照することが多い
URI
literal
• → ドキュメントの整備も重要
literal
URI
literal
literal
URI
URI
literal
URI
URI
URI
URI
URI
literal
literal
RDF 化のためのガイドライン
• EBI RDF の場合
• EBI 内の各 DB を RDF 化チームが変換
http://www.ebi.ac.uk/rdf/
RDF 化のためのガイドライン:今後の予定
• NBDC/DBCLS で RDF 化のノウハウを集積したポータルを提供予定
• 今後の SPARQLthon で合意できた点をガイドライン化
• NBDC/DBCLS で提供する RDF やツール
• 統合化推進プログラムで作成した RDF やドキュメント
• RDF のモデル図などは共通のフォーマットで整備していきたい
• 当面は SPARQLthon の Wiki を参照
• http://wiki.lifesciencedb.jp/mw/index.php/SPARQLthon
• RDF やオントロジーのノウハウ
• SPARQL の検索のノウハウ
• トリプルストアの調査
• TogoStanza などでの可視化支援
国内版 BioHackathon と SPARQLthon
• 国内版 BioHackathon - 国際版で得られた知見を国内の開発者にも還元
• BH10.10, BH11.11, BH12.12 と3年間継続、第4回の BH13.13 は1月27日∼31日に開催
• 日本語で国内のリソースについて議論し情報共有できるメリット
• SPARQLthon - ライフサイエンスデータベース統合推進事業の推進
• 2012年10月から2013年のトーゴーの日に向けて月1回で計12回の開催、その後も継続中
• RDFデータベースの構築とSPARQL検索に関わる諸技術はまだまだ発展途上
• 統合に必要なRDFデータの生成
• RDFで利用するオントロジーの開発
• RDFを格納するトリプルストアの運用
• より効率的なSPARQLの書き方
• RDFとSPARQLを活用したアプリケーションの開発
• ベストプラクティスの蓄積
平成26年度
今後の主な
統合化推進プログラム関連のミーティング予定
• RDF summit
• 5/17-20 (開催済み):INSDC, Ensembl でのゲノム情報 RDF 標準化
• SPARQLthon
• 6/18-19:第21回@DBCLS柏の葉、7/15-16:第22回、以後も毎月開催
• 統合の日
• 10/5:例年通りトーゴーの日にシンポジウムの開催
• BioHackathon 2014
• 11/9-14:東北大学メディカル・メガバンクと共催(仙台・松島)
• 国内版バイオハッカソン 14.14
• 日程未定
→ [email protected] のメーリングリストで告知しています
→ http://groups.google.com/group/biohackathon-jp からご登録下さい