CellMontage

平成23年度 第一回データベース講習会@お台場
「創薬研究における統合データベースの活用」
ヒト細胞 細胞分化デ タベ ス
ヒト細胞・細胞分化データベース
CELLPEDIA/CellMontage
CELLPEDIA/
CellMontageの活用
の活用
産業技術総合研究所
生命情報工学研究センター
生命情報工学研究
センター
細胞機能設計チーム
千葉啓和,, 幡野晶子,
千葉啓和
幡野晶子, 藤渕航
ヒト幹細胞研究の進展と
その創薬応用に向けて
創薬応
向
多様なiPS細胞の作製
多様なiPS
細胞の作製
各組織細胞の分化誘導、創薬に応用
Muscle cell
細胞情報の多様化・大規模化
多様化・大規模化
iPS cells
細胞情報データベース・・
細胞情報データベース
高速検索ツールの必要性
高速検索ツ
ルの必要性
Pancreas cell
Blood cell
ヒト細胞・細胞分化デ タベ ス
ヒト細胞・細胞分化データベース
および検索ツールの紹介
CELLPEDIA
遺伝子発現プロファイル検索: CellMontage
遺伝子モジュール検索: SAMURAI
ヒト細胞・細胞分化デ タベ ス
ヒト細胞・細胞分化データベース
および検索ツールの紹介
CELLPEDIA
遺伝子発現プロファイル検索: CellMontage
遺伝子モジュール検索: SAMURAI
ヒト細胞統合データベース
CELLPEDIA
ヒト細胞統合データベース
CELLPEDIA
ヒト細胞の分類、
ヒト細胞の分類
、遺伝子発
現データ、
データ、形態
形態
正常細胞デ
正常細胞
正常細胞データ
デ
データ
タ
2296細胞種分類、
2296
細胞種分類、365
365画
画
像、878
像、
878遺伝子発現データ、
遺伝子発現データ、
336論文
336
論文
幹細胞データ
36画像、
36
画像、92
92遺伝子発現
遺伝子発現
データ、86
データ、
86論文
論文
細胞分化データ
細
分
ユーザーからのサブミッション
可能
CELLPEDIAの細胞分化データ
CELLPEDIA
の細胞分化データ
(文献から抽出)
Pancreatic cell(膵細胞)
cell(膵細胞)は何から分化するか?
は何から分化するか?
親細胞は膵前駆細胞(さらにその親は膵幹細胞)
親細胞
は膵前駆細胞(さらにその親は膵幹細胞)
Pancreatic <<- Pancreatic progenitor <- Pancreatic stem
分化転換する
分化転換するのは小腸幹細胞、肝前駆細胞
分化転換
する は小腸幹細胞 肝前駆細胞
するのは小腸幹細胞、肝前駆細胞
Pancreatic <
<-- Small intestinal stem
Pancreatic <<- Liver progenitor
ヒト細胞・細胞分化デ タベ ス
ヒト細胞・細胞分化データベース
および検索ツールの紹介
CELLPEDIA
遺伝子発現プロファイル検索: CellMontage
遺伝子モジュール検索: SAMURAI
遺伝子発現プロファイル検索
CellMontage
遺伝子発現プロフ イル検索 CellMontage
遺伝子発現プロファイル検索
C llM
CellMontageの遺伝子プロファイル比較法
CellMontage
の遺伝子プロファイル比較法
(H16下期産総研優秀特許
(H16
下期産総研優秀特許158
158選
選)
UniGeneIDにより8割以上のGEOアレイデータが検索可能
開発アルゴリズム(GIW
(
2006)により通常の5倍以上高速
)
重み付き順位相関係数でクロスプラットフォームにも対応可能
ソフトウェア配布→ProfileMatcher-1.0.1.tar.gz
High
Expression
Gene Rank Order
Low
Expression
W. Fujibuchi, L. Kiseleva, T. Taniguchi, H. Harada, P. Horton, Bioinformatics (2007)
n
Gene Weighted
Rank Correlation:
CorrW x1, x 2  
 w r g   r w r g   r 
i 1
i
1w
i 2
i
2w
i
n
n
 w r g   r   w r g   r 
2
i 1
i
i
1w
2
i 2
i
i
2w
, r1w 
w i r1 gi 
n
w
i
i
, r2w 
w i r2 gi 
n
w
i
i
CellMontage検索で得られる情報
CellMontage
検索で得られる情報
はっきりと知られていなかった細胞間の類似性(例:Pancreasで検索)
pancreas(4)、stomach(1)、pancreas(2)、small intestine(1)、liver(1)
Fetal Liver
Adult Liver
Skeletal Muscle
類似細胞と分化転換のしやすさ
肝臓、膵臓、小腸、胃などはお互いに変換可
能な細胞である
Liver
Pancreas
Small Intestine
Stomach
http://www.aki.che.tohoku.ac.jp/soft-j.html
類似細胞ネットワーク表示
膵臓から深さ2の類似細胞ネットワーク
遺伝子発現プロファイル検索
GEO(138,832 UniGene / 119,474 Refseq)
ArrayExpress(30 168 UniGene/ 30,065
ArrayExpress(30,168
30 065
Refseq)
例 embryonic
例:
b
i stem
t
sapiens
i
を入れて検索
遺伝子発現プロファイル検索
結果をそのままクエリーに
してプロファイル比較可能
ヒト細胞・細胞分化デ タベ ス
ヒト細胞・細胞分化データベース
および検索ツールの紹介
CELLPEDIA
遺伝子発現プロファイル検索: CellMontage
遺伝子モジュール検索: SAMURAI
遺伝子モジュール検索
SAMURAI
遺伝子モジュール検索 SAMURAI
遺伝子モジュール高速検索システム
トランザクションデータベース
飽和アイテム集合
Θ以上の消費者に同時に購
入される商品の最大集合
マイニング
θ = 最少サポート値
高速アルゴリズムLCM
高速アル
リ
((T. Uno et al.,, 2004))
離散化された発現データ
遺伝子2
遺伝子3
遺伝子4
H…高発現
遺伝子5
Θ以上の実験で同じ発現パタン
を持つ遺伝子の最大集合
バイクラスタリング
実 験
遺伝子1
飽和アイテム集合(=モジュール)
L…低発現
O…その他
A H
C H
E H
H
H
H
B L
D L
L
L
SAMURAIによる発見モジュールの例
SAMURAI
による発見モジュールの例
ヒトの組織細胞の発現デ タ 適用(
ヒトの組織細胞の発現データへ適用(20,703遺伝子×83細胞種)
遺伝子
細胞種)
脳細胞で発現し、心臓で抑制さ
脳細胞で発現し
心臓で抑制さ
れる遺伝子のモジュール
ポタシウム カルシウムチャネル
ポタシウム・カルシウムチャネル
グルタミン酸レセプター
グ
プ
ホルモンレセプター
近年、脳で強く発現していることが報告された
遺伝子(GALNT9, MOBPなど)
他手法との性能比較(以前のバージョン)
人工的に埋め込まれたモジュールの抽出精度
本法(網羅探索)と他手法(Bi
本法(網羅探索)と他手法(Bimaxのみ網羅探索)によって抽出されたモジュール
のみ網羅探索)によ て抽出されたモジ
ル
Implanted modules
Bimax(分割で)
(分割 )
OPSM
ISA
Samba
4500
計算時間 >
4436 sec
テストデータ:
S. Cerevisiae,
2993遺伝子 and 173 実験
Pentium4, 2,4GHz CPU, 1GB RAM,
Linux上でテスト
896 sec
1000
800
600
400
378 sec
365 sec
142 sec
58 sec
200
0
SAMURAI OPSM
ISA
Okada, Y., Horton, P., and Fujibuchi, W. (2007), IAENG 34
Awarded “Certificate of merit” in Bioinformatics session
SAMBA
CC
Bimax
CC
SAMURAIの高速・高性能化
SAMURAI
の高速・高性能化
の高速
高性能化
ユーザーのクエリプロファイルと類似したモジュールを探索する⇒
データの大規模圧縮が可能(=高速)
デ
タの大規模圧縮が可能( 高速)
SAMURAIモジュール機能の統計評価
SAMURAIモジュール機能の統計評価
圧倒的に有意な機能モジュールが含まれる
圧倒的に有意な機能
ジ
ルが含まれる
KEGG
パスウェイ評価
Significancee of KEGG pathways (‐logg10P)
( ) Extracted
(a)
E t t d (raw)
(
) modules
d l
GO/KEGGとも
P<10-10でも
多数存在
製薬ITソリューションEXPO(2008.7.3)で発表
製薬ITソリューションEXPO(2008.7.3)
で発表
 日刊工業新聞掲載
日刊工業新聞掲載(2008.7.3)
(2008.7.3)
(
)

遺伝子データ高速探索ツール販売
 日経
日経BP
BPバイオテクノロジー
バイオテクノロジーJNL
JNL取材
取材(2008.7.4)
(2008.7.4)

DNAマイクロアレイやDNA
DNAマイクロアレイや
DNAシーケンサーのデータ解
シーケンサーのデータ解
析に用いるシステム
(b) Gene‐shuffled modules
遺伝子シャッフル後
出版物
Significance of GO terms (‐log10P)
英文著書: Fujibuchi, W. et al,
Methods in Mol. Biol., 2009.
GO遺伝子機能グループ評価
22
次世代創薬に向けた
CELLPEDIA利用法
CELLPEDIA
利用法
演習
23
1. CELLPEDIA
CELLPEDIA細胞分化解析
細胞分化解析演習
演習
肝細胞(hepatocyte
肝細胞(
hepatocyte)に分化転換する細胞は?
)に分化転換する細胞は?
手順 http://cellpedia.cbrc.jp/
① Hepatocyteの検索

Top → keyword search → “hepatocyte”を入力
→ image ID 45 をクリックで表示
② 親細胞のチェック

Cell NeighborhoodでParent Cellを見る →
H
Hepatoblast,
t bl t Liver
Li
progenitor
it cell,
ll Oval
O l cellから
llから
分化することが分かる
③ 分化転換細胞のチェック

Cell NeighborhoodでTransdifferentiationを見る
→ Pancreatic progenitor cell, Acinar cell, B cell
からも転換することが分かる
④ さらにこれらの細胞を作るには?

cell ID:902 → Pancreatic progenitor cell → Cell
N i hb h d → Transdifferentiationを見る
Neighborhood
T
diff
ti ti を見る →
小腸や大腸から転換することが分かる
2. 遺伝子発現プロファイル比較
遺伝子発現プロファイル比較演習
演習
膵臓(pancreas
膵臓(
pancreas)はどんな組織に似ているか?
)はどんな組織に似ているか?
手順 http://cellpedia.cbrc.jp/
① Pancreas遺伝子発現データの検索
P
遺伝子発現デ タの検索

Top → Cell Analysis Tools → CellMontage →
Profile Retrieval → “sapiens pancreas” で表示
② Profile Matcherへの取り込み

55番目 Affymetrix HG-U133A pancreasの左端 →
CM Profile Matcherボタンをクリック → 取り込み
③ 検索実行

データベースの選択
 Database settings → CMDB → CELLPEDIA →
normal cell (673 samples)
normal_cell
 他はデフォルトのまま
 Subset → Unigene
 Specify Genes used to search → all genes
 Query settings → Specify query → Paste Query
 実行
 Begin Search
* 胎児肺などの次に気管や腸や胃が近い
 相関係数の確率の右のグラフィックス → 詳細表示
55番目の
GSM18977
の左側 CM
Profile Matcher
をクリック
Profile Matcher
に取り込まれる
データベースに
CELLPEDIAを
選択して Begin
Search
検索開始と終了
時刻
クエリーと同
一プロファイ
プロファイ
ル(相関係数
R=1.0)
膵臓と遺伝子発
現プロファイルが
類似した組織が
検索できる
相関係数
をt検定で
確率にし
てソートし
たリスト
3. 遺伝子発現モジュール解析
遺伝子発現モジュール解析演習
演習
膵臓(pancreas
膵臓(
pancreas)と共通のモジュール探索
pancreas)と共通のモジュ
)と共通のモジュール探索
)と共通のモジュ
ル探索
手順
① S
SAMURAIデモページへログイン
U
デ
ジ
グイン


http://samurai.cbrc.jp/samurai-demo/
user “samurai”, password “samurai”でログイン
② データベースとマージ法の設定

データベースの選択
デ
タベ スの選択
 Database settings → cellpedia normal cell 673 –
0.01
 クエリーの設定
 Query settings → Specify query → Example Query:
human pancreas (GPL96)
 マージ法の選択
 Merge method → All combinatorial (display…)
 ノイズ許容率の選択
 Parameter settings → Acceptable noize ratio →
0.25
③ 検索実行

実行
 Extract Module
p → 詳細表示→ Enrichment
 左のグラフィックスtop
Analysis(KEGG) → 00561 Glycerolipid metabolism
* 時間が余った方はES細胞データなどで実行してみて下さい
データベースに
normal cell
User: samurai
Pass: samurai
クエリ に
クエリーに
Example
マージ法を All
combinatorial
Extract Module
詳細表示
KEGG
評価で
00561を
クリック
ノイズを
0.25
KEGG でマッチしたマップ
とその近郊マップが表示
これらの4つの遺伝子は、
れらの
の遺伝子は、
•PNLIP pancreatic lipase
•CEL carboxyl ester lipase
•PNLIPRP1 pancreatic lipase-related protein 1
•PNLIPRP2
PNLIPRP2 pancreatic
ti li
lipase-related
l t d protein
t i 2
膵臓のリパーゼ関係遺伝子モジュールであることが分かる
*注意
SAMURAIを購入された場合、この表示部
分は別途KEGGライセンスが必要です。
本演習は以上です