研究目的 対象とするデータ

ビューデザイン機能をもったテキストデータベースからの知識発見支援システムの開発
宮野 悟
東京大学医科学研究所ヒトゲノム解析センター
(研究協力者)
丸山 修
内田智之
正代隆義
東京大学医科学研究所ヒトゲノム解析センター
広島市立大学情報科学部
九州大学システム情報科学研究科情報理学専攻
研究目的
本研究は,GenBank や SWISS-PROT などの DNA 配列やアミノ酸配列データに注釈情報を付
加した生物情報データベースや文献データベースなどのテキストデータベースを対象として,汎
用性のある知識発見システムの研究・開発を目的とする.そしてこのシステムを公開し情報サー
ビスに利用することをめざしている.
対象とするデータ
以下のテキストデータベースを想定してシステムの設計・開発を行なう.通常,こうしたデー
タベースはキーワード 及びその論理式による情報検索のサービスに利用されるにとどまっている.
生物情報データ
GenBank
このデータベースは図 2のような形式のレコード からなるデータベースである.DNA の配
列情報とそれについての注釈情報とからなる.DNA の配列情報は,百数十文字から数百万
文字を越えるものまで様々である.配列情報及び注釈情報には誤りも多い.
SWISS-PROT
このデータベースは図 3のような形式のレコードからなるデータベースである.タンパク質
のアミノ酸配列データとそれについての注釈情報からなる.アミノ酸配列の情報は,数百
文字のものが多く,注釈情報はエキスパートにより作成されており,信頼性が高い.
完全ゲノム配列データ
完全ゲノムが決定されている生物は現在十数種であるが,その中で大腸菌 K-12 (E. coli K-12,
4,639,221bp, 1 本の DNA 配列,遺伝子数約 4,000 個) 及び出芽酵母 (S. cerevisiae,12,069,313bp,
16 本の DNA 配列,遺伝子数約 6,000 個) の完全ゲノムの配列データ.これらは,数十万か
ら数百万文字からなる長い配列データである.
文献データ
MEDLINE
医学生物関連の文献のデータベースである.アブストラクトの情報を得ることができる.こ
の分野においては命題の真理がテンポラリであるため,以前に報告されていた事が後で否
1
一方向逐字サーチ
によるデータの収
集システム
-
ビューの自動設計
システム
(1)
-
仮説生成システム
(2)
図
(3)
-
可視化システム
(4)
1: システムの概要
定されたり,また実験のコントロールが正確でないまま報告されていたりしていて,アブ
ストラクト (及び論文本文) に書かれていることがどこまで信頼できるかはエキスパートの
判断によらねばならない.
システム開発の基本方針
図 1のような概要のシステムを設計・開発する.
システムの構成要素については,未定の部分もあるが基本的には以下の方針で行なう.
(1)
一方向逐字サーチによるデータの収集システム
テキストデータベースから必要なデータを検索・加工するために,九州大学で開発された
テキストデータベース管理システム SIGMA の UNIX 版を応用して,きめの細かい逐次サー
チによりデータの収集・加工システムを実現する.このシステムは当初九大大型計算機セ
ンターで公開され,主に原典研究者によって利用されてきた.このシステムのサーチエン
ジンは高速であるが,逐字サーチに基づいているため,1回の処理の対象とするテキスト
データベースの大きさは1ギガバイト程度のものを想定してシステムを開発する.SIGMA
は,インバーテッド ファイルを用いた検索では実現が難しい非常に繊細なサーチを可能と
しており,またフォーマット等に多様性があるテキストデータを扱うことに適している.よ
いインターフェースの開発が必要である.
(2) ビューの自動設計システム
システム (1) で収集されたデータに対して,それを眺めるビューを決めることは知識発見に
おいて重要な要素である.このためにビュー及びビュー探索空間を定式化し,さらにビュー
及びビュー探索空間の合成の定式化を行なう.その定式化に基づいてエキスパートとして
のユーザがデータに対して独自のビューを設計できるためのシステムを開発する.システ
ムはあらかじめいくつかのビュー及びビュー探索空間を提供するが,それらの他に,ユー
ザはデータについて独自のビューを定義・導入・合成できる.また,ビュー探索空間と (3)
の仮説生成器をつなぐことにより,ビューの自動探索を可能にすることができる.こうした
ことを総合的に行なうことを可能にする View Designer ををの GUI とともに開発する.
(3)
仮説生成システム
2
(1) で収集されたデータは,ユーザが設計したビューをとおして巨大なテーブルへと変換さ
れる.ここで開発する仮説生成システムは,この巨大テーブルから仮説を生成するための
ものである.仮説生成システムの設計の基本方針は,ユーザが導入するものも含めて,複
数の仮説生成器を取り込むことができるようにすることである.ユーザは仮説生成器を選
択し独自のビューを設計することにより,データからの知識発見においてエキスパート本
来の能力を発揮できる.仮説生成器はプラグ イン化ができる方向で検討している.
(4)
可視化システム
仮説の可視化に際して,個々の仮説生成システムが用いている仮説表現にビューの可視を
導入する.現在のところまだ最終的な形でシステムを構想できていないが,北海道大学知
識メデ ィアラボラトリの田中譲教授の開発した Intelligent Box 及び Intelligent Pad によるイ
ンタフェースの開発が,本研究に適している思われるので具体的に検討を始めている.
3
ID SLTA_BP933 STANDARD;
PRT; 319 AA.
AC P09385;
DT 01-MAR-1989 (REL. 10, CREATED)
DT 01-FEB-1996 (REL. 33, LAST SEQUENCE UPDATE)
DT 01-FEB-1998 (REL. 36, LAST ANNOTATION UPDATE)
DE SHIGA-LIKE TOXIN II SUBUNIT A PRECURSOR (VEROTOXIN 2 SUBUNIT A)
DE (RRNA N-GLYCOSIDASE) (EC 3.2.2.22).
GN SLT-IIA.
OS BACTERIOPHAGE 933W.
OC VIRIDAE; NOT YET CLASSIFIED.
RN [1]
RP SEQUENCE FROM N.A.
RA
JACKSON M.P., NEILL R.J., O'BRIEN A.D., HOLMES R.K., NEWLAND J.W.;
RL FEMS MICROBIOL. LETT. 44:109-114(1987).
RN [2]
RP SEQUENCE FROM N.A.
RC STRAIN=E32511;
RX MEDLINE; 91147183.
RA SCHMITT C.K., MCKEE M.L., O'BRIEN A.D.;
RL INFECT. IMMUN. 59:1065-1073(1991).
RN [3]
RP SEQUENCE FROM N.A.
RC STRAIN=OX3:H21;
RX MEDLINE; 94018566.
RA PATON A.W., PATON J.C., MANNING P.A.;
RL MICROB. PATHOG. 15:77-82(1993).
CC -!- FUNCTION: THE SUBUNIT A IS RESPONSIBLE FOR INHIBITING PROTEIN
CC
SYNTHESIS THROUGH THE CATALYTIC INACTIVATION OF 60S RIBOSOMAL
CC
SUBUNITS.
CC -!- CATALYTIC ACTIVITY: ENDOHYDROLYSIS OF THE NGLYCOSIDIC BOND AT ONE
CC
SPECIFIC ADENOSINE ON THE 28S RRNA.
CC -!- SUBUNIT: THE SHIGA-LIKE TOXINS CONTAIN A SINGLE A SUBUNIT AND
CC
MULTIPLE COPIES OF A B SUBUNIT.
CC
-!- SIMILARITY: TO OTHER BACTERIAL AND PLANTS RIBOSOME-INACTIVATING
CC
PROTEINS.
DR EMBL; X07865; G14893; -.
DR EMBL; M59432; G147883; -.
DR EMBL; L11079; G304954; -.
DR PIR; S01032; S01032.
DR PROSITE; PS00275; SHIGA_RICIN; 1.
KW HYDROLASE; GLYCOSIDASE; TOXIN; SIGNAL.
FT SIGNAL
1 22
POTENTIAL.
FT CHAIN
23 319
SHIGA-LIKE TOXIN II SUBUNIT A.
FT DISULFID 263 282
POTENTIAL.
FT ACT_SITE 189 189
BY SIMILARITY.
FT VARIANT 17 17
S -> P (IN STRAIN OX3:H21).
FT VARIANT
26 26
T -> M (IN STRAIN OX3:H21).
SQ SEQUENCE 319 AA; 35714 MW; C84344CC CRC32;
MKCILFKWVL
CLLLGFSSVS
YSREFTIDFS TQQSYVSSLN SIRTEISTPL EHISQGTTSV
SVINHTPPGS YFAVDIRGLD VYQARFDHLR LIIEQNNLYV AGFVNTATNT FYRFSDFTHI
SVPGVTTVSM TTDSSYTTLQ RVAALERSGM QISRHSLVSS YLALMEFSGN TMTRDASRAV
LRFVTVTAEA LRFRQIQREF RQALSETAPV YTMTPGDVDL TLNWGRISNV LPEYRGEDGV
RVGRISFNNI SAILGTVAVI LNCHHQGARS VRAVNEESQP ECQITGDRPV IKINNTLWES
NTAAAFLNRK SQFLYTTGK
//
LOCUS
ECOVT2VA 294 bp DNA BCT
17-SEP-1991
DEFINITION E.coli VT2va beta-subunit (VT2va B cistron) gene,
complete cds.
ACCESSION M76738
NID
g148261
KEYWORDS
Shiga-like toxin; VT2va B cistron; VT2va betasubunit.
SOURCE Escherichia coli (strain E32511) DNA.
ORGANISM Escherichia coli
Eubacteria; Proteobacteria; gamma subdivision;
Enterobacteriaceae; Escherichia.
REFERENCE 1 (bases 1 to 294)
AUTHORS Hii,J.H., Gyles,C., Morooka,T., Karmali,M.A.,
Clarke,R., De Grandis,S. and Brunton,J.L.
TITLE Development of verotoxin-2 and verotoxin-2 variant
specic oligonucleotide probes based on the nucleotide
sequence of the B cistron of VT2v from Escherichia coli
strains E32511 and B2F1
JOURNAL J. Clin. Microbiol. (1991) In press
FEATURES
Location/Qualiers
source
1..294
/organism="Escherichia coli"
/strain="E32511"
/db_xref="taxon:562"
sig_peptide 14..70
/gene="VT2va B cistron"
CDS
14..283
/gene="VT2va B cistron"
/codon_start=1
/transl_table=11
/product="VT2va beta-subunit"
/db_xref="PID:g148262"
/translation="MKKMFMAVLFALVSVNAMA
ADCAKGKIEFSKYNENDTFTVKVA
GKEYWTSRWNLQPLLQSAQLTGMT
VTIKSSTCESGSGFAEVQFNND"
gene
14..283
/gene="VT2va B cistron"
mat_peptide 71..280
/gene="VT2va B cistron"
/product="VT2va beta-subunit"
BASE COUNT
92 a 47 c 74 g 81 t
ORIGIN
1 aaaggagtta agtatgaaga agatgtttat ggcggtttta tttgcattag tttctgttaa
61 tgcaatggcg gcggattgcg ctaaaggtaa aattgagttt tccaagtata atgagaatga
121 tacattcaca gtaaaagtgg ccggaaaaga gtactggacc agtcgctgga atctgcaacc
181 gttactgcaa agtgctcagt tgacaggaat gactgtcaca atcaaatcca gtacctgtga
241 atcaggctcc ggatttgctg aagtgcagtt taataatgac tgaggcataa cctg
//
図 2:
GenBank のレコード 例.O-157 の産生する
verotoxin-2 についての情報が記述されている.
図 3: SWISS-PROT のレコード 例.O-157 の産
生する verotoxin-2 についての情報が記述されて
いる.
4