Ⅶ データベース Ⅶ-1.データベースの定義 コンピュータで情報処理を

情報科学 2005
Ⅶ
データベース
Ⅶ-1.データベースの定義
コンピュータで情報処理を行いやすいように体系的に整理・蓄積し統合化されたデータの集合体のこと。
一般にデータベースは、利用者が、データを共有して利用するため、データベース管理システム(DBMS)
と呼ばれるソフトウェアによって管理されている。
DBMSは、コンピュータが行うデータ処理を抽象化することにより、その複雑なシステムをユーザから隠
す働きをもつ。また、ハードウェアを有効利用することで、データ操作の効率を最大限に引き出し、操作
を容易にする。
Ⅶ-2.データモデル
(1) 階層型モデル
互いに重複するものを取り除き、レコード群を階層的に上下に関連づけた木構造としてモデル化し
たもの。子レコードと親レコードは1対1の関係しかもてない。
(2) 網型モデル
階層型モデルを拡張し、子レコードと親レコードの関係が1対1の制限を受けないようにしたもの。
(3) 関係型モデル
集合と関係を基礎にした数学的モデルで、データ項目を2次元の表形式にモデル化したもの。デー
タ項目の関係に基づき、複数のデータファイルを関連づけて取り扱う。現在、最も普及しているモデ
ル。
網型モデル
関係表2
関係表1
階層型モデル
対応
関係型モデル
Ⅶ-3.データベース言語
データベースの構造を定義したり、データを更新あるいは検索するための専用の言語。プログラム言語
とは独立した言語体系を持つが、プログラム言語とのインタフェースも備えている。代表的なものとして
IBMが開発した「SQL」という言語がある。最近のデータベースは、Webで提供されるため、利用者がデー
タベース言語を意識することは、ほとんどなくなっている。
Ⅶ-4.次世代のデータベース
①
オブジェクト指向型データベース(OODB, Object Oriented Databese)
操作の対象となるデータの機能や意味を重視して扱う考え方を取り入れたデータベース。階層によ
ってデータ構造を表現し、データとその処理を一括して取り扱う。バイオインフォマティクス分野へ
の適応性が高い。
タンパク質をコードしていない配列領域
遺伝子
タンパク質立体構造
タンパク質をコードしている配列領域
アミノ酸配列
23
情報科学 2005
②
マルチメディアデータベース(MMDB, Multi Media Database)
マルチメディアデータ(文字、図形、画像、音声など)を一括管理できるデータベース。メディア
の違いを吸収するために、オブジェクト指向データベースの形態をとることが多い。
③
分散データベース
ネットワーク上に分散して存在する複数のコンピュータシステムに存在するデータベースを、仮想
的に一つのデータベースと見なして利用することができるようにしたもの。サーバの負荷軽減、障害
の局所化などの利点がある。
④
ハイパーテキストデータベース
キーワードを選択することにより、リンクされたテキストが表示され、そのテキスト内のキーワー
ドにより、さらに別のテキストが表示されるといった、テキストとテキストとのリンクにより構成さ
れるネットワーク構造のデータベースのこと。利用者は、読みたい場所からリンクをたどり、シーム
レスに情報を利用できる。
Ⅶ-5.生物情報データベース
(1) 生物情報データベースとは
生物情報データベースに明確な定義は無いが、データ量や系統性、利用度などから、以下のような
ものが代表的なものと考えられる。
塩基配列データベース(GenBank、EMBL、DDBJ)
アミノ酸配列データベース(Swiss-Plot、PIR、PRF)
立体構造データベース(PDB)
文献情報データベース(MEDLINE、Chemical Abstract)
(2) 生物情報データベースの歴史
~1969
文献データベース
1970
PDB (X線結晶解析のデータから始まる)
Chemical Abstract(1907~)、MEDLINE(1966~)
1979~1983
GenBank、EMBL、PIR、PRF
1990
GDB(ヒト遺伝子地図データベース)、TRANSFAC(転写因子データベース)
1992
ゲノムネット
1995~
Web化が進行
(3) 新しいデータベース
①特定の生物種に関するもの
BSORF
:
枯草菌、
CyanoBase
MGD
:
:
GenoBase
:
大腸菌、
NEXTDB
:
線虫、
藍藻、
マウス、
GDB
:
ヒト、
BioCyc
SGD
:
FlyBase
:
酵母菌
:
ショウジョウバエ
微生物を中心としたデータベース
②新しい技術や視点に基づいたもの
GEO、SMD
BODYMAP
MBGD、COG
:
:
マクロアレイによる遺伝子発現データベース
ヒトやマウスのcDNA発現データベース
:
比較ゲノム学のためのデータベース
その他多数!
③統合データベース
ゲノムネット、Entrez、KEGG、ExPASy
統合データベースの作成には、すべてのデータを設計された一定の仕様に従って、格納し、高度なデータ
の加工を可能とする「強い統合」と、個々のデータベースはそのままに、必要な参照情報を整備し、ある種
のメニューを付加することにより統合的検索や表示を可能とする「弱い統合」の2種類がある。前者の代表と
してはGDB、後者としてはゲノムネットが上げられる。一般に、記述形式の異なる多種類のデータベースを迅
速に収容するのに都合がよく、参照という手順がWebの表現方式と相性がよいことから、弱い統合を持たせた
ものが多い。
24
情報科学 2005
データベース分類
塩基配列
例
GenBank
DDBJ
EMBL
MGDB
GSX
NDB
Swiss-Prot
TrEMBL
TrEMBLnew
PIR
PDB
MMDB
for small molecule
LIGAND
PROSITE
BLOCKS
PRINTS
Pfam
ProDom
Pathway
OMIM
PubMed
Medline
UniVec
PMD
GEO
Aaindex
LITDB
GENES
タンパク質配列
立体構造
酵素と化合物
配列モチーフ
代謝パスウェイと合成物
分子病
生物医学文献
ベクター
変異蛋白
遺伝子発現
アミノ酸の指標
タンパク質文献
遺伝子カタログ
説明
世界的遺伝子配列データベース
日本DNAデータバンク(遺伝研)
欧州分子生物学研究所
マウスのゲノムデータベース
マウスの遺伝子発現データベース
核酸データベース
代表的なアミノ酸配列データベース
Swiss-Protに対する機能注釈付き配列の補足
TrEMBL登録待ちデータ・毎週更新
Protein Information Resource
タンパク質立体構造データバンク
分子モデリングデータベース
低分子化合物の結晶構造
化合物と化学反応
配列モチーフ
PROSITEの局所的アラインメント
BLOCKSの上位集合
タンパク質ファミリーのデータベース
タンパク質ドメイン
代謝経路の地図
ヒトのメンデル遺伝性疾患に関するデータベース
簡易型の無料文献検索システム
医学関連文献データベース(有料)
ベクター配列の同定
変異タンパク質データベース
Gene Expression Omnibus
アミノ酸の物理化学的指標のデータベース
タンパク質とペプチドに関する文献
生命システム情報統合データベース
バイオインフォマティクスで利用される代表的なデータベース
アプリケーション
配列検索
配列提出
情報検索
連鎖解析
ポータルサイト
構造検索
可視化
タンパク質間相互作用
遺伝子発現プロファイル
翻訳領域探索
例
BLAST, BLASTN, CLUSTALW, FASTA, MOTIF, PBLAST,TBLASTIN
AceDB, Audit, BankIt, Sakura, Sequin, WebIN
Entrez, DBGET, IDEAS
LocusLink
KEGG
CD, DALI, SCOP, Searchlite, Structure Explorer, VAST
CAD, Cn3D, Mage, RasMol/WebMol SWISS-PROTViewer
BRITE
Expression
ORF Finder
ゲノム研究に用いられるアプリケーションの例
25
情報科学 2005
【生命科学関連サイトの例】
<2005.6.1現在>
1.統合化システム
ゲノムネット (http://www.genome.ad.jp/Japanese/)
Entrez
(http://www.ncbi.nlm.nih.gov/Entrez/)
-
-
京都大学化学研究所
米国立バイオテクノロジー情報センター
2.配列データベース
GenBank (http://www.ncbi.nlm.nih.gov/Genbank/index.html)
欧州分子生物学研究機構 (EMBL)
-
DNAデータベース(米国)
(http://www.embl-heidelberg.de/)
-
DNAデータベース(欧州)
国立遺伝学研究所日本DNAデータバンク(http://www.ddbj.nig.ac.jp/Welcome-j.html)
ヒトゲノムセンター(東大医科研) (http://www.hgc.ims.u-tokyo.ac.jp/japanese/)
ヒトゲノム情報
(http://www.ncbi.nih.gov/genome/guide/human/)
マウスゲノム・遺伝子情報
(http://www.ncbi.nih.gov/genome/guide/mouse/)
3.配列解析
農業生物資源研究所配列サーチ
(http://www.dna.affrc.go.jp/search/jp/)
4.蛋白質立体構造
PDB
(http://www.rcsb.org/pdb/index.html)
MMDB
(http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml)
5.文献情報
PubMed
(http://www.ncbi.nlm.nih.gov/PubMed/)
NACSIS Webcat
ScienceDirect
EMBASE
(http://webcat.nii.ac.jp/)
-
(http://www.sciencedirect.com)
(http://www.embase.com)
JDream (旧Jois)
-
-
文献検索、抄録閲覧(無料)
国内大学の書籍・文献所蔵検索
-
学術雑誌検索・閲覧(有料)
医学系文献検索
(http://service.jst.go.jp/jdream/top2.html)
-
和文誌検索
※PubMedを除き、文献検索データベースは一般に有料であるが、大学図書館との契約が成立していると、キ
ャンパス内からは、利用が可能な場合が多い。詳細は、図書館カウンターで尋ねるとよい。
26
情報科学 2005
Ⅶ-6.データベース構築技術
データベースの基本構成は、右図のように
なっており、ユーザは、自己の端末(クライ
アント機)から、ネットワークを介してサー
バ機に接続し、データベースを利用すること
になる。
(1) インタフェイス層
一般には、ApacheなどのWebサーバプログラ
ムがブラウザと直接コンタクトする。提供さ
れるWebページは、静的なものと動的なものの
2種類が供給される。
①静的なWebページ
:
通常のHTMLのみで構成されたページで、常に決められた内容が同じように送
出される。
②動的なWebページ
:
(a) サーバ側に置かれたCGI、サーブレットなどのアプリケーションプログラムの使用により、
ブラウザからの要求に応じた文書がサーバ側で動的に生成され、送出される。
(b) JavaScriptなどを用いてWebページに埋め込まれたプログラムや、サーバ経由でブラウザ側
に送られたアプレット、あるいは、ブラウザ側にインストールされたプラグインを
ブラウザ側で実行することによりユーザに対してインタラクティブに応答する能力
を持ったWebページ。
(2)アプリケーション層
動的なWebページを実現するためのプログラムや、これらからさらに呼び出されて解析プログラムなどが動
作する。
①CGIプログラム
:
Webサーバが、Webブラウザからの要求に応じて動的に文書を作成して送出する
ためのプログラムを起動する仕組み。データベースでは、CGIの言語としてPerlがよく用いら
れているが、その後継であるRubyなど新しい言語も利用され始めている。
②サーブレット
:
Webサーバ上で実行される部品化されたJavaプログラムのこと。特定のOSやハー
ドウェアに依存することなく、すべてのWebサーバ上で稼動させることができる。CGIなどとは
異なり、一度呼び出されるとメモリ上に常駐するため高速な処理が可能である。また、データ
を永続的に扱うことができるため、複数のユーザ間で情報を共有することもできる。
③PHP
:
動的にWebページを生成するWebサーバ上の拡張機能または、そこで使用されるスクリプト
言語。HTMLファイル内に処理内容を埋め込み、処理結果に応じて動的に送出用文書を生成する。
④アプレット
:
ネットワークを通じてWebブラウザにダウンロードされ、ブラウザに埋め込まれて
実行されるJavaプログラムのこと。Javaアプレットを使用することにより、HTMLで記述された
静的なWebページでは実現できない動的な表現が可能となる。
⑤プラグイン
:
アプリケーションソフトに追加機能を提供するための小さなプログラム。基本仕様
として搭載されている機能だけでは実現できない動画や高品質の音声の再生など、様々な機能
をプラグインの追加によって実現することができる。
(3)データベース層
静的なWebページの格納、プログラムが使用するデータの格納、あるいは、上位層のプログラム自身の格納
を受け持つ。データベース層では、データの管理と利用制御を行うソフトウェアとして、以下の2種類が動
作している。
①
OS自身が提供するファイル管理システム
②
OS上で動作可能なデータベース管理システム(DBMS)
27
情報科学 2005
(4)
ハードウェア層
計算能力を提供するコンピュータシステム。スーパーコンピュータ等を単体で使用したり、複数のパソコ
ン・ワークステーションを連動させたり、形態は様々であるが、十分な動作速度と安定した稼動が求められ
る。
Ⅶ-7.ファイル形式
生物データをコンピュータで使用する場合、コンピュータが処理できる標準的な形式が必要であり、デー
タを書式に従ってテキスト形式で記述するのがもっとも一般的な方法である。これらのデータベースは、エ
ントリーと呼ばれる単位が集まったものと考えることができ、テキストファイルとして保存、配布されてい
るが(フラットファイル形式という)、ファイルの中身は一定の書式(フォーマット)に従って、構造化され
ている。
配列解析を行う場合のもっとも単純なファイル形式は、FASTA形式と呼ばれるもので、1行目の最初に「>」
を置きその後に物質名などを表記し、改行して2行目以降に配列を記述したものである。
(いろいろなファイル形式)
GenBank形式、マルチGenBank形式、fasta形式、マルチfasta形式、PIR形式、マルチPIR形式、
EMBL形式、マルチEMBL形式、ABI形式、SCF形式、テキスト形式、 など
28