情報科学 2005 Ⅶ データベース Ⅶ-1.データベースの定義 コンピュータで情報処理を行いやすいように体系的に整理・蓄積し統合化されたデータの集合体のこと。 一般にデータベースは、利用者が、データを共有して利用するため、データベース管理システム(DBMS) と呼ばれるソフトウェアによって管理されている。 DBMSは、コンピュータが行うデータ処理を抽象化することにより、その複雑なシステムをユーザから隠 す働きをもつ。また、ハードウェアを有効利用することで、データ操作の効率を最大限に引き出し、操作 を容易にする。 Ⅶ-2.データモデル (1) 階層型モデル 互いに重複するものを取り除き、レコード群を階層的に上下に関連づけた木構造としてモデル化し たもの。子レコードと親レコードは1対1の関係しかもてない。 (2) 網型モデル 階層型モデルを拡張し、子レコードと親レコードの関係が1対1の制限を受けないようにしたもの。 (3) 関係型モデル 集合と関係を基礎にした数学的モデルで、データ項目を2次元の表形式にモデル化したもの。デー タ項目の関係に基づき、複数のデータファイルを関連づけて取り扱う。現在、最も普及しているモデ ル。 網型モデル 関係表2 関係表1 階層型モデル 対応 関係型モデル Ⅶ-3.データベース言語 データベースの構造を定義したり、データを更新あるいは検索するための専用の言語。プログラム言語 とは独立した言語体系を持つが、プログラム言語とのインタフェースも備えている。代表的なものとして IBMが開発した「SQL」という言語がある。最近のデータベースは、Webで提供されるため、利用者がデー タベース言語を意識することは、ほとんどなくなっている。 Ⅶ-4.次世代のデータベース ① オブジェクト指向型データベース(OODB, Object Oriented Databese) 操作の対象となるデータの機能や意味を重視して扱う考え方を取り入れたデータベース。階層によ ってデータ構造を表現し、データとその処理を一括して取り扱う。バイオインフォマティクス分野へ の適応性が高い。 タンパク質をコードしていない配列領域 遺伝子 タンパク質立体構造 タンパク質をコードしている配列領域 アミノ酸配列 23 情報科学 2005 ② マルチメディアデータベース(MMDB, Multi Media Database) マルチメディアデータ(文字、図形、画像、音声など)を一括管理できるデータベース。メディア の違いを吸収するために、オブジェクト指向データベースの形態をとることが多い。 ③ 分散データベース ネットワーク上に分散して存在する複数のコンピュータシステムに存在するデータベースを、仮想 的に一つのデータベースと見なして利用することができるようにしたもの。サーバの負荷軽減、障害 の局所化などの利点がある。 ④ ハイパーテキストデータベース キーワードを選択することにより、リンクされたテキストが表示され、そのテキスト内のキーワー ドにより、さらに別のテキストが表示されるといった、テキストとテキストとのリンクにより構成さ れるネットワーク構造のデータベースのこと。利用者は、読みたい場所からリンクをたどり、シーム レスに情報を利用できる。 Ⅶ-5.生物情報データベース (1) 生物情報データベースとは 生物情報データベースに明確な定義は無いが、データ量や系統性、利用度などから、以下のような ものが代表的なものと考えられる。 塩基配列データベース(GenBank、EMBL、DDBJ) アミノ酸配列データベース(Swiss-Plot、PIR、PRF) 立体構造データベース(PDB) 文献情報データベース(MEDLINE、Chemical Abstract) (2) 生物情報データベースの歴史 ~1969 文献データベース 1970 PDB (X線結晶解析のデータから始まる) Chemical Abstract(1907~)、MEDLINE(1966~) 1979~1983 GenBank、EMBL、PIR、PRF 1990 GDB(ヒト遺伝子地図データベース)、TRANSFAC(転写因子データベース) 1992 ゲノムネット 1995~ Web化が進行 (3) 新しいデータベース ①特定の生物種に関するもの BSORF : 枯草菌、 CyanoBase MGD : : GenoBase : 大腸菌、 NEXTDB : 線虫、 藍藻、 マウス、 GDB : ヒト、 BioCyc SGD : FlyBase : 酵母菌 : ショウジョウバエ 微生物を中心としたデータベース ②新しい技術や視点に基づいたもの GEO、SMD BODYMAP MBGD、COG : : マクロアレイによる遺伝子発現データベース ヒトやマウスのcDNA発現データベース : 比較ゲノム学のためのデータベース その他多数! ③統合データベース ゲノムネット、Entrez、KEGG、ExPASy 統合データベースの作成には、すべてのデータを設計された一定の仕様に従って、格納し、高度なデータ の加工を可能とする「強い統合」と、個々のデータベースはそのままに、必要な参照情報を整備し、ある種 のメニューを付加することにより統合的検索や表示を可能とする「弱い統合」の2種類がある。前者の代表と してはGDB、後者としてはゲノムネットが上げられる。一般に、記述形式の異なる多種類のデータベースを迅 速に収容するのに都合がよく、参照という手順がWebの表現方式と相性がよいことから、弱い統合を持たせた ものが多い。 24 情報科学 2005 データベース分類 塩基配列 例 GenBank DDBJ EMBL MGDB GSX NDB Swiss-Prot TrEMBL TrEMBLnew PIR PDB MMDB for small molecule LIGAND PROSITE BLOCKS PRINTS Pfam ProDom Pathway OMIM PubMed Medline UniVec PMD GEO Aaindex LITDB GENES タンパク質配列 立体構造 酵素と化合物 配列モチーフ 代謝パスウェイと合成物 分子病 生物医学文献 ベクター 変異蛋白 遺伝子発現 アミノ酸の指標 タンパク質文献 遺伝子カタログ 説明 世界的遺伝子配列データベース 日本DNAデータバンク(遺伝研) 欧州分子生物学研究所 マウスのゲノムデータベース マウスの遺伝子発現データベース 核酸データベース 代表的なアミノ酸配列データベース Swiss-Protに対する機能注釈付き配列の補足 TrEMBL登録待ちデータ・毎週更新 Protein Information Resource タンパク質立体構造データバンク 分子モデリングデータベース 低分子化合物の結晶構造 化合物と化学反応 配列モチーフ PROSITEの局所的アラインメント BLOCKSの上位集合 タンパク質ファミリーのデータベース タンパク質ドメイン 代謝経路の地図 ヒトのメンデル遺伝性疾患に関するデータベース 簡易型の無料文献検索システム 医学関連文献データベース(有料) ベクター配列の同定 変異タンパク質データベース Gene Expression Omnibus アミノ酸の物理化学的指標のデータベース タンパク質とペプチドに関する文献 生命システム情報統合データベース バイオインフォマティクスで利用される代表的なデータベース アプリケーション 配列検索 配列提出 情報検索 連鎖解析 ポータルサイト 構造検索 可視化 タンパク質間相互作用 遺伝子発現プロファイル 翻訳領域探索 例 BLAST, BLASTN, CLUSTALW, FASTA, MOTIF, PBLAST,TBLASTIN AceDB, Audit, BankIt, Sakura, Sequin, WebIN Entrez, DBGET, IDEAS LocusLink KEGG CD, DALI, SCOP, Searchlite, Structure Explorer, VAST CAD, Cn3D, Mage, RasMol/WebMol SWISS-PROTViewer BRITE Expression ORF Finder ゲノム研究に用いられるアプリケーションの例 25 情報科学 2005 【生命科学関連サイトの例】 <2005.6.1現在> 1.統合化システム ゲノムネット (http://www.genome.ad.jp/Japanese/) Entrez (http://www.ncbi.nlm.nih.gov/Entrez/) - - 京都大学化学研究所 米国立バイオテクノロジー情報センター 2.配列データベース GenBank (http://www.ncbi.nlm.nih.gov/Genbank/index.html) 欧州分子生物学研究機構 (EMBL) - DNAデータベース(米国) (http://www.embl-heidelberg.de/) - DNAデータベース(欧州) 国立遺伝学研究所日本DNAデータバンク(http://www.ddbj.nig.ac.jp/Welcome-j.html) ヒトゲノムセンター(東大医科研) (http://www.hgc.ims.u-tokyo.ac.jp/japanese/) ヒトゲノム情報 (http://www.ncbi.nih.gov/genome/guide/human/) マウスゲノム・遺伝子情報 (http://www.ncbi.nih.gov/genome/guide/mouse/) 3.配列解析 農業生物資源研究所配列サーチ (http://www.dna.affrc.go.jp/search/jp/) 4.蛋白質立体構造 PDB (http://www.rcsb.org/pdb/index.html) MMDB (http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml) 5.文献情報 PubMed (http://www.ncbi.nlm.nih.gov/PubMed/) NACSIS Webcat ScienceDirect EMBASE (http://webcat.nii.ac.jp/) - (http://www.sciencedirect.com) (http://www.embase.com) JDream (旧Jois) - - 文献検索、抄録閲覧(無料) 国内大学の書籍・文献所蔵検索 - 学術雑誌検索・閲覧(有料) 医学系文献検索 (http://service.jst.go.jp/jdream/top2.html) - 和文誌検索 ※PubMedを除き、文献検索データベースは一般に有料であるが、大学図書館との契約が成立していると、キ ャンパス内からは、利用が可能な場合が多い。詳細は、図書館カウンターで尋ねるとよい。 26 情報科学 2005 Ⅶ-6.データベース構築技術 データベースの基本構成は、右図のように なっており、ユーザは、自己の端末(クライ アント機)から、ネットワークを介してサー バ機に接続し、データベースを利用すること になる。 (1) インタフェイス層 一般には、ApacheなどのWebサーバプログラ ムがブラウザと直接コンタクトする。提供さ れるWebページは、静的なものと動的なものの 2種類が供給される。 ①静的なWebページ : 通常のHTMLのみで構成されたページで、常に決められた内容が同じように送 出される。 ②動的なWebページ : (a) サーバ側に置かれたCGI、サーブレットなどのアプリケーションプログラムの使用により、 ブラウザからの要求に応じた文書がサーバ側で動的に生成され、送出される。 (b) JavaScriptなどを用いてWebページに埋め込まれたプログラムや、サーバ経由でブラウザ側 に送られたアプレット、あるいは、ブラウザ側にインストールされたプラグインを ブラウザ側で実行することによりユーザに対してインタラクティブに応答する能力 を持ったWebページ。 (2)アプリケーション層 動的なWebページを実現するためのプログラムや、これらからさらに呼び出されて解析プログラムなどが動 作する。 ①CGIプログラム : Webサーバが、Webブラウザからの要求に応じて動的に文書を作成して送出する ためのプログラムを起動する仕組み。データベースでは、CGIの言語としてPerlがよく用いら れているが、その後継であるRubyなど新しい言語も利用され始めている。 ②サーブレット : Webサーバ上で実行される部品化されたJavaプログラムのこと。特定のOSやハー ドウェアに依存することなく、すべてのWebサーバ上で稼動させることができる。CGIなどとは 異なり、一度呼び出されるとメモリ上に常駐するため高速な処理が可能である。また、データ を永続的に扱うことができるため、複数のユーザ間で情報を共有することもできる。 ③PHP : 動的にWebページを生成するWebサーバ上の拡張機能または、そこで使用されるスクリプト 言語。HTMLファイル内に処理内容を埋め込み、処理結果に応じて動的に送出用文書を生成する。 ④アプレット : ネットワークを通じてWebブラウザにダウンロードされ、ブラウザに埋め込まれて 実行されるJavaプログラムのこと。Javaアプレットを使用することにより、HTMLで記述された 静的なWebページでは実現できない動的な表現が可能となる。 ⑤プラグイン : アプリケーションソフトに追加機能を提供するための小さなプログラム。基本仕様 として搭載されている機能だけでは実現できない動画や高品質の音声の再生など、様々な機能 をプラグインの追加によって実現することができる。 (3)データベース層 静的なWebページの格納、プログラムが使用するデータの格納、あるいは、上位層のプログラム自身の格納 を受け持つ。データベース層では、データの管理と利用制御を行うソフトウェアとして、以下の2種類が動 作している。 ① OS自身が提供するファイル管理システム ② OS上で動作可能なデータベース管理システム(DBMS) 27 情報科学 2005 (4) ハードウェア層 計算能力を提供するコンピュータシステム。スーパーコンピュータ等を単体で使用したり、複数のパソコ ン・ワークステーションを連動させたり、形態は様々であるが、十分な動作速度と安定した稼動が求められ る。 Ⅶ-7.ファイル形式 生物データをコンピュータで使用する場合、コンピュータが処理できる標準的な形式が必要であり、デー タを書式に従ってテキスト形式で記述するのがもっとも一般的な方法である。これらのデータベースは、エ ントリーと呼ばれる単位が集まったものと考えることができ、テキストファイルとして保存、配布されてい るが(フラットファイル形式という)、ファイルの中身は一定の書式(フォーマット)に従って、構造化され ている。 配列解析を行う場合のもっとも単純なファイル形式は、FASTA形式と呼ばれるもので、1行目の最初に「>」 を置きその後に物質名などを表記し、改行して2行目以降に配列を記述したものである。 (いろいろなファイル形式) GenBank形式、マルチGenBank形式、fasta形式、マルチfasta形式、PIR形式、マルチPIR形式、 EMBL形式、マルチEMBL形式、ABI形式、SCF形式、テキスト形式、 など 28
© Copyright 2024 Paperzz