Mass Submission Tool - DDBJ

UME User's manual
Utilities for MSS file Error check
DDBJ 大量登録システム(MSS)
日本 DNA データバンク
目
1.
2.
3.
4.
5.
UME とは _____________________________________________________________________ 1
1.1.
1.2.
基本機能 .............................................................. 1
実行環境について ...................................................... 2
1.3.
1.4.
インストール .......................................................... 2
MacOSX UME におけるファイル名の設定について ............................ 2
概観 ________________________________________________________________________ 3
2.1.
UME の起動 ............................................................ 3
2.2.
UME の初期設定 ........................................................ 4
各パネルの構成 _______________________________________________________________ 5
3.1.
Check パネル: 登録ファイルの基本的検証 ................................. 5
3.2.
Contig パネル: contig 登録用 AGP ファイル検証 ........................... 6
登録ファイルの基本的検証 _____________________________________________________ 7
4.1.
4.2.
構文チェックツール: Parser ............................................ 7
アミノ酸翻訳検証ツール: transChecker .................................. 8
4.3.
擬似フラットファイル作成ツール: FFconv ................................ 9
Contig 登録用 AGP ファイル検証: AGPParser ____________________________________ 10
5.1.
5.2.
6.
次
AGPParser 実行 ....................................................... 11
AGPParser エラーメッセージ解説 ....................................... 12
End-user license agreement __________________________________________________ 15
1.
UME とは
UME (Utilities for MSS file Error check) は DDBJ 大量登録システム MSS (Mass Submission System)を
利用した登録に必要な"配列ファイル"と"アノテーションファイル"のフォーマットチェックを行うツール
です。
UME には、"配列ファイル"と"アノテーションファイル"を作成する機能はありません。お使いの PC で利用
されているテキストエディタ、表計算ソフトなどで、適宜、ファイルの作成をお願いいたします。なお、"
配列ファイル"と"アノテーションファイル"に関する作成方法の詳細は"大量登録用データ作成の手引き"
をご参照下さい。
また、ご利用前に 6. End-user license agreement をご確認ください。
1.1. 基本機能
UME の基本機能は、以下になります。
[データチェック機能]
1) 構文チェックツール Parser の機能を使用し、"配列ファイル"と"アノテーションファイル"の構文とフ
ォーマットを検証します(3.1.と 4.1.参照)。詳細なチェック項目、エラーメッセージ、および、その
対処法に関しては、"Parser User's Manual"をご参照ください。
2) 登録データが CDS feature (タンパク質をコードする配列)を含む場合、transChecker の機能を使用し、
アミノ酸翻訳の可否とその配列を検証します(3.1.と 4.2.参照)。詳細なチェック項目、エラーメッセ
ージ、および、その対処法に関しては、"transChecker User's Manual"をご参照ください。
3) FFconv の機能により、"配列ファイル"と"アノテーションファイル"から、擬似的なフラットファイルを
作成して確認することが出来ます(3.1.と 4.3.参照)。フラットファイルに関しましては、下記をご参
照ください。
塩基配列登録のための参考資料: DDBJ のデータ公開形式 (flat file) の説明とは?
URL: http://www.ddbj.nig.ac.jp/sub/ref10-j.html
4) Contig (CON エントリ)を登録する場合、AGPParser の機能により、"AGP ファイル"と"アノテーション
ファイル"のフォーマットを検証します(3.2.と 5.参照)。
1
1.2. 実行環境について
必要なハードウェア環境
インストールのための 20 MB 以上のハードディスク領域
512 MB 以上(推奨 1 GB 以上) の RAM
必要なソフトウェア環境
本ツールは Java 言語を用いて作られておりますので、原則、Java Runtime Environment 1.7 以降の実行
環境であれば、互換性があるものと推定します。DDBJ では、推奨 OS として、以下の環境で動作確認を行っ
ております。
WindowsXP/Vista/7,
MacOSX 10.8,
Ubuntu 10.04
* UME は Apache Software Foundation ( http://www.apache.org/ ) により開発されたソフトウェアを含
んでいます。
This product includes software developed by the Apache Software Foundation.
1.3. インストール
下記のサイトから OS に対応した"UME"のパッケージを選択してダウンロードして取得します。
DDBJ 大量登録ホームページ:
URL: http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html
ダウンロード終了後、ファイルを解凍すると、"UME"というフォルダが作成されます。
これで、本ソフトウェア自体のインストールは完了です。
<注意>
Windows の場合、zip 圧縮ファイルが圧縮状態のまま、フォルダのように閲覧可能な場合があります。
UME 実行時には、ファイルを非圧縮の状態にしておく必要がありますので、ご注意ください。
Unix の場合、解凍ソフトを使用するか、以下のコマンドを用いて解凍してください。
(例)
gunzip
UME_unix.zip
1.4. MacOSX UME におけるファイル名の設定について
"配列ファイル"、"アノテーションファイル" 、"AGP ファイル"のファイル名またはフォルダ名に、マル
チバイト文字が含まれていますとチェックツール (jParser、transChecker、AGPParser) が正常に動作し
ませんので、ファイル名とフォルダ名にはマルチバイト文字が混在しないように注意して下さい。
2
2.
概観
2.1. UME の起動
UME フォルダ内にある UME アイコン(ご使用の PC の環境設定に依存して何らかの拡張子が表示されることが
あります)をダブルクリックして起動します。
UME 起動後
UME フォルダ内
doc フォルダ
UME および関連ツールのマニュアル類があります。ご参照ください。
lib フォルダ
UME が使用するライブラリファイルがあります。正常に動作しなくなる恐れがありますので、絶対に
内部は変更しないでください。移動もしないでください。
resource フォルダ
UME が使用するリソースファイルがあります。正常に動作しなくなる恐れがありますので、絶対に内
部は変更しないでください。移動もしないで下さい。
sample フォルダ
DDBJ 登録用のサンプルファイルがあります。
UME ファイル
ダブルクリックすると UME が起動します。
license ファイル
使用許諾に関するテキストファイルです。ご一読ください。
内容は 6. End-user license agreement と同じです。
3
2.2. UME の初期設定
UME を起動しましたら、メモリ割り当てサイズを調節します。
デフォルトは 128 Mbytes ですが、ご使用の PC のスペックに合わせて変更してください。
(1) 画面上部のメニューから Config をクリックします。
(2) Max memory for runtime のプルダウンメニューから、クリックして選択します。
(1)
(2)
<注意>
Unix 版の場合、メモリ割り当てサイズを選択後、
「Your profile was saved successfully.」というメッセ
ージが表示されますが、実際にはメモリ割り当てサイズを変更することができません。ご了承ください。
4
3. 各パネルの構成
3.1. Check パネル: 登録ファイルの基本的検証
下図で赤い四角で囲んだ部分にある Check タブをクリックしますと、この表示になります。
UME を起動後、最初に開いているパネルです。実際の使用の際は、4. をご参照ください。
(1) 処理対象とする"アノテーションファイル"と"配列ファイル"をそれぞれ指定します。
(2) Execute をクリックしますと、 (1) で指定したファイルを Parser で検証します。
(3) Execute をクリックしますと、(1) で指定したファイルから transChecker でアミノ酸翻訳を確認しま
す。
(4) Execute をクリックしますと、(1) で指定したファイルから FFconv で擬似フラットファイルを作成しま
す。
(5) Exit をクリックしますと、UME を終了します。
(1)
(2)
(3)
(4)
(5)
5
3.2. Contig パネル: contig 登録用 AGP ファイル検証
下図で赤い四角で囲んだ部分にある Contig タブをクリックしますと、この表示になります。
(1) 処理対象とする"アノテーションファイル"を指定します。
(2) 処理対象とする"AGP ファイル"を指定します。
(3) (2) で引用の対象とする"塩基配列ファイル"を指定します。
(4) Execute をクリックしますと、指定したファイルを AGPParser でチェックします。
(5) Exit をクリックしますと、UME を終了します。
(1)
(2)
(3)
(4)
(5)
6
4.
登録ファイルの基本的検証
"アノテーションファイル"と"配列ファイル"を作成後、データを DDBJ に送付する前に、Parser を用いて、
必ずデータの確認を行って下さい。また、CDS (タンパク質コード配列)がある場合は、transChecker を用い
てデータの確認を行って下さい。エラーが検出されましたら、適宜、修正してください。
4.1. 構文チェックツール: Parser
以下の手順で Parser による登録ファイルの構文チェックを実行します。
Check タブをクリックし、Check パネルを表示させます(3-1 参照)。
(1) 処理対象とする"アノテーションファイル"と"配列ファイル"をそれぞれ指定します。
(2) Execute をクリックしますと、(1) で指定したファイルを Parser でチェックします。
(3) Save log in file をチェックした場合は、Parser の実行結果をテキストファイルに保存します。
(4) Parser の実行結果表示ウィンドウが開きます。
(5) Parser チェックの進行状況を表示します。
(6) Parser チェックの実行結果を表示します。
(7) Save をクリックしますと、(6)の内容をテキストファイルに保存します。
(8) Close をクリックしますと、この結果表示ウィンドウを閉じます。
(4)
(1)
(6)
(2)
(3)
(7)
(5)
(8)
Parser を実行した際の詳細なチェック事項、および、エラーメッセージとその対処法に関しましては、以下
のサイトをご参照ください。
validator エラーメッセージ:
URL: http://www.ddbj.nig.ac.jp/sub/validator-j.html
7
4.2. アミノ酸翻訳検証ツール: transChecker
登録データ中に CDS (タンパク質コード配列)がある場合は、transChecker によるアミノ酸翻訳チェックを
お願いします。ただし、transChecker を実行する前に、Parser でエラーが出力されない状態にしておく必
要があります。Parser でエラーが検出される場合は、transChecker を実行することが出来ませんので、ご
注意ください。
以下の手順で transChecker によるアミノ酸翻訳チェックを実行します。
Check タブをクリックし、Check パネルを表示させます(3-1 参照)。
(1) 処理対象とする"アノテーションファイル"と"配列ファイル"をそれぞれ指定します。
(2) Execute をクリックしますと、(1) で指定したファイルを transChecker でチェックします。
(3) Save log in file をチェックした場合は、transChecker の実行結果をテキストファイルに保存します。
(4) Save amino acid sequence in fasta file をチェックした場合は、transChecker 実行時に出力される
アミノ酸配列を fasta format のテキストファイルに保存します。
(5) transChecker の実行結果表示ウィンドウが開きます。
(6) transChecker チェックの進行状況を表示します。
(7) transChecker チェックの実行結果、エラーメッセージなどを表示します。
(8) Save をクリックしますと、(7)の内容をテキストファイルに保存します。
(9) transChecker チェックの実行結果、翻訳アミノ酸配列を fasta format で表示します。
(10) Save をクリックしますと、(9)の内容をテキストファイルに保存します。
(11) Close をクリックしますと、この結果表示ウィンドウを閉じます。
(5)
(1)
(7)
(8)
(2)
(4)
(9)
(3)
(10)
(11)
(6)
transChecker を実行した際の詳細なチェック事項、および、エラーメッセージとその対処法に関しましては、
"transChecker User's Manual"をご参照ください。
8
4.3. 擬似フラットファイル作成ツール: FFconv
FFconv を使用して"アノテーションファイル"と"配列ファイル"を DDBJ フラットファイルに変換し確認する
ことが可能です。ただし、FFconv を実行する前に、Parser でエラーが出力されない状態にしておく必要が
あります。Parser でエラーが検出される場合、FFconv を実行することが出来ませんので、ご注意ください。
FFconv は以下の手順で実行します。
Check タブをクリックし、Check パネルを表示させます(3-1 参照)。
(1) 処理対象とする"アノテーションファイル"と"配列ファイル"をそれぞれ指定します。
(2) Execute をクリックしますと、(1) で指定したファイルから FFconv で擬似 DDBJ フラットファイルを作
成します。
(3) Save flat file in file をチェックした場合は、FFconv の実行結果、擬似 DDBJ フラットファイルを
テキストファイルに保存します。
(4) FFconv の実行結果表示ウィンドウが開きます。
(5) FFconv の進行状況を表示します。
(6) FFconv の実行結果を表示します。
(7) Save をクリックしますと、(6)の内容をテキストファイルに保存します。
(8) FFconv の実行結果、擬似 DDBJ フラットファイルを表示します。
(9) Save をクリックしますと、(8)の内容をテキストファイルに保存します。
(10) Close をクリックしますと、この結果表示ウィンドウを閉じます。
(4)
(1)
(6)
(7)
(8)
(2)
(3)
(9)
(5)
9
(10)
5.
Contig 登録用 AGP ファイル検証: AGPParser
HTG、または、WGS などを基本としたゲノムプロジェクトでは、個々に登録された一連の配列データを相互
に結合し、ゲノム構造を再構築するための情報が必要になります。そのようなタイリング情報に対して、1
つのアクセッション番号を割り当てて特殊なエントリとして登録を受け付けています。このようなエントリ
を Contig (CON) エントリと呼びます。CON エントリのフラットファイルには、CONTIG 行にそのエントリを
構成する引用配列(ピースエントリ)のアクセッション番号が記載され、塩基配列は記載されません。
CON エントリのみの登録は受け付けておりません。
まず、CON エントリを構成する個々のピースエントリを登録していただきます。その上で CON エントリを
構築します。CON エントリの登録には AGP ファイルが必要です。
CON エントリ登録の詳細は"大量データ登録システム データ作成の手引き"をご参照ください。あわせて、
下記を参照してください。
CON データについて
URL: http://www.ddbj.nig.ac.jp/sub/con-j.html
アノテーションファイルとフラットファイルの対応関係: CON data for WGS scaffold
URL: http://www.ddbj.nig.ac.jp/wp-content/downloads/mss/ann2ff/CON_ann2ff.pdf
サンプルアノテーションファイル (サンプル AGP ファイル)
URL: http://www.ddbj.nig.ac.jp/sub/mss/sample-j.html
10
5.1. AGPParser 実行
AGPParser は"AGP ファイル"のフォーマットをチェックします。"アノテーションファイル"、または、"AGP
ファイル"で引用する配列で構成される multi-fasta ファイルを指定した場合、相互の整合性をチェックし
ます。
Contig タブをクリックし、Contig パネルを表示させます(3-2 参照)。
(1) 処理対象とする"アノテーションファイル"を指定します。必須ではありません。
(2) 処理対象とする"AGP ファイル"を指定します。必須です。
(3) 処理対象とする引用配列の"配列ファイル"を指定します。必須ではありません。
(4) Execute をクリックしますと、(1)~(3)で指定したファイルを AGPParser でチェックします。
(5) Construct sequence from AGP and multi-fasta files をチェックした場合は、2つのファイルの記載
にしたがって塩基配列を作成し、テキストファイルに保存します。
(6) Save log in file をチェックした場合は、AGPParser の実行結果をテキストファイルに保存します。
(7) AGPParser の実行結果表示ウィンドウが開きます。
(8) AGPParser の進行状況を表示します。
(9) AGPParser の実行結果を表示します。
(10) Save をクリックしますと、 (9)の内容をテキストファイルに保存します。
(11) Close をクリックしますと、この結果表示ウィンドウを閉じます。
(7)
(1)
(9)
(2)
(3)
(4)
(5)
(10)
(6)
(8)
(11)
11
5.2.
AGPParser エラーメッセージ解説
エラーメッセージごとに必要な対処方法が異なりますので、適宜、対処をお願いいたします。
問題、不明点などがございましたら、[email protected] にエラーメッセージを添えてご連絡ください。
5.2.1. 一般的な注意事項
エラーメッセージ書式
[コード番号]:[Level]:[エラー位置]:[メッセージ本文] or [コード番号]:[Level]:[メッセージ本文]
コード番号; コード番号を示します。
Level; エラーのレベルを示します。
FAT; 実行環境に関するエラーです。
ER1; 通常のファイル構文に関するエラーです。修正が必要です。
ER2; 通常のファイル構文に関するエラーです。修正が必要です。
WAR; 警告です。修正が必要な場合があります。
エラー位置; エラーが検出された位置を行番号、または、object 名で示します。
メッセージ本文; エラーの個別内容を示します。
以下の項では、AGPParser の各エラーメッセージの概要をエラーレベルごとに説明しています。
メッセージ中で括弧([と])で括られている"#"で始まる語、数値は、実際のエラーメッセージでは、
AGP ファイルにおいて使用されている値などに置換されます。
5.2.2. エラーメッセージ一覧と解説
エラーメッセージをコード番号順に示しています。
AP0001:FAT: System error [#MESSAGE].
想定していないエラーです。発生した場合は、[email protected] までご連絡ください。
--AP0002:FAT: [#FILE NAME] cannot be opened.
指定されたファイルを開く際にエラーが発生しました。
--AP0005:ER1: Line [#N]: Invalid AGP format. Number of columns must be 9.
各行に9カラムが必要ですが、カラム数が不正です。
---
12
AP0006:ER1: Line [#N]: Invalid AGP format. Illegal value [#VALUE] at column [#COLUMN_NAME].
そのカラムでは記述できない値が記述されています。
--AP0007:ER2: Line [#N]: Inconsistency between [#COLUMN_NAME1] and [#COLUMN_NAME2].
gap_type と linkage または linkage と linkage_evidence の組み合わせが不正です。
--AP0009:ER2: Object [#OBJECT]: Minimum value of object_beg [#OBJECT_BEG] is not [1].
Object 内で object_beg の最小値は 1 でなければなりませんが、1 になっていません。
--AP0010:ER2: Object [#OBJECT]: Maximum value of object_end [#OBJECT_END] is not same to sum of
component lengths.
Object 内で object_end 最大値は全ての component の配列長合計と一致しなければなりません。
--AP0012:ER2: Line [#N]: Range of object is different from span of component.
object_beg と object_end から得られる長さが、component_beg と component_end から得られる長さと
一致していません。
--AP0013:ER2: Line [#N]: Range of object is different from gap_length.
object_beg と object_end から得られる長さが、gap_length と一致しません。
--AP0014:ER2: Line [#N]: Length of unknown gap must be [100].
長さ不明の gap は、長さを 100 としておく必要があります。
--AP0015:WAR: [#COMPONENT_ID] is not found in [#RESOURCE].
引用配列ファイルに、この component がありません。
--AP0016:ER2: [#COMPONENT_ID] is not found anywhere.
この component が見つかりません。
--AP0017:ER2: Line [#N]: [#COMPONENT_ID]:[#COMPONENT_BEG]..[#COMPONENT_END] is duplicated in the
object [#OBJECT].
この行で引用されている component と同じ領域が object 内で繰り返し引用されています。
--AP0018:ER2: Line [#N]: [#COMPONENT_ID]:[#COMPONENT_BEG]..[#COMPONENT_END] is out of range for its
sequence.
引用配列ファイルにある component で実際の塩基配列にはない領域を引用しています。
---
13
AP0021:ER1: [#FILE NAME] is not found.
指定されたファイルが見つかりません。
--AP0027:WAR: Line [#N]: [#COMPONENT_ID] is not in accession.version format at [ component_id ] column.
component カラムにアクセッション番号を引用する場合、バージョン番号も記載してください。
--AP0029:ER1: Line [#N]: [#COMPONENT_ID] has invalid version at [ component_id ] column (0 < version).
component カラムにアクセッション番号を引用する場合、バージョン番号は正の整数値を記載してください。
---
14
6. End-user license agreement
ご使用前に、必ずお読みください。
NOTICE TO USERS:
Carefully read the following agreement.
Use of the tools for Mass Submission System provided by DDBJ with this agreement (hereinafter
collectively called "the Software") constitutes your acceptance of these terms.
If you do not agree to the terms of this agreement, do not install and/or use the Software.
User's use of the Software is conditioned upon compliance by user with the terms of this agreement.
(1)All copyright related to the Software except the following third-party software (included in only
"UME") must belong to the DDBJ:
a) Axis 1.1
b) Xerces 1.4.4
The Software includes the source code thereof and documentation thereto.
(2)In the event you provide to any third party all or any portion of the Software, prior written consent
of DDBJ is required.
(3)You agree that you will not attempt to reverse compile, modify, translate, or disassemble the
Software in whole or in part.
(4)Except as required by law, DDBJ will not be liable to you for any damages arising out of the use
or inability to use of the Software.
(5)Requirements specified in this agreement are subject to change without notice.
15
2007/12/05 作成
2013/10/31 改訂
編集・発行 日本 DNA データバンク(DDBJ)
URL: http://www.ddbj.nig.ac.jp/index-j.html
〒411-8540
静岡県三島市谷田 1111
大学共同利用機関法人
情報・システム研究機構
国立遺伝学研究所
DDBJセンター
16