生物情報解析システム

生物情報解析システム
(bias4.nibb.ac.jp) 利用方法
30, July. 2015 情報管理解析室
UNIXとは
•
•
•
•
•
•
•
AT&Tベル研究所で開発されたオペレーティングシステム(OS)
当初からマルチユーザ、マルチタスクのOS
大型計算機やワークステーションなどの高級機に広く採用
コマンドインタプリタ(シェル)を通じた操作
シンプルな操作で高い柔軟性
計算機科学者やシステム開発者から高い支持
商用、フリー合わせて、様々な独立の開発系列が存在する
•
商用UNIX
•
フリー/商用のUNIX系OS
•
Solaris, HP-UX, AIX, Mac OS X など
Linux, FreeBSD, NetBSD など
Linux にはさらに様々な「ディストリビューション」が独立して開発
されている
-
RedHat,Debian, CentOS, Ubuntu など
UNIX を使う理由
•
UNIX でしか使えないアプリケーションを使いたい
•
大きなテキストファイルを機械的に加工処理したい
•
シェルスクリプトを用いたコマンドの実行
独自のプログラムを作成したい
•
テキストファイル処理のための豊富なコマンド群
たくさんの処理を一度に行ないたい
•
最新の研究用ソフト、並列化や巨大メモリに対応したソフト
Perl, Ruby等のスクリプト言語、豊富な開発ユーティリティ
WWWサーバやデータベースサーバを立ち上げたい
-
サーバとしての高い安定性、apache や postgres などの標準的なフ
リーウェア
UNIX 講習会
7月30日
1. 挨拶
13:30-13:40
2. 生物情報解析システムの使い方
13:40-14:00
3. UNIX基本コマンド
14:00-16:45
4. シェルスクリプト1(バッチ処理)
17:00-17:30
5. エディタ
17:30-18:00
7月31日
6. 次世代シーケンサ用データ解析コマンド 09:30-11:00
7. SunGridEngine使用方法
11:00-12:00
8. テキスト処理
13:00-14:00
9. シェルスクリプト2
14:00-15:00
10. 演習
14:15-17:00
生物情報解析システムの紹介
Computer system for biological information analysis
分散処理計算機クラスタ
SGI Rackable server C2112-4RP
Intel Xeon (2.8GHz) 20core/node
96GB/node Memory, 40node, 800core
高速ファイルサーバ
DDN SFA7700
Lustre file system : 480TB
(
((LDAS)
((BIAS)
(
800(cores((4.8GB(mem/core
ldas%smp
480(TB
(
720TB(
(
(
node01%40
(bias4
(
FDR(Infiniband(switch
SSD(
3TBx1(
10GE
PC
(
GeneSpring,(MATLAB)(
(
QDR(Infiniband(
switch
(
(
(
450TB(
(
(
192TB(
(
(
90TB(
基本的な使い方:ログイン先
bias4.nibb.ac.jp
•
sshで接続する(telnetなどは利用できません)
•
基生研外からはVPN経由で接続する
•
ログインノード上での作業は、プログラムの作成やファイル
管理などの軽い処理にとどめ、大きな計算処理の実行はジョ
ブ管理システム (SGE) を介して行う。
•
正確なマシン名は、bias4-login.nibb.ac.jp ですが、ログイン時には -login を省略できます
Macユーザ
•
アプリケーション/ユーティリティ/ターミナル を起動
ssh [email protected]
•
と入力してリターン
[email protected]'s password:
•
と出たらパスワードを入力してリターン
-
画面には何も出ません! ********等もなし!
$ ssh [email protected]
The authenticity of host 'bias4.nibb.ac.jp (133.48.33.122)' can't be established.
RSA key fingerprint is 7b:94:9a:36:ac:60:ae:a0:14:2a:7c:0f:3c:bc:fe:24.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'bias4.nibb.ac.jp' (RSA) to the list of known hosts.
[email protected]'s password:
Last login: Fri Jan 17 15:23:05 2014 from bigfox-01.nibb.ac.jp
[user_name@bias4-login ~]$
Windowsユーザ
•
TeraTermProをインストール→ http://ttssh2.sourceforge.jp/
•
•
Host: bias4.nibb.ac.jp
•
User name: アカウント
•
Passphrase: パスワード
Service: SSH, TCP port#: 22, SSH version: SSH2,
Protocol: UNSPEC
ディスクの使い分け
•
全てのディスクはどのマシンから同じに見えるようにマウントされ
ています
•
ホームディレクトリ:高速ファイルサーバ上 /home/user_name/
✓ 一人あたり容量制限 1.5TB
•
save領域:大容量ストレージ上 /home/user_name/save/
✓ 一人あたり容量制限 5TB
•
scratch領域:高速ファイルサーバ上 /scratch/user_name/ ✓ 容量制限なし
•
/scratch 下のデータは一ヶ月で自動消滅します
-
大事なものは /home 下に戻しましょう
/home/user_name
(
((BIAS)
((LDAS)
(
800(cores((4.8GB(mem/core
ldas%smp
/scratch/user_name
480(TB
(
720TB(
(
(
node01%40
(bias4
(
FDR(Infiniband(switch
SSD(
3TBx1(
10GE
/home/user_name/save
PC
(
GeneSpring,(MATLAB)(
(
QDR(Infiniband(
switch
(
(
(
450TB(
(
(
192TB(
(
(
90TB(
分子生物学 アプリケーション
•
ほとんどのアプリケーションは、/bio/bin 内にあり、
どのマシンからでも同様に使用可能
•
/bio/bin への実行パスもログイン時に通っています。
•
必要なものは当室で随時インストールします。
•
詳細は生物情報解析システムwiki をご覧ください
•
http://www.nibb.ac.jp/cproom/wiki/index.php
分子生物学データベース
•
BLAST用データベースへのパス
•
フラットファイルへのパス
•
/bio/db/blast/db /bio/db/ideas このほか、KEGG データベース、
IlluminaiGenomes、interproscan
用dbも利用可能です。
計算機を有効に使うには
複数の人間が同じ計算機群を使いたい...
どの計算機/CPUが空いてるか?
平等に使うには?
•
ユーザのジョブを
-
実行された順番に
-
空いている計算機に
割り振ってくれる
キュー
ジョブスケジューラ
ユーザ
親ノード
ジョブ管理システム
• ジョブ管理システム
計算ノード
ジョブ管理システム
•
親ノードが、複数ある計算機から資源の割り当てを自動で行い、効率
を上げる
•
ユーザは親ノードにジョブを投げるだけ(親ノードの名前すら知らな
くてもよい)
• データ解析は基本ジョブ管理システムを使うこと
-
bias4.nibb.ac.jp はパワーがないので、皆がbias4上で解析を行うと
すぐ倒れます
•
SunGridEngine (SGE)
利用報告書提出のお願い
•
生物情報解析システムの利用状況を的確に把握するため、
利用者の方々には毎年度末に報告書を提出いただきます
•
本システムを使った研究成果を論文等に発表する場合、謝辞
に本システムを利用した旨を明記して下さい。
•
Computational resources were provided by the Data
Integration and Analysis Facility, National Institute for Basic
Biology.
生物情報解析システム Wiki
http://www.nibb.ac.jp/cproom/wiki/
•
システム概要
•
申請・利用方法
•
保守のお知らせ 等々
お問い合わせは
[email protected]
まで
実習に使うデータ
unix15
!
"##
! ! ! ! ! "##
! ! ! ! ! "##
! ! ! ! ! "##
! ! ! ! ! ! ! %##
editor
5. エディタ 1日目 17:30∼
rnaseq
6. 次世代シーケンサ用データ解析コマンド
2日目 09:30∼
"##
"##
"##
"##
%##
1433T_HUMAN.sprot
1433T_MOUSE.sprot
example1.sh
example2.sh
example3.sh
"##
"##
! "##
%##
results
test_fastq
"## ecoli.1.fastq ~ ecoli.12.fastq
ecoli.gtf
ecoli_genome.fa
"##
"##
"##
"##
%##
bowtie1.sh
ex.sh
script2.sh
script3.sh
script4.sh
"##
"##
"##
"##
"##
"##
%##
128UP_DROME.fasta
128UP_DROME.phylip
128UP_DROME.sprot
140U_DROME.fasta
140U_DROME.phylip
…………… 181 files
testpg
"##
"##
"##
"##
%##
1433T_HUMAN.sprot
batter.txt
ecoli.gtf
ecoli.htseq
ecoli.sam
sge
sprot
text
7. SunGridEngine使用方法 2日目 11:00∼
9. シェルスクリプト2 2日目 14:00∼
3. UNIX基本コマンド 1日目 14:00∼
8. テキスト処理 2日目 13:00∼