! ' This repository Pull requests Search # + Gist suimye / NGS_handson2015 Short description of this repository 4 22 commits Branch: master $ Unwatch 1 ⋆ Star 0 & Fork 0 Website Description 3 Issues Website for this repository (optional) 5 2 branches 7 0 releases Save or Cancel ( Code ) Issues 0 * Pull requests 0 6 1 contributor 2 NGS_handson2015 / + + Wiki Update README.md suimye authored 2 hours ago " README.md latest&commit&8d8e7067dc Update README.md / 2 hours ago , Pulse - Graphs + README.md . Settings 平成27年度NGSハンズオン講習会 HTTPS clone URL https://github.com/suimye/NGS_hand / You can clone with HTTPS, SSH, or Subversion. ? ChIP-Seq解析基礎-森岡担当 0 Clone in Desktop バイオインフォマティクス人材育成カリキュラム、次世代シークエ ンサ(NGS)ハンズオン講習会の講義資料になります。 平成27年度NGSハンズオン講習会の公式HP 2015全日程の講義資料 8/6以降も適宜更新作業を行っていますので、追加分で大事なところは赤字にしてあります。 ご質問は msmorioka-tkyあっとumin.ac.jpまでお願いいたします。 参考資料 2014のChIP-seq解析、河岡先生の資料へのリンク shellの使い方: 服部先生の資料へのリンク HOMER NGS Surfer's wiki -bowtie, bwaのmultimappingのときのリードの分散について情報 はじめに 本実習の達成目標は、“NGS解析の初心者がNGSデータの一つであるChIP-seqデータに触れ、ChIPseq解析の流れを概要として掴み、自ら解析するときの足がかりとなる”ことを目指します。本実習で 利用する方法は、一般的に利用される方法ではありますが、Biolinux8という限られた環境で行うとい う性質上、大変遺憾ながら最新の手法や、インストールの如何で個人差の生じるような方法をできる だけ利用しないような配慮がなされています。従って、あくまでも“練習”であり、自分で実際に臨む ときは最新の手法やさらに良いソフトウェアを利用することをオススメします。 1. Linux操作については、門田先生、服部先生のLinux基礎の知識を前提にしています。Commandで 分からないところがある場合は講義資料を参考にするようにつとめてください。 2. ソフトウェアの実行では、実習生のPC環境によって動作しない事があります。森岡が動作を保証 するものではありません。ソフトウェアの動作についてはソフトウェアの開発者に聴くことが重 要です。 3. 遅れても焦らずに。まずは講師のデモ・レクチャーを聴いた後に時間を与えますので、その時に 1 1 Download ZIP 周りに聴いたり、先生方に聴いて進むようにしてください。 NGS_handson2015 1. 初心者コース(森岡の講義とともに歩く) ChIP-seqの基本原理と解析の流れ(pptで説明) データの取得 データのQCと、ゲノムへのアライメント Peak Callに基づくタンパク質-DNA結合領域の検出 Peak 領域の意味付けと統合解析(主にpptで説明) Ngsplotを使ったtagの分布解析 HOMERの統合解析 2. 中級者以上コース(一匹狼たちへの課題) © 2015 GitHub, Inc. Terms Privacy Security Contact ! 2 Status API Training Shop Blog About Help ! & This repository Search Pull requests Issues " + Gist suimye / NGS_handson2015 # Unwatch 1 data_retrive ⋆ Star Edit 0 % Fork 0 New Page ' suimye edited this page 12 hours ago · 3 revisions ( 2. ChIP-seqデータのGEOからの取得方法 論文から、GSEナンバーをcheck。GEOから検索します。 今回は、SoufiらのiPS細胞に関 する2012年の論文(Facilitators and Impediments of the Pluripotency Reprogramming . Pages 7 Home ) * data_retrive Factors' Initial Engagement with the Genome)からOct4のChIP-seqデータに興味をもっ NGS_beginner たと仮定して、データを取得してみよう。 NGS_senior NGSplotsOnBiolinux8 PeakCallAndMDA + , - repeat region from UCSC_table_browser + Add a custom sidebar Clone this wiki locally https://github.com/suimye/NGS_handson2015.wiki.git / 0 Clone in Desktop 文献の中には、GSEナンバーが書いてあります。 このように、GSEナンバーを元に必要なデータをたどる方が確実に目標に近づくため大変 オススメです (文献をしっかり読んで、再解析のデータがどのようなデータとして得ら れるかを予想しておくことは重要)。 GEOでの検索 では、NCBIの遺伝子発現オムニバスGEO, GEOのデータセット検索にアクセスしてみま しょう。 http://www.ncbi.nlm.nih.gov/gds/ 検索対象がGEO Datasetsになっていることを確認して、検索キーワードをiPS Oct4など で検索してみましょう。 3 ところが、目的のSoufiらの論文に1ページ目ではたどり着けません。2012年の論文は現 在から既に5年が経過しているために、押し流されているので、やはりもっと限定的な キーワードがよいということです。では次に、GSEナンバーに基づいてみましょう。 見事に一撃必殺です。topヒットをクリックしてください。 GSEはSeriesAccessionなので、その論文の著者がGEOにシリーズとして登録している 4 データのデータの概要(アブストラクト)を出してくれています。再解析をするときは、 最低でもこの内容に目を通すことが重要です。 従って、iPS細胞のOct4に関連するChIP-seqデータが欲しいという漠然とした検索対象で GEOから探すよりも、論文を読んで、研究デザインに基づいて情報を抽出する方が確実 な再解析できると思います。もちろん、データ先導的な解析をしたい場合は、前者のよう な方法も有効ですがその場合はもう少し自動的にデータをフィルタリングするなどの工夫 を行って、大量のデータを取得する方が望ましいでしょう。 GEOからのダウンロード ここではGEOの使い方をお話しいたしますが、実際にダウンロードするのは他のテスト データになります。説明だけですが、初心者にはとてもややこしいGSEナンバーから GSMナンバー、SRXナンバーの捌き方を説明しますので、よく聴いておいてください。 URL下段には、Download familyや、Supplemental filesとして色々なデータが登録されて います。 先にsupplemental filesをみてみると、 SRP/SRP011/SRP011557 (ftp) SRA Study GSE36570_All_48hrs_MTFBRs.bed.gz 1.9 Mb (ftp)(http) BED GSE36570_DBRs.bed.gz 2.9 Kb (ftp)(http) BED GSE36570_RAW.tar 3.4 Gb (http)(custom)TAR (of BED, BW) これらのデータは、生データ(NGSデータ)をグループとしてftpに置いてあるデータや、 NGS解析仮定でなんらかの処理が行われたデータ(processed data、ここではBEDファイ ル)が登録されています。注意するべきは、processed dataは、どんなデータ形式をGEO に置くかは特に取り決めがあるわけではありません。解析したデータを公開する目的で著 者らが好き勝手におけるものなので、論文によって置かれているデータの形式などが違い ます。 今回のように1サンプルのダウンロードの場合はDownload familyからが便利です。この 項目には、サンプル毎にリンクとそのサンプルの研究における名前が書かれてあり、大変 便利です。このGSMナンバーをクリックし、次のページの下段にあるSRXナンバーをク リックすればダウンロードできますが、今回は割愛します。 クリック以外のダウンロード方法 1.>wgetを利用する #SRRナンバーのURLをコピー>(wget利用する、NCBI>toolkitを使う) 5 wget>Ind>ftp://ftpItrace.ncbi.nlm.nih.gov/sra/sraIinstant/reads/ByExp/sra/SRX%2FSRX130%2FSRX130060/SRR445816/SRR445816.sra #ダウンロード後に、sraファイルを解凍する。 fastqIdump SRR445816.sra> 2.>SRRナンバーを引き出してfastqIdump>IAを利用する(NCBI>toolkitだけを使う、低速) fastqIdump>IA>SRR445816.sra #sraファイルを探し出し、ダウンロードしつつ解凍もしてくれる。 重要なのは、NGSデータなどのリポジトリのデータは、 GSEナンバー => GSMナンバー => SRX => SRRナンバー (NGSデータの名前) という 流れでアクセスすることで、ある研究 -> 個々のデータのGEO登録ナンバー =>NGS ファイルの個々のナンバーまで到達すると得られるということです。 GEO以外のデータベース DRA fastqでデータが保持されているので、sraからの変換が要らない。 GEOのsraデータが破損している場合などにこちらでとれた経験あり。 GSEナンバーを入れるときは、keywordのところへ fastqが保持されているので解析しやすい。 6 ENA DRAと同様にfastqファイルを保持してくれている。 DRAがメンテナンス中のときはこちらを使う事も。 + Add a custom footer © 2015 GitHub, Inc. Terms Privacy Security Contact ! 7 Status API Training Shop Blog About Help ! & This repository Search Pull requests Issues " + Gist suimye / NGS_handson2015 # Unwatch 1 repeat region from UCSC_table_browser ⋆ Star Edit 0 % Fork 0 New Page ' suimye edited this page 20 hours ago · 2 revisions ( 1 UCSC table browserを用いたrepeat領 域の取得 . Pages 7 Home * data_retrive NGS_beginner UCSC table browserにアクセスする。 ) + NGS_senior NGSplotsOnBiolinux8 PeakCallAndMDA , - repeat region from UCSC_table_browser + Add a custom sidebar Clone this wiki locally https://github.com/suimye/NGS_handson2015.wiki.git / 0 Clone in Desktop 上の図と同じのように設定にする。 genome: human assembly: Feb. 2009 GRCh37/hg19 group: Repeats region: genome outputformat: BED output file: hg19.rmsk.bed file type returned:gzip compressed get outputボタンを押す。 8 画面のget BEDを押す。 解凍などのデータの下処理 #ファイルサイズを確認しておく ls -lath drwxr-xr-x 3 suimye staff 102B 8 3 01:59 . -rw-r--r--@ 1 suimye staff 57M 8 3 01:58 hg19.rmsk.bed.gz drwxr-xr-x 49 suimye staff 1.6K 7 28 18:49 .. #gzipコマンドで解凍 gzip -d hg19.rmsk.bed.gz #中身の確認 head hg19.rmsk.bed chr1 16777160 16777470 AluSp 2147 + chr1 25165800 25166089 AluY 2626 - chr1 33553606 33554646 L2b 626 + chr1 50330063 50332153 L1PA10 12545 + chr1 58720067 58720973 L1PA2 8050 - chr1 75496180 75498100 L1MB7 10586 + chr1 83886030 83886750 ERVL-E-int 980 - chr1 100662895 100663391 L2a 1422 - chr1 117440426 117440514 L1ME1 532 + chr1 117440494 117441457 L1ME1 4025 + 余計な情報を除去しておいく [email protected]@|cut@Df1,2,3,4@>hg19.rmsk.2.bed@ 9 ! & This repository Search Pull requests Issues " + Gist suimye / NGS_handson2015 # Unwatch 1 NGS_beginner ⋆ Star Edit 0 % Fork 0 New Page ' suimye edited this page 6 minutes ago · 33 revisions ( 1 . Pages 実習環境の準備 7 Home あらかじめ解析データを入れるフォルダを作成しましょう。 ) * data_retrive NGS_beginner + NGS_senior #実習フォルダの作成 mkdir'~/tutorial150806' #フォルダへ移動 cd''~/tutorial150806' NGSplotsOnBiolinux8 PeakCallAndMDA , - repeat region from UCSC_table_browser 必要なデータのダウンロード + Add a custom sidebar 今回の実習に利用するデータをダウンロードしましょう。 google drive,dropboxに置いて あります。 講義中にDLしておいてください。 Clone this wiki locally https://github.com/suimye/NGS_handson2015.wiki.git / DLサイト1 DLサイト2 DLサイト3 0 Clone in Desktop データ移動させ解凍しておく ダウンロードできたかどうかは、ブラウザの右上にあるDownloadsをクリックすると確 認できます。ダウンロード完了後、以下のコマンドを実行して解凍してください。 #ヒトゲノム配列の解凍(hg19の染色体17番のデータ) mv'~/Downloads/hg19_chr17.zip'./ unzip'hg19_chr17.zip mv'hg19_chr17/*'./ mv'~/Downloads/sample.fastq.gz'./ gzip'Fd'sample.fastq.gz mv'~/Downloads/nazo.fastq.gz'./ gzip'Fd'nazo.fastq.gz 0. 今回のデータの取得とクオリティcheck fastqファイルを取得したら、shell環境で念のために中身のデータを確認してみる(head commandの復習: 中身をheadコマンドで確認してみる)。 head'sample.fastq''''''''''' @SRR445816.18948743'HWUSIFEAS366_145:3:39:5673:1812/1 ACTCCTGCCTCAGGTGATCCATCCGCCTCAGCCTCT + 10 BDGGG@GDGGBG@DDE@ABFGGGB<CFEAE<:???= @SRR445816.28703832'HWUSIFEAS366_145:3:61:8637:6699/1 ACTGACTCAAATGTTAATCTCCTTTGGCAACACTCT + IIIIIIIIIIIIIIIIIIIIIIEIIIIIIIIIIIII @SRR445816.43211059'HWUSIFEAS366_145:3:94:3572:7097/1 TAAGCCCCTTCTCTTAGGATTTATAACCTCATCACT Phred scoreに基づくsequencing qualityのチェックをしてみよう fastqcコマンドを使って、クオリティをcheckする。 まず出力先のディレクトリを作成し、fastqcを行う(出力ディレクトリーには、日付を入れ よう!)。 mkdir'sample_qc1/ fastqc'Fo'sample_qc1/'sample.fastq mkdir'input_qc1/ fastqc'Fo'input_qc1/'input.fastq fastqx_toolkitを使ったQCフィルタリング QV>=20以上が80%あるreadを残す fastq_quality_filter'Fq'20'Fp'80'FQ33'Fi'sample.fastq'Fo'sample.q1.fastq fastq_quality_filter'Fq'20'Fp'80'FQ33'Fi'input.fastq'Fo'input.q1.fastq 先ほどと同様に品質評価を行い、filtering前とfiltering後を比較してみる。 mkdir'sample_q1_qcout/ mkdir'input_q1_qcout/ fastqc'Fo'sample_q1_qcout/'sample.q1.fastq fastqc'Fo'input_q1_qcout/'input.q1.fastq 結果のhtmlファイルをクリック 1. リード長に伴うシーケンシングスコアの推移の比較 2. 塩基バイアスの調査(トリムの必要あるか) 11 1. bowtie2を使ったゲノムへのマッピング bowtie2'Fp4'FN0'Fx'./hg19_chr17/hg19_chr17'sample.q1.fastq'>'sample.sam bowtie2'Fp4'FN0'Fx'./hg19_chr17/hg19_chr17'input.q1.fastq'>'input.sam 重要なオプションの解説 Fx:'参照するゲノムを指定。bowtie2用のインデックス化されたゲノムが必要 Fq:'入力配列。fastq形式(.fqか.fastq) FS:'アライメント後の出力ファイル名の指定 Fp:'利用するスレッド数 FFun:'ゲノムにアライメントされなかったfastqファイルを出力するファイル F5:'5'からトリムする場合の塩基数 F3:'3'からトリムする場合の塩基数 FFqcFfilter:'fastqファイルのPhred'Scoreに基づくfiltering'(先にqc'filteringしていない場合に用いる) Fr:'pairFend'readのアライメントを行う時に 出力結果 iu@bio[tutorial150806]'bowtie2'Fp4'FN0'Fx'./hg19_chr17/hg19_chr17'sample.q1.fastq'FFun'sample.un.out'>'sample.sam 6164507'reads;'of'these: ''6164507'(100.00%)'were'unpaired;'of'these: ''''0'(0.00%)'aligned'0'times ''''1550235'(25.15%)'aligned'exactly'1'time ''''4614272'(74.85%)'aligned'>1'times 100.00%'overall'alignment'rate 裏課題 暇なひと(上級者)は、sample.un.outのデータからどんな塩基配列がmapされなかった か調べてみよう。 12 - software DeconSeq - 地味にやる wget'"https://raw.githubusercontent.com/jimhester/fasta_utilities/master/scripts/fastq2fasta.pl" 1. GGGenomeを使う(http://gggenome.dbcls.jp/ja/) 2. 相同性検索をかける samファイルの中身を覗いてみてみよう。 先頭から五行表示 iu@bio[tutorial150806]'head'Fn5'sample.sam'''''''''''[12:12午前] @HD'VN:1.0''SO:unsorted @SQ'SN:chr17''''LN:81195210 @PG'ID:bowtie2''PN:bowtie2''VN:2.2.4''''CL:"/usr/bin/../lib/bowtie2/bin/bowtie2FalignFs'FFwrapper'basicF0'Fp4'FN0'Fx'./hg19_chr17/h SRR445816.15448471''0'''chr17'''5102645'1'''36M'*0''0'''CTCCCAGGCTGGAGTGCAGTGGTGCAATCTTGGCTC''''HHHHHHHHHHHHHGHHHHFGGGCGGHHHHHHHHHH SRR445816.28703832''0'''chr17'''10949619''''1'''36M'*'''0'''0'''ACTGACTCAAATGTTAATCTCCTTTGGCAACACTCT''''IIIIIIIIIIIIIIIIIIIIIIEIIII iu@bio[tutorial150806]'' The SAMファイルの情報一覧: Read Name SAM flag chromosome (if read is has no alignment, there will be a "*" here)position (1-based index, "left end of read") MAPQ (マッピングクオリティ, 0=non-unique, >10 probably unique) CIGAR string (insertion (i.e. introns)がリードの中にあるか否かなどに重要。例えば、 splicing junctionの決定などにも利用) Name of mate (mate pair information for paired-end sequencing, often "=") Position of mate (mate pair information) Template length (always zero for me) Read Sequence Read Quality Program specific Flags (i.e. HI:i:0, MD:Z:66G6, etc.) 2. データの変換操作とクレンジング XSの情報を使って、データをクレンジング ゲノムに複数アライメントされうるreadは、どこのゲノム領域を読んだ配列か不確かなの で、不確かな情報は除外しておく。 #クレンジングする前 wc'sample.sam 25003 #2カ所以上でmappingされるreadの数 grep'"XS"'sample.sam'>'sample.multi.sam' wc'sample.multi.sam 2515 13 #multiFmappedを除く。 grep'Fv'"XS"'sample.sam'>'sample.uq.sam grep'Fv'"XS"'input.sam'>'input.uq.sam samからbamファイルへの変換 samファイルのバイナリー形式であるbamファイルへ変換する。 samtools'view'FbS'sample.uq.sam'>sample.uq.bam samtools'sort'sample.uq.bam'sample.uq.sort samtools'view'Fb'FS'input.uq.sam'>input.uq.bam samtools'sort'input.uq.bam'input.uq.sort #ls'Falをつかって、ファイルサイズを確認しておく。 ls'Fal optional: Picard-toolsを使ったPCR duplicatesの除去 上記までのクレンジングしてもなお、peak callをした時にセントロメアや、テロメア、 GCリッチな配列、ホモポリマーなどの領域に大きなpeakが検出されてしまう場合、PCR duplicateの除去をオススメする。 picardFtools'MarkDuplicates'INPUT=sample.uq.sort.bam'OUTPUT=sample.uq.sort.drm.bam'METRICS_FILE=sample.uq.sort.metrics'AS=true'REMO picardFtools'MarkDuplicates'INPUT=input.uq.sort.bam'OUTPUT=input.uq.sort.drm.bam'METRICS_FILE=input.uq.sort.metrics'AS=true'REMOVE_ 出力結果 [Mon'Aug'03'01:30:21'JST'2015]'net.sf.picard.sam.MarkDuplicates'INPUT=[sample.uq.sort.bam]'OUTPUT=sample.uq.sort.drm.bam'METRICS_FI [Mon'Aug'03'01:30:21'JST'2015]'Executing'as'iu@bio'on'Linux'3.13.0F57Fgeneric'amd64;'OpenJDK'64FBit'Server'VM'1.7.0_79Fb14;'Picard' INFO''''2015F08F03'01:30:22'MarkDuplicates''Start'of'doWork'freeMemory:'30647024;'totalMemory:'31457280;'maxMemory:'620756992 INFO''''2015F08F03'01:30:22'MarkDuplicates''Reading'input'file'and'constructing'read'end'information. INFO''''2015F08F03'01:30:22'MarkDuplicates''Will'retain'up'to'2463321'data'points'before'spilling'to'disk. WARNING'2015F08F03'01:30:22'AbstractDuplicateFindingAlgorithm'''Default'READ_NAME_REGEX''[aFzAFZ0F9]+:[0F9]:([0F9]+):([0F9]+):([0F9 INFO''''2015F08F03'01:30:25'MarkDuplicates''Read'''''1,000,000'records.''Elapsed'time:'00:00:02s.''Time'for'last'1,000,000:''''2s.' INFO''''2015F08F03'01:30:25'MarkDuplicates''Tracking'0'as'yet'unmatched'pairs.'0'records'in'RAM. INFO''''2015F08F03'01:30:26'MarkDuplicates''Read'1550235'records.'0'pairs'never'matched. INFO''''2015F08F03'01:30:27'MarkDuplicates''After'buildSortedReadEndLists'freeMemory:'242052288;'totalMemory:'365953024;'maxMemory: INFO''''2015F08F03'01:30:27'MarkDuplicates''Will'retain'up'to'19398656'duplicate'indices'before'spilling'to'disk. INFO''''2015F08F03'01:30:27'MarkDuplicates''Traversing'read'pair'information'and'detecting'duplicates. INFO''''2015F08F03'01:30:27'MarkDuplicates''Traversing'fragment'information'and'detecting'duplicates. INFO''''2015F08F03'01:30:27'MarkDuplicates''Sorting'list'of'duplicate'records. INFO''''2015F08F03'01:30:27'MarkDuplicates''After'generateDuplicateIndexes'freeMemory:'347730928;'totalMemory:'506462208;'maxMemory INFO''''2015F08F03'01:30:27'MarkDuplicates''Marking'159965'records'as'duplicates. INFO''''2015F08F03'01:30:27'MarkDuplicates''Found'0'optical'duplicate'clusters. INFO''''2015F08F03'01:30:39'MarkDuplicates''Before'output'close'freeMemory:'517976680;'totalMemory:'523239424;'maxMemory:'620756992 INFO''''2015F08F03'01:30:46'MarkDuplicates''After'output'close'freeMemory:'507489848;'totalMemory:'512753664;'maxMemory:'620756992 [Mon'Aug'03'01:30:46'JST'2015]'net.sf.picard.sam.MarkDuplicates'done.'Elapsed'time:'0.41'minutes. Runtime.totalMemory()=512753664 bamファイルから、ゲノム上のrepeat領域を除く ChIP-seqデータはゲノムDNAをシェアリングしているので、ホモポリマーをはじめとし たGCリッチな配列や繰り返し配列が検出されやすい。そこで、reapeatに結合性のタンパ ク質の場合を除き、reapeat配列にマップされたのリードをあらかじめ除去しておく。 UCSCからリピート配列のBED配列の取得。 intersectBed'Fabam'sample.uq.sort.bam'Fb'hg19.rmsk.2.bed'Fv'>'sample.uq.rmsk.bam 14 intersectBed'Fabam'input.uq.sort.bam'Fb'hg19.rmsk.2.bed'Fv'>'input.uq.rmsk.bam 3. アライメント後のデータの可視化 データをUCSC genome browserで見る genomeCoverageBed'Fibam'sample.uq.rmsk.bam'Fbg'Ftrackline'Ftrackopts''name="sample"'color=250,0,0''>'sample.bedGraph genomeCoverageBed'Fibam'input.uq.rmsk.bam'Fbg'Ftrackline'Ftrackopts''name="input"'color=250,250,0''>'input.bedGraph 1. UCSC genome browserへアクセス 2. hg19のゲノムトラックであることを確認 3. manageCustomTracksを選択 4. add custom tracksでbedGraphファイルを選択 5. 作成したbedGraphをsubmitする Upload中の画面 1. uploadが完了すれば次のような画面になるので、go genome browserをクリック なおこの画面では、自分が入れたファイル(custom track)を管理することができる カスタムトラックの追加 15 カスタムトラックの削除 名前をクリックすれば名前を変更可能 1. zoom out x100 1. カスタムトラックのところで、右クリック。 denseからfullに変更する ブラウザの下にあるCustom Tracksのところからも操作可能 2. TP53を入力し、GOを押す。 + Add a custom footer © 2015 GitHub, Inc. Terms Privacy Security Contact ! 16 Status API Training Shop Blog About Help ! & This repository Search Pull requests Issues " + Gist suimye / NGS_handson2015 # Unwatch 1 PeakCallAndMDA ⋆ Star Edit 0 % Fork 0 New Page ' suimye edited this page 11 hours ago · 3 revisions ( . Pages 1 3. Peak Callに基づくタンパク質-DNA 結合領域の検出 7 Home ) * data_retrive NGS_beginner + NGS_senior 今回の実習では、Biolinux8で利用できるMACS14を利用します。 ノイズフィルタリング を行った前と後のデータでpeak callの結果を比較しましょう!!! NGSplotsOnBiolinux8 PeakCallAndMDA 3.1 早速 MACSをかけてみる , - repeat region from UCSC_table_browser #ノイズフィルタリング後のデータ macs14()t(sample.uq.drm.rmsk.bam(())name=sample()c(input.uq.drm.rmsk.bam()f(BAM()g(hs())(wig + Add a custom sidebar #ノイズフィルタリング前のデータでも行い、比較してみよう! macs14()t(sample.bam(())name=sample_before()c(input.bam()f(BAM()g(hs())(wig Clone this wiki locally https://github.com/suimye/NGS_handson2015.wiki.git / 出力 0 Clone in Desktop iu@bio[tutorial150806](macs14()t(sample.uq.bam(())name=sample()c(input.uq.bam()f(BAM()g(hs())(wig( INFO((@(Tue,(04(Aug(2015(00:49:18:( #(ARGUMENTS(LIST: #(name(=(sample #(format(=(BAM #(ChIP)seq(file(=(sample.uq.bam #(control(file(=(input.uq.bam #(effective(genome(size(=(2.70e+09 #(band(width(=(300 #(model(fold(=(10,30 #(pvalue(cutoff(=(1.00e)05 #(Large(dataset(will(be(scaled(towards(smaller(dataset. #(Range(for(calculating(regional(lambda(is:(1000(bps(and(10000(bps INFO((@(Tue,(04(Aug(2015(00:49:18:(#1(read(tag(files...( INFO((@(Tue,(04(Aug(2015(00:49:18:(#1(read(treatment(tags...( INFO((@(Tue,(04(Aug(2015(00:49:18:(tag(size:(36( INFO((@(Tue,(04(Aug(2015(00:49:23:((1000000( INFO((@(Tue,(04(Aug(2015(00:49:27:(#1.2(read(input(tags...( INFO((@(Tue,(04(Aug(2015(00:49:31:(#1(tag(size(is(determined(as(36(bps( INFO((@(Tue,(04(Aug(2015(00:49:31:(#1(tag(size(=(36( INFO((@(Tue,(04(Aug(2015(00:49:31:(#1((total(tags(in(treatment:( .....(中略..... INFO((@(Tue,(04(Aug(2015(00:50:08:(#5(Done!(Check(the(output(files!( MACSの解析結果のファイル MACSの出力の説明について 1. peaks.xls chr 染色体番号 start ピークの開始 17 end ピークの終了位置 length ピーク領域の長さ summit ピークの頂点の開始位置からの相対位置 tags ピーク領域のタグ数 -10*LOG10(pvalue) fold_enrichment 基準からの倍差 FDR(%) %表示したFDR値 2. negative_peaks.xls ctrl側のピークの情報 3. peaks.bed i. 染色体番号 ii. 開始座標 iii. 終了座標 iv. Peak ID v. スコア bedファイルはIGVでのpeak位置確認や、その他の解析のために整形・利用できるので便 利。 3.2 Rを使ってMACSで行ったtag-shift peakのモデルの具 合をcheckする R())vanilla(<(sample_before_model.r Peakを拾って、詳細な解析のための下準備をする 18 今回はscoreの高い順番に50 peakを取得 cat(sample_peaks.bed(|sort()k5()n()r((>sample_peaks.sort.bed( headで確認して見ると head(sample_peaks.sort.bed( chr17(((25301798((((25304698((((MACS_peak_662(((3100.00 chr17(((25287092((((25288357((((MACS_peak_648(((2425.18 chr17(((25268055((((25269504((((MACS_peak_632(((2202.03 chr17(((25285964((((25286720((((MACS_peak_647(((1622.51 chr17(((81181350((((81182196((((MACS_peak_2505((1606.45 chr17(((51183091((((51183752((((MACS_peak_1618((1515.69 chr17(((25288564((((25289503((((MACS_peak_649(((1464.25 chr17(((22021833((((22022232((((MACS_peak_594(((1229.63 chr17(((22023645((((22023897((((MACS_peak_599(((1055.50 chr17(((22022568((((22022976((((MACS_peak_596(((986.64 top50を取得 head()n50(sample_peaks.sort.bed(>top50.bed 4. タンパク質-DNA結合領域(Peak)の配 列解析 1. IGVを使って、個々にしらべる。 2. top100を使って、motif discoveryをする。 4.1 champion peakのTFBS searchをやってみよ う どうやら、MA_662がNo.1らしい。 IGVでMACS_peak_662をsearch. 目的位置を赤いバー囲むようにクリックで選択する 赤いバー右クリック、peakの領域の塩基配列を取得する 19 TFBS search (簡易版、検索する転写因子が決まっている場 合) physbinderにアクセス Use Methodを選択。 コピーした配列をペーストする。 20 fasta形式になるように、先頭に">文字列"をつける。 TFBS modelを選択する。 解析中の画面 解析結果の画面 21 4.2 motif discovery analysis motif discovery analysisでは、得られたDNA配列からTFBS searchよりも発見的に配列の 規則を見つけ出す手法 1. Peak Callで得られたbedファイルから、fastaファイルを作成する 2. fastaファイルをmulti fastaにする 3. MEME-ChIPを使って、motif探索を行う fastaファイルを作るための整形 #summitは、領域が小さいので、前後20bpほど追加する。 cat(top50.bed(|perl()e('while(<>){my($chr,$st,$en,$id,$score)=split/\t/;($st=$st()10;($en=$en(+10;(print("$chr\t$st\t$en\t$id\t$sco #top50のdataからdata(rangeを使って、blastdbcmdのコマンドを作成する。 cat(top50.plus.bed|cut()f1,2,3,4|sed('s/\t/)/g'|sed('s/chr17)/blastdbcmd()db(hg19_chr17.fa()entry(all()range(/'(|sed('s/)MACS_/(>/' 出力結果のcheck iu@bio[tutorial150806](cat(peak_1044((((((((((((((([(1:24午前] >gnl|BL_ORD_ID|0:33981997)33982008(chr17 TAAGATTTGCCG fastaファイルをひとまとめにして、multi fastaを作成する #mfa作成 iu@bio[tutorial150806](cat(peak_*(>top50.mfa((((((([(1:28午前] #中身の確認 22 iu@bio[tutorial150806](head(top50.mfa(((((((((((((([(1:29午前] >gnl|BL_ORD_ID|0:33981997)33982008(chr17 TAAGATTTGCCG >gnl|BL_ORD_ID|0:41231735)41231746(chr17 GTGAGAACCAAT >gnl|BL_ORD_ID|0:51183370)51183381(chr17 TCCCCTATTCTC >gnl|BL_ORD_ID|0:57248285)57248296(chr17 AACACACAGCTC >gnl|BL_ORD_ID|0:57249598)57249609(chr17 GTTCCGCCCCAG #必要のない個々のfastaファイルを削除する iu@bio[tutorial150806](rm()f(peak_*(((((((((((((((([(1:29午前] MEME-ChIP MEME-ChIPへアクセスする 左のタブのMotif Discoveryをクリック MEME-ChIPを選択 23 重要なパラメータについて How many motifs should MEME find? 与えた配列に対して、全体でいくつのmotifを見つけさせるか What width motifs should MEME find? motifの大きさ How many sites per motif is acceptable? 発見したmotifが利用している配列の数 結果の画面 download、もしくはhtmlで結果をみてみる。 + Add a custom footer © 2015 GitHub, Inc. Terms Privacy Security Contact ! 24 Status API Training Shop Blog About Help ! & This repository Search Pull requests Issues " + Gist suimye / NGS_handson2015 # Unwatch 1 NGSplotsOnBiolinux8 ⋆ Star Edit 0 % Fork 0 New Page ' suimye edited this page an hour ago · 11 revisions ( Ngsplotのbiolinux8でのinstallと解析 . Pages 7 Home link ) * data_retrive Ngsplot-2.47をDL NGS_beginner 雑感、doMCのパッケージがミラー先によってinstallできない印象がある。 それ以外 + NGS_senior は、大きくこけるところは無くinstallできる模様 R version 3.2.0 (2015-04-16) -- NGSplotsOnBiolinux8 "Full of Ingredients" PeakCallAndMDA , - repeat region from UCSC_table_browser installディレクトリの作成 mkdir&~/tools mv&~/Downloads/&~/tools cd&~/tools #解凍 tar&xzvf&ngsplot92.47.tar.gz + Add a custom sidebar Clone this wiki locally https://github.com/suimye/NGS_handson2015.wiki.git / 0 Clone in Desktop pathを通す echo&'export&PATH=~/tools/ngsplot/bin:$PATH'&>>~/.bashrc echo&'export&NGSPLOT=~/tools/ngsplot'&>>~/.bashrc pathを有効にする source&~/.bashrc Rのパッケージインストール updateもすべてYes、10分以上かかる source("http://bioconductor.org/biocLite.R") install.packages("doMC")&#ミラーはchina2を選択 biocLite("caTools",&dep=T) install.packages("utils",&dep=T) #R3.0以降はutilsは、必要ない biocLite("ShortRead") biocLite("BSgenome") install時のwarning message #####BitSeqがインストールできていない状況、ただしprogramは最終的に動いた。 *&DONE&(GenomeInfoDb) The&downloaded&source&packages&are&in &&&&‘/tmp/RtmpoZ1j1c/downloaded_packages’ Warning&message: In&install.packages(update[instlib&==&l,&"Package"],&l,&contriburl&=&contriburl,&&: 25 &&installation&of&package&‘BitSeq’&had&non9zero&exit&status 備考:doMCが入って無いときのエラーメッセージ Loading&R&libraries..Installing&package&into&‘/home/iu/R/x86_649pc9linux9gnu9library/3.2’ (as&‘lib’&is&unspecified) Error&in&contrib.url(repos,&type)&:& &&trying&to&use&CRAN&without&setting&a&mirror Calls:&install.packages&9>&grep&9>&contrib.url In&addition:&Warning&message: In&library(package,&lib.loc&=&lib.loc,&character.only&=&TRUE,&logical.return&=&TRUE,&&: &&there&is&no&package&called&‘doMC’ Execution&halted pathが通っているか確認 iu@bio[ctcf]&ngsplotdb.py&list&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& ID&&&Assembly&Species&&&&&&EnsVer&&&NPVer&&&&InstalledFeatures&&&&&&&&&&&& hg19&GRCh37&&&homo_sapiens&74.0&&&&&3.0&&&&&&cgi,exon,genebody,tss,tes& ngsplotにはデフォルトでhg19が入っているこれを用いて 今回のデータを解析してみる ngs.plot.r&9G&hg19&9R&genebody&9C&sample.uq.sort.bam&9O&CTCF.genebody&9T&CTCF&9L&3000&9FL&200 ngs.plot.r&9G&hg19&9R&genebody&9C&input.uq.sort.bam&9O&input.genebody&9T&input&9L&3000&9FL&200 -G: ゲノム(専用のデータがGDriveに落ちてる) -R: 解析region、いろいろ選べる。 -C: 解析対象のbamファイル -O: outputフォルダの名前 -T: plotの中のレジェンドにつく名前 -L: 解析領域の前後に付け足す長さ -FL: カバレッジの計算する際のbinの大きさ sortされていないデータを用いたときのエラーメッセージ [bam_index_build2]&fail&to&index&the&BAM&file. Error&in&FUN(X[[i]],&...)&:&failed&to&build&index &&file:&sample.uq.bam Calls:&headerIndexBam&...&indexBam&9>&sapply&9>&sapply&9>&lapply&9>&FUN&9>&.Call Execution&halted 解析成功時のmessage iu@bio[ctcf]&ngs.plot.r&9G&hg19&9R&genebody&9C&sample.uq.sort.bam&9O&CTCF.genebody&9T&CTCF&9L&3000&9FL&200 Configuring&variables... Using&database: /home/iu/tool/ngsplot/database/hg19/hg19.ensembl.genebody.protein_coding.RData Done Loading&R&libraries.....Done Analyze&bam&files&and&calculate&coverageWarning&message: 'isNotPrimaryRead'&is&deprecated. Use&'isSecondaryAlignment'&instead. See&help("Deprecated")& ................................................................................................................................... Plotting&figures...Done Saving&results...Done 26 Wrapping&results&up...Done All&done.&Cheers! 解析結果を比較してみよう 比較しやすいように同じplotに2つ描く ##ファイルリストを作成する& echo&'sample.uq.sort.bam&&&&91&&"CTCF"'>list.txt echo&'input.uq.sort.bam&91&&"Input"'>>list.txt ##ngs.plotを実行 ngs.plot.r&9G&hg19&9R&genebody&9C&list.txt&9O&CTCFandCtrlgenebody&9L&4000&9FL&200 + Add a custom footer © 2015 GitHub, Inc. Terms Privacy Security Contact ! 27 Status API Training Shop Blog About Help
© Copyright 2024 Paperzz