イ タリア ミラノIFOMがん研究所

ミラノ IFOM-IEO での留学
医学部医学科 4 回生
0601-22-1021 藤本 健尊
私は、2013/09/02~2013/10/17 の 1 ヶ月半、ミラノの IFOM-IEO という研究所で
Bioinfomatics について研究しました。ミラノでの生活に関する情報などは過去の先輩方の
レポートの方に詳しく乗っているので、そちらを参考にしてください。このレポートでは、
IFOM に留学し Bioinfomatics について学ぶ前に、事前に知っておいたほうが良いと思われ
る事柄に関して述べたいと思います。
1. ChIP-Seq(主に Sequencing)について
私は IFOM では Bioinfomatics の分野の 1 つである ChIP-Seq という分野を主に扱いま
した。ChIP-Seq は特定のタンパクのゲノム上の分布を知ることを目的としており、大まか
に述べると、
① ChIP → ② Sequencing → ③ Mapping
という 3 つのステップから成ります。
私が IFOM で学んだのは③ Mapping の部分で、詳しい内容はマイコース・プログラム
活動報告書の方に記載してあります。本レポートでは、マイコース・プログラム活動報告
書の方には簡易にしか書いていない② Sequencing について詳しく述べたいと思います。
Sequencing では、ChIP で得られた特定のタンパクが結合していた DNA 断片の塩基配
列を読み取る作業を行います。これは機械を用いて行なうのですが、IFOM では Illumina
という機械と、Ion torrent という機械の 2 つを使っていました。この 2 つの機械はそれぞ
れ Sequencing の手法が全く異なります。本レポートでは、この Ion torrent がどのように
塩基配列を読み取っているのかについて詳しく述べたいと思います。Illumina については、
私と一緒に留学した福西さんのレポートの方に詳しく書かれていると思うので、そちらを
参考にしてください。
ポリメラーゼによってヌクレオチドが DNA 鎖に取り込まれる過程において、水素イオン
が放出されるのですが、Ion torrent ではそのことを利用して Sequencing しています。つ
まり、目的の DNA 鎖に対して 4 種類のヌクレオチド(A、T、G、C)をポリメラーゼを用
いて合成反応を行い、どのヌクレオチドに対して水素イオンが放出されるのかを検出して
いるわけです。
分かりやすく説明するために、目的の DNA 鎖が(3’)ATCGGA(5’)という塩基配列だとし
ます。ポリメラーゼは 5’→3’方向に DNA を合成していくので、相補鎖を形成する順は A→
T→C→G→G→A です。
いま、A、T、C、G の順にヌクレオチドを流して、取り込まれるかどうか見ていきます。
まず A を流しますが、
これは A とは相補鎖を形成しないので水素イオンは放出されません。
次に T を流すと、これは A と相補鎖を形成するので、取り込まれ合成反応が起き、水素イ
オンが放出されます。ここで大事なのは、水素イオンが放出されるかどうかということに
加え、水素イオンがどれだけ放出されるかということです。T を流した際、A と相補鎖を形
成し、まず水素イオンが 1 つ放出されます。次のヌクレオチドは T ですが、これに対して
は T は反応しません。よって放出される水素イオンは 1 つだけです。これが 1 サイクルで
す。この作業を何回も繰り返して DNA 鎖の塩基配列を読み取っていきます。この水素イオ
ンが放出されたかどうか、そしてそれだけ放出されたかは ph の変化によって検出していま
す。
上の図は、これらの作業を図で表したものです。4 サイクル目を見ると、他のサイクルと
比べて ph の変化が 2 倍になっていることが分かります。これは C が 2 回取り込まれ、そ
の分水素イオンも 2 つ放出されたためです。よって CC という相補鎖が形成され、それに
対応する部分の目的の DNA 鎖の塩基配列は GG だということが分かります。
以上が Ion torrent の Sequencing の原理です。この内容は動画でも詳しく説明されてい
る(英語)ので、それを見ればより理解が深まると思います。
URL:http://www.youtube.com/watch?v=MxkYa9XCvBQ
動画名:Ion Torrent™ next-gen sequencing technology
2. Terminal のコマンドについて
IFOM で学んだ Mapping の作業は Mac の Terminal を用いて行っていました。様々なコ
マンドを打ち、様々なソフトを用いてデータを処理しました。なので、IFOM へ留学され
る方は、留学に行く前にある程度 Terminal(プログラミング)の知識は持っておいたほう
が良いと思われます。とは言っても、専門的なコマンドなどは向こうで教えてもらえるの
で、基本的なコマンドさえ知っていて、使いこなせるという程度で良いと思います。以下、
向こうでよく使った基本的なコマンドを紹介します。
・cd:チェンジディレクトリの略です。ディレクトリを変えるときに用いる
・ls:フォルダ内に存在するファイルを表示する
・pwd:現在のディレクトリの場所を表示する
・cat:ファイルを出力する
・vim:テキストファイルを編集する
・grep:文字列を検索する
・rm:ファイルを削除する
・cp:ファイルをコピーする
・head:ファイルの先頭の 10 行を表示する(-n ○○で指定することで行数を変更可)
・echo:引数で与えた文字列を標準出力に出力する
上記以外にも用いたコマンドはたくさんあります。専門的なコマンドは向こうで学ぶし
かありませんが、基本的なコマンドは留学に行く前に覚えておき、Terminal もある程度使
い慣れておいたほうが良いと思います。
3. 分子生物学の知識について
分子生物学の知識も復習してから留学に行ったほうが良いと思います。英語で知ってい
ないと意味ないので、Essential Cell Biology の英語版で主要な単語の英語は覚えていった
ほうがいいと思います。
Chapter7~Chapter10 あたりを中心に復習すれば良いと思います。
以下に向こうでよく使っていた専門用語を列挙します。
・ChIP:Chromatin Immunoprecipitation(クロマチン免疫沈降)
・sequencing:DNA の塩基配列を特定していくこと
・alignment:DNA 断片を元々あったと思われる領域に配置すること
・indel:insert(挿入)と deletion(欠失)
・peak:ChIP で得た DNA 断片が特に集積している領域
4. さいごに
今回の留学は本当に貴重な経験となりました。普段学校では学ぶ機会のない
Bioinfomatics について学ぶことができ、今後将来を考える上でも良い経験ができたの
ではないかと思います。生活環境が恵まれすぎていたので実際とは違ったかと思います
が、海外での生活も経験できて良かったです。このような素晴らしい留学先を紹介して
くださった武田先生、基本的なことから熱心に指導してくれた Luca をはじめとする研
究室のメンバーには大変感謝しています。ありがとうございました。
マイコース・プログラム活動報告書
学生番号:0601-22-1021
氏名:藤本 健尊
所属分野名:耳鼻咽喉科・頭頸部外科学
期間:2013 年 9 月 2 日~10 月 17 日
活動内容(概略)
: Bioinfomatics(主に ChIP-Seq)
0. はじめに
今回のマイコース・プログラムでは、ミラノにある IFOM-IEO という研究所に留学し、
Bioinfomatics について研究した。この研究を選んだ理由としては、学生の間に一度は海外
留学を体験してみたいということを以前から考えており、また、細胞を使った基礎研究に
今ひとつ興味が湧かない中、プログラミングの技術をバイオに応用したこの Bioinfomatics
という比較的新しい分野を武田教授に教えていただき関心を持ったからである。
この研究所では様々な分野の Bioinfomatics について学んだが、特に Chip-Seq という分
野に関して学習し、実際に数々のデータをプログラミングを用いて処理した。様々な
ChIP-Seq を行ったが、その中の 1 つである酵母の RNA polymerase Ⅲをターゲットにし
た ChIP-Seq に関して以下に記す。
1. 実験目的
ChIP-Seq は特定のタンパクのゲノム上の分布を知ることを目的としており、大まかに述
べると、
① ChIP → ② Sequencing
→ ③ Mapping
という 3 つのステップから成る。
まずはじめに、ChIP とは Chromatin Immunoprecipitation(クロマチン免疫沈降)の
略であり、その概要は、
① タンパクの DNA への固定(クロスリンク)
② DNA を抽出し、ランダムに切断
③ 目的のタンパクに対応する抗体を用いて免疫沈降
④ DNA-タンパク複合体から DNA を精製(クロスリンクを外す)
⑤ PCR で増幅
である。
次に、この ChIP で得られた DNA 断片の Sequencing(DNA の塩基配列を調べる)を行
う。この Sequencing には様々な方法があり、その方法の違いによって様々な機械が存在す
るが、
私が行った研究所では、Illumina と Iontorrent という 2 つの機械を主に用いていた。
私が扱ったデータの大体はこの Illumina によって解析されたデータであったが、この
Illumina という機械では、簡易に述べると、DNA 断片を増幅した後、4 種類の蛍光標識ヌ
クレオチド(A、T、C、G)を用いて 1 塩基ずつ合成させ、得られた DNA 断片の色を読み
取り、塩基情報へと変換するという作業を行っている。
最後に、Sequencing で得られた情報をもとに、DNA 断片をゲノム上に Mapping すると
いう作業を行う。この DNA 情報の処理はプログラミングを用いて行うが、おおまかな流れ
としては、データを洗練(不必要なデータや、クオリティの低いデータを省く)し、ゲノ
ム上に DNA 断片を配列し、ピーク(目的のタンパクが結合している部位)を特定する、と
いうものである。
以上が ChIP-Seq の概要であるが、私が実際に取り組んだのは Mapping の部分である。
今回、RNA polymerase Ⅲを ChIP し Sequencing して得られたデータを、プログラミン
グで処理し、Mapping を行った。具体的な方法に関してはいかに記す。
2. 実験方法
上で述べたように、Mapping では Sequencing して得られたデータを洗練し、ゲノム上
に DNA 断片を配列(Alignment)し、ピークがどこにあるのか見つけるという作業を行な
うが、これらの作業はすべてパソコン上で行なった。Mac の Terminal を用いて、コマンド
を打ち、様々なソフトを用いてデータを処理した。具体的な方法をいかに記す。
今回は酵母の RNA polymerase Ⅲをターゲットに ChIP を行ったが、それで得られた
DNA 断片を Sequencing して得られた IonXpress_001_rawlib.basecaller.fastq というデー
タと、比較のために RNA polymerase Ⅲに対する抗体を用いず回収した DNA 断片を
Sequencing して得られた IonXpress_002_rawlib.basecaller.fastq というデータを受け取っ
た。
Seuquencing で得られたこの 2 つのデータは fastq というフォーマットで、データの容
量は数 GB 程度にも及び、その中には不必要なデータや、信頼性に欠ける(クオリティの
低い)データが存在するので、まずはそれらのデータをキレイにすることから始めた。
まずは、データの概要を見るため、FastQC というソフトを用いた。FastQC は、Sequence
の量や長さに始まり、各塩基のクオリティー(その塩基がどれくらいの信頼度で確かなの
か)や、PCR で無駄に増幅してしまった不必要な Sequence など様々な情報を簡易にまと
め、見やすいようにイメージ化してくれるソフトである。FastQC を用いる際は以下のコマ
ンドを打った。(
(fastq file)の部分に入るファイル名が長いため、下の()の中に記して
いる。
)
(fastq file : IonXpress_001_rawlib.basecaller.fastq)
このコマンドによって、fastq フォーマットのファイルからデータを抽出し、FastQ でデ
ータを処理した。IonXpress_001_rawlib.basecaller.fastq(IP:Immunoprecipitation をし
た方)
と IonXpress_002_rawlib.basecaller.fastq(Control)
という 2 つのファイルで FastQC
を行った。図 1 は IonXpress_001_rawlib.basecaller.fastq で FastQC を行った後の結果で
ある。
図1
図 1 から分かるように、FastQC で得られた結果には、Total Sequence(数)や Sequence
length(長さ)などの基本情報から、GC content や Duplication Level、Overrepresented
sequence など様々な情報が入っている。この情報を見て不必要な部分、クオリティーの低
い部分を削っていくのであるが、主にチェックするポイントは、
① Basic Statistics
② Per bese sequence quality
③ Overrepresented sequences
の 3 つである。
①に関しては、Total Sequence 数をデータをキレイにする前と後で比較し、どれくらい
の Sequence が取り除かれたかを確認する。
②は、DNA 断片の各塩基ごとのクオリティースコアをプロットしたものである。
Illumina
の特徴として、Sequence する塩基が後ろになればなるほどクオリティースコアが下がって
いく傾向があり、
クオリティースコアが 20 を切っているものはデータとして使えないので、
まずはプロットを見て平均が 20 を切っている部分を取り除く。
図 2 は、IonXpress_001_rawlib.basecaller.fastq で得られた Per Base sequence quality
のプロットである。プロットから分かるように、159-199 まではクオリティースコア(縦軸)
の平均が 20 を上回っているがそれ以降は 20 を下回っているので、199 番目までの塩基を
残すことにした。
この際に使うツールキットが fastx_trimmer というツールキットであり、
実際に打ったコマンドは以下の通りである。
Input : IonXpress_001_rawlib.basecaller.fastq
Output : IonXpress_001_trimmed.fastqc
図2
③の Overrepresented sequence についてだが、まず、Overrepresented sequence が何
なのかについて説明する。Illumina では DNA 断片を認識、増幅、読み取りを行い、その
際に DNA 断片の両端に Adapter という塩基配列が付け加えられるのだが、その塩基配列
は目的の DNA 断片とは無関係の塩基配列であるにもかかわらず、誤って元々の DNA 断片
の配列として認識されてしまうことがある。その塩基配列のことを Overrepresented sequ
ence という。よって、この Overrepresented sequence が存在する場合には取り除く必要
があり、そのために fastx_clipper というツールキットを用いた。
図3
図 3 は IonXpress_001_rawlib.basecaller.fastq における Overrepresened sequences を
表しており、
“AAATAAAGATTGCAGCACCTGAGTTTCGCGTATGGTCACCCACTACAC
TA”という配列が 30700 回カウントされたことを表している。この配列を取り除くために
以下のコマンドを打った。
Input : IonXpress_001_trimmed.fastqc
Output : IonXpress_001_clipped.fastqc
最後に、fastx_quality_filter というツールキットを用いて、更にデータの洗練を行なう。
Iuput : IonXpress_001_clipped.fastqc
Output : IonXpress_001_quality_filtered.fastqc
このコマンドは、read の 80%以上がクオリティースコアが 20 以上である場合はその
read を保存し、クオリティースコアが 20 未満であるものが 20%以上ある read は取り除く
ということを意味している。つまり、fastx_trimmer では各リードの中でクオリティースコ
アが低いものを取り除き、fastq_quality_filter ではクオリティースコアが低いものを多く
含む read 自体を切り捨てたということである。これらの作業により、精度の高い read の
みが残されたことになる。
以上の作業により綺麗になったデータが以下の図 4、図 5 である。
図4
図5
図 5 のプロットを見ても分かる通り、クオリティースコアの平均値がすべて 20 を超えて
おり、図 1 と図 4 で Basic Statistics を前後で比べてみても、Sequence 数が 26170006 か
ら 1154349 まで半分以上減っており、不必要なデータは取り除かれ、データが洗練された
ということが分かる。
IonXpress_002_rawlib.basecaller.fastq(Control の方)に関しても同じくデータの洗練
を行った。
データの洗練が終わった後、DNA 断片を DNA 上に Alignment する作業を行った。まず
以下のコマンドを打ち、とりあえず DNA 配列を Alignment した。
Input : IonXpress_001_quality_filtered.fastqc
Output : Ion001.sam
Index : mysacCer1
Index は、この実験は酵母の DNA で行っているので、酵母の Index を用いた。
これで、一応すべての DNA 断片をゲノム上に Alignment したが、この Alignment だけ
では欠陥がある。それは1つの DNA 断片に対して複数箇所の配置が考えられるとき、その
複数箇所すべてに対して DNA 断片を配置してしまっているという点である。そこで、以下
のコマンドをによって、複数箇所に配置してしまっている DNA 断片を取り除き、すべての
DNA 断片が 1 箇所にしか配置しないようにした。
Input : Ion001.sam
Outpt : Ion001_sh.sam
次に、以下のコマンドによって、この sam ファイルを bam ファイルに変換し、そしてそ
の bam ファイルを染色体、座標順で並び替え(sort)をした。
Input : Ion001_sh.sam
Output: Ion001_sh_sorted.bam
そして最後に、PCR による重複を除去するために以下のコマンドを用いた。
Input : Ion001_sh_sorted.bam
Output : Ion001_sh_sorted_rmdup.bam
これで Alignment の作業は完了し、同じ作業を IonXpress002 に対しても行った。
最 後 に 、 こ れ を GenomeBrowser と い う と こ ろ に ア ッ プ ロ ー ド し て 、 Ion001
(Immunoprecipitation)で現れる peak と Ion002(Control)を見比べるのだが、bam フ
ァイルはバイナリであるためアップロードできず、bedGraph というテキスト形式のフォー
マットに変換する必要がある。そこで、以下のコマンドを打ち、bam ファイルを bedGraph
に変換した。
Input: Ion001_sh_sorted_rmdup.bam
Output : Ion001.bedGraph
bedfile : sacCer1_chrsize.bed
これと同じ作業を IonXpress002 にも行った。
3. 実験結果
以上の作業により出来上がった Ion001.bedGraph と Ion002.bedGraph の 2 つの
bedGraph ファイルを GenomeBrowser というサイトにアップロードしたところ、図 6 の
ような結果になった。図 6 は Chr1(1 番染色体)の一部をピックアップしたものである。
図6
ピーク①
ピーク②
4. 考察
ピーク③
Ion001 つづき
Ion002 つづき
ピーク④
4. 考察
図 6 から分かるように、Immunoprecipitation をした Ion001 では 4 箇所ほどピークが見
られ、このピークのところが RNA polymerase Ⅲが存在し、転写が開始される場所の候補
だと考えられる。このピークについてそれぞれ詳しく見てみることにする。
図7
図8
図 7 はピーク①を拡大したものである。下側の Ion002(Control)と比べてみると、Ion002
では DNA 断片がそれほど集積していないが、Ion001 では Immunoprecipitation した DNA
断片が集積していることが分かる。よってこのあたりに RNA polymerase Ⅲが結合するの
だということが分かる。
図 8 はピーク②を拡大したものである。Ion001 のデータを見る限りでは、ピークが存在
しているように思われるが、下側の Ion002 と比べて見ると、Ion002 でも同じ程度 DNA 断
片が集積しており、両者で特に差は見られないので、このピークは RNA polymerase Ⅲが
結合する DNA 断片が集積してできたものではないと考えられる。
ピーク③、④に関してもピーク①と同じように、Ion002 と比べてはるかに多く DNA 断
片が集積しており、RNA polymerase Ⅲが結合する場所だと考えられる。
Immunoprecipitation したデータと Control のデータを比べて、Control で見られる
Count 数よりもはるかに多い(閾値は自分で設定可能)ピークはピークと認識し、閾値よ
り少ない Count 数しかないピークはピークとは認識しないようにできる MACS というツー
ルキットもあるそうなので、それを使えばさらにピークの特定が適格かつ容易になると思
われる。
5. 感想
今回の留学では、Bioinfomatics という今まで全く関わったことのない分野を扱った。私
は、Bioinfomatics どころかプログラミングの知識すらあまり持っていないような状態だっ
たので、初めはついて行けるのかどうか不安だったが、Luca をはじめとする研究室の皆さ
んが基本的なことから丁寧に指導してくれたので、落ちこぼれることなく非常に充実した
時間を送ることができた。今回は、実験で得られる莫大な量のデータを、様々なツールキ
ットを用いてパソコン上でいかに処理するかということを学んだ。種々のツールキットを
使うにあたり、これらのツールキットがどのようにデータを処理するかのアルゴリズムに
ついて書かれた論文も参考資料として渡され一通り読んだが、論文に書かれていたアルゴ
リズムは、医学の知識だけでなく高度な統計学や数学も駆使しており、私にはほとんど理
解できない難解なものであった。しかし、このように統計学や数学の分野が医学に貢献し
ているということは、実際に Bioinfomatics の 1 分野である ChIP-Seq を学び、実験で得ら
れた莫大なデータを処理し必要なデータを抽出するという作業を行っただけでも十分に実
感できた。今回の留学を通して、医学の分野だけに留まらず、門戸を広げ他の分野の学問
も学ぶ必要があるのだということを身をもって知ることができ、本当に貴重な経験を出来
たと思っている。
最後になりましたが、留学先として IFOM-IEO を紹介してくださり、日本でも論文精読
を手伝ってくださった武田教授、所属先として快く受け入れてくださった伊藤教授、そし
て、基礎的な内容から丁寧に指導してくださった Luca をはじめとする研究室のメンバーに
は本当に感謝しています。ありがとうございました。
上記報告書を確認しました。
指
導 教 員(署名)
:
所属分野責任者(署名)
: