454GS シリーズを用いた 16S アンプリコンシークエンシングによる

技法セミナー
454GS シリーズを用いた 16S アンプリコンシークエンシングによる
細菌叢構造解析
須 田 亙
1.はじめに
環境中には多くの難培養性細菌が存在しているこ
とから,細菌叢の菌種組成やその動態を把握するた
めには,培養を介さずに 16S リボソーム RNA 遺伝
子(16S rDNA)の配列を解析する手法(16S 解析)
が汎用されてきた。従来,16S 解析には,ユニバー
サルプライマーを用いて PCR 増幅した 16S rDNA
アンプリコンをクローニングし,回収したプラスミ
ドのサンガーシークエンシングによって塩基配列を
解析する手法が一般的であった。しかし,この方法
は組み換え実験を行う必要があり,操作が煩雑であ
ることから解析できる検体数や 1 検体あたりに読み
取り可能なリード数に限りがあった。また,クロー
ニングの過程でバイアスを生じる問題点も指摘され
ていた。
一方で,2005 年に初めて次世代シークエンサー
(Next-Generation Sequencer: NGS)が発表された。
NGS は,比較的短いリード長の配列読み取りを大
量に並列処理することで,膨大な量の DNA 配列デー
タを簡便に読み取る事が可能な技術であり,今日ま
でに数種類の異なる特性を持った機種が発売されて
いる。各種 NGS は現在でも半年から一年単位で装
置の性能のバージョンアップが行われており,また,
1 分子から DNA 配列を読み取る事が可能な第 3 世
代機も登場するなど,性能のアップデートが続いて
いる。
NGS であるロシュ社の 454 GS シリーズシークエ
ンサーは,他の NGS と比較して,長鎖の読取り(500
~ 700 塩基/リード)が可能な特徴を有するため(例
えばイルミナ社 MiSeq の場合は 250 塩基/リード),
16S rDNA の広範囲を解析できる利点がある。
筆者らは 454 GS シリーズシークエンサーを用い
63
てヒト常在細菌叢を解析する一連のパイプライン
を構築し,これを公開している(http://www.rochebiochem.jp/prima/20130307.pdf)
f 。また現在では,本
パイプラインを様々な環境試料に応用している。本
稿では,本パイプラインを用いた NGS による細菌
叢の 16S 解析について,環境試料からの DNA 抽出
からデータ解析に至る一連の流れを解説する。
2.環境試料からの菌叢 DNA の抽出
細菌叢の構造の正確な解析には,試料から細菌叢
の元の組成比を損なわずに網羅的に細菌のゲノム
DNA を抽出することが重要である。この目的のため,
図 1.複合酵素法を用いた菌叢 DNA の調製手順1)
細菌叢サンプルに対し,リゾチーム処理,アクロモペプ
チダーゼ処理を行うことでサンプル中の細菌群を網羅的
に溶菌し,プロテアーゼ K 処理,PCI 処理,PEG 沈殿,
RNase 処理を経て精製する。アクロモペプチダーゼは溶菌
スペクトルが広く,リゾチームと組み合わせることでよ
り広範囲の細菌を溶解することが可能である。
64
図 2.糞便検体を用いた菌叢 DNA 調製手法の評価
Handbook of molecular microbial ecology II2) より一部改変し転載。
(A)ラット糞便検体から各種法で調製した菌叢 DNA の電気泳動結果。M:分子量マーカー,1:リゾチーム処理,2:複
合酵素法(リゾチーム + アクロモペプチダーゼ),3:ガラスビーズ破砕(+SDS),4:ガラスビーズ破砕(−SDS),5:
QIAamp DNA stool mini Kit.
(B)ヒト糞便検体からの各種法による DNA 回収率の比較。1:リゾチーム処理,2:複合酵素法(リゾチーム + アクロモ
ペプチダーゼ),3:ガラスビーズ破砕(+SDS),4:ガラスビーズ破砕(−SDS),5:QIAamp DNA stool mini Kit。
(C)各種法で回収した DNA を用いた菌叢構造の UniFrac PCoA による比較。異なるヒト糞便検体の解析結果。1~5,6~
10 および 11~15 がそれぞれ異なるヒト糞便検体からの回収した DNA の解析結果を示す。●:リゾチーム処理,○:
複合酵素法(リゾチーム + アクロモペプチダーゼ),■:ガラスビーズ破砕(+SDS),□:ガラスビーズ破砕(−SDS),
▲:QIAamp DNA stool mini Kit。QIAamp DNA stool Kit によって得られた DNA の菌叢フロットは他の手法と大きく離
れていることから,菌叢構造の解析結果に影響していることがわかる。
筆者らのグループではリゾチームおよびアクロモペ
プチダーゼを用いた複合酵素による DNA 抽出手法1)
(図 1)を用いている。図 2 には,ヒトおよびラッ
ト糞便検体から様々な手法を用いて抽出した DNA
を評価した結果を示した2)。複合酵素法で抽出した
DNA は高分子で DNA 収量も高いことがわかる(図
2A,B)。最も注意しなくてはならないのは,特定
の市販キットの中には使用することによって菌叢解
析の結果に DNA 抽出によるバイアスが生じる可能
性があるものが存在する点である(図 2C)。このよ
うなキットは簡便性に特化しており,特定の細菌の
迅速な検出等に用いるのには適しているが,菌叢全
体を網羅的に調べる 16S 解析には向かない。以上
の情報を考慮し,筆者らは複合酵素法をヒト,マウ
ス,ラットなどの常在細菌叢(糞便,唾液,尿,表
皮細菌叢)をはじめ,海洋水などの環境サンプルか
らの細菌叢 DNA の抽出にも応用している。
3.16S rDNA の PCR 増幅とパイロシークエンシング
続いて,抽出した DNA から 16S rDNA の variable
region を含む断片を PCR 増幅する。この目的のた
めに,様々なユニバーサルプライマーセットが用い
られてきた。筆者らは,27Fmod および 338R を用い,
454 シークエンサーで完全長を読みきれる塩基長で
ある V1–2 領域(340 塩基前後)を増幅後,解析す
る手法(アンプリコン解析)を用いている(図 3)。
27Fmod は従来の 16S 解析で汎用されていた 27F の
65
図 3.454 GS シリーズを用いた 16S アンプリコン解析
V:Variable region(可変領域)。
配列の 1 塩基をミックスに置き換え,菌叢の定量性
を向上したものである(図 3A)。従来の 27F はヒト
腸内細菌叢において,Bifidobacterium 属細菌とミス
マッチを生じるため過小評価の原因になっていた3)。
NGS では大量のリードが得られるため,1 回の稼働
で複数検体を同時解析するのが一般的である。ベン
チトップ機である 454 GS junior を使用する場合,1
稼働で 10 万リード以上のリードが得られる。例え
ば,5,000 リード/検体のリード量を得るには,1
稼働当たり 20 検体を同時解析できる。このために
は,パイロシークエンシングの鋳型となる PCR ア
ンプリコンにサンプル毎にユニークな 10 塩基程度
のバーコード配列を付加しておき,複数サンプルを
混合後,一括でシークエンシングを行う。シーク
エンシングの後,得られたリードをバーコードに
基づき分配し,個別に解析する(バーコードシー
クエンシング)。筆者らは,27Fmod および 338R に
454 GS シークエンサーによる反応に必要なアダプ
ター配列を付加したフュージョンプライマーである
27Fmod-454A および 338R-454B を用いている(図
3B)。27Fmod-454A には,前述のバーコード配列が
含まれているため,本プライマーセットを用いて
PCR 増幅することで,バーコード配列を付加した
V1–2 領域の PCR アンプリコンを簡便に作成可能で
ある。バーコード配列を含むプライマーの詳細に
関しては以下の URL を参照されたい(http://www.
igsb.org/uploads/pdf/TCB-09013_AmpliconFusionPrim
erDesignGuidelines.pdf)
f 。各サンプルの PCR アンプ
リコンは精製後,インビトロジェン社の Picogreen
dsDNA reagent kit を用いて定量し,等量ずつ混合す
ることでライブラリを作成する。その後,ロシュ社
から提供されているプロトコルに従いエマルジョン
PCR により,クローニングを介さずに各 16S 断片
をモノクローナルに増幅し,大規模並列シークエン
シングに供する。
筆者らは十数種の細菌ゲノム DNA をある組成
比 で 人 工 的 に 混 合 し た 合 成 細 菌 叢 DNA を 作 成
し,本手法における菌組成比の定量性評価を行っ
た4)。図 4 は 27Fmod-338R を用いた V1–2 領域,従
来の 27F-338R を用いた V1–2 領域,787F-1061R を
用いた V5–6 領域の 454 GS シークエンサーによる
アンプリコン解析,27F-1492R を用いた従来のク
ローニング解析(サンガー法)
,および構成菌種特
異的な qPCR によって得られた合成細菌叢の菌組成
66
比に基づく主成分分析を行った結果を示している。
27Fmod-338R および 787F-1061R によるアンプリコ
ン解析の結果は,qPCR と同程度に期待値に近く,
正確に菌組成を反映していることがわかる。一方で,
従来の 27F-338R を用いた方法は期待値から少し離
れている。さらに従来のクローニング解析によって
得られた結果は最も期待値から離れており,定量性・
定性性ともに大きな問題があることがわかった。
4.シークエンシングデータの処理
アンプリコン解析によって得られたリードには,
一定割合で正確性の低いリードや短い(不完全な)
リードが含まれている。このため,得られたリード
のクオリティチェックの工程が重要である。図 5 は
筆者らが構築したクオリティチェックの工程を示し
ている。まず,配列の両末端にそれぞれ 27Fmod と
338R の配列を正確に持っているリードのみを選抜
する。その後,選抜された配列の全体の平均クオリ
ティ値(QV)が 25 以上のリードを選抜する。この
過程で不完全長リードやクオリティの低い不正確な
リードが除去され,解析に適した高品質リードのみ
が選抜される。その後,必要に応じてリードのキメ
ラチェックを行う。
図 4.合成細菌叢を用いた菌組成比の定量性評価
2 つの異なる菌組成をもつ合成細菌叢を作成し,各種手法で解析した菌組成比に基づく主成分分析の結果4)。●:期待値(合
成菌叢を作成した混合比),○:構成菌種特異的 qPCR による定量。■:27Fmod-338R を用いた V1–2 の 454 アンプリコンシー
クエンシング,□:27F-338R を用いた V1–2 の 454 アンプリコンシークエンシング,▲:787F-1061R を用いた V5–6 の
454 アンプリコンシークエンシング,◇:27F-1492R を用いた V1–9 のクローニングライブラリ解析(サンガー法)。
図 5.454 シークエンシングで得られたリードのクオリティチェック工程
67
5.Operational taxonomic unit(OTU)解析
慣れていない場合,敷居が高い作業工程と思われが
ちである。筆者らはこれらの操作を Linux 環境下に
おいて簡便なコマンドのみで自動処理するパイプラ
インを構築し,ロシュ社からフリーで公開している
の で, 参 考 さ れ た い(http://www.roche-biochem.jp/
prima/20130307.pdf)
f 。
上記のクオリティチェックを経て高品質リード
を得た後は,OTU の作成を行う(図 6)。OTU 解析
は,配列同士の相同性がある一定以上(96–97% が
一般的)のリード同士をクラスタリングして,1 つ
の菌種(あるいはグループ)として定義して扱う
ための手法である。形成された OTU の数は,菌叢
6.菌叢構造の比較解析
を構成する菌種の数を,各 OTU に含まれるリード
OTU の菌種帰属の結果を集計することで,各系
数はその種の存在量を表している。形成された各
OTU から選抜した代表配列をデータベースと照会
統レベルでの菌叢の組成比を算出することが可能で
することで菌種帰属を行う。菌種帰属に用いるデー
ある。図 7A には疾患患者と健常者におけるヒト常
タベースは,登録されている菌種の系統情報が正確
在細菌叢の属レベルでの組成比を解析した例を示
であることが重要である。公的データベースであ
した。菌組成比を求めることで,2 グループ間で有
る Ribosomal Database Project(RDP)5),Greengenes6), 意に増加あるいは減少している菌群を統計学的に
SILVA7) などは,いずれも系統情報の正確な菌種の
検出することが可能である(図 7B)。存在比の差の
16S 配列を提供している。また,Genbank で公開さ
検定以外にも,異なるサンプル間での菌叢構造全
れている細菌のコンプリートゲノムも系統情報が正
体の比較を行う様々な手法が存在する。その中で
UniFrac 解 析8)(http://bmf2.colorado.edu/fastunifrac/)
確で,16S 配列情報を含んでいる。筆者らは,RDP
に登録されている単離菌由来の 16S 配列と,コン
は,最も汎用されている解析手法である。UniFrac
プリートゲノムから抽出した 16S 配列から構築し
では OTU の代表配列を用いて Tree を作成し,サン
たデータベースを菌種帰属に利用している。
プル間で共有する枝の長さとそれぞれのサンプルに
上述したリードのクオリティチェックや,クラ
固有な枝の割合から 2 サンプル間の菌組成の相違度
スタリングによる OTU 作成,信頼性の高いデータ
を距離(UniFrac Distance)として求める。UniFrac
Distance には,OTU に含まれるリード数を考慮し
ベースを用いた菌種帰属は,情報学的な解析手法に
図 6:Operational taxonomic unit(OTU)解析
68
図 7.16S データにもとづく菌組成解析例
それぞれ 10 名の健常者と疾患患者の常在細菌叢解析した結果の例。
(A)属レベルでの菌組成比を示した例。
(B)疾患患者グループと健常者グループで存在比に有意な差がある菌(属)の分布および平均値。アスタリスクは統計
学的有意差を示す。
た weighted とリード数を考慮しない unweighed の 2
種類があり,前者は菌叢の組成全体の類似性を,後
者は菌叢の菌種メンバーのみの類似性を反映してい
る。得られた距離マトリクスを用いた主座標分析
(Principle Coordinate Analysis: PCoA)を行うことで,
各サンプルの菌叢構造の類似性を視覚化することが
できる。図 8A には疾患患者および健常者のヒト常
在細菌叢の UniFrac Distance に基づく PCoA の例を
示した。2 群のプロットがそれぞれクラスタリング
しており,菌叢構造の違いが明確に把握できる。ま
た,図 8B は各サンプル間の UniFrac Distance を患
者グループ間,健常者グループ間,患者―健常者グ
ループ間に分けてまとめたものである。患者―健常
者グループ間の UniFrac Distance が,患者グループ
間および健常者グループ間よりも,統計学的に有意
に大きければ,2 群間の菌叢構造の違いを強く示唆
することができる。
7.終わりに
本稿では,筆者らが構築し研究に応用している解
析パイプラインを紹介させていただいた。NGS に
よる大量の 16S リードの解析に対応したフリーツー
ルとしては Mothur9) や QIIME10) などが既に公開さ
れており,多用されている。こうしたツール群の開
発により,以前はバイオインフォマティクス技術者
以外には敷居が高かった NGS によるデータの解析
が一般化してきている。
上述してきたとおり,NGS を利用した 16S 解析は,
従来用いられていたクローニングによる 16S 解析
よりも,菌組成の定量が正確な高精細な解析手法に
なり得る。しかしながら,次世代シークエンサーを
用いた 16S 解析においても,PCR による増幅を介
するため,得られた結果にバイアスを生じている可
能性は否定できない。また,16S 解析では,各菌種
の系統分類に基づく菌叢構造の比較は可能であるが,
69
図 8.UniFrac distance を用いた菌叢構造類似性の解析例
(A)UniFrac distance に基づく主座標分析例(principle coordinate analysis: PCoA)。黒は疾患患者検体,白は健常者検体を示す。
(B)疾患患者および健常者グループにおける,グループ内とグループ間の UniFrac Distance の比較解析例。アスタリスク
は統計学的有意差を示す。
その菌叢が持っている機能に結びつく知見を得るの
は難しい。これらの問題を解決するには,細菌叢か
ら抽出した DNA の全配列に対し網羅的な配列決定
(ホールゲノムショットガンシークエンシング)を
行い,得られた遺伝子情報から菌叢の構造や機能を
考察するメタゲノム解析を相補的に用いる必要があ
る。
文 献
1) Morita, H. et al. 2007. An improved isolation method for
metagenomic analysis of the microbial flora of the human
intestine, Micorbes Environ. 22: 214–222.
2) Ueno, M. et al. Assessment and Improvement of Methods for
Microbial DNA Preparation from Fecal Samples. pp. 191–198.
In Edited by Frans J. de Bruijn. Handbook of molecular microbial ecology II. Published 2011 by John Wiley & Sons, Inc.
3) Hattori, M. and T. Taylor. 2009. The human intestinal microbiome: a new frontier of human biology. DNA Res. 16: 1–12.
4) Kim, S. et al. 2013. Robustness of gut microbiota of healthy
adults in response to probiotic intervention revealed by
high-throughput pyrosequencing. DNA Res. 20: 241–253.
5) Maidak, L.M. et al. 1997. The RDP (Ribosomal Database
Project). Nucleic Acids Res. 25: 109–110.
6) DeSantis, T.Z. et al. 2006. Greengenes, a Chimera-Checked
16S rRNA Gene Database and Workbench Compatible with
ARB. Appl. Environ. Microbiol. 72: 5069–5072.
7) Pruesse, E. et al. 2007. SILVA: a comprehensive online resource for quality checked and aligned ribosomal RNA
sequence data compatible with ARB. Nucl. Acids Res. 21:
7188–7196.
8) Lozupone, C. and R. Knight. 2005. UniFrac: a New
Phylogenetic Method for Comparing Microbial Communities.
Appl. Environ. Microbiol. 71: 8228–8235.
9) Caporaso, J.G. et al. 2010. QIIME allows analysis of
high-throughput community sequencing data. Nat. Methods
7: 335–336.
10) Schloss, P.D. et al. 2009. Introducing mothur: Open-Source,
Platform-Independent, Community-Supported Software for
Describing and Comparing Microbial Communities. Appl.
Environ. Microbiol. 75: 7537–7541.