October 6, 2004 (原稿:小項目・バイオインフォマティクス辞典出版予定) 統計的推測 人はさまざまな問題に遭遇したとき, 幾多の直接の経験から,また社会の間接 的な経験から得た情報を総合して解決のための結論を心に描く.この能力は遺伝 的な背景から生得的に芽生え,社会生活を通して完成されるものであり,人間と して,あるいはもっと大きな前提の生物として本能的に授けられた能力である. 推測とはこのように事実,証拠,前提から,結論に向かって帰結する過程をさす. そして統計的推測とは,確率法則に従うデータを基礎にして結論を得る過程のこ とを言い,広い意味では不確実性のあるもとでの推測であると言える.つまり, 統計的推測の主要な目的は不確実性の客観的な計量化である.実際の応用では, 統計的推測は広範なデータを解析し,科学的結論を与える.この意味でデータ解 析とは統計的推測の口語表現と言えるだろう.歴史的には,生物進化の仮説を, 化石データや野外調査から実証するために構築された方法論として成立したとい う経緯があり,生物学,進化論,集団遺伝学と密接に連係し,発展してきた.医 学においても様々な臨床試験からの帰結に統計的推測は必須となっている.最近 ではバイオインフォマティクスにおいて,様々な観測データを解析するために有 力な方法として認知されている. 統計的推測の過程において注意されるべきことは,実験の計画の段階でデー タがどのように母集団分布から生成されるか正確に仮定されなくてはいけないと いうことである.この仮定の下で統計的推測の下した結論は正当化される.した がってデータに対する仮定が正確でなければ,その正当化も支持されなくなる. 例えば,観察スタディにしばしば見られる,無視できないミッシングデータ,情報 のある打ち切りデータ,ノンランダム層別化など,通常の統計的推測による結論 は,様々なバイアスが生じる危険がある.このように仮定の正しさによって,そ の仮定に基づく統計的推測は正当化される.現実のデータ解析においては,この 点について細心の注意が必要である.バイオインフォマティクスに関連するデー タの母集団分布に関しても,この注意は重要である.最近,バイオインフォマティ クスで扱われるデータの特質を‘ p >> n ’問題と呼ぶようになっている.ここで p はデータの次元を表し,n はデータの繰り返し数(標本数)を表す.この困難な 問題は従来の統計的推測で想定された仮定を逸脱することがある.後で議論され るように,統計的推測の基礎理論の多くは,データ次元 p を有限に固定し,繰り 返し数 n を ∞ に近づけたときの極限定理によって考察されている.この p >> n 問題では,全く適用外の理論があることに注意すべきで,したがってこの理論で 正当化された統計方法を使う場合は無批判に結果を受け入れるべきでない. 統計的推測の方法の最適性については,異なる観点から異なる結論が出されて いる.このことから,頻度学派,尤度学派,ベイズ学派などの間で,また同じ学 派内においても様々な議論がかわされた.ときには激しい論争もあったが,この 議論によって統計的推測がより深まり,広範な方法論を提供することに役立った. 現在では特定の学派だけに通用する考察よりはより広範な意味の下での考察が主 流になりつつある.問題の定式化のために以下に記号を導入する.データは確率 変数 X の実現値であり,x と表す.X の確率分布の密度関数は {fθ (x) : θ ∈ Θ} にあると仮定する.ここで x や θ はベクトル値を取ることもある.統計的推測の 主目的はパラメータ θ についての結論を引き出すことである.具体的には θ がベ クトルの場合,推測は θ の一部分で記述され,この意味で,残りのパラメータは 撹乱パラメータと呼ばれる. 確率変数 X の実現値が密度関数 fθ (x) をもつ独立同一分布から生成されたと すると,尤度関数は L(θ|x) = n i=1 fθ (xi ) で与えられる.この尤度という考えは上で挙げられた各々の学派に共通な基本概 念である.尤度関数が L(θ|x) = L1 (θ|t(x))L2 (x) と分解されるとき,t(x) を十分統計量と呼ぶ.定義から十分統計量 t(x) を与えた ときの X の条件付き分布は θ に依存しない.パラメータ θ に関する推測に対して 十分統計量 t(x) は全ての情報を含んでいる.全ての十分統計量の中で t(x) が最 小次元を持つとき,最小十分であるといわれる. 頻度学派 頻度学派の一貫した考えでは,推測方法の性能評価は,ある統計的実験が無 限回繰り返されたもとで成される.このように推測の頻度理論は確率に対する頻 度学派の解釈に基づいている.頻度の考察は特定のデータに対して成されない. 批判の一つに,データの解析の目的はデータを生成する特定の実験から推測する ことであって,仮想的な無限の繰り返しから推測は決してされていないという指 摘がある.それにもかかわらず,頻度学派の中で提案され発展された方法は,統 計的方法の主要な部分を占める.仮説検定,一致推定,不偏推定,不変推定,最 尤推定,信頼区間(領域)などが含まれる.Fisher 情報量,Neyman-Pearson 補題,Cramer-Rao 不等式,一様最小分散推定など基本的な推測理論も挙げら れる.さらに基本的なアプローチは,無作為化と並び替え検定から,ノンパラメ トリック統計が発展していった.ランク統計量,スコアー統計量は,特定の分布 に寄らない性質が詳細に調べられている.条件付原理は補助統計量の使い方をめ ぐって厳密な議論が展開され,後に比例ハザードモデル,偏尤度法などの発展に 寄与した.推定論は最尤法を中心に発展した.推定関数の理論も,一般化線形モ デルの擬似尤度という考えの下で,最尤理論を越えて考察された.さらにセミパ ラメトリックモデルの文脈の下で数学的に精密化された. 尤度学派 尤度学派の考えの多くは,頻度学派の考えと共有するものである.これは後 で紹介されるベイズ学派も同様である.共通で最も重要なものとして尤度関数 L(θ|x) がある.パラメータ θ に関する尤度関数の最大化によって,最尤推定量 θ̂ が定義される.頻度学派の考えでは「無限回試行」によってその性質が正当化さ れるが,尤度学派では,尤度関数そのものが持つ最小十分性と条件付原理で正当 化する.パラメータの 2 つの値 θ1 と θ2 に対して,その尤度比 L(θ1 |x)/L(θ2 |x) が 相対的な支持の度合いを測ることができる.これより,尤度比は最尤推定量 θ̂ に よって標準化され,パラメータ θ の尤度信頼領域を θ ∈ Θ : L(θ|x)/L(θ̂|x) ≤ k で与えることができる.最近,この標準化尤度比の考察は,モデルの特定化の乖 離のもとでの調整など,一般的な議論がされている. ベイズ学派 ベイズ学派は現在,もっとも盛んに適用され活発な発展を続けている.その 基本パラダイムは,全ての推測は θ の事後分布 π(θ|x) = L(θ|x)p(θ)/P (x) に基づくというものである.ここで P (x) は正規化定数 L(θ|x)p(θ)dθ とする. したがってモデル fθ (x) と事前分布 p(θ) の特定化が必須となる.このベイズ学派 の考えでは,ある統計的実験を行い,実現値 x を得る前と後ではパラメータ θ の 確信度が p(θ) から π(θ|x) へ変わることを意味する.事後分布最大推定量(MAP) を θ̂ とすると,θ の確信度の領域は {θ ∈ Θ : π(θ|x)/π(θ̂|x) ≤ k} で定められる. ベイズ推測の重要な性質は,将来の観測値の予測が自然にできることである. 実現値 x に対して将来の観測値 y の予測尤度は Θ L(y|x) = Θ L(θ|y)π(x|θ)dθ で与えられる.この予測尤度の優れた性質が,頻度学派のパラダイムにおいても 示されている.事後分布の積分計算をめぐって,最近マルコフ連鎖モンテカルロ 法 (MCMC) やインポータンス・サンプリングが開発され,ベイズ計算が有効で 経済的に実行されるようになった.このことから,現在のベイズ学派の活発な再 興がある.モデル選択の文脈でも BIC, ベイズファクターなど適用がある. 最初に述べたように,統計的推測とは不確実性のあるもとで確率法則に従う データを基礎にして結論を得る過程のことを言う.このデータの従う確率法則の 解釈が,統計学では,複数の学派の複数の議論,そして相互理解から深められた 歴史を持つ.各々の学派の主張は特定のデータ,実験に対して述べられたもので はない.非常に広い形式のデータに対する普遍的な考察である.では実際に一つ の実験を行い,一つの実現値を得たとき,このデータに基づきどのような統計的 推測の方法を選択するのが適当であろうか?このとき,統計研究者と実科学者と の出会いがある.そのデータの持つ科学的証拠を発見し検証する過程を通して, 注意深い考察を行うことが重要である.最後に,バイオインフォマティクスから のデータの形式の多くは,統計的推測の理論の前提を満たさないものが多くある ことに注意が肝要であることを再び確認する. 参考文献 [1] P. Armitage and T. Colton (1998). Encyclopedia of Biostatistics l3, pp20342050. Wiley, Oxford. [2] (1979). D. R. Cox, and D. V. Hinkley Theoretical Statistics. Chapman & Hall, London. [3] J. K. Lindsey. (1996). Parametric Statistical Inference. Oxford University Press, Oxford. 江口真透 (統計数理研・総研大統計科学)
© Copyright 2024 Paperzz