Missing Data 1 臨床試験における欠測データの取り扱いと解析方法野間久史統計数理研究所 2014年7月15日 E-mail: [email protected] URL: http://www.ism.ac.jp/~noma/ ほとんどすべての臨床研究・疫学研究において、なんらかのデータの欠測は生じる  生存時間解析の打ち切りも欠測の一種  臨床試験における欠測はさまざまな原因によって起こる  追跡不能（loss to follow-up），治療の中止，臨床検査の検体不良，etc.  2 Lurasidone 第2相試験第2相試験の結果 Lurasidone（商品名：Latuda）  統合失調症の治療薬  米国FDAにおいて、2010年10月承認  第2相試験（D1050006）：  プラセボ（N=49），40mg（N=49）， 120mg（N=47）投与群の3群比較のランダム化比較試験  3 脱落（Drop-out）による欠測 42⽇⽬までの脱落は70%近く発⽣！日本製薬工業協会 (2014) 日本製薬工業協会 (2014) 4 脱落を起こす前のアウトカム 5 脱落前にスコアが⾼くなる症例がほとんど日本製薬工業協会 (2014) 6 1 欠測による問題①：バイアス欠測による問題②：検出力ランダム化比較試験では、治療をランダムに割り付けることにより、群間の治療効果をバイアスなく比較することができる  欠測のパターンが群間で異なる場合、群間の治療効果の比較にバイアスが入る  欠測パターンが異なると、群間でアウトカムの差が見られたとしても、それは、治療効果の差だけではなく、欠測パターンの違いで起こったものかもしれない  7 FDAの欠測データガイドライン     NAS Report: Recommendations 米国NASから、ガイドライン作成のための調査報告が行われた欧州の規制当局（EMA）では、米国よりもだいぶ前にガイドラインを出している（内容にはいくらかの相違がある）  解析手法だけではなく、欠測は、深刻なバイアスの原因となるため、あらかじめ最小限に抑えるための防止策と適切に取り扱うための包括的なRationaleが重要 9 NAS Report: Recommendations  8  米国の規制当局（FDA）が医薬品開発の臨床試験での欠測データの取り扱いについてのガイドラインを作ることになった http://www.nap.edu/catalog.php?record_id=12955  モデルの中で少なくとも1つの変数が欠測してしまうと、そもそも尤度関数は書けない  すべての統計解析手法は、欠測がまったくない（＝完全データ）ことを前提としている  そうでないにしても、欠測しているデータの情報は欠落していることに  統計的な評価における情報量の損失が起こり、検出力が小さくなる（治療効果の差を検出しにくくなる）  1. プロトコルには試験の目的，主要評価項目とその他の評価項目，評価項目の測定方法，治療効果のEstimandsを明確に定義するべきである。これらの測定はすべての試験の参加者にとって意味のあるもので、また最低限の仮定で推定可能であるべきである。後者に関して、プロトコルは欠測データの潜在的な影響とその扱いについて記載すべきである。 6. スポンサーは起こり得る欠測データの問題を明確に予測するべきである。特にプロトコルに欠測データに関する章を設け、欠測データの影響をモニターし、制限するために試験デザイン・実施の段階で取られるステップについて記載すべきである。日本製薬工業協会 (2014) 10 NAS Reportの要約版 8. プロトコルでは欠測データを最小化することの重要性を明確にするべきである。特に、過去の試験結果に基づき、主要な結果について完全なデータが少なくともどの程度あればよいのか、設定しておくべきである。 9. 欠測データを取り扱う統計手法について、スポンサーは欠測データの取り扱いをプロトコルに記載すべきである。また、設定した仮定は臨床家にも理解できるようにする必要がある。日本製薬工業協会 (2014) 11 12 2 解析での対処方法欠測に対する4つの調整方法臨床試験において、すべての欠測データを統一的に扱う方法は存在しない  個々の試験のデザイン，測定値の特性などに応じて，必要な仮定・モデルは違う  モデリングや推測の方法も非常に広範に及び、いかなる状況においても万能な方法は存在しない  Complete-Case Analysis 単純な補完方法（Single Imputation）  重みつき推定方程式（Weighted Estimating Equation; WEE）による方法  モデルに基づく方法（最尤法，ベイズ推測，多重代入法など）   Little et al. (2012) Little et al. (2012) 13 14 Complete-Case Analysis 単純な補完方法主要なモデルにおいて、少なくとも1つの変数が欠測している対象者を、単純に、解析対象集団から除外する  残った対象者は、すべての変数が測定されているので、通常の完全データに対する解析手法を適用することができる  欠測値に対して、適当な単一の値を代入する補完方法（Single Imputation）  Last Observation Carried Forward (LOCF)  脱落を起こした時点での値を、単純に補完値として利用する単一補完法  日本で行われる治験でも、LOCFは多くの試験で用いられてきた  15 16 LOCF WEE 完全データが観測された対象者についての重みつき推定方程式  「観測される確率（欠測を起こさない確率）の逆数」で重みつけた推定関数に基づく推定量は一致性を持つ  O’Neill and Temple (2012) 最終観測時点での測定値から、アウトカムが不変であると仮定。 17 18 3 Inverse Probability Weighting 個々人のもつ情報量は？全集団全集団観測データ完全ケース観測データ ×1 完全ケース 100% 100% 欠測を起こしやすいケース欠測を起こしやすいケース 5% 推定量への貢献度を調整すれば？ ×20 5% 個々人の重み（寄与率）を調整することで 20 欠測メカニズムによって生じるバイアスを補正 19 IPW法モデルに基づく方法① 「真の観測確率」に基づく重みよりも、全員に観測されているベースライン共変量などを利用して、2項回帰モデルなどで「推定した観測確率」を重みに用いたほうが推定精度は必ず高くなる  欠測を起こした対象者の情報も組み込んで、検出力をUPできる!!  cf.) Augmented IPW法という方法もある  最尤法（Maximum Likelihood; ML）  欠測を起こした変数の分布にパラメトリックな確率分布モデルを仮定する  欠測変数の分布に対して、尤度関数を積分  観測データに関する周辺尤度が得られる  Directに周辺尤度を最大化（Direct ML）  EMアルゴリズム  21 22 モデルに基づく方法② モデルに基づく方法③ ベイズ流の方法（Bayesian Methods）欠測を起こした変数の分布にパラメトリックな確率分布モデルを仮定する（＋事前分布）  MCMCを使えば、関心のあるパラメータの周辺事後分布を簡単に求められる  欠測変数の分布が正しければ、妥当な事後推測に  Data Augmentation法など多重補完法（Multiple Imputation; MI）欠測値に対して複数の補完値（M組）を生成  補完値の生成方法はいろいろ  M組の擬似的な完全データに対して、推定値とSEを求め、Rubin’s Ruleで統合  , , 1,2, … ,     23 24 4 Rubin’s Rule  補足：単一補完法 M 回の推定結果を併合 ˆMI  ˆ ( ˆ )  1 V MI M M 1 M  Vˆ(ˆ )  (1  M h 1  ˆ h 1 1 h 完全データの推定量の分散 ) すべての欠測値に対して、100%の確率で「本当は観測されるはずだった値」を予測できれば、完全データを再現できる  しかし、100%で予測できることはまずありえないので「補完値の不確実性」が生じる  補完値の不確実性は、最終解析の推定値の不確実性（分散）にも影響するはず  M h  M h 1 ( ˆh  ˆMI )( ˆh  ˆMI )T M 1 欠測値の予測の不確実性によって生じる付加的なばらつきを表す項 Rubin (1987) 25 26 補足：単一補完法  MIの分散公式 ˆ ( ˆ )  1 V MI M  Vˆ(ˆ )  (1  M h 完全データの推定量の分散 MCAR (Missing Completely At Random)  MAR (Missing At Random)  MNAR (Missing Not At Random)  h1 ( ˆh  ˆMI )(ˆh  ˆMI )T M M h 1 欠測データに対する3つのシナリオ 1 ) M 1 欠測値の予測の不確実性によって生じる付加的なばらつきを表す項 Little et al. (2012) 単一補完法の分散の推定量は、第1項しか考慮していない（過小推定のバイアス）  対応する検定のP値，信頼区間も誤り  27 28 MCAR Complete Case Analysis すべての欠測は、完全にランダムに起こる（いかなる変数ともまったく無関係）  Complete Case Analysisで妥当な結論  解析対象集団から、ランダムに一定の割合の対象者を除外することと同じ  ただし、検出力の低下は起こる  29 MCARは、極めてあり得ない仮定である臨床試験で、脱落や追跡不能が起こる場合、「何の理由もなくランダムに」という都合のよい仮定はまずあり得ない  脱落を起こす患者は、一般的に、脱落を起こすなんらかの理由がある（症状の悪化，副作用など）  Complete Case Analysisは推奨しない   Little et al. (2012) 30 5 MAR Lurasidoneの第2相試験欠測のメカニズムは、観測されている変数ですべて完全に説明することができる  WEEやモデルに基づく推定方法（ML, Bayes, MIなど）で、妥当な推測が可能  単一代入法（LOCFなど）も仮定が正しければ妥当な（もしくは保守的な）評価が可能??  単一代入法を利用する上では、十分な科学的根拠の説明が必要!!  脱落前に症状が悪化している!! 日本製薬工業協会 (2014) 31 32 LOCF 単一補完法脱落を起こした対象者のアウトカムは、最後まで脱落時点から不変である  科学的根拠はあるか？（提示できるか？）  なければ、LOCFによる科学的妥当性は担保されない  LOCFを主要な解析に利用する場合は、その科学的根拠を説明できなくてはいけない  33 すべての単一代入法は「欠測データを100% 確実に予測できる」のでなければ、分散を過小推定する  得られるP値も誤り（Type-1 Error Rateを名目水準以下に保持できない）  得られる信頼区間も誤り（過度に狭い）  主要な評価に用いるのであれば、この精度の問題も含め、科学的な根拠を説明できなくてはいけない Little et al. (2012)  34 MNAR Favored Methods 欠測のメカニズムは、観測されている変数では完全に説明することができない  観測されていない変数にも影響される  感度解析をするしかない!!  Pattern-Mixture Models  Selection Models  MNARのもとでの解析手法のスタンダードの確立は、まだこれからの課題でもある  35 WEEとモデルに基づく方法を推奨欠測を起こした対象者において、最終解析に組み込めない補助的な情報（ベースライン共変量など）を解析に取り込み、推定精度の改善などに役立てることができる  欠測データの不確実性を反映したP値や信頼区間を与えることができる（単一補完法とは異なる）   Little et al. (2012) 36 6 Sensitivity Analysis NAS Report: Recommendations MARを仮定した方法にも、欠測メカニズムや欠測変数の分布を規定する付加的な仮定を置く必要がある  これらは、観測されたデータからはけっして検証することができない仮定である  必ず感度解析を行うべき（パターン混合モデルなど）     Little et al. (2012) 10. LOCFやBOCFのような単一補完法は、それらの背景にある仮定が科学的に正当化されない場合、主要な方法として用いられるべきではない。 14．欠測データが起こることが想定される場合、欠測のメカニズムと欠測データの分布に関連すると考えられる補助的な情報（共変量）を測定するべきである。この情報は、MARを仮定する主要な解析の推定精度を改善することが期待でき、また、欠測データの影響を評価する感度解析を行う上でも必要になるかもしれない。加えて、研究者は、途中で試験から脱落した対象者の全員もしくは一部（ランダムサンプル）をFollowして、脱落を起こした理由を調べたり、また可能であれば、その後のアウトカムも測定するべきである。 15. 感度解析は、臨床試験からの主要な報告の一部として位置づけられるべきである。欠測メカニズムに関する仮定の感度（頑健性）を調べることは、その報告において必須のものとされるべきである。 37 38 Lurasidone 第2相試験主要な解析の結果試験治療の中止割合が70%近くもあり、他の統合失調症の試験に比べても非常に高く、審査官の間でも議論を呼んだ  事前の解析計画では、LOCF-ANCOVAでの解析が予定されていたが、42日目の測定値が得られている対象者はわずか3割であり、それ以外の対象者は、全員、脱落時点での測定値を強制的に代入することに  日本製薬工業協会 (2014) 39 40 FDA審査官による感度解析審査官のコメント  審査官のコメント：他の統合失調症の試験と比べて，本試験では中止割合が約70％と非常に高いが，このことにより試験結果が解釈不能になるわけではないと考える．中止の内容は，少なくとも予想された傾向（全中止はプラセボ投与群で最も多く，効果不十分による中止もプラセボ投与群で最も多い）であった．加えて， MMRMとObserved Case（OC）の解析結果はLOCFの結果を（少なくとも数値としては）支持するものであり，Day3以降のいずれの時点においても本剤ではプラセボよりも改善がみられた．副次評価項目（CGI-S）の結果でも，本剤ではプラセボよりも大きく改善した．以上より，中止割合が高いことは問題ではあるものの，本試験は SM-13496（Lurasidone）について肯定的な試験と考える．日本製薬工業協会 (2014) 日本製薬工業協会 (2014) 41 42 7 まとめ参考文献 FDAのガイダンスによって、今後数年で、臨床試験における欠測データの取り扱いや解析方法のスタンダードが確立され、普及していくと予想される（つい最近のこと！）  アカデミアでの医師主導臨床研究や疫学などの調査系の研究もそうなる見込みが高い  周辺諸分野にも、欠測の扱いに関する議論が波及していく可能性は高いと思われる  43     Little, R. J., D’Agostino, R., Cohen, M. L. (2012). The prevention and treatment of missing data in clinical trials. New England Journal of Medicine 367: 1355-1360. O’Neill, R. T., Temple, R. (2012). The prevention and treatment of missing data in clinical trials: an FDA perspective on the importance of dealing with it. Clinical Pharmacology & Therapeutics 91: 550-554. Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley. 日本製薬工業協会医薬品評価委員会データサイエンス部会．(2014)．臨床試験の欠測データの取り扱いに関する最近の展開と今後の課題について―NASレポート，EMAガイドライン，estimandと解析方法の概説． http://jpma.cstokyo.com/information/evaluation/allotment/missing_data.ht ml 44 8