がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 2011OCT09@CSPOR 内容 がん臨床試験のデザイン がん領域の特徴とその試験デザインへの反映 臨床試験の相:がんとそれ以外 わが国でがん領域から導入されたアイディア 新しいアプローチの必要性 Time-to-eventをめぐる問題(OSかPFSか) 実践的試験とITT、非劣性試験、予測因子、多因子要因実験 (財)パブリックヘルスリサーチセンタ常務理事 NPO日本臨床研究支援ユニット理事長 スタットコム(株)取締役会長 NPO日本メディカルライタ協会理事長 (社)日本臨床試験研究会代表理事 東京大学医学系研究科 公共健康医学専攻 生物統計学 大橋靖雄 1 がん領域(抗がん剤開発)の特徴 致死性の疾患 多様な疾患の集合体、1がん種でも生物学的には多様 予後因子の影響大 薬剤の効果は低い(プラセボ効果小) 一方で高い毒性 併用治療が治療の中心(白血病のモデル) 集学的治療 がん領域の特徴(臨床試験方法論) Time-to-Eventが(承認申請試験でも)主なエンドポイント 評価が国際的に標準化 NCI-CTCAE:NCI Common Terminology Criteria for Adverse Events RECIST:Response Evaluation Criteria in Solid Tumors 国際的に共同研究グループが臨床研究を推進 Time-to-eventをエンドポイントとした実践的試験が数多く行なわれている 最近では新薬開発の中心(2/3は抗がん剤) 多くの研究者主導研究(日本では2/3ががん領域) Clinical Trial: Design Types Statistical Approach in Drug Development Piantadosi A(1997), Clinical Trials, Wiley Clinical Pharmacology Study Phase I Phase II Phase I/II Phase III Treatment/Mechanism Dose-finding Safety and Efficacy Comparative Treatment Efficacy Phase IV explanatory Clinical Pharmacology Study Treatment Mechanism* Phase I Dose-finding Phase II Safety and Efficacy Phase I/II exploratory, decision making Phase III Comparative Treatment Efficacy confirmatory, regulatory Phase IV Expanded safety pragmatic Expanded safety Proof of Concept (POC) trial* 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 1 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 例 UMIN(臨床試験登録)での解説 検証的 Confirmatory すでに探索的試験などにより仮説が形成さ れており、その仮説を検証するために実施される試験 探索的 Exploratory 検証的試験の実施の前に、仮説を形成する ために実施する試験 説明的 Explanatory 介入法の作用機序などを解明する目的で、 実施条件をある程度厳しく設定して実施する試験 実践的Pragmatic 実施条件をゆるく設定し、日常診療に近い状況 で介入法を評価するために実施する試験 市販後の、骨粗鬆症患者を対象とした骨折をエンドポイント とする試験において、消化器副作用症状のために治療薬の 服用を続けられない患者の取り扱いが問題となった。 治験の骨折試験ではこのような患者は中止となり、ここまで のデータが解析対象となる。生存時間解析では打ち切りとし て処理されることになる。この試験では、追跡を続けること、 他の治療法に切り替わってもそのままで解析を行うこと(中 止時点までで打ち切りとする解析も行うが)を統計家が指示 した。参加医師はよく理解できない風情であった。 一方、癌の術後補助療法の臨床試験では、副作用中止が あってもそのまま投与群として解析を行うこと(それ以外の 方法では解析は行わない)は常識中の常識である。 ITT Intent-to-treat解析 医薬品の臨床的な有用性clinical effectivenessを、投与・無投与の2群 ランダム化比較試験で評価する場合、投与したもののコンプライア ンスが低い患者は解析から除外すべきである。 A 正しい B 誤り Effectiveness and Efficacy 追跡と解析対象集団 骨折やがん再発予防試験のようなイベントを評価する臨床試験におい ては、副作用を訴えて投薬中止となった患者が発生した場合、その 時点で追跡中止として、それまでのデータを解析に含めるのが原則 である。 A 正しい B 誤り 脱落・除外という言葉は安易に使ってはいけない B 誤り (臨床的な有用性とは、現実の治療環境の中で発揮される医薬品の 有効性のことであり、副作用中止やコンプライアンス不良例も含めた ITT Intent-to-Treat解析が偏りのない結果を提供する。) B 誤り (投薬中止と追跡中止(試験中止)とは異なる。除外による偏りを 除くためには、追跡を継続してITT解析を可能とすべきである。) 非劣性試験 がん領域(抗がん剤開発)の特徴とその反映 致死性の疾患 実薬対象の非劣性試験(同等性試験)が古くから 優越性試験と非劣性試験 治療効果の差と信頼区間: 試験治療と標準治療の効果の差 をδ 優越性:Superior 多様な疾患の集合体、1がん種でも生物学的には多様 感受性試験などtailor-madeを目指した試みが古くから盛ん 予測因子の探索に関心 予後因子の影響大 薬剤の効果は低い(プラセボ効果小) 一方で高い毒性 予後因子を考慮した割り付けが常識 1群オープン試験で有効性評価(歴史対照) 増量による第I相、第I/II相試験 併用治療が治療の中心(白血病のモデル) 集学的治療 第I/II相試験、ランダム化II相試験、要因組み合わせ試験 信頼区間 (通常95%) これが0を含まなければ 「統計的に(5%)有意」 Lower δ 非劣性:Non-inferior 同等:Equivalent (upper:通常0) 判断できず: Indeterminate 試験治療優れる δをどう選択するか? 臨床的に無視できる治療効果の違い 領域の違い、標準治療の特性(毒性・コスト)、・・ 誰もが認める決定方式は無い 術後・術前補助療法 放射線との併用 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 2 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 非劣性試験 非劣性試験 非劣性試験の症例数計算 非劣性試験は(やや)優れた試験治療を効率的に評価する 方法 (本当に同等の時には莫大な症例数必要) 症例数決定の論理 帰無仮説:試験薬の効果はδ以上劣る 対立仮説:試験薬の効果はδ以上劣ることはない 試験薬がやや優れる、あるいは同等であるときの検出力を保証するよ う症例数を決定 N-SAS BC07 アンケート集計結果 試験治療有効率 80% 85% 85% 90% 標準治療有効率 80% 80% 85% 85% 必要症例数(1群; 両側5%, 検出力90%) 優越性試験 ∞ 1214 ∞ 1095 非劣性試験(δ=10%) 337 135 268 122 14 CSPOR年会 2009/2/8 非劣性試験 非劣性試験 アンケート:質問項目 アンケート:質問項目 赤線:トラスツマブ単独群 黒線:トラスツマブ+化学療法併用群 黒線①~⑦はハザード比0.9~0.3に対応 質問1 質問2 ⓪ ① ② ③ ④ ⑤ ⑥ これ以上の成績が得られれば、絶対に化学療法を併用すると 考えられる成績はどの番号の黒線でしょうか? 質問3 ⑦ これ以下の成績だったら、絶対に化学療法を併用しないと 考えられる成績はどの番号の黒線でしょうか? 10枚のコインが手元にあるとします。 図の⓪から⑦の曲線で示した、トラスツマブと化学療法の併用療法 における3年累積発症確率に、その10枚のコインを賭けるとすると、 どの曲線に何枚のコインを賭けますか? (例:③に2枚、④に5枚、⑤に3枚) 16 15 非劣性試験 非劣性試験 集計結果(質問1,質問2) 集計結果(質問1,質問2) 質問1:これ以下の成績だったら、絶対に化学療法を併用しないと 考えられる成績はどの番号の黒線でしょうか? 質問2:これ以上の成績が得られれば、絶対に化学療法を併用す ると考えられる成績はどの番号の黒線でしょうか? ⓪ ① ② 化学療法を 併用する 成績 ③ 12 人数 ④ ⑤ ⑥ 質問1 質問2 10 化学療法を 併用しない 成績 8 ⑦ 6 4 2 0 0.3 0.4 0.5 0.6 0.7 ハザード比 0.8 0.9 17 0.3 0.4 0.5 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 0.6 0.7 0.8 0.9 1 ハザード比 3 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 予測因子 非劣性試験 質問3に対する各医師の回答 予後因子と予測因子 質問3:10枚のコインが手元にあるとします。 図の⓪から⑦の曲線で示した、トラスツマブと化学療法の併用 療法における3年累積発症確率に、その10枚のコインを賭ける とすると、どの曲線に何枚のコインを賭けますか? 横軸:ハザード比、縦軸:賭けるコインの枚数 10 10 10 8 8 8 6 6 6 4 4 4 2 2 0 0.4 0.5 0.6 0.7 0.8 0.9 0.4 0.5 0.6 0.7 0.8 8 6 6 4 4 4 2 2 2 0 0 0.4 0.5 0.6 0.7 0.8 0.4 0.5 0.6 0.7 0.8 1 予測因子モデル βP×Factor×Treatment 0.9 10 8 Treatment=0 6 0.3 0.9 Factor=0 0.3 10 Treatment=1 Log-hazard 0.9 8 0.3 Treatment=0 予後悪い 0 0.3 10 0 予後因子モデル βT×Treatment+βG×Factor 2 0 0.3 hazard (t , x ) hazard 0 (t ) ( x ) ( x ) exp( 1 x1 2 x2 ... k xk ) 0.4 0.5 0.6 0.7 0.8 0.9 Log-hazard 19 0.3 0.4 0.5 0.6 0.7 0.8 Treatment=1 Factor=0 0.9 1 IPASS試験 Progression-free survival in ITT population Probability 1.0 of PFS N Events 0.8 Gefitinib Carboplatin / 609 453 (74.4%) paclitaxel 608 497 (81.7%) HR (95% CI) = 0.741 (0.651, 0.845) p<0.0001 0.6 1217 randomised patients (100%) 5.8 74% 48% 7% Median PFS (months) 5.7 4 months progression-free 61% 6 months progression-free 48% 12 months progression-free 25% 0.4 IPASS試験 Attrition rates in biomarker analysis Sample not available, insufficient quantity to send, cytology only, sample at another site 1038 biomarker consent (85%) 683 provided samples (56%) Gefitinib demonstrated superiority relative to carboplatin / paclitaxel in terms of PFS 0.2 0.0 At risk : Gefitinib Carboplatin / paclitaxel 0 4 8 12 16 20 24 Months 609 608 363 412 212 118 76 22 24 3 5 1 0 0 Primary Cox analysis with covariates HR <1 implies a lower risk of progression on gefitinib Evaluable for: EGFR mutation: 437 (36%) EGFR gene copy number: 406 (33%) EGFR expression: 365 (30%) AstraZeneca data on file AstraZeneca data on file IPASS試験 Progression-free survival in EGFR mutation positive and negative patients 1.0 0.8 HR (95% CI) = 0.48 (0.36, 0.64) p<0.0001 0.6 No. events gefitinib, 97 (73.5%) No. events C / P, 111 (86.0%) 0.4 0.2 0.0 0 4 8 12 Gefitinib (n=91) Carboplatin / paclitaxel (n=85) 1.0 0.8 HR (95% CI) = 2.85 (2.05, 3.98) p<0.0001 0.6 No. events gefitinib , 88 (96.7%) No. events C / P, 70 (82.4%) 108 103 71 37 31 7 Gefitinib Carboplatin / paclitaxel 71.2% EGFR M+ odds ratio (95% CI) = 2.75 (1.65, 4.60), p=0.0001 47.3% EGFR M- odds ratio (95% CI) = 0.04 (0.01, 0.27), p=0.0013 0.4 23.5% 0.2 0.0 16 20 24 0 4 8 11 2 3 1 0 0 91 85 21 58 4 14 Months At risk : Gefitinib 132 C/P 129 Overall response rate (%) EGFR mutation negative Gefitinib (n=132) Carboplatin / paclitaxel (n=129) Probability of progression-free survival Probability of progression-free survival EGFR mutation positive IPASS試験 Objective response rate in EGFR mutation positive and negative patients 12 16 20 24 1 0 0 0 0 0 1.1% Months 2 1 (n=132) (n=129) (n=91) (n=85) Treatment by subgroup interaction test, p<0.0001 ITT population Cox analysis with covariates Odds ratio >1 implies greater chance of response on gefitinib AstraZeneca data on file 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる AstraZeneca data on file 4 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 予後因子 多因子要因実験 がん集学的治療研究財団 特定研究1(術後補助療法) N-SAS BC02 研究代表者 渡辺亨 ホルモン療法低感受性、n+ 症例に対する術後補助療法 エンドポイント 無病生存期間 神経毒性を中心としたHRQOL ACの有無、Taxaneの種類に関する2×2要因実験 AC有無に関する非劣性non-inferiority試験、1200例 Randomize AC×4 Paclitaxel×4 n個数 HER2 腫瘍径 術式 施設 動的割付 AC×4 Docetaxel×4 Paclitaxel×8 Docetaxel×8 多因子要因実験 多因子要因実験 Factorial experiments 多因子要因実験 2×2要因実験:NSAS BC02 無病生存 0.9 PAC B noB ACあり ACなし 2×2 A noA 0.9×0.8 Taxane の比較 交互作用無ければ Bの効果effect of B DOC 0.9×0.85 Dは0.85 (15%リスク減少) 0.9×0.8×0.85 Aの効果 effect of A ACの有無?(非劣性) AとBの間に交互作用無ければ、2つの実験分の情報量 ACは0.8 (20%リスク減少) 抗がん剤開発の流れ(今や古典的?) 内容 エンドポイント がん領域の特徴とその試験デザインへの反映 臨床試験の相:がんとそれ以外 わが国でがん領域から導入されたアイディア 新しいアプローチの必要性 Time-to-eventをめぐる問題 毒性 第I相 実践的試験とITT、非劣性試験、多因子要因実験 投与量・スケジュールの決定 抗腫瘍効果 単剤第II相 抗腫瘍効果の確認 併用第I/II相 あるいはII相 抗腫瘍効果 第III相 生存・QOL 会社主導の 開発治験 承認申請1) 製造販売後臨床試験 あるいは研究者主導試験 標準治療の確立 1)FDAの加速承認制度、以前のわが国の承認制度 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 5 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 第 I 相試験 一般薬 目的 一般薬 安全性の検討 薬物動態 第 II 相試験 がん MTD(最大耐量) or 推奨用量決定 薬物動態 有効性の確認 (エンドポイントの決定) 用量の決定 安全性の検討 デザイン 健常人ボランティア 経口では単回から連投 群毎に増量/並行群ランダム化 普通は単盲検 クロスオーヴァーもあり 普通は患者(進行がん、既治療) スケジュールは薬物による (注射は3週おき単回or5連投, 週1など 経口は連日(休みいれることもあり)) 盲検はしない、プラセボもなし 連投ではプラセボ入れること多い 普通は群毎(3-6例)に増量 十数例-40例 十数例-40例 一般薬 有効性の検証 有効性の検証 (最終的にはQOLの高い生存) 安全性の検討 安全性の検討 デザイン ランダム化並行群 ランダム化並行群 (2群が多い) プラセボ対照優越性 実薬対照優越性or非劣性 実薬対照優越性or非劣性 安全性高ければ上乗せで 普通は2重盲検 プラセボ対照もあり 100例以上 1000例以上のことも 内容 がん領域の特徴とその試験デザインへの反映 実践的試験とITT、非劣性試験、多因子要因実験 臨床試験の相:がんとそれ以外 わが国でがん領域から導入されたアイディア 新しいアプローチの必要性 Time-to-eventをめぐる問題 安全性の検討 普通は1群 ランダム化II相 普通は盲検なし 20-100例 新しい流れ そして新しいデザイン(アプローチ)の必要性 がん 目的 有効性の確認 (抗腫瘍効果) デザイン ランダム化並行群 (3群以上) 普通はプラセボ含む2重盲検 100-500例 第Ⅲ相試験 がん 目的 がん領域での議論が先行、他疾患領域へ移行(心疾患など) 分子生物学の知見、High-throughput technology、ベンチャ参 入等による開発品目の増大・成功確率の減少 研究者主導研究では候補アームの爆発 疾患の多様性・Tailor made medicineの更なる認識 これまでの殺細胞薬(cytotoxic)のパラダイムが静細胞薬 (cytostatic)に通用するか? 臨床試験の大型化、次試験への影響、公衆の関心の増大、 conflict of interestの中での透明性・中立性の確保 わが国でがん臨床試験から導入されたアイディア 動的割付け法 Dynamic allocation for randomization 並べ替え検定 Permutation test CRM Continual Reassessment Method Bayes流統計 中間解析 Interim analysis 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 6 がん臨床試験のデザイン (大橋靖雄) ランダム化の方法 第23回がん臨床試験セミナー Randomization Randomization 最小化法 minimization (Pocock and Simon(1975)) それまでの割り付け結果(背景の分布)に応じて割り付け確率を変 える動的割り付け法の代表 実際に用いられている方法 盲検可能な場合 施設毎の置換ブロック法 permuted-block 2群ブロックの大きさ4の場合、AAPP,… PPAAの6通りを 施設毎にランダムに順次発生 ブロックの大きさはプロトコルに通常記載しない A B A B B A A B 性 年齢 重症度 盲検を行わないがん臨床試験の場合 層別を行うこともあり 通常は2-4程度の因子を用いた動的割り付け法 どの時点でもバランス取れるように割り付け確率変化させる 施設は因子に含める場合とアンバランス程度の制約を与える 場合あり(Zelenの方法) 群A 20 10 11 19 5 25 男 女 <50 >=50 III IV 群B 19 11 10 20 3 27 次患者 (男 <50 III) どちらに割り振ればバランスとれるか A:20+11+5=36 B:19+10+3=32 Bに割り振る確率大とする 確率を0、1にする決定論的方法は避けるのが賢明 因子の重みを変える等、さまざまな変形 Randomization Randomization バイアスコインを 伴う最小化の実施 背景の集計表 (OHPシートの利用) 乱数は事前に作成 (封筒つめ) ブラインド試験の場合は、 群は記号化。予め用意した 施設毎の薬剤表を利用 動的割り付け法のわが国への導入 欧米のがん共同研究グループでは常態(1980初め) クレスチンの術後補助療法試験への応用 坂本他(1988、がんと化学療法) 大橋(1988、癌の生存時間研究会誌) ブラインド試験、がん以外の分野への応用 長期試験における2重番号システムの応用 シロスタゾールの脳梗塞再発予防プラセボ対照試験 1992-1996登録 Gotoh et al.(2000,2002, J.Stroke Cerebrovascular Diseases) M-CSF(プラセボ2重番号)、グロブリンの重症感染症(24時間)など これらのノウハウは1990ころ 大橋による Web利用 EORTCの導入、Kiuchi et al.(1996, Controlled Clinical Trials) ベイズ流統計 ベイズ流統計 CRM CRM: Continual Reassessment Method これまでの毒性発生状況の情報を利用したベイズ流の増量 用量反応に数式モデルを想定 1例毎にモデル(パラメータ)を改定 目標毒性に近い用量レベルを選択 ベイズ統計学の応用: Therapeutic Drug Monitoring 代謝が患者によって 大きく異なる薬剤 血中濃度によるモニタリング 薬量の適応的変更が必要 集団の代謝パラメータ分布・事前分布 平均値(中央値)で 初期薬量設定・投与 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 血中濃度データ 個人の代謝パラメータ分布・事後分布 個人の事後分布の平均値(中央値)で 薬量設定・投与 7 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー ベイズ流統計 ベイズ流統計 ベイズ流アプローチ Bayes approach 興味のあるパラメータの曖昧さを事前分布として定式化 観察データの出現確率(尤度Likelihood)を定式化 Prior-probability Data Posterior-probability 薬の有効率の事後分布 S:有効 F:無効 ベイズ流統計 CRM in early cancer clinical trials CRM : Dose-Response Model Unknown Parameter a : large CRM in early cancer clinical trials a : small CRM in early cancer clinical trials Posterior Density Function with 24 pts - Probability of DLT DLT MTD Occurrence of DoseLimitingTox. 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 8 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 中間解析 中間解析 中間モニタリング(評価)と中間解析 盲検下での主に管理上のモニタリング(スポンサー、研究者による) 盲検を外した独立モニタリング委員会による中間解析 中間解析の目的 Sakuramoto et al., Adjuvant chemotherapy for Gasttic cancer with S1, an oral fluoroprymidine, NEJM 2007; 357: 1810-20. 試験治療が予想以上に標準治療(プラセボ)を凌駕し、これ以上の 継続が倫理的に問題であると判断された場合の有効中止 重篤な有害反応あるいは予想以上の高頻度で有害反応が起きて いる場合の試験中止あるいはプロトコル変更 これ以上試験を継続しても優越性あるいは非劣性を証明できる可能 性が小さい場合の無効中止、あるいは試験治療が劣っている場合 の無効中止 独立モニタリング委員会 構成と役割 統計的手法 ACTS-GCプレスリリース :2006年10月13日 胃がんのステージII、IIIの手術症例1,059名を対象としてティーエスワ ン®カプセル(TS-1)の1年投与と無投与を比較する進行中の臨床試験 (ACTS-GC)に関し、「試験調整委員会」と大鵬薬品工業株式会社は、 第三者機関である「効果・安全性評価委員会」の勧告を受け入れること とした。 「効果・安全性評価委員会」の勧告は、中間解析においてTS-1の有効 性が認められたため、試験を中止し、現時点で一斉の追跡調査を実施 した後に解析結果を公表するようにというものであった。 本試験の解析結果は、今後開催されるがん関連の学会で発表される 予定である。 ACTS-GC吉野肇一効果・安全性委員会委員長コメント: 2006年10月25日 本試験においては、評価項目であるoverall survivalおよびrelapse-free survivalに関して、多重性を考慮した統計的評価において胃がん術後補助 化学療法の有効性が認められた。 これまでメタアナリシスなどにより、胃がん術後補助化学療法の有効性が示 唆されては来たが、いずれもエビデンスレベルが低いために強く推奨できる 治療regimenがなく、日本の胃がん治療ガイドラインにおいてもstage II, III の治癒切除例に関しては、手術単独(D2リンパ節郭清)が標準療法とされて いる。このため、欧米諸国と比較して胃がん患者が圧倒的に多い日本にお いて、手術単独を対照として施行された本大規模臨床試験の結果は、胃が ん治療上、きわめて大きな意味を持つものである。 効果・安全性委員会は、S-1が既に市販されていること、および胃がん補助 療法の臨床試験が他にも計画中であることを鑑み、今後治療対象となる患 者の利益を考慮してしかるべき学会に早期に公表するよう勧告した。 First interim analysis Overall survival (All randomized) First interim analysis was carried out on June 2006, using the follow-up data of December 2005 (Median follow-up : 2.0 yrs) O’Brien-Fleming stopping boundary : p=0.0011 Overall survival All randomized Eligible Relapse-free survival Predictive power (OS) 100 Overall survival (%) : p=0.0016 : p=0.0008 : p=0.0002 : 99.3% Gastrointestinal Cancers Symposium (ASCO-GI), Jan. 19-21, 2007, Orlando, FL 50 0 No. at risk S-1 Surgery alone Median follow-up : 3 yrs HR = 0.68 [0.52-0.87] p = 0.0024 (stratified log-rank test) 3-year OS - S-1 - Surgery alone 0 1 2 3 4 529 530 518 508 390 372 207 176 55 53 80.5% 70.1% 5 (years) Gastrointestinal Cancers Symposium (ASCO-GI), Jan. 19-21, 2007, Orlando, FL 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 9 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 中間解析の統計的手法 Relapse-free survival (All randomized) 長期、生命に関わる、安全性・忍容性の課題 Relapse-free survival (%) 100 通常は、数回検定を行う群逐次法 group sequential 情報量あるいは時期で実施時期設定 癌補助療法では情報量は通常はイベント数 多重性の調整法 通常は柔軟なLan-DeMets法 α消費関数 回数・時期と検定方法はプロトコル(遅くとも解析計画書)に規定 3-year RFS - S-1 - Surgery alone 72.2% 60.1% 0 No. at risk S-1 Surgery alone 有効中止の場合の統計解析 50 HR = 0.62 [0.50-0.77] p < 0.0001 (stratified log-rank test) 0 1 2 3 4 529 530 476 446 322 285 169 136 38 33 中間解析 Futiltyの解析 確率打ち切り stochastic curtailment ベイズ流の予測検出力 (Spielgelhalter) 5 (years) Gastrointestinal Cancers Symposium (ASCO-GI), Jan. 19-21, 2007, Orlando, FL 中間解析 中間解析の現実 メンバーの選定、事務局の設定(議事録の作成)、 統計解析担当者の選定、 SOPの作成、利益相反の問題、情報漏洩の問題 他の研究成果をどう反映させるか データ固定の遅れ、どこまで固定するか 中止後の集積データの扱い 公表をどうするか がん補助療法で治療が終わった場合は? 実態は公表 早すぎる(DFS、RFSによる)中止による問題 Cannistra JCO 2004; 22: 1542-5 長期を要する、またともに有効性が証明された群による非劣性試験の 公表遅れの問題 Korn et al. JCO 2005; 23: 5831-6 新しい流れ そして新しいデザイン(アプローチ)の必要性 (再掲) がん領域での議論が先行、他疾患領域へ移行 分子生物学の知見、High-throughput technology、ベンチャ参 入等による開発品目の増大・成功確率の減少 研究者主導研究では候補アームの爆発 疾患の多様性・Tailor made medicineの更なる認識 これまでの殺細胞薬(cytotoxic)のパラダイムが静細胞薬 (cytostatic)に通用するか? 臨床試験の大型化、次試験への影響、公衆の関心の増大、 conflict of interestの中での透明性・中立性の確保 内容 独立モニタリング委員会の「独立性」をどう保証するか がん領域の特徴とその試験デザインへの反映 臨床試験の相:がんとそれ以外 わが国でがん領域から導入されたアイディア 新しいアプローチの必要性 Time-to-eventをめぐる問題 実践的試験とITT、非劣性試験、多因子要因実験 静細胞薬の評価 静細胞薬 前臨床からは腫瘍縮小はほとんど期待できない 腫瘍増大・転移を抑える、毒性少ない 血管新生阻害、酵素阻害、... 評価のための方法論(Korn et al. JCO 2001) 第I相:前臨床で設定された標的血中濃度達成が可能か、最大耐用か 生物学的エンドポイントの測定 歴史対照があればTTPで効果の確認、ついで比較試験 なければスクリーニングのためのランダム化II相か大規模な比較試験 佐々木康綱氏のコメント:生物学的エンドポイントの再現性のある測定は 困難、 画一的方法の適用? 最近の第I相試験のレビュー(Parulekar et al. JNCI 2004;96:990-7) によると従来の方法論の適用がまだまだ多い 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 10 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 最近のがん早期臨床試験デザイン上のアイデア Data-drivenとすることで柔軟性を確保 CRM、第II相試験への応用、第II相から第III相へのスムーズな移行 (Lee and Feng JCO 2005;23:4450-7の文献32-36) Karrison et al. JNCI 2007;99:1455-61. Lee and Feng JCO 2005;23:4450-7 スクリーニング第II相試験 Rubinstein et al. JCO 2005;23:7199-206. RECISTどいえど閾値は恣意的、対象集団による奏効率の変動 奏効・奏効しないという2値化による情報量損失、有効な薬剤の見逃し(従来 の第II相試験は無効な薬剤の判断には適切であるが) 奏効率は高くないものの有効な薬剤の登場 Karrison et al. JNCI 2007;99:1455-61. 腫瘍径比の対数をエンドポイント Lavin PT . Cancer Clin Trials 1981 ;4: 451–7 . 文献データのないこと、対象集団バラツキ等により同時対照は必須 前値、他の共変量活用による感度の向上 サンプルサイズ設計は他分野と同様(用量反応の解析には多重性の考慮) 第II相試験とくにランダム化II相試験の工夫、腫瘍縮小の直接評価 感度を高めるためのEnrichment design ランダム化中止実験 Rosner GL et al. JCO 2002; 20: 4478-84. Freidlin and Simon JCO 2005;23:5094-8. 腫瘍縮小を直接評価する第II相試験 ベイズ流手法の導入 標的集団を意識した検証、ターゲットを早期臨床試験で同定する必要性 Simon To appear in Expert Opinion on Medical 2008; 2:721-9. (http://linus.nci.nih.gov/~brb/TechReport.htm) Simon and Maitounam Clin Cancer Res 2004;10:6759-63. 腫瘍縮小を直接評価する第II相試験 Water-fall plot ランダム化治療中止実験とその実例 Randomized discontinuation design (Rosner JCO 2002;20: 4478-84) 歴史的には古い enrichment designの一つ Tacrine(抗アルツハイマー薬)で試用 腎癌(抗VEGF薬)で成功 sorafenib(BAY-43-9006) Ratain et al. JCO 2006; 24:2505-12 実薬 実薬投与 16週 SD ランダム化 プラセボ PR or PD プラセボでPDとなれば 実薬に切り替え Ratain et al. J Clin Oncol 2006; 24:2505-12. 膨大な治療法候補の中から何を選択するか Estey and Thall, New desigs for phase 2 clinical trials, Blood 2003; 102: 442-8. 膨大な治療法候補の中から何を選択するか Estey and Thall, New desigs for phase 2 clinical trials, Blood 2003; 102: 442-8. 膨大な治療法(薬剤・スケジュール)組み合わせ:従来の 検定に基づく第II相試験の限界、非効率 バイアスを避けるためのランダム化の導入とヒストリカル コントロールの活用 複数エンドポイントあるいは複数値をとるアウトカム指標 (死亡とCR率など)に基づいた選択問題としての定式化 ベイズ流の事後確率に基づく意思決定 実例1 AML(abnormal karyotype)4群試験 ヒストリカルコントロールCR率49%(291/591) ランダム化して5名ずつ評価 CR 1/5, 4/10, 7/15以下ならその群中止 ∵標準治療を15%上回る確率が10%以下 LDT LDT+Tha LDA LDA+Tha 0/6で早期中止 0/5で早期中止 18/40で中止 17/40で中止 臨床家と統計家の対話による柔軟なデザイン そして毒性と有効性のバランス 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 11 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー パラダイムシフト パラダイムシフト CRYSTAL試験は1198名(ITT解析対象)の進行大腸癌患 者に対する1次治療FOLFIRIにEGFR抗体cetuximabを上 乗せするかどうかのランダム化試験 主要エンドポイントはPFSであり、その結果は2007年の ASCOで発表された。全体でのハザード比は0.85、p値は ぎりぎり0.048であった。 Amado RG et al. Wild-Type KRAS Is Required for Panitumumab Efficacy in Patients With Metastatic Colorectal Cancer, JCO 2008; 26:1626-34. EGFR抗体薬 Panitunumab, CetuximabはKRAS 変異例には効かない! むしろ毒! 587名分の手術標本に対しPCRによってKRASの状態が 解析された。測定可能であった540検体のうち野生型は 348例(64.4%)、変異型は192例(35.6%)、そして野生型で のPFSハザード比は0.68(p=0.017)、変異型でのハザード 比は1.07(p=0.47)という予想通りの結果であった。この結 果も受け、ヨーロッパの認可当局EMEAはcetuximabの適 用をKRAS野生型に限定することを5月末に発表した。 Cetuximabはヨーロッパは 検査必須 Target集団を想定した開発ストラテジー Targetがはっきりしていれば限定(enrich)することで検出力 の向上 しかし開発初期には明らかでないことが普通 いきなりの大規模第III相はバクチ的 第III相試験の工夫(後述) 開発初期のDiscontinuationデザインは魅力的 第II相試験方法論はまだ改良の余地 Simon and Maitounam Clin Cancer Res 2004;10:6759-63 Iressa、Tarcevaの例 (EGFR) すでに腎癌で成功例 70 ターゲット集団を考慮した第III相試験 マーカーベースデザイン Simon R: Expert Opinion on Medical 2008; 2:721-9 (http://linus.nci.nih.gov/~brb/TechReport.htm) Mandrekar SJ, Sargent DJ.: J Clin Oncol . 2009 ; 27:4027- 34 Mandrekar SJ, Sargent DJ.: J Clin Oncol . 2009 ; 27:4027- 34 マーカーで選択するEnrichment 対象集団を予め限定 マーカーで選択しないデザイン(マーカー陽性・陰性共に対象) 逐次検定デザイン 陽性患者でまず検定、有意なら陰性も 交互作用をまず検定、有意なら別々に 全体と陽性患者2回検定、多重性を考慮 (Simon and Wang, Song and Chi, Hochbergの方法) マーカー・治療交互作用デザイン マーカー陽性・陰性それぞれ十分な サンプルサイズを確保 マーカーベース戦略デザイン マーカー値によらず一律の治療 R マーカーベースデザイン (後述) 混合デザイン(後述) 適応的デザイン マーカー値によって治療選択 共通の治療が含まれるため効率低下 適応的閾値デザイン(Jiang et al.) 適応的signatureデザイン(Freidlin and Simon)など 既に実施された試験の前向きの再解析 71 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 72 12 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー 混合デザイン 混合デザイン(続き) Mandrekar SJ, Sargent DJ.: J Clin Oncol . 2009 ; 27:4027- 34 Mandrekar SJ, Sargent DJ.: J Clin Oncol . 2009 ; 27:4027- 34 マーカーによって患者集団をいくつかの サブグループに分割 あるグループではランダム化 あるグループでは標準治療 73 74 乳癌術後補助療法臨床試験の歴史的展開 これからの臨床試験: 臨床試験のパラダイムシフトの中で Piccart-Gebhart, M and Buyse M: Breaking from Tradition in the Design of Phase III Clinical Trials, ASCO Educational Session, 2005 検体・バンクの必要性(retrospective解析)と実施上の問題 マイクロアレイの活用、ただし信頼性? 一流紙に発表された7研究中5研究は偶然一致と同程度 (Michiels et al. Lancet 2005; 365: 488-92.) 測定法自体の信頼性向上、検証のための解析手法・経験の必要性 バイオマーカーの活用 デザインの検討 たとえば、いわゆる「感受性」試験評価のデザイン 予測因子の同定、POC、短期のsurrogate endpoint Schrag et al. JCO 2004 ; 22:3631-8. Wieand JCO 2005; 23: 3643-4. 註:ER/年齢は乳癌の予後・予測因子、他疾患では 予後・予測因子に置き換えればよい。 Adaptiveデザインの適用 Adaptive design 患者割付け確率の変更:古典的なPlay-the-winner法(治療成功であればその治療に患者を割付 け続ける)の拡張で、それまでの成績で次の患者の割り付け確率を変更する。一般的には、良い 成績の治療群への割付け確率を増加させる。多数の治療群を当初用意し、途中の結果で成績不 良群を落とすデザインも含まれる。Pay-the-winner法には、ランダム化の原理(群間の equivocality)に反するという倫理上からの反対・嫌悪感もある。 サンプルサイズの変更:それまでの成績でサンプルサイズを変更する。とくに有意差が得られる確 率(検出力)を一定以上にするようにサンプルサイズを上方修正する。理論的には最も緻密に研 究されており、試験全体での第一種の過誤(αエラー)を保つ方法も考案されている。 Adaptive design(続き) 意思決定規則の変更:検定統計量やエンドポイント(短期で評価されるエンドポイントから長期の エンドポイントへなど)の途中での変更、非劣性試験から優越性試験への切替など。非劣性が証 明された場合にさらに優越性を証明することは認められているが、逆に優越性が示せない場合に 非劣性(臨床的な同等性)を示すことには抵抗が多い。同等性判定の閾値が事前にしばしば設定 されず恣意的な判断がなされるからである。 対象集団の変更:リクルートする対象集団を途中から絞り検証確率を向上させるなど。これについ ても、試験全体での第一種の過誤(αエラー)を保つ方法が最近考案されている。 適応的用量設定試験:事前に多くの用量群を設定し、最初は広い用量範囲で患者を割付け、ベイ ズ流に用量反応曲線を逐次推定する。推定結果に基づいて(ED90 など用量反応関係パラメータ の)推定精度が最大になるように次の患者群の割付け用量を決定する。第III相試験で用いる用 量が決定できるだけの十分な推定精度が得られた場合、あるいは用量反応関係が見られなかっ た場合には停止する。前期II相試験(IIaと呼ばれる)と後期II相試験(IIb)をseamlessに続けて行 う試験といってもよい。がんの第I相試験で用量毒性曲線を逐次推定し、目標毒性に対応する用 量を次の患者に投与するCRM(Continual Reassessment Method)もこの範疇に含められる。 Seamless II/III試験:第III相試験で用いる用量を決定する第IIB試験と検証的な第III相試験を切 れ目無く行う方法。プラセボと複数用量群から開始して、途中で1群に絞り、プラセボとこの用量群 に患者を割付ける。第IIb試験と第III試験の対象患者が同様なら、試験を切れ目無く行うことに 大きな問題はないものの、データを統合してよいかどうかについては議論が分かれる。単純に併 合すれば実薬群に有利なバイアスが生じるからである。 逐次試験と停止規則:第III相臨床試験で1例毎あるいは定期的に(group-sequential)有効性の エンドポイントの群間差を計算し、予想以上の群間差が生じていた場合には有効中止を、これ以 上継続しても有意な差が得られそうもない場合には無効中止を行う。この方法論についてはすで に評価が定まっており、新薬申請においても問題なく使われている。有効中止の方法については 「中間解析interim analysis」の方法論が、無効中止には条件付検出力やベイズ流の予測検出力 が使われている。 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 13 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー Time-to-event型のエンドポイント 内容 がん領域の特徴とその試験デザインへの反映 定義 実践的試験とITT、非劣性試験、予測因子、多因子要因実験 進行・再発癌 OS TTP PFS TTF 補助療法 DFS RFS RFI 臨床試験の相:がんとそれ以外 わが国でがん領域から導入されたアイディア 新しいアプローチの必要性 Time-to-eventをめぐる問題 Time-to-event型のエンドポイントを どう統計的に処理するか? (累積)生存関数をKaplan-Meier法で推定 稀にハザード(イベント発生率)を直接推定 要約統計量としては (通常の)定義イベント Overall Survival Time to Progression Progression Free Survival Time to Treatment Failure すべての死亡 最初のPD、PDのない死亡はセンサー 最初のPDか死亡 すべての理由による治療打ち切り Disease Free Survival Recurrence Free Survival Recurrence Free Interval 通常は再発、すべての死亡、2次がん 通常は再発、すべての死亡 通常は再発、当該のがん死 Kaplan-Meier法:product-limit法 打ち切りなければ何人生存しているかと同じ 打ち切り *年発生率(非発生率) 5年生存率など 中央値 MST(Median Survival Time) ハザード比 (2群比較) 比例ハザード性が前提 death1 10 1 進行がんでは従来はプライマリエンドポイントであったが・・ 後治療の影響 QOLの考慮は? 8 7 6 1×(1-1/10) 1×(1-1/10)×(1-1/9) 1×(1-1/10)×(1-1/9)×(1-1/7) 本来のエンドポイントの測定には長期間必要 より早く評価できる、かつ後治療の影響を受けないエンドポイントを それ自体の意義(QOLを考慮した場合にはOSよりPFS) 代替性をいかに統計的に評価するか 進行癌ではOSからPFSへ (ただし測定の信頼性とバイアスの問題) 9 censor1 death1 代替エンドポイント surrogate endpoint 死亡はvalidなエンドポイントか? death1 後治療の影響によりSPP(Survival Post Progression)が増加 これがメディアンで12ヶ月を超えるとOSの有効性は? 乳癌、大腸癌、そして肺癌NSCLC? 補助療法ではOSから短期時点でのDFSへ(大腸癌そして胃癌?) 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 14 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー SPP(survival postprogression)=0 median PFS= 2:3 OS=PFS+SPP 6months 12months 18months 大腸癌補助療法(18試験の個票メタアナリシス) Sargent et al. JCO 2007; 25: 4569-74. Ex.1 Ex.2 補助療法において3年無再発生存(DFS)が5年生存の良 い代替エンドポイントであることを立証したSargent et al.(JCO 2005)の再解析 18の臨床試験が個票に基づいてメタアナリシスされ (20898患者)、メディアンあるいは最短追跡3年時点の DFSだけではなく、メディアン追跡2年時点のDFSも5年生 存のよい代替エンドポイントであること、3年メディアン追跡 のDFSと5年OSのハザード比の相関はステージIIIでは 0.92(0.85-0.95),ステージIIでは0.70(0.44-0.80)と前者がよ り強いことも示されている Increasing Acceptance of PFS as a Basis for FDA Approval Approval based on OS Docetaxel (NSCLC) Approval based on PFS/TTP Ex.3 Broglio and Berry, JNCI 2009; 101: 1642-9 86 それではPFS(Progresson Free Survival)はreliableか? Bevacizumab Pemetrexed (NSCLC) (NSCLC) Erlotinib (NSCLC) SPP大ほどOSのKM曲線重なる 進行・再発の乳癌、卵巣癌、NSCLC、大腸癌*では次第に PFSがプライマリエンドポイントになりつつあるが・・ どこを「時点」とするのか? 検査オーダー日、診断日? 測定間隔はどう設定するか? 測定手段はどこまでを必須とするか? 予定していない(患者の訴え等による)検査の扱いは? 主治医判定と中央判定、判定のQCは? Ixabepilone (Breast) Lapatinib (Breast) Trastuzumab (Breast) 1995 2000 Irinotecan (CRC) Bevacizumab (Breast) 2005 2010 Sorafenib (HCC) Bevacizumab (CRC) Oxaliplatin Panitumumab (CRC) (CRC) Everolimus (RCC) Sorafenib (RCC) Sunitinib (RCC) Gemcitabine (Pancreatic) Erlotinib (Pancreatic) Bortezomib (MCL) *Yothers JCO 2007; 25: 5153-4. 進行大腸癌に対する薬物療法の目的は治癒、患者負担の軽減、症 状の安定化と進行の抑制であり、単なる生存の延長は二義的な意味しか持たない。よってPFSはOSの 代替エンドポイントというより、それ自体で臨床的意義を有するプライマリエンドポイントになりうる。OS の測定は明確かつ信頼性は高いものの、セカンダリー以降の治療の影響を被る。一方、PFSの測定に は、画像評価の時期設定と判定など、バイアスや誤差の入りうる余地がOSより大きい。その一方で(同 じ時点で比較すれば)情報量は多く、かつセカンダリー以降の治療の影響を受けることはない。今後 PFSをプライマリエンドポイントに採用する試験が増えることを予想。 Bevacizumab (RCC) Bortezomib (MM) Gemcitabine (Ovarian) www.cancer.gov/cancertopics/druginfo 盲検化されていない場合のPFS測定の問題と提案 87 87 第III相試験のPFSに対するブラインド中央判定は必要か? Dodd LE, Korn EL, Freidlin B, et al: J Clin Oncol 2008;26:3791-6. Freidlin et al. JCO 2007; 25: 2122-6 報告バイアス 評価を行う医師が患者を試験治療にスイッチしたいと思う気持ちから、画像評価を過大 に行い、対照群でより早くPFSを宣言してしまう(主観による評価バイアス) 試験治療を受けたいと思う患者が対照治療群でより早く症状の進行を医師に報告し、そ の確認のための画像評価が早めになされてしまい、その結果早めにPFSが報告され ることもありうる(評価時期のバイアス)。逆に毒性の強い試験治療で来院と画像評価 が早めになり、試験治療群で早めにPFSが報告されることも起こりうる 患者脱落attritionバイアス 対照治療に割り付けられた患者に、新しい治療を受けたいという希望から脱落が多くなり、 これがバイアスを引き起こす 正式の評価時点を2回に! 対照(標準)治療でのメディアンPFSとその2倍 途中でのPD判定はその後の正式な時点で 検出力はすべての時点を用いる方法と比べそれほど低下しない 負担の軽減とバイアスの軽減 結論は、「2重盲検試験ができない場合、バイアス軽減の一般的な戦略としてブ ラインド中央判定を推奨しない」! 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 15 がん臨床試験のデザイン (大橋靖雄) 第23回がん臨床試験セミナー PFSに対する感度解析Sensitivity analysis Korn論文の結論 Bhattacharya et al. JCO 2009; 27: 5958-64 PFSが望ましいエンドポイントである場合、2重盲検試験がバイアス最小化 のための最良の方法 これが不可能な場合、バイアス軽減の一般的な戦略としてはブラインド中 央判定を推奨できない 施設での進行判定後の追加画像撮影はinformative censoringの問題を軽 減する点で推奨できるが、実装は難しいであろう。BICRを測定バラツキ軽 減の手段とすることも考えられるが、informative censoringバイアスとのバ ランスを考慮すべき BICRを最終的な解析手法として推奨しないものの、施設判定のバイアス をチェック(audit)する仕組みとしては有効であり、臨床的有効性の観点か らはぎりぎりの試験結果の信憑性を高めることにはつながる そもそもPFSをエンドポイントとする臨床試験は、臨床的にも重要な意義の ある、大きな治療効果を目指すべきである。このような状況下では、本稿で 議論したようなバイアスに対し結論は頑健であろう PFSに曖昧さが伴うことは避けられない データの取り扱いを何通りかに変更し結論のrobustnessを検討 解析方法についてはプロトコルあるいは解析計画書に規定 PFSに差がないという仮定のもとで判定時期の違いがどう影響 するかシミュレーションを行う 両群を対等に扱う 試験群は保守的に、対照群はliberalに扱う 予定していない判定時期、不完全情報なら遡らせる 臨床情報に基づくPD判定を除く 中央委員会で確認されなかったPD判定を打ち切り扱い 92 参考:適応拡大等、既承認薬剤臨床試験において どこまでデータを収集するか まとめ Optimizing Data Collection for Clinical Trials to Support Clinically Relevant Decisions 2011ASCO Education Session Chair(s): Richard L. Schilsky, MD がん領域の特徴とその試験デザインへの反映 実証実験の結果はKaiser et al. JCO 2010; 28: 5046-53 実践的試験とITT、非劣性試験、予測因子、多因子要因実験 臨床試験の相:がんとそれ以外 わが国でがん領域から導入されたアイディア 新しいアプローチの必要性 Time-to-eventをめぐる問題 分子標的を意識した新薬の開発ががん領域では盛んであ る。試験方法論の提案とその応用例も増えている。奏効 率・PFSの見直しなど、これまで常識と思われていた方法論 の見直しさえ行なわれている。 全ての試験関係者にとって、「何のために、なぜ」という本 質的な問いを常に心がけることがますます重要となろう。 毒性データ収集の最適化は実行可能 以下のデータを集める必要はない 既知のG1-G2の毒性 G3-G4も全例は必要ではない 有害事象の発現日と終了日(サイクルは必要) 併用薬剤 FDAはデータ収集の明確な方向性を示す詳細なガイダ ンスを出版すべき 94 参考:PROに関するASCOの発表から 6000 Comparative Effectiveness ResearchにおけるPROガイダンス案 参考:Comparative Effectiveness Studyにおける Patient Reported Outcomeの測定 ASCO6000 ガイドライン案 PROを測定せよ 重要な13症状と、対象・治療介入にとって意味のある症状を追加評価せよ 全体評価を含めよ。経済評価を可能とする指標の測定を推奨する 妥当性、信頼性、感度が保証された指標を用いよ 可能ならePROを採用せよ。収集方法が混合するなら同等性を検証せよ 必要時間は10分以内とせよ 欠損防止と重篤な症状に即対応できる警告システムを備えよ 適切な時点で測定を行え 95 使用目的を研究者の自己学習用に限り、その他への転用を禁ずる 16
© Copyright 2024 Paperzz