臨床試験のための生物統計学入門

臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
2003FEB08
目標
‹
臨床試験のための生物統計学入門
「オン コロジストのための統計学」を 読む上で必要なエッセン ス
を話す
こ のテキ スト のレヴ ェルは実 は高い
「 よく分か る」とい う授 業・本 の印 象は既 知の 知識 の量に よる
結 局、(そ の場 では 分かったつ もりに なっ ても) 一回 聞いただけ では な
か なか分 からない。繰 り返し 接する か、 一度本 格的に 勉強す るか
全 部理 解しよ うとは思 わ ないこと。 重要 な概 念だけで十分
乳がん臨床研究支援事業 CSPOR運営委員長
NPO日本臨床研究支援ユニット J-CRSU理事長
東京大学医学系研究科 生物統計学
‹
大橋靖雄
‹
Q and A
統計パッケージデモ (休憩時間に、伊藤陽一先生)
SAS: 製 薬 会社や FDAで使 わ れている業 界標 準、敷 居高い ・値段 も高い
JMP:研 究者向け の使い やすいソフト 、教 育用に適
1
2
なぜ生物統計 ?
内容
‹
‹
‹
‹
‹
Design
Design
Design
Design
Design
Design
Design
Design
なぜ統計学が必要か
統計学を理解するために
プロトコルを 読むために必要な最低知識
検定とランダム化
NSAS-BC02プロ トコルから:生存時間解析入門
Design
Design
Design
Design
Design
Design
Design
Design
Design Design
Design Design
Design Design
Analysis
Design Design
Design Design
Design Design
Design Design
Design
Design
Design
Design
Design
Design
Design
Design
Design
Design
Design
Design
Design
Design
Design
Design
+ Interpretation and Communication
3
なぜ統計学が必要か?
なぜ生物統計?
推論・判断の際にバラツキが無視できないから
バラツキの存在下での判断
バ ラツキ の存 在下 で正しく推 論・判 断す るためにデータ をど うとる か?
バ ラツキ のもと での客 観的 な推論・ 判断 をど う行 うか ?
例題:5円玉と1円玉はどち らが重いか?
SCLCで(CPT11+CDDP)と(VP-16+CDDP)の
どちらの予後が良いか?
バ ラツキ を如 何に小さくす るか、 如何に 効率的に データを 得る か?
(品 質管 理、データ マネー ジ メント の範 疇でもあ る。 )
SCLC: 小細胞肺癌
CPT11:塩酸イリノテカン
CDDP:シスプラチン、 VP16:エトポシド
5
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
6
1
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
ある 臨床試験(小細胞肺癌)の成績:生存曲線
5円玉と1円玉:ヒストグラム(密度関数)
Count
平均 0.9998 g
10
平均 3.7686 g
0.0080
SD
SD
1 円玉
5
0.0197
5 円玉
1.0 049(g )
0. 9926
3.7 584(g )
3.76 24
0.9 945
1.00 46
3.7 631
3.7633
0.9 945
0.99 56
3.7 708
3.8173
0.9 933
0.99 56
3.7 653
3.7776
1.0 175
1.00 51
3.7 399
3.7682
0
1.00
1.50
2.00
2.50
Weight (g)
3.00
3.50
4.00
7
‹
8
バラツキの存在下での判断
バラツキの存在下での判断(続き)
なぜ「5円玉の方が1円玉より重い」と判断するか?
なぜ「5円玉の方が1円玉より重い」と判断するか?
ともにバラツイている :「分布」の概念の導入
バ ラツキ を客 観的・ 定量 的に扱 うために「 確率論 」を 応用
‹
‹
先験的な知識・常識(externalな証拠)の活用と一般化
実際の測定値の分布の比較 internalな証拠
比 較し てよい か、不 公平 な比 較 では ないか
5 円玉
「日 本中5 円玉 、1円 玉は どれ も同じ」
無作 為(ラ ンダム) 抽出したとみ なし て良い
同じ 測定方 法
先 験情 報
対象 選択
SCLC
選 択に偏 り ?しかし
ランダ ム化
同じ測 定・ 追跡方 法
一般化
5円 玉
SCLC
これ ま での 「持った 感じ」
第 II相 の結 果
「 日本 中5円 玉、 1円玉 はど れも同じ 」
選 択に偏 り?
無作 為(ラ ンダム) 抽出したとみ なし て良い
×
確 率的 な不確実さ があるも のの 可能
?
群 内の バラツ キと群間 の違い を比 較: シグナ ルとノ イズの 比較
9
10
ある 臨床試験(小細胞肺癌)の成績:密度関数
5円玉と1円玉:ヒストグラム(生存関数)
1- (distribution function)
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
1.00
11
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
1.50
2.00
2.50
Weight (g)
3.00
3.50
4.00
12
2
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
一般化可能性のため に
‹
患者背景の解析
‹
部分集団の解析
ITT?(ワイス:医療の疫学第 4章)
ランダム化比較試験
化学療法 50名
手術療法 50名
結 果の 差異 の説明
部 分集 団における 効果 の差、 交互 作用 の検討
‹
再試験
‹
メタアナリシス
‹
緩い選択条件
‹
ITT( Intentiont-to-treat)解析
全員治療
36名治療
9名拒否で化学療法
5名悪化で化学療法
FDAの 方 針
複 数の 独立 な研 究結 果の 統計的 併合
どの群とど の群とを 比較すべきか?
50 vs 36, 59 vs 36, 64 vs 36, 50 vs 50 ….
large-scale-rando mized-evide nce
13
14
ITT?
ITT?
古今東西喧嘩のたね
治療しようとする意思に基づく解析
割付け後、何が起きようともその群として解析
実は人によって異なるいくつかのレベル、曖昧
なぜ? 解析対象選択に伴うバイ アス避ける
ラン ダム化によ って保証される comparability保つ
統計解析の基礎(p値の根拠)を作る
臨床家
気 持ち が悪い
医 学的に 意味 がない
統 計家
その 通 り
そう かもしれ ない
しかし 統計 的に Valid
そもそも なぜ ランダム 化したのか ?
差 は有 ると思い 込ん でいる
差 有 りのもと での 検出 力重 視
差 は有 るか 懐疑 的であ る
差 無しのもと での 第一 種の 過誤α 重視
15
16
ITT? 何を評価するのか
処方しようとする意思
実際の処方
服薬
血中濃度
組織内濃度
ITT? 有名な実例
Coron ary Drug Project Researc h Group (19 80) NE JM 30 3 1038-10 41
ITT
per-protocol
PK-guided study
ALL
5-years cumulative mortality
Compliance > 80%
< 80%
Clofibrate
18.0%
15.7%
22.5%
Placebo
19.5
16.4
25.8
環境(副作用軽減対策などの)変化によって
ITTの意義が薄れる こともあり
17
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
18
3
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
統計ガイドライン (E9) :解析対象の規定
検証的な試験において、主たる 解析は
ITTの考え方に従って行われる。
解析の役割り
双 方の 解析 を計 画:さらに探 索する ことも望 ましい
同 等性 ・非劣 性試 験ではラ ンダム化さ れた全被 験者 の解析 は問 題
バイ アスを除くことが第一に重要であるからである。
プロトコル不遵守、脱落などによる質の低下は、
試験の感度を下げ、医学的意義を損なう結果となる 。
無 作為 化した全症 例
明 らか な組 み入 れ違反 例
組 み入 れ基 準適合 例
未 投与 例、投 与後 未観 測例
Full-analysis set
最 大の 解析 対象集 団
Per-protocol set
試 験計 画適 合例
違 反例 、脱落 例
19
20
内容
‹
‹
‹
‹
‹
臨床研究の報告:ガイドライン
なぜ統計学が必要か
統計学を理解するために
プロトコルを 読むために必要な最低知識
検定とランダム化
NSAS-BC02プロ トコルから:生存時間解析入門
‹
Lang T A an d Secic M: How to Report Statistics in Medicine Ann otated Guidelines fo r Auth or s, Editors and Reviewer s, American
College of Physicians, 1997.
‹
Fuk uda H an d Oha shi Y: A g uideline for reporting result s of
statistical analy sis in JJ CO, Japan. J. Clinical Oncology 27, 121127, 1997 (http://w w winfo. ncc.go.jp/jjco/ 英 文・ 日本語とも )
‹
CON SOR T stateme nt
Consolidation of Standard for Reporting Trials
21
22
臨床研究の報告:ガイドライン
CONSORT statement
定評のある 教科書
‹
‹
‹
‹
‹
丹後俊郎:新版 医学への統計学、朝倉書店、1993.
吉村功編著:毒性・薬効データの統計解析、サイエンティスト社、
1987.(改訂中)
Altman DG:Practical Statistics for Medical Research, Chapman
and Hall,1991. (佐久間昭監訳:「医学研究における実用統計学」、
サイエンティスト社、1999)
Armitage P and Berry G:Statistical Methods in Medical
Research, 3rd ed., Blackwell, 1994.(椿美智子・椿広計共訳:
「医学研究のための統計的方法」、サイエンティスト社、2001)
浜田知久馬:学会・論文発表のための統計学、真興交易医書、1999.
23
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
‹
‹
‹
70を 超える医学雑誌編集者の合意
ランダム化試験が対象
文献
Begg C et al. : Improving the q uality of reporting of ran domized
controlled trials, JAMA 276, 637-63 9, 1996.
(別府・津谷「コクラン共同計画資料集」サイエンティスト社に翻訳あり)
Meinert C: Beyon d CON SOR T, JAMA 27 9, 1487-1489, 1998.
Moher D: CO NSO RT: A n evolving tool to help impr ove the
quality of reports of ra ndo mized controlled trials, JAMA 279,
1489-149 1, 1998.
24
4
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
臨床研究の報告:ガイドライン
CONSORT statement:報告項目の規準
‹
抄録
構 造化
はじ めに
‹ 方法
‹ 結果
‹
‹
データや論文を理解するための3原則
‹
正しい用語を 正確な理解のもとに使うべし
統計手法は要約手法、要約は適切か(手法の前提は満
たされているか)に注意すべし
ど こまで結論は一般化できる か、に留意すべし
‹
番外:良い統計家の教師・友達を持つべし
‹
設 定仮 説、臨 床的 な目 的、 計画した部 分集 団・共 変量 解析
プ ロトコ ル、 割付け、 盲検
被 験者 の内 訳(図 表示)
解析 主要・副次評価変数に対する介入の推定効果
(点推定と区間推定)
再解析に必要な詳細な要約統計量
群毎の予後因子の記述と(試みられれば)調整解析
プロトコルからの逸脱とその理由
‹
コ メント
バイアスと精度低下の原因を含む結果の具体的解釈
可能なら外的妥当性に対する議論
25
26
正しい 用語 を
正しい 用語 を
検査の特性
When doctors meet numbers
Berwick et al.(1981), Am J Med 71: 991-998.
Disease
Q1: 偽陽性 false positive-rate とはど れか?
Disease
+
test +
A
B
C
D
a: B/(A+B)
Test +
-
+
-
True-Positive False-Positive
False-Negative True-Negative
100%
感度 Sensitivity = TP/(TP+FN)
特異度 Specificity = TN/(FP+TN)
b: B/(A+B+C+D) c: C/(A+C) d: (B+C)/(A+D) e: B/(B+D)
PiD
NiH
医師研究者の半分は誤って覚えている!
27
28
ついでに: When doctors meet numbers
正確な用語を
Berwick et al.(1981), Am J Med 71: 991-998.
‹
Q2:人口 100万人の都市に X病に罹患している患者が
1000人いる 。A検査を行うと罹患している 患者の95%が
陽性となる 。一方、罹患していない人が陰性となる確率
も95%である 。ラン ダムに住民に検査を 行ったところ検査
は陽性となった。この人が罹患している 確率はいくつ
か?
許せない誤用
こ れら不 適格患 者を 母数 から除くと …
二 つの治 療群に 無作 為抽出に よっ て割 り付け...
A薬 につい ては 2用 量、 B薬につい ては 有・無 の階 乗実験 で…
‹
一般会話ではまあ許せるが
基 準物 質の 測定結 果は 表示 どお りで、この 測定 系の精 度は 高い …
層 別解 析をおこ なったとこ ろ、重 症例 では ...
a:1-3% b: 10-25% c: 50-60% d: 80-94% e: 95%
29
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
30
5
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
参考
参考
実験法と解析:多因子要因実験
N-SAS BC02
研 究代 表者 渡辺 亨
Design of experiments and analysis:Factorial experiments
‹
2×2
A
‹
noA
B
noB
ホルモン 療法低感受性、n+ 症例に対する術後補助療法
エンドポイント
無 病生 存期 間
神 経毒 性を 中心とした HRQOL
‹
Bの効果effect of B
‹
Aと Bの 間に交 互作用 無けれ ば、2 つの実 験分 の情 報量
Inform ation of 2 inde pen dent experime nts if there is no interaction
n個数
HER2
腫瘍径
術式
施設
動的割付
Randomize
Aの効果 effect of A
ACの有無、Taxaneの種類に関する 2×2要因実験
AC有無に関する非劣性non-inferiority試験、1200例
AC× 4 Paclitaxel× 4
AC× 4 Docetaxel× 4
Paclitaxel× 8
Docetaxel× 8
31
32
正しい 理解
要 約は 適切 か?
標準偏差と標準誤差
standard deviation vs standard error
標準誤差=標準偏差/n1/2 ではない
50 ± 100 ???
‹
標本分布の概念
‹
「「統計量の標準偏差」の推定値」=標準誤差
‹
推定値±1.96(推定値の標準誤差)=95%信頼区間
実 験・ 試行の 仮想 的繰 り返し
極端な歪か外れ値
均質な集団ならCVは20-40%程度
(増山元三郎「準恒常性仮説」)
33
34
参考
誤差的バラツキをどうやって測るか?
要 約は 適切 か?
偏差値の解釈
n
平均 X = ∑ Xi / n
Q1: ある 学生Tの試験成績 は中学では 70 (平均=63.3)
高校では 30 (平均=33.0)であった。
成績は落ち たのか?
i =1
n
分散Variance = SD2 = ∑ ( Xi − X )2 /( n − 1)
Q2: 偏差値の上限は?
偏差値= (raw value-mean)/SD× 10 + 50
i =1
標準偏差Standard Deviation SD
変動係数 Coefficien t of Variation CV =SD/ X
35
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
36
6
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
要 約は 適切 か?
要 約は 適切 か?
分布の歪みと平均
偏差値と順位
ひずんだ分布(skewed distribution)では、
central value ≠ mean value
左に歪む left-skewed
正規分布なら
平均値と標準偏差による分布の要約が適切
(十 分統 計量: それ 以上 の情 報は必 要 ない )
右に歪む right-skewed
正規分布なら
偏 差値
mean median mode
mode median mean
60
70
80
up per 15.9%
2.3%
0.13%
median- mean: mea n-mo de = 1:2
37
38
要 約は 適切 か?
要 約は 適切 か?
正規分布の密度関数(ヒストグラム の)極限
標準偏差(ばらつきの大きさ)σ
なぜ正規分布
‹
実際のデータの分布 ???
‹
「統計量」の漸近(ぜんきん)分布 asymptotic distribution
ち りも 積も れば正 規分 布
Σ( 重み )(データ) − −− > 正規分 布
(x - µ )
1
)
exp(2σ 2
2π σ
2
あ る程度の独立性 があれば
パチン コのモデル
中心極限定理
central-limit theorem
平均(真ん中)μ
40
39
統計モデル
要 約は 適切 か?
要 約は 適切 か?
直線モデルのあてはめとモデ ル診断
全てのモデルは誤っている 。ただし役に立つモデルも存在する 。
y
(GEP Box)
モデルの意義
データ の要約 summarizatio n
予 測 内 挿・ 外挿
異 常データ・ 問題 点の摘 出 exposure
‹
直 線 モデル の意義
表 現の 一意 性
‹
前 提は 正しいの か?
y = xの 線 形関数 +誤 差的 変動
y=a+bx
x
誤 差的 変動: 平均は 0、 分散等しく、 独立 でほ ぼ正 規
あ る因子 の効 果(影 響)の 定量 的評 価
医学統計では
‹
現 象( 自然史 )の理 解
研 究計 画へ の利用
比 較の 際の 偏りの除 去・軽 減
個 々の 患者 への適 用、とくに治 療法 の選択
41
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
回 帰診 断
残 差の 検討( 残差 プロ ット )と影響 力の 解析
42
7
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
回帰式もR2 もすべて出力は同じ!
要約は適切か?
‹
要約統計量
平 均、 標準偏 差は 正規 分布の もとでは完 璧な要約
しかし 外れ 値、極 端な歪みに 対しては不 適切( ロバ スト ではない )
分 布の 変換あ るいは 他の ロバ スト な手 法
‹
統計モデルのあてはめ
モ デル の妥 当性の 検討 :線形 回帰 の場 合は残 差 プロ ット
他の 手法 の場 合も類 似の方 法
ラ ンダム化 臨床 試験の 場合 はあくま で補助的 手法
43
44
内容
‹
‹
‹
‹
‹
これだけは理解し ておきたい統計基礎概念
‹
なぜ統計学が必要か
統計学を理解するために
プロトコルを 読むために必要な最低知識
検定とランダム化
NSAS-BC02プロ トコルから:生存時間解析入門
‹
‹
‹
正確度と精密度
accuracy and precision
無作為抽出とランダム化 random sampling vs randomization
臨床試験の目標
一般化可能性
generalizability
45
精密度と正確度 Precision and accuracy
46
臨床試験の目標
観測値 = 真の値+バイアス+誤差的バラツキ
observed
true
bias
error
true value
accuracy
precision
○
○
○
×
×
○
×
×
47
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
‹ バラツキを小さくすること(精度を高くすること)
Clarity
‹ 偏り (バイアス)を小さくすること
Comparability
‹ 広い対象に適用できる結論を得ること
G eneralizability
48
8
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
なぜバラツキ?
誤差的バラツキとバイアス
Random Variation and Bias
進 行・ 再発大 腸癌 患者に 対する 5 FUの成績
authors
# of patients respon se (%)
Sharp and Benefeil
Hall and Good
Rochlin et al.
Allaire et al.
Cornell et al.
Every
Field
Bell
Weis s and Jacks on
Fergus on and Humphrey
Hurley
ECOG
Talley
Hyman et al.
Moore et al.
Ans field
Mayo
Ellis on
Kennedy
Knoepp et al.
Ols on and Green
13
19
47
17
13
12
37
22
37
12
150
48
271
30
80
141
358
87
22
11
12
‹
85
63
55
47
46
41
41
36
35
33
31
26
21
20
19
17
17
12
9
9
8
さまざまな理由によるバラツキ
たと えば進 行癌に 対する ある化 学療 法の 奏効率
患 者全 身状 態(P S)と ADMEの 違 い、
腫 瘍の 性質( 病理・ 分子 生物 学的) 、
dose-in tensit yと コース、評 価部位と 評価 方法、 出版 バイ ア ス,…
施 設差
‹
モデルとしての「誤差」
バ ラツキ の理 由は同 定 でき ない、あ るいはあ えてし ない
確 率変 数としての モデル 化:確 率論の 応用 が可 能となる
‹
49
誤差的バラツキとバイアスの相対性
知 識が 深ま れば /情 報が得 られれ ば、
誤 差的 バラツ キは制 御可 能 なバイ ア ス要 因に転 化
誤差的バラツキ Random variation
50
誤差的バラツキ Random variation
無作為抽出 random sampling : 同一確率で独立に
n=1
population 母集団
0%
sample 対象集団
20% responder
10%
14%
25%
30%,.....
each result is not equ al to
the true value
51
100%
Mean is 20% !
unbiased
n=4
0%
100%
0%
100%
n=200
52
信頼区間 Confidence interval
真値に収束 する
大数の法則
分布の形が正規分布に収束 する
中心極限定理
1/5 ≠ 4/20 ≠ 20/100 ≠ 200/1000
情報量(precision)の差
95% 信頼区間 confidence interval
(正確な計算あるいは正規近似)
1/5:
0.005-0.72
p ± 196
. × p( 1 − p ) / n
4/20:
0.06-0.44
正規近似
20/100:
0.12-0.28
200/1000: 0.18-0.22
53
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
54
9
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
医学研究におけるバイアス
Bias in medical res earch
選択バイア ス Selection bias
どち らの病院を選びますか? Which hospital to select?
主なバイ アスの原因
対象選択
情報収集
(デザイン含む)
交絡
5-year survival
Surgery
Radiation
Selection of study population
Gathering information
(including design)
Confounding
Hospital A
B
80%
60%
25%
20%
55
患者選択のバイア ス
がん第 II相試験における患者選択
選択バイア ス Selection bias
In total: Hospital A 36%
56
MVAC for urothelium cancer
B 36%
50%
5-year survival
Surgery
Radiation
Survival Death T otal
Hospital A
B
16
24
4
16
20
40
36%
13%
Survival Death Total
20
12
60
48
80
60
Treatment selection (Treatment by indication)
Sternberg CN et al. (1985), J. Urology
12/24 CR
Sternberg CN et al. (1989), Cancer 44/121 CR
Loehrer PJ Sr. et al. (1992), JCO
RCT of MVAC
vs
single CDDP
17 CR 32 PR/ 126 4 CR 10 PR/ 120
57
58
交絡 Confounding
がんの臨床試験においては、反応(奏功率)の大きさは
患者選択によ って大きく変化する 。
(歴史対照と比較した有効性のある程度の評価は可能であるが。)
したがって、相対的な有効性の評価のためには
一般薬と同様に比較が必要となる。
原 因系
処 置・ 曝露
treatment/expo sure
?
結 果・ 反応
respon se
関 連 association
因 果 causal effect
他 の要 因
交 絡因 子
confou n ding factor
それでは正確な比較はどうやって行うか?
患者選択と交絡によるバイアスの制御が必要
例 :重 度な患者に 強い治 療
59
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
60
10
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
交絡 Conf ounding
Random sampling vs randomization
無作為割付け(無作為化) randomization 内的妥当性の確保
無作為抽出
random sampling 外的妥当性
target pop ulation
Stage 1
施 設の 限定・ 安全 性の 配慮
stu dy po pulatio n
解析で無視すると
Stage 1+2
偶 然・ 同意
無 作為 抽出: 多くの統 計理 論におい て理 論上重 要 な概念 であ るが 、臨床 試験に
おい ては ほとん ど現実 味をもた ない 。私見 であ るが、 不用 で誤解を 招く概 念
Stage 2
Senn, S(1 997), Statistical Iss ues in D rug Development,Wiley: glossary
61
62
ラン ダム化の意義
ラン ダム化の意義
Byar D. et al. : Rando mized Clinical Trials, NEJM 29 5: 74-80, 1976
治療割付けに伴うバイ アスの除去
予後要因の分布の均等化(平均的に)
個人差・バイアスを確率化
交絡を 小さく
信憑性の向上
p値の根拠
ラン ダム化に基づくdesign-basedな解析
母集団そして(仮想的)無作為抽出に基づくmodel-basedな解析
例 : 仮 想的 な10人の 患者
治 療に対す る潜 在的 反応
A B
+
+
−
−
ラ ンダム割 付け
この 分布は ?
+
−
+
−
2人
推定したい 奏効 率の差
3人
(3-1)/10= 20%
1人
4人
10C5 =252ハ ゚ ター ン 最良 は 100-20=80%、 最 悪 は 0-40=-40%
真 の値 20%か らのバイア スは 0、 誤差 的バラツキ は大
誤 差的バ ラツキを 小さくするには ? サ ン プル サイズ大 きく
並べ替え分布
幸いに? 簡単な問題では両者の結果は近似的に等しい
63
64
-40 -20 0 20 40 60 80
ラン ダム化の意義: Fisherの実験計画法
1930年代 ロ ザムステッド農事試験場
新品種、肥料などの評価のための実験?
真値に収束 する
大数の法則
分布の形が正規分布に収束 する
中心極限定理
ブ ロック
品種A
B
A B
B A
信 憑性 の高い 評価に なる か
バイアス (交 絡):水 はけ、 日当た り、地 味、・ ・・
フ ゚ ロット
均 質に近い ブロッ ク
最 後は ラ ンダム化
65
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
11
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
Fisherの実験計画法
技術評価のための実験
ラン ダム化の意義: Fisherの実験計画法
科学的精密実験
くり返し・反復
局所管理
ランダム化
repetition・ replication
local control
randomization
法則発見
易
可能な限り排除
0である べき
要因組み合わせ factorial experiment
技術評価のための実験
目的
普及したときの有用性の評価
実験の制御
難
未知要因の影響 ラン ダム化
誤差
存在を 前提
研究(計画・実施)に要求さ れる条件
臨床研究への実験計画法の応用
生物統計学の制度への組み込み
英国MRCによるストレプ トマイシンの評価(1947)
倫理と科学の幸運なる一致
アメリカへの伝播:大規模予防研究、がん共同研究グループ
新薬認可のシステム確立(FDA)
国際ハーモナイザーリョン
E9ガイドライン 統計的原則
E3
治験の総括報告書
E5
人種要因(bridging研究)
Clarity
サンプ ルサイズ大きく
Comparability
ランダム化・マスキング(盲検化)
Generalizability
研究の繰り返し・メタアナリシス
施設・背景によるsubgroup解析
(交互作用の検討)など
プロトコル遵守(適格条件、治療、観察、報告)
データ管理
70
仮説検定の論理
内容
‹
‹
‹
‹
‹
透視実験 超能力を信じるか? (ESP experiment)
つぼの中のサイコロ の目を 当てると主張する 「超能力」は本物か?
なぜ統計学が必要か
統計学を理解するために
プロトコルを 読むために必要な最低知識
検定とランダム化
NSAS-BC02プロ トコルから:生存時間解析入門
1回の試行で当たったら?
2回の試行で当たったら?
・・・10回なら?
トランプ なら?
71
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
72
12
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
仮説検定の論理
仮説検定の論理
数 学 での「 背理 法」
reductive abs urdity
K.Popperの 科 学哲 学「反 証でき ない命 題は科 学的 ではない 」
多少のリスクはあるが帰無仮説は真実とは考え難い
帰 無仮 説:「 超能力 者の 言うこと はま ったくでたらめ であ る」
しからば?
その 下 で観察 事象あ るいはそ れ以 上に仮説 からず れた事 象がおき る
確 率は ?
p値 p-values
1回 の試 行 であたったら?
2回 の試 行 であたったら?
・・ ・ 10回なら ?
1/6=0.17
1/36=0.028
0.00000002
トラ ン プなら?
1/52=0.019
P < 0.05 :
statistically significant
< 0.01 :
highly statistically significant
対立仮説: alternative hypothesis
超能力を信ずる
あるいは
何かインチキがあるのではないか
73
仮説検定の原理:一種の背理法
74
仮説検定の原理:一種の背理法
帰無仮説「新薬は効かない、標準薬と同等かそれ以下」
p値が基準の値(5%)以下なら
帰無仮説を棄却する (「新薬は効く」と判断する )
対立仮説を選択する
あるいは 何かインチキ? と判断する
そのもとで、
現実に得られたデータ以上に新薬に有利な結果
が得られる 確率を 計算
P値
例 :新 薬とプラ セボ のクロ スオーヴァ ー 2重 盲検比 較試 験
エ ン ドポイ ント :どちら が効いた か? 患者の 選択
10人 中 10人が 新薬 選択 P値 は ( 1/2) 10=1/1024=0.00 098
9人 なら 10人と 9人の分 を加 えて ( 1/2) 10+10 ( 1/2) 10=0.011
75
GCP(品質保証)による排除
工業における 抜き取り検査sampling inspectionの抽象化
繰り返しプロ セスにおける 平均的特性の確保
(Neyman-Pearson)
それは科学か? ( Fisherの批判)
76
仮説検定と2種類の過誤
α(第1種 )と β (第2種)
事実
意思 決定
承認
(仮 説を 捨てる)
承認し ない
新薬 は効く
仮説検定と2種類の過誤
α(第1種 )と β (第2種)
効 かない
1-β
検 出力 power
sensitivity
α
false-positive
β
false-negative
1-α
specificity
( 仮説 を捨 てない)
行 政側 : α の維持
スホ ゚ン サー:資 源の 制約 下でβを 小さく ( 症例 数増や す、誤 差的 バラツキ 小さく)
検 定の 繰 り返し( 多重性 :多 エン ドポイ ント、 多サ ブグルー プ、 多時 点での検
77
定 、複 数の検 定手 法)、 症例の 除外 :αの 増加
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
事実
検査 結果
陽性
(病 気の診 断)
陰性
病気
1-β
検 出力 power
sensitivity感 度
β
false-negative
アワテ者
健康
α
false-positive
1-α
specificity特異度
( 健康 の診 断)
ボンヤリ者
78
13
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
仮説検定と2種類の過誤
必要サンプルサイズの計算
仮説検定と2種類の過誤
必要サンプルサイズの計算
Time-to-eventの場合、情報量はイベント数
‹
‹
ハ ザー ド(発 生率) 半 減する ことを証 明す るために必 要な
イベ ント 数 = 95
( α =0.05 両側、 β =0.10)
( 累積) 発生 率
コ ントロール 群 治療 群
1%
0.5%
5%
2.5%
20%
100%
10.6%
100%
効く 薬を
精 密 なエ ンド ポイン トを
サ ン プル サイズ を増や す
各 群に必 要 Number-Nee ded-to -Ttreat
な症 例数
( 1件の イベント減に 対し て)
6330
200
1260
40
310
48
薬効評価ではαは一定(両側5%が標準)
βを 減らすには?
必 要サ ン プルサ イズの 計算 ( 2群 : α =0.05, β =0.10)
連 続量 なら
各 群 21×( 群内 SD/群 平均 差) 2
割 合 なら
各 群 21×( 平均 p(1-p) ) /差 2
10.6
--79
80
仮説検定と2種類の過誤
必要サンプルサイズの計算
‹
‹
‹
優越性試験と非劣性試験
治 療効 果の 差と信頼 区間 : 標準 治療 /試 験治 療の 効果の 差 をδ
優 越性 : Superior
差とは何か?
非劣性の場合はホットな問題
信 頼区 間
( 通常 95%)
こ れが 0を含 ま なけれ ば
「 統計 的に( 5%)有意 」
優越性の場合:
期 待したい差
( 新薬 開発の 場合)
臨 床的に 意味 のある( 最小 )差
( 標準 治療確 立の 場合)
可 能 な症 例数 である 程度 の検出 力が 保証さ れる差
非 劣性 : Non-inferior
同 等: Equivalent
判 断 できず : Indeterminate
Lower
(upper:通常0)
試験治療優れる
慣 習によ る設 定
δをどう選択するか?
Smallest effect size
There is little published experience
臨床的な有意差と統計的な有意差
81
モデルに基づく検定
割合の比較
リュー マチに対す る多 施設 共同 プラ セボ対 照2 重盲検 無作 為化 比較試 験
反 応: 改善あ り(著 名、 やや)、 無し
重 要 な共 変量: 性別、 年齢、 施設
test
placebo
response: yes( marke d, some), none
covariates: gender, age, center
improvement
some or marked
none
n11=28
n12= 13
n21= 14
n22= 29
n+1= 42
n+2 = 42
前提: それぞれの母集団での改善割合 ρ T ρ P
無作為抽出 random sampling
n1+ sampling
ρT
total
n1+ = 41
n2+ = 43
n=8 4
Koch et al. :From Peace ed. (1988),
Biopharmaceutical statistics for drug development , Dekker, 翻訳 有り (サ イエ ンテ ィスト 社)
83
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
ρP
n11● n12○
n11 follow s Binomial distrib ution
n21
pT= n11/ n1+ ,
estimator)
n2+ sampling
n21● n22○
(n1+ ,ρ T)
(n2+ ,ρ P)
ρ Tの 推 定値 estiamte(あ るいは 推定 量
pp= n21/ n2+ ρ P
仮説 H0: ρ T = ρ P
84
14
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
標準正規分布(平均0、分散1)の密度関数
モデルに基づく検定
検定統計量 test statistics :
z=
Signal / Noise
pT − pP
S tan dard − Error − of − Numerator − UnderH 0
1 
n + n 12
 1
SE = 
+
 p (1 − p ), p = 11
n

n 1+ + n 2 +
 1+ n 2 + 
仮 説の 下、n大 でz は標 準正 規に従 う
z=3.274
正 規分 布の 表からp値 を計 算
1.96:これを 超えれば5%有意
Z= 0.3573/0.1091 =3.274 p=0.0005 4 (片 側)
85
検定と推定の関連
‹
ラン ダム化に基づく検定 Design-based test
検定
シ グナル /ノ イズ
( 差の 推定値 /差 の標 準誤差 )
正 規分 布のパ ーセント 点と比較
絶対 値が 1.96を超 えれば 5%有
意
‹
86
推定
95%信 頼 区間 :興 味のあ るパラ メータの 推定 値± 1.96×標 準誤差
前提:ラン ダム化のみ
反応に個人差を考えてもよい
仮説H0:介入による 反応に差はない
response of i-th individual by test=XiT placebo XiP
XiT= XiP
仮 説の 下 で、ラ ンダム化 は n+1個の 黒玉と n+2個 の白 玉を ランダムに n1+と n2+に 分
け る作業 に対応
興味のあるパラメータが差の場合、
その95%信頼区間が0を 含まなければ5%有意
87
ラン ダム化に基づく検定 Design-based test
得られたパターンの出現確率
probability of the observed pattern
プロ グラムと出力 Program and output (SAS)
TABLE O F TR EAT BY I MPROV E
● ● ● … n+1
○ ○ ○ … n+2
TR EAT
I MPRO VE
Fr equen cy│
Ro w Pct │y es
n+1 Cn11・ n+2 Cn12 / nCn1+
よ り極端 なパター ンの 出現 確率 を加 える :片 側
n11=28 確 率 0.00082258
29,30,…41
88
合計 0.001
確 率が 同じかそれ 以下 のパター ンを 加える (13以下 か 28以上) :両側
0.002
│
To tal
-- ----- --+- ---- ---+ ---- ----+
t
│
28 │
13 │
│ no
41
│ 68. 29 │ 31 .71 │
-- ----- --+- ---- ---+ ---- ----+
p
│
14 │
29 │
43
│ 32. 56 │ 67 .44 │
-- ----- --+- ---- ---+ ---- ----+
To tal
42
42
84
Fisherの 直接 確率 検定 Fisher’s Exact test
89
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
90
15
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
プロ グラムと出力 Program and output (SAS)
プロ グラムと出力 Program and output (SAS)
STATIS TICS FOR TABL E OF TRE AT B Y IMP ROVE
Column 1 R isk Estim ates
Sta tist ic
DF
Valu e
Prob
--- ---- ---- ----- ---- ---- ---- ---- ----- ---- ---- ---- -----
R isk
A SE
95% Conf iden ce Bo unds
(A symp totic )
95 % Co nfide nce Boun ds
(Exa ct)
Chi -Squ are
Lik elih ood Ratio Chi -Squ are
1
1
1 0.72 0
1 0.96 2
0.001
0.001
---- ----- ---- ---- ---- ----- ---- ---- ---- ---- ----- ---- ---- ---- ----- ---- ---- -Row 1
0. 683
0. 073
0.5 40
0.8 25
0. 519
0. 819
Con tinu ity Adj. Chi- Squa re
Man tel- Haen szel Chi- Squa re
Fis her' s Ex act T est (Lef t)
1
1
9.33 9
1 0.59 3
0.002
0.001
1.000
Row 2
Tota l
(Rig ht)
(2-T ail)
1.0 3E-03
2.0 6E-03
Phi Coe ffic ient
Con ting ency Coef fici ent
Cra mer' s V
0. 326
0. 500
0. 071
0. 055
0.1 86
0.3 93
0.4 66
0.6 07
Diff erenc e
0. 357
(Row 1 - Row 2)
0. 102
0.1 58
0.5 57
0. 191
0. 389
0.35 7
0.33 6
0.35 7
91
92
仮説検定の原理
検定にはさま ざまな種類
治療Aと治療Bの反応率の比較
‹
データの型の違いと原理
型
A
B
反応あ り なし
mA
nA-mA
mB
nB -mB
0. 485
0. 611
計
nA
nB
model-b ased
0-1
連続
time-to-event
帰無仮説のもとでは反応は固定している と考えてよい
並べ替えによ って、現実のデータ以上に極端なパ
ターン が得られる 確率を 計算
design-based: Fisherの直接確率
反応率 p=n/mによ って母集団の反応率を 推定、差の正規近似
model-based: Zあるいはχ2乗検定
‹
‹
design- ba sed
割合 の差 の Z( Z2=χ 2) Fisher
t
並 べ替 え検定、 順位和 検定
Log-ran k検 定
正確な検定が困難な場合の近似の違い
対立仮説として何を 想定するかの違い
典 型は 用量 反応 を調べ る場 合
直 線的 な用量反 応、 プラ セボとの 最大 用量の 差、
プ ラ セボとの 最小用 量の 差、 どこか の差、 ...
‹
解析者の趣味の違い
93
94
正しい 理解 :高級 課題
検定に対する誤解
Model based vs Design based
幸いにも、単純な問題では二つの(検定)結果はほぼ等しい
‹
‹
ランダム化試験の主たる 解析はdesign-basedである べき
計算能力が向上したので手間のかかる design-basedも実施可能
95
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
‹
‹
ノン パラ検定=順位を使う検定
分散が異なるかどうかF検定でチェ ックして、異なればWelch
サンプ ルサイズが小さくて正規性が確認できないときはノンパラ
正規分布に従わないときはt検定を使ってはならない
96
16
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
正しい 理解 :高級 課題
検定に対する誤解
内容
‹
ノン パラ検定=順位を使う検定
‹
分散が異なるかどうかF検定でチェ ックして、異なればWelch
‹
順 位検 定は ノン パラの 一つ
‹
‹
群 の大 きさがそろ ってい れば Welch不要 、むしろ 検定 の選 択が問 題
‹
‹
サンプ ルサイズが小さくて正規性が確認できないときはノンパラ
‹
サ ン プル サイズ小さいと き(1 0以 下)は 、順位 検定 の検 出力小さい
‹
なぜ統計学が必要か
統計学を理解するために
プロトコルを 読むために必要な最低知識
検定とランダム化
NSAS-BC02プロ トコルから:生存時間解析入門
正規分布に従わないときはt検定を 使ってはならない
t 検定は design-b ase dな並 べ 替え検定 の近 似と解釈 できる
したがっ てαは保た れる (criterion-robust nes s成 立 )
ただし外 れ値や 歪が 大きいと β大きく なる( efficiency-robust nes s問 題 )
97
98
がん臨床試験プロ トコルを読む ため に
NSAS-BC02から
‹
がん臨床試験プロ トコルを読む ため に
これを理 解できれば完 璧!
試験計画とくに割り付け方法
7-3-1(p.21)層別化因子に基づいて動的割り付け法を用いて割り付ける。
‹
症例数の設定根拠
15-1-1(p.46) 同等とみなせる幅Δ これをハザード比に換算して 1.30
‹
‹
‹
割り付け方法
必要性 具体的手法(おおよ そ)
解析集団
集団の違いによるバイ アス、ITTの考え方
統計的推測の方法
推 定・ 検定そし て信頼 区間 の概 念
α 、β、 検出 力
具 体的 手法( どこ ま で?)
α、β、Shoenfeld-Richterの式(正規近似)
‹
統計解析
15-6(pp.50-51) 群間の均衡性について、..分割表χ2検定、Wilcoxon検定、
Mantel検定
intent-to-treat principleに基づきKaplan-Meier法により無再発率を推定し、
log-rank検定を適用..信頼区間の計算にはGreenwoodの公式..予後因子の
影響の調整と治療効果の推定のためCoxの比例ハザードモデル...
‹
中間解析
15-7(p.52) Lan&DeMetsの方法で多重性を調整..ベイズ流予想確率99
優 越性 か非 劣性か 、その他 か( 選択、 用量 反応の 解析 など)
生 存時 間解 析の「 3種の 神器」
Kaplan-Meier推 定 、 Log-rank検 定 、 Cox回 帰(比 例ハ ザード モデ ル)
‹
‹
症例設定の根拠
中間解析
原理
必要性 多重性の必要性
100
品質管理と品質保証
ランダム化手法が不適切であった例
割り付け方法
‹
目的・目標
既知の因子はもちろん、未知の因子についても群間で均衡
偏りの防止、感度の向上
盲検化できない場合には予見性を小さくする
一方で過度に複雑な手続きは避けたい
‹
具体的手法
盲検下をどこまで
中央登録かそれ以外か(封筒法は一般には×)
層別するか
背景因子を考慮した動的割り付けを行うか
施設をどうするか
割り付け比率は?
2群なら通常は1:1、ときに2:1など
101
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
102
17
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
割り付け方法(続き)
‹
割り付け方法(続き)
実際に用いられている方法
盲検可能な治験の場合
施設毎の置換ブロック法 permuted-block
2群ブロックの大きさ4の場合、AAPP,… PPAAの6通りを
施設毎にランダムに順次発生
ブロックの大きさはプロトコルに通常記載しない
盲検を行わないがん臨床試験の場合
層別を行うこともあり
通常は2-4程度の因子を用いた動的割り付け法
どの時点でもバランス取れるように割り付け確率変化させる
施設は因子に含める場合とアンバランス程度の制約を与える
場合あり(Zelenの方法)
A BBA
性
年齢
重症度
A A BB
….
置換ブロック法
群A
20
10
11
19
5
25
男
女
<50
>=5 0
III
IV
群B
19
11
10
20
3
27
次 患者 ( 男 <50 III) ど ち らに割 り振れば バラ ンスと れる か
A:20+11+5=3 6 B:19+10 +3 =32
Bに割 り振 る確 率大とす る
最小化法
103
Prospective studies and retrospective studies
前向き研究と後ろ向き研究
Cohort study コホート研究
exposure
control
n0
Follow-u p
Risk ratio リスク比
=
Prospective studies and retrospective studies
前向き研究と後ろ向き研究
Case-control studyケースコン トロール研究
disease
no-disease
m1
n1 -m1
m0
n0 -m0
n1
104
disease(case)
n1
n0
Survey
exposure yes
no
m1 /n1
m0 /n0
no-disease
(control)
m1
n1 -m1
m0
n0-m0
m1 /(n1 -m1)
m0 /(n0 -m0 )
Odds-ratio オッズ比 =
105
106
正しい 理解
Prospective studies and retrospective studies
前向き研究と後ろ向き研究
オッズ比と相対危険
あ る薬剤 Z服 用によっ て疾患 Xの死 亡オ ッズが 10倍に なった
In rare disease :
新 聞報 道「 Zに よっ て死 亡が 10倍に なる !」
Z無
Z有
0.01
0.05
0.10
0.20
0.092
0.345
0.526
0.714
O DDS-RATIO = RISK-RATIO
オ ッズ = p/(1-p)
107
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
オ ッズ比 =曝 露群のオ ッズ /対照群 のオ ッズ
108
18
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
オッズ比一定(10)の場合のリスク比(相対危険)
ハザード
‹
発症率 罹患率
死亡率
‹
ハザード hazard
‹
morbidity, incidence rate
mortality, death rate
ともにこ れま で起き てい ない事 象(イベ ント) が新たに起 きる スピードとし て
が 用いら れる
109
110
打ち切り
ハザードとその推定
event, failure: 目標の事象
打ち 切りcensoring
‹
×
?
×
脱 落 drop-out, lost-to-f ollow- up
発症率、死亡率
ハザードhazard
[time]-1
単 位時 間あたりの新た なイベ ント の発生
‹ ハザードの直接推定(保険統計法) actuarial method
国 の人 口動 態統計 など
観 測打 ち切 り termination of follow- up
初期故障型
*打 ち 切りはラ ンダムか ?
non-informative censoring
time
‹
打ち切 りとその 後の予 後が 独立
informative censoring
摩耗故障型
偶然故障型
time
time
臨床では、サンプルサイズ不足のため(累積)生存率推定
通 常 Kaplan-Meier法
111
112
ハザードと(累積)生存率
保険統計法
ハザードと(累積)生存率の関連 hazard vs survival function
一定
指 数 exponential関 数
λ(t)= λ
2倍になれば
hazard =
number of deaths
size of risk set - 0.5(deaths+dropout s)
113
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
1
S(t) = exp(- λt)
2乗
0.9 -> 0.81
0.8 -> 0.64
0.6 -> 0.36
微分方程式
微分と積分の関係
速度と到達距離の関連 数学的には1:1であるが統計的には?
114
19
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
オッズ、ハザー ド、リスク
生存時間解析の3種の神器
t
リスク(累 積発 症率)
p (t ) = 1− exp( − ∫ λ ( u) du)
‹
λが小さく一定なら ≈ λt
オ ッズ
p
1− p
p 小さければ
Kaplan-Meier法
Log-rank検定
Cox回帰
‹
u =0
‹
ラ ンダム化 試験 なら 基本的 解析 はログラ ンク 検定
しかし 、
≈ p
単 なる 有意 性有無だけ でなく、 治療効 果を 推定したい
( 割付に 用いた)予 後因子 の予 後予 測性 を知 りたい
治 療効 果予 測因子 の予 測性( 治療と の交互 作用 )知 りたい
多 数の 因子 の影響 を同 時に考 慮したい
慢 性疾 患 では(イ ベント 発生 少ない がん再 発 でも)
オッズ比∼ ハザード比∼ リスク比
このと きモデ ル( Cox回 帰が 代表 選手) が有 用
115
生存関数の推定と比較
116
Kaplan-Meier法:積極限product-limit法
生存関数の推定
打 ち切 り無けれ ば単純 で生存割 合を プ ロット
打 ち切 りあ れば Kaplan-Meier法 誤 差は Greenwoodの 公 式
打ち切りはヒゲで示すことが多い
生存関数の比較
打 ち切 り無ければ ふつ うの連 続データの 解析
ただし歪 み大き いの で変 換、 ないしノ ンパラ メト リック検 定
3年 、 5年 等の 生存 割合の 比較
death1
時 点選 択の 問題、 情報 のロ ス
10
ハ ザー ドの比 較
順 位を 用いる ノ ンパラ メト リック検定
1
death1
9
1× (1 -1/1 0)
censor1 death1
8
7
6
1× (1 -1/10 )× (1 -1/9 )
1× (1-1 /10 )× (1-1 /9)× ( 1-1 /7)
117
グラ フの見方:
( 念のため)グラフが上にある方が生存成績が良い
端の方は信頼性が低い
グラ フの下の面積が平均生存期間
MSTは50%の線と交わる時点
118
ハザードの違いのノン パラメトリック検定
time
群1
2
群1
2
10
death 1
death 1
10
death 1
死
1
0
1
生存
9
10
19
10
10
20
群1
2
死
1
0
1
生存
8
10
18
9
10
19
ハザード等しければ
O-E = 1 - 1×10/20
1- 1×9/19
0- 1×10/20
0- 1×10/19
O: observed, E: expected
119
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
120
20
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
ハザードの違いのノン パラメトリック検定
多変量解析=統計モデルのあてはめ
‹
検定統計量
χ =
2
モデルの意義
データの要約 summarization
予測 内挿・外 挿
異常データ・ 問題点 の摘 出expos ure
(∑ weight (O − E )) 2
Variance
ある因子 の効果 (影響 )の定 量的 評価
医学統計では
これが大きくなればなるほど群間差あり
Variance分散の式は省略
3.84より大のとき5%有意
重み 1
risk-setの大きさ
全 てのモ デルは 誤っ ている 。ただし役に立つ モデ ルも存 在する 。
現 象( 自然史 )の理 解( 予後因 子・ 予測因 子)
研 究計 画へ の利用 (層 別因子 、調 整因子 )
比 較の 際の 偏りの除 去・軽 減
個 々の 患者 への適 用、とくに治 療法 の選択
Log-rank検定
Generalized Wilcoxon検定
122
121
比例ハザードモデ ル Proportional hazard model
= Cox回帰 regression
血管新生(Micro Vessel Count)と乳癌患者(n0 )の予後
Heimann R. et al. JNCI 1996; 88:17 64-9
hazard (t , x) = hazard (t ) ×ψ ( x )
ψ ( x ) = exp(β 1x1 + β 2x 2 + ...β k xk )
= exp(β1 x1 ) exp(β 2 x2 )L exp( β k x k )
‹
‹
ハザードを 時間に関する部分と共変量の部分に分解
x=1(試験治療)=0(対照群)とすれば(ダミー変数という)
β <0 効果あ り、 =0 効 果なし
( β/標準 誤差) 2 > 3.84 なら
‹
‹
‹
exp(β): ハザー ド比
5%有意
因子の寄与は掛け算(対数線形性)
時間依存性共変量も扱うこと可能
比例ハザード性・対数線形性(前提)を検証する こと好ましい
123
血管新生(Micro Vessel Count)と乳癌患者(n0 )の予後
Heimann R. et al. JNCI 1996; 88:17 64-9
ロ グランク 検定 結果
Cox回 帰 結 果
124
比例ハザードモデ ル Proportional hazard model
= Cox回帰 regression
‹
x :共 変量 covariates
人 口学 的変 数(性 、年齢 )、手 術・病 理・ゲ ノム情 報、
治 療法 、施設 (変 量モデ ルとして扱う こと多い)・ 時代
‹ コー ド化 の問 題、とくにステー ジ など 順序 変数 どうす るか
可 能 ならダミー 変数
‹ 相 関の 高い変 数(多 重共 線性) 0.8くら いなら 問題 なし
‹
変 数の 数は どこ まで
情 報量 はイベ ント数 1変 数 5イベ ント以 上欲しい
‹
変 数選 択
交 互作 用
‹
125
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
減少 法の方 が安 全、全 ての組み 合わ せの 実施も 可能
掛け算 の項 をモデ ルに導 入
126
21
臨床試験のための生物統計学入門(大橋靖雄)
第6回CSPOR・CRCセミナー(2003/2/8∼9)
予後因子と予測因子
目標:どこまで達成できたか?
hazard (t , x) = hazard (t ) × ψ (x)
ψ ( x) = exp( β 1 x1 + β 2 x2 + ...β k xk )
‹
予後因子モデル βT×Treatment+βG× Factor
こ のテキ スト のレヴ ェルは実 は高い
「 よく分か る」とい う授 業・本 の印 象は既 知の 知識 の量に よる
結 局、(そ の場 では 分かったつ もりに なっ ても) 一回 聞いただけ では な
か なか分 からない。繰 り返し 接する か、 一度本 格的に 勉強す るか
全 部理 解しよ うとは思 わ ないこと。 重要 な概 念だけで十分
Treatment =0
Treatment =1
Log-h azard
Factor=0
1
‹
予測因子モデル β P×Factor×Treatment
‹
Q and A
統計パッケージデモ (休憩時間に、伊藤陽一先生)
SAS: 製 薬 会社や FDAで使 わ れている業 界標 準、敷 居高い ・値段 も高い
JMP:研 究者向け の使い やすいソフト 、教 育用に適
Treatment =0
Log-h azard
「オン コロジストのための統計学」を 読む上で必要なエッセン ス
を話す
Treatment =1
Factor=0
1
127
128
重要な概念
‹
‹
‹
‹
‹
‹
‹
‹
‹
‹
Q and A
デモ
正確度と精密度
無作為抽出とランダム化
ランダム化とITT
一般化可能性
検定と信頼区間の構成
必要な情報量とサンプルサイズの計算
多重性によるαの上昇、中間解析
割り付け法の実際
ハザード比、オッズ比、リスク比
生存時間解析の3種の神器
129
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
130
22