Beyond Diagnostic Accuracy

Review
Beyond Diagnostic Accuracy: The Clinical Utility of Diagnostic Tests
Patrick M M Bossuyt1,* Johannes B Reitsma1,2 Kristian Linnet3 and Karel G M Moons2
Author Affiliations
1
Department of Clinical Epidemiology, Biostatistics and Bioinformatics, Academic Medical Center, University of
Amsterdam, Amsterdam, the Netherlands;
2
Julius Center for Health Sciences and Primary Care, University Medical Center Utrecht, Utrecht, the
Netherlands;
3
Section of Forensic Chemistry, Department of Forensic Medicine, Faculty of Health Sciences, University of
Copenhagen, Copenhagen, Denmark.
* Address correspondence to this author at: Department of Clinical Epidemiology, Biostatistics and Bioinformatics,
Academic Medical Center, University of Amsterdam, Rm J1b-217, PO Box 22700, 1100 DE Amsterdam, the
Netherland, Fax +31-20-691-2683; e-mail [email protected]
Clinical Chemistry 2012;58:1636-1643
診断精度の次に:診断的検査の臨床的有用性について
概要
診断薬のような診断的目的に使われる検査試薬は、日常診療に導入される前に他の医療技術や医療行為
と同様に、徹底的に評価されるべきであろう。臨床場面での意思決定に係わる者、医師、臨床検査技師
は、検査の分析技術の簡便さや診断精度以上のことを、一層求めるようになっており、健康に対する利
益性の有無という点で考えるようになってきている。このシリーズ最後の本稿では、現時点で最も良い
とされる方法(これは検査法としては別の方法ということもあれば、全くいままでなかった方法という
場合)と比べて、診断的検査(定量的な方法が望ましい)が、どの程度、健康を改善するのかというこ
とを現す臨床的有用性に関して紹介する。検査結果が陽性の場合には効果的な治療がなされ、他方、陰
性の結果の場合には特別な治療をしないというような流れとなり、このような対処により被検者の特定
が可能になる情報が得られることによって、大抵の場合、診断的検査は被検者の健康に寄与している。
1
本稿では、無作為化比較試験がどのように臨床的有用性の評価に使用できるのかを説明する。また、検
査法やその指標の個人的な有用性と、臨床的有用性の定義について対比する。そして、診断精度の研究
対象となる条件についての定義を通して、診断精度が臨床的有用性にどのように関連づけられるのかを
述べる。
診断的検査とその指標についての臨床的な評価において、診断精度は極めて重要な役割を果たす。今回
のシリーズの前出の論文で、同一の被検者群において、その検査法や指標による結果が、基準分析法と
比較することによって、どのように精度が定義されるかを説明した(1-3)。基準分析法とは、病気の
有無、あるいはもっと一般的には標的とする疾患や病態を確定する最も優れた方法と言っていい。
臨床場面での意思決定に係わる者、医師、臨床検査技師は、検査の分析技術の簡便さや診断精度以上の
ことを、一層求めるようになってきた。健康政策の指針策定者は、長い間、企業に対して視野の狭い専
門的で医学生物学的な見方からではなく、診断技術が典型的な被検者群の最終的な転帰を改善するよう
な、より幅の広い見方への転換を求めてきた(4)。診断的検査法とその指標の使用を勧奨する前に、
あるいは公的制度への適応の前に、臨床上の意思決定に係わる者や検査結果の利用者は、検査が実際に
被検者の転帰を改善し、健康の質、効率、費用対効果を高めることができるのかどうかを知りたいと考
えるようになっている。本稿では、「臨床的有用性」についての考え方を紹介し、無作為化試験や他の
研究デザインが、どのように診断的検査の臨床的有用性の評価に利用できるのかについて述べたい。
臨床的有用性:医療の結果への影響
これまで、多くの学者が、診断的検査の評価に対して、検査の使用を支持する証拠を構築する系統的手
法や段階的なアプローチ法を提案してきた(5)。これらの中で診断的精度は常に高い位置にあるが、
他にも高い位置を占める指標もある。診断的検査の有用性は、通常より高いところに位置しているか、
あるいは検査法やその指標の評価より、後の段階で評価される。検査がただ情報を提供するだけではな
く、「有益な」情報であるべきとする意識は、特に遺伝子や代謝を検査する時代になって、ますます高
まっている。
有用性についての概念は、健康管理の評価においていくぶん不明瞭に定義されてきた。極端な一例とし
て、医師が診断的検査の結果をどのように正しく理解しているか、あるいは、それが有用であると気づ
いているかを評価するである。しばしば引用される診断的検査の Fryback-Thornbury のモデル(イメージ
ングの領域で最初に導入された)では、この評価を、「診断思考有効度」(level 3)と、「治療有効
度」(level 4)と呼ぶ(6)。これらの理解による評価は、主観的な性格や妥当性の限界を理由に批評さ
れてきた。診断的検査の情報によって、医師は診療内容と意思決定を変えると言葉で表現する、意図的
な行動にたいする評価は、必ずしも実際の行動を反映するとは言えない(5)。もっと言えば、思考や
行動の変化は、被検者の転帰において変化の前提条件であるかもしれず、必ずしも十分条件ではない。
2
本質的に診断的検査の有用性は、死亡を防ぎ、健康を回復したり維持したりするといった、医療的な転
帰の変化と関連した程度により定義される。この有用性を Fryback-Thombury のモデルでは、「予後有効
度」(level 5)と呼ばれる。この文脈では、検査の使用によって、被検者にとって重要な転帰の変化に、
どの程度結びついたかについて評価しなければならない。これは検査を使用して、ある臨床的な管理方
法が他の方法よりも効果的であることを、無作為化試験あるいは他の方法によって、証拠として提示す
ることを意味する。肺塞栓症を診断することが、抗凝固治療による死亡率と罹患率の減少に対して効果
的であった事は一つの例である。
医療的な転帰の変化について、診断的検査の基準で定義することは、健康管理における他の介入と同じ
ように、診断的検査の有用性を位置づけている。根拠に基づいた医療(EBM)の精神の浸透によって、
最近では新規薬剤は市販前に、その薬剤が安全かつ有効であることを自ら証明するようになっている。
またガイドラインの作成者が薬剤の推奨前に、その薬剤の被検者の転帰への効果を確認していることは
当然だと考えられている。金額と費用効果に見合う価値判断を経て、公的制度への認証は決定されるべ
きである。同様に、意思決定における診断的検査の有用性を強調することは、診断的検査と治療行為を
同一の机上に置くということである。診断についての決定は、健康管理において治療行為の決定と何ら
変わりがないのである。
Fryback-Thombury のモデルが示すように、「臨床的有用性」だけでなく、異なった用語がこの概念を考
えようとしている。他の研究者は、転帰への影響について記述する場合に、検査の価値について考えて
きた。あるいは、検査の利点や利益について考えてきた。選択肢の有用性とは、治療に関する決定の基
準解析においては、考えられる結果の可能性を考慮した定量的な表現になる。健康管理の経済的評価に
おいて、介入によって期待される有用性は、期待される生存年数の延伸としてしばしば表現され、多く
の場合、その延長した生存年数の質が加味される。決定と明白な結果の評価(この評価は明確に定量的
に表されることが望ましい)の関連性のため、本稿では「有用性」という用語を使っている。有用性に
「臨床的」を付加することについては以下に説明する。
臨床的有用性: 定義の特徴
これらの背景を考慮して、本稿では診断的検査の有用性の評価における、いくつかの鍵となる特徴を定
義した。表1にまとめてある。まず、有用性の定義は、健康管理の考えに則っているべきである。哲学
的あるいは政治的な議論は必要なく、健康管理の中心的な目的は、健康的な心身機能を維持あるいは回
復することにある。ゆえにスクリーニング検査やモニタリング検査を含めた検査全般において、診断的
検査を使用する第一の目的は、若年層の死亡と罹病を防ぎ、また健康機能と回復することにあるべきで
ある。
3
表1 臨床的有用性の重要な特徴
多くの検査は簡便に情報を提供するが、その情報自体だけでは健康という利益を招来しない。大抵の場
合に、検査による医療的な転帰の改善というのは、検査の診断的な結果から、開始、修正、中止、保留
といった、その後の対処がなされ、決定の手段として検査が使われることからもたらされるだろう。臨
床的なケアは、適切な被検者群に対して、適切な治療が行われることで効果を発揮する。検査というの
は、もっとも効果的な治療の選択と、適切な被検者群の特定に用立てられることにある。しかし、そう
は言うものの、検査による転帰の改善に関する機序は多岐にわたり、いくつかの経路を含んでいる
(7)。
臨床的有用性は、治療による直接的なあるいは結果的な効果の潜在的利益によってのみ、定義されるも
のではない。検査や指標の被検者への効果の、全範囲の評価を必要とするのだ。これらの影響が感情
的・社会的・認知・行動への効果に、どのように及ぶのかについては、他稿で説明している(7)。診
断的検査による感情への影響については、多分最もよく研究されている。これらの中には、検査して結
果を待つことへの不安と、ストレスについての研究もある。社会的な影響としては、検査によって汚名
を被って、社会的孤立を経験するような社会との関連性にも関係する。認知への影響についての研究は、
4
診断的検査の結果と病状についての被検者の信念、認識、理解といった内容を含んでいる。行動に関す
る研究は、食事、運動、喫煙といった健康関連行動を含む。
こう見てみると、検査は効果的な臨床的治療法がなくても、臨床的有用性を持っていると言い得るかも
しれない。検査は、その結果が陽性であっても陰性であっても、不確実な状況下において、初期的解決
法の糸口を与える場合がある。診断とそれに関連して予後に繋がる検査は、被検者の病気への対処を助
けるかもしれず、これによって日常生活機能や生命の質を改善するかもしれない。アルツハイマー病の
診断のように、こうした利点は被検者のパートナー、友人、親類にまで及ぶかもしれない。
検査の医療的転帰への効果は、是認されることもあるし否認されることもあり、あるいはそれが意図さ
れることもあればそうでないこともある。またこれらの影響は、被検者自身に対する重要性ばかりでな
く、医療的対処の費用対効果にも影響することもあるかもしれない。例えば、DNA 検査は健康関連行
動を標的にしたプログラムの有効性を高めるかもしれないが、行動内容が効果的であるという被験者の
期待を下げてしまうかもしれない(8)。
診断的検査は、検査に伴う治療の主要な転帰を改善することなく、臨床的有用性を持つ可能性がある。
検査法やその指標の導入が、現時点での標準的な診断治療方略と同等の医療的な転帰に結びつくならば、
そしてこれらの転帰が簡単に評価できるならば、臨床的有用性があるといっていいだろう。それにより
大抵は、不必要な付加的な診断的検査や効果のない治療、またそれに伴う負担を被検者が受けることは
避けられることになるのではないだろうか。
さらに定義される臨床的有用性の特徴は、必然的に確率的であるということである。診断的検査、それ
自体がどんなに信頼できるとしても、この検査が望ましい転帰を必ず導くというわけではない。これに
は、検査の使用自体に限界があることや、検査結果のばらつき(当然だが全員が同じ結果を示すわけで
はない)が関係するかもしれない。被検者管理の差違(同じ結果を示す全員が同じように管理されては
いない)や、被検者による反応のばらつき(同じ管理下にある全員が同じ転帰を示すわけではない)が、
さらにこの問題を複雑にしている。せいぜい検査を使用した群での、予期された転帰としての総体とし
ての有用性を述べるに止まる。繰り返すが、この特徴は EBM の形式と同じである。
究極的だが本質的な要素は、臨床的有用性の定義は相対的でなくてはならないということである。診断
的検査の有用性は、絶対的な評価では定義できず、比較的な考えで評価されなければならない。大抵の
場合に、被検者を観察する上で、この考えは現段階で最適な実践法になるだろう。この方法は同じ目的
あるいはあらゆる検査をしない場合に、現段階で最適である。検査法やその指標の有用性について考え
る時に、検査の使用が望むような転帰になるかどうかだけを評価するのではなく、類似した被検者を用
いて、ある検査の使用と、現段階で最適とされる選択肢の使用との転帰の違いを比較する。大腸癌のス
クリーニングとして、便潜血の有用性も同様に定義されてきた(9)。胸痛を訴える被検者に対して、
5
急性冠症候群の鑑別診断の補助として使用される高感度 CRP 測定の有用性は、標準的な診療による臨
床的評価により、これまでに使用されてきた心筋指標との比較で定義される。
診断的検査の臨床的有用性は、必然性があり、また包括性も擁している。これは、検査法やその指標の
使用の結果を考慮しており、また臨床的意義をも考慮し、それらに依存していることを意味する。利用
可能な対処方法の選択の変化によって、また新規検査法と他に選択された検査法によって、診断的検査
の有用性は変わるかもしれない(10-13)。検査のテクノロジー自体は影響されないかもしれないが、
同様の考えは、効果的な治療についての考え方の変化や、検査の臨床的有用性に繋がる知識の進歩に対
しても適応される。新たな介入は、それまでに有効だった診断的検査を過去のものにすることがあり、
また、医療的な転帰の改善につながるかもしれない検査や対処の潜在に気づくことによって、新たな検
査に関心が及んだりする。
臨床的有用性は、検査法としての妥当性や認証性(承認)の点でもしばしば議論される。しかし、この
論点は余り一般的でなく、関連はあるけれど異なる根拠となる原理に基づいている。妥当性という言葉
の意味には、診断的検査法とその指標の開発において多面性がある。ゆえに分析的な面と、臨床的な面
から捉えることができる。臨床的妥当性の検討とは、例えば対象となる被検者群において、その検査結
果が関心のある異常病状を検出したり、予測できるかどうかという臨床的に意義を示すかどうかを調べ
る過程である(14)。
認証とは、検査の結果が使用時の所定の状況下で明確に解釈され、信頼できると結論を下す過程である
(15)。この定義は、薬品開発とその承認審査におけるバイオマーカーの使用について、2004 年の米国
食品医薬品局クリティカル・パス・イニシアティブよって提案されている。ゆえに、認証は、医学的検
査あるいはそのバイオマーカーが特定の提案された使用に適しているのかどうか、例えば目的に即して
いるのかどうかについての評価を意味する。
個人の有用性に関する不必要さ
西欧諸国で健康管理が広がるにつれて、健康管理の目的は多様化し、診断的検査の有用性の定義の拡大
が求められてきた。新しい遺伝学的あるいは分子生物学的なマーカーについての要請は特にある。これ
らは時々、「社会の有用性」として混乱して言及される新たな用語、「個人の有用性」の導入に結びつ
く(16, 17)。この新しいテクノロジーは、不用意な潜在的誤解を生みやすい。
この定義は、新しい検査法とその指標の異なる面を探索しようとしたように思われる。まず、臨床的有
用性がないように思われる検査を正当化するために、そして次いで、検査の施行について臨床的な決定
というより個人の決定のために、である。
6
いくつかの検査は臨床的有用性がないように思われている。しかしその使用は、他の有益性によって正
当化されるように思われる。例えば、ハンチントン病に関する検査は、有効な臨床的管理法の選択肢は
提供しないが、生活設計および生殖の決定の手助けになり得る。他の検査は、特定の疾患や秒態の原因
や危険因子の解明の一助になるかもしれない。検査結果は、被検者が疾患やその危険性について理解す
る補助になり得る(18)。
本稿の考えでは、検査の目的とその検査による影響の両者は、これまで述べてきた医学的検査の臨床的
有用性の定義で包括できる。診断的検査や他の医療的検査を使用することの認識(これは意図の有無に
関わらず)は、臨床的有用性の評価に含まれるべきである。この意味では、異なる定義は必要ではない
のだ。これは、全ての検査は臨床的有用性を持つことも意味しない。もし、被検者の治療結果への効果
(例えば被検者個人の日記帳に記されるような効果)がないのであれば、有用性はないのかもしれない。
個人の有用性における第二の面は、個々人にとって何が有用で、何が有用ではないかといった個人の権
利について考える見方である(16、17)。医師が個人の最も価値があることを知るために推論すること
を、むしろパターナリスティックであるという批評がある(19)。だれかがその指標の検査の代価を払
うことをすれば、被検者はそれを受ける権利があると思われる。しかしこの検査は、社会的なコストと
不正確あるいは誤った理解、誤診、謝った治療といった可能性があり、好ましくない健康づくりに寄与
してしまうかもしれない。
検査の評価に含むべきことに対する考案は、ケアの目的や個人と社会の発展の接点に関して、非常に基
本的な議論に触れている。おそらくこの議論は、本稿の定義のような有用性(最強の手段である)につ
いて、単一の定義だけがあることを強調する見方とともに、今後も継続していくであろう。
有用性の評価のための研究デザイン:無作為化試験
表 1 で示した有用性に関する定義の要素は、診断的なあるいは他の医療的な検査の有用性を評価する際
に、研究デザインを考慮したり選択したりするのに使用できる。方法論を考える際に、被検者集団につ
いて、より広範な感覚で医療的転帰を観察したり、従来、使用されてきた最適な選択肢に対して用いら
れた、被検者と類似した集団で行った結果を比較したりする必要がある。こうしたアプローチの中では、
検査の有用性の評価に対しては、無作為化試験が優れた方法になる。
無作為化臨床試験は、常に2種類以上の対応を行った集団間で比較する。ブラインド法で、客観的な転
帰を用いて、できるだけ多くの性質を類似したプラセボあるいは偽処置を対比させて、同じ転帰に対し
て検討する。無作為化試験は、他の研究デザインよりもバイアスの影響を受けにくく、診断的検査と他
の対比した検査の間で、被検者の結果への影響を検証でき、意思決定に必要な証拠を提供する。図 1 は
検査の無作為化臨床試験の一例である。
7
図1 2 種類の戦略を比較する無作為化臨床試験の略図
例えば、Mueller とその仲間らは、急性の呼吸困難で救急診療部を受診した被検者に対する2種類の診
断方法を比較した(20)。一つの診断群では、脳性ナトリウム利尿ペプチド(BNP)濃度を迅速判定検
査で測定し、もう一つの診断群では従来の精密検査で測定された。この試験では、720 日間での累積全
死亡率に差はみられなかった(37% vs 36%)(21)。
検査の無作為化試験に情報的な意味を付加するためには、例えば「検査が陽性なら治療、陰性なら退
院」あるいは「検査が陽性なら追加検査、陰性なら退院」というように、検査結果が特定の臨床的帰結
と関連するように、プロトコ-ルを明確化すべきである。プロトコ-ルは、臨床的対応の結果として生じ
る治療効果について、無作為化試験や他の有力な研究デザインによって得られた現段階における最良の
証拠に基づいて、確定すべきである。明確な定義のないプロトコールによる検査の無作為化試験では、
限定的な見解、それによる臨床現場の多様性が反映されて、情報的に乏しく、一般化できない試験結果
に終わるかもしれない(11)。
検査室における検査や、他の検査法の研究をデザインする時には、多くの懸案事項、不利益、非効率性
が考慮される(10-13)。検査の実施とは診断的検査の結果を出すのみではない。ある検査がその後の
対処の決定に、どのように使用されるのかを特定するような臨床的対処プロトコールに統括することで、
検査戦略を評価することもある。ゆえに検査の効果は、検査の実施のみではなく、これに伴う効果にも
依存する。さらに可能性として、効果的な対処と結びつくことによって、劣った検査が転帰や費用対効
果を改善することもある。反対に、質のいい検査が効率的なマネジメントがないことで、転帰の改善に
失敗する可能性もある。前掲の便潜血スクリーニングは前者の例で、アルツハイマー病の検査は後者の
例として挙げられる。
8
同様に、医学的検査法とその指標の試験は、むしろ非効率的になることがある(11)。新薬の無作為化
試験では、対照群の被検者はプラセボ薬を用い、介入群の被検者は実際に作用する薬剤を用いる。2群
間の比較は最大となるが、介入群の被検者の全員に薬剤による利益があるわけではない。予防的治療の
試験では、発病の危険を持つ者だけが、介入から利益を得る可能性があるのだ。
他方、検査法やその指標の試験は、そのような最大の対比には普通はならない。被検者の転帰が臨床的
対処に依存し、検査結果が意思決定に結びつくように使用されるならば、無作為化の過程に依って、不
一致な検査結果の被検者だけが異なる対処を受けるであろう。スクリーニング検査の試験の例として、
大腸直腸癌に対するスクリーニング検査である免疫学的便潜血検査のような初期検査は、後続の対処の
決定に使われる。スクリーニング試験の全参加者ではなく、検査結果で陽性になった被検者のみが大腸
内視鏡を実施されるだろう。通常、診断的検査を含めて、スクリーニング試験と他の医療的検査の試験
は多数の参加者が必要になるので、この状況で多くの参加者を募るのは難しい。国立癌研究所に支援さ
れた MARVEL(Marker Validation for Erlotinib in Lung Cancer)試験は、4年間で 1200 人の募集を目指した
が、300 施設で治験審査委員会が被検者を登録したとしても参加者が少なく、試験を中止しなければな
らなかった。
代わりに潜在的により効果的な検査試験の無作為化デザインは可能である。そのようなデザインは、検
査の2種類の方法の比較において、不一致な検査結果の人だけを無作為化する方法、あるいは単一の検
査の評価において、異なる治療法で陽性となる人だけを無作為化する方法である(11)。
有用性を評価する研究デザイン:モデル
診断的検査の無作為化試験のデザインは複雑なため、一部の研究者は、検査法とその指標の有用性を評
価する際に、無作為化試験のデザインから他の研究デザインに変更してしまう。他の検査と比較して、
ある検査後に、被検者群の予期された結果を評価する一つの方法は、モデリングの使用である(13、22、
23)。決定プロセス解析モデルは、他の研究デザインから得られた変数の推定に拠ってたつ。利用可能
な選択肢から始めて、モデルの設計者は検査と他の作用、健康の具合、将来の発病と転帰との間での関
連を決めていく。その後、これらのリンクから対応する変化が起こる確率を得る。モデルの結果から、
研究者は特定のマネジメント戦略における最終的な医療的な結果の確率、標準的な転帰または予期でき
る転帰を推定する。test-and-treat 戦略、treat-all 戦略、wait-in-all 戦略の3種類の戦略があり、単純な図形
表示を用いた決定モデルは、図 2 に示したようである。
9
図2
3 種類の戦略を比較する単純な総括的決定モデル
このような決定解析モデルは、癌検診プログラムを評価して比較するときに、広く使用されている
(24)。モデルの構築は複雑で時間を要するが、効率的な選択肢はコストのかかる試験で活用できるか
もしれない。欠点としては、仮説の重大な性質である予期ができないことを含むには、モデル構築者の
能力に限りがあることである。表 2 に無作為化試験とモデルの主要な違いを示してある。
表 2 臨床試験の有用性における無作為化試験とモデル間の主要な違い
10
標的となる条件:精度を有用性に関連づける
増加する医療費の管理と、新規技術の役割についての議論の中で進行中なのは、新たな診断法を日常診
療へ導入するときに認識されるべき根拠の基準である。見解の差異は、無作為化比較試験からの結果以
外の情報が、検査法とその指標の使用を決定づけるするために、どの程度使用できるかということに関
係がある。無作為化試験を必要とするか、数学的モデルを要求するか、あるいは薬理学および観察研究
の結果と機序への理論は十分であるのか等である。医学以外では、無作為化試験は原則、必須である。
しかし、無作為化試験は、検査が有益かどうかを超えた、専門的な医学会における不確実性とでも言え
る、公正の原則のもとでのみ、正当化することができる。
無作為化比較試験は高価で、結果を得るのに時間がかかるため、短絡化が試みられがちである。ある検
査法が、既存のより面倒な検査法と同等の結果を示すならば、その検査の導入が被検者転帰を損なわな
いという無作為化試験のエビデンスが必要になるであろうか。おそらく必要ではない。検査の臨床的有
用性を証明する無作為化試験の必要性についての詳細な議論は、本稿の目的外として割愛する(11、12、
23)。
本稿より前出の論文で定義された診断精度は、どのように臨床的有用性と関連するであろうか。診断的
検査については、疑われる疾患を正診することが、通常の臨床的有用性にとっての必要条件である
(10)。しかし、疾患の同定は医療的利益と同等ではない。重症度と臨床的転帰は、症例や多くの疾患
の対処方法によって異なり、均一であることはまれである。疾患に関する不均一性はなかば当然であり、
全ての症例で等しく治療が成立しないかもしれない。さらに、これは前出の論文で議論したことだが、
診断的検査の精度は、診断している疾患の範囲や検査が実施される医療的な内容によっても変わってし
まう(1)。
診断的精度の評価では、診断的検査の精度を述べることよりも、医学的に重要な疾患の標的となる病態
を定義に含むことを推奨したい。この定義は、手引きとなるために使用される介入においての閾値ある
いは基準値に関して、利用可能な最適な証拠に常に基づいていることが勧められる。単一の検査につい
て、検査の鋭敏度は、適切に対処されるであろう被検者(病態を持つ者)の割合ということになり、検
査の特異度は、さらなる検査や治療が不要な被検者の割合ということになる。
診断的精度は、すべての検査の評価に役立てられるわけではない。高齢化社会、長寿化、そして検査の
改善によって疾患の慢性化は増しており、慢性疾患の管理は急性疾患のケア以上に提供されている。検
査法とその指標は、治療の選択やモニタリング、服用量の調節、副作用の検出、予後、調査、スクリー
ニングなどの診断以外の目的のためにもたびたび使用される。診断的ではない検査の目的のために、診
断的精度がどのように定義されるのかは必ずしもよく分かっていない。臨床的な鋭敏度と特異度の定義
11
を無条件に固定してしまうと、新規指標やその検査法の臨床的有用性の持つ有益な評価を妨げるかもし
れない。
結語
本論文では、費用ということに関しては述べず、臨床的有用性について述べた。診断的検査に関する意
思決定や推奨を述べるには、医師や意思決定に係わる者は、被験者の結果を望ましい方向で改善するに
は、どのような情報源が必要になるかをよく考えなければならないであろう。費用対効果についての研
究は、臨床的有用性についての研究で追認したり、また関連する研究を必ず実施しなければならない
(22、23)。
日常診療では、臨床的有用性が実証されていない検査も行われていることに気づく。単に金銭的な理由
や責任の所在(例えば医師の自己防衛医療)を理由に、検査が行われているかもしれない。適切な研究
データの不足のために、検査結果の解釈ができないと専門家は気づいていたとしても、検査は行われて
いくかもしれない。
今日臨床検査医学は、進みゆくパラダイムシフトから逃れることはできない。すなわちそのシフトとは、
費用が公的制度の適応となったり臨床現場で使用されたりする前に、診断的検査が被験者の結果を改善
するという証明が、必須となりつつあるということである。将来的にはそのような証拠は、新しい検査
法が市販のための承認を受けるときに必要になるかもしれない。新たな技術に対する革新に対して、開
発者および企業は、新たな指標の望ましい使用を明らかにしなければならないし、健康管理に対する影
響に関する証拠を提供しなければならないだろう(26)。これらは興味深い、時代の節目と言える。
(訳者:小谷 和彦)
脚注
Author Contributions: All authors confirmed they have contributed to the intellectual content of this paper and
have met the following 3 requirements: (a) significant contributions to the conception and design, acquisition of
data, or analysis and interpretation of data; (b) drafting or revising the article for intellectual content; and (c)
final approval of the published article.
Authors' Disclosures or Potential Conflicts of Interest: Upon manuscript submission, all authors completed the
author disclosure form. Disclosures and/or potential conflicts of interest:
12
Employment or Leadership: None declared.
Consultant or Advisory Role: None declared.
Stock Ownership: None declared.
Honoraria: None declared.
Research Funding: Netherlands Organisation for Health Research and Development ZonMW.
Expert Testimony: None declared.
Received for publication January 17, 2012.
Accepted for publication June 5, 2012.
© 2012 The American Association for Clinical Chemistry
References
1. Linnet K, Bossuyt PM, Moons KG, Reitsma JB. Quantifying the accuracy of a diagnostic test or marker. Clin
Chem 2012;58:1292–301.
2. Reitsma JB, Moons KG, Bossuyt PM, Linnet K. Systematic reviews of studies quantifying the accuracy of
diagnostic tests and markers. Clin Chem 2012;58:1534–45.
3. Moons KG, de Groot JA, Linnet K, Reitsma JB, Bossuyt PM. Quantifying the added value of a diagnostic test or
marker. Clin Chem 2012;58:1408–17.
4. Neumann PJ, Tunis SR. Medicare and medical technology—the growing demand for relevant outcomes. N Engl J
Med 2010;362:377–9.
5. Lijmer JG, Leeflang M, Bossuyt PM. Proposals for a phased evaluation of medical tests. Med Decis Making
2009;29:E13–21.
13
6. Gazelle GS, Kessler L, Lee DW, McGinn T, Menzin J, Neumann PJ, et al. A framework for assessing the value of
diagnostic imaging in the era of comparative effectiveness research. Radiology 2011;261:692–8.
7. Bossuyt PM, McCaffery K. Additional patient outcomes and pathways in evaluations of testing. Med Decis
Making 2009;29:E30–8.
8. Marteau TM, Weinman J. Self-regulation and the behavioural response to DNA risk information: a theoretical
analysis and framework for future research. Soc Sci Med 2006;62:1360–8.
9. Heitman SJ, Hilsden RJ, Au F, Dowden S, Manns BJ. Colorectal cancer screening for average-risk North
Americans: an economic evaluation. PLoS Med 2010;7:e1000370.
10. Lord SJ, Irwig L, Simes RJ. When is measuring sensitivity and specificity sufficient to evaluate a diagnostic test,
and when do we need randomized trials? Ann Intern Med 2006;144:850–5.
11. Bossuyt PM, Lijmer JG, Mol BW. Randomised comparisons of medical tests: sometimes invalid, not always
efficient. Lancet 2000;356:1844–7.
12. Biesheuvel CJ, Grobbee DE, Moons KG. Distraction from randomization in diagnostic research. Ann
Epidemiol 2006;16:540–4.
13. Hunink MG, Krestin GP. Study design for concurrent development, assessment, and implementation of new
diagnostic imaging technology. Radiology 2002;222:604–14.
14. Kelloff GJ, Sigman CC. Cancer biomarkers: selecting the right drug for the right patient. Nat Rev Drug
Discov 2012;11:201–14.
15. Wagner JA, Williams SA, Webster CJ. Biomarkers and surrogate end points for fit-for-purpose development
and regulatory evaluation of new drugs. Clin Pharmacol Ther 2007;81:104–7.
16. Foster MW, Mulvihill JJ, Sharp RR. Evaluating the utility of personal genomic information. Genet Med 2009;
11:570–4.
17. Grosse SD, Khoury MJ. What is the clinical utility of genetic testing? Genet Med 2006;8:448–50.
18. Pletcher MJ, Pignone M. Evaluating the clinical utility of a biomarker: a review of methods for estimating
health impact. Circulation 2011;123:1116–24.
14
19. Wizemann T, Berger AC, eds., Institute of Medicine (US) Round 表 on Translating Genomic-Based Research
for Health. The value of genetic and genomic technologies: workshop summary. Washington, DC: National
Academies of Press/Institute of Medicine; 2010.
20. Mueller C, Scholer A, Laule-Kilian K, Martina B, Schindler C, Buser P, et al. Use of B-type natriuretic peptide
in the evaluation and management of acute dyspnea. N Engl J Med 2004;350:647–54.
21. Breidthardt T, Laule K, Strohmeyer AH, Schindler C, Meier S, Fischer M, et al. Medical and economic longterm effects of B-type natriuretic peptide testing in patients with acute dyspnea. Clin Chem 2007;53:1415–22.
22. Hlatky MA, Greenland P, Arnett DK, Ballantyne CM, Criqui MH, Elkind MS, et al. Criteria for evaluation of
novel markers of cardiovascular risk: a scientific statement from the American Heart Association. Circulation
2009;119:2408–16.
23. Moons KG. Criteria for scientific evaluation of novel markers: a perspective. Clin Chem 2010;56:537–41.
24. Clarke LD, Plevritis SK, Boer R, Cronin KA, Feuer EJ. A comparative review of CISNET breast models used to
analyze U.S. breast cancer incidence and mortality trends. J Natl Cancer Inst Monogr 2006;:96–105.
25. Lord SJ, Staub LP, Bossuyt PM, Irwig LM. Target practice: choosing target conditions for test accuracy
studies that are relevant to clinical practice. BMJ 2011;343:d4684.
26. Price CP, Christenson RH. Evaluating new diagnostic technologies: perspectives in the UK and US. Clin
Chem 2008;54:1421–3.
15