臨床医学知識のオントロジー表現と活用

臨床医学知識のオントロジー表現と活用
東京大学大学院医学系研究科 大江和彦
[email protected]
1.はじめに
診療の場で発生するいろいろな情報の電子化がすすんでおり、電子カルテシステムの導入により、
処方箋の内容や画像、数値の検査結果だけでなく、画像検査や顕微鏡検査(病理検査)の診断報告
書の文章などや患者との対面で行われる診察中に記録するカルテ記載なども、担当医師がフリーテキ
ストで入力することによって電子的蓄積が進み、その利用が活発になりつつある(下図は入力の例)。
こうした複雑な患者の状態が医学専門用語の組み合わせからなる文章で表現され蓄積されたテキス
トリソースから、たとえば、ある特徴をもった患者情報を効率よく検索したり、長い診療経過の患者の状
態を短く要約したり、多数の患者データベースから共通の医学知識や相関ルールを抽出(テキストマイ
ニングあるいは知識発見)したりするニーズが高まっているが、そのためにはいわゆる自然言語処理技
術と表裏一体としてh活用することが可能な専門用語の概念関係辞書が必須となっている。また、前述
のデータ利用の場面だけでなく、短い診療時間中、とりわけ患者と対面診療をしながら、効率よく患者
状態を専門用語の組み合わせでコンピュータに入力するには、きわめて洗練された文脈依存型の専
門用語入力インターフェイスの開発も必要不可欠であり、そのようなマンマシンインターフェイスの実現
のひとつとして、入力された専門用語から文脈空間を狭めそれに対応した適切な用語候補の提示など
が望まれており、やはり医学用語の意味処理を可能とするための概念辞書の構築が望まれている。さ
らに、患者の病状や症状を国際的な分類にコード化することも統計処理のためには重要であるが、そ
のためにコーダーとよばれる分類コード化専門職による分類コーディング作業がなされてきた。しかし、
この作業は膨大なコストがかかるため多くの医療機関でかならずしも日常十分な精度で行われておら
ず、全国規模の疫学調査(どのような疾患分類の患者がどの程度存在するかなどの調査)の精度と実
施頻度を著しく低下させている。こうしたコーディング作業を自動化するには、診断名や症状用語の組
み合わせが既存の分類体系のどこに対応するかを自動化することが必要で、やはり診断名や症状用
語の意味的な処理が必要になると同時に、分類体系のほうも意味処理が必要になる。このようなニー
ズから、臨床医学分野での概念関係データベースともいえる臨床医学オントロジー構築とその活用へ
の期待が高まりつつある。
2.臨床医学知識表現としてオントロジー
臨床医学の体系は、患者に観察される症状や検査結果の組み合わせから、患者を診断名(病名)とい
われる分類し、その分類に応じて基本治療法を選択し、オプションとして症状や所見の組み合わせ状
況に応じて治療を追加もしくは修正はするという大きな枠組みから成り立っていると考えられる。また、
症状や検査結果の組み合わせから分類されていた診断概念に対して新たに出現した検査を適用する
ことによってこれまで同一分類とみなしていた概念を分割したり、異なると考えられていた他の概念と組
み合わせて同一概念に整理されたりするために、概念間の関係が複雑化するのが特徴であり、この点
が人工物の概念整理と異なる点ではないかと考えている。
3.1 分類概念の時代変遷の取扱い
ここでは、白血病の一種である急性リンパ性白血病(ALL: acute lymphocytic leukemia)を例にとって
一部を紹介する。
---------◆急性リンパ性白血病(ALL)=白血球の一種であるリンパ球が未成熟な状態のままで異常増殖し、他
の正常な血液細胞が減少して、治療しないと数ヶ月以内で死亡する病気。
FAB分類:(1976~)=
L1:一様の円型核とわずかな細胞質を有するリンパ芽球
L2:さらに多様なリンパ芽球;L1 よりも細胞質が多く核が不整である場合もある
L3:リンパ芽球は細胞質の空胞形成とともに,さらに細い核染色質と青から濃青色の細胞質。
◆リンパ芽球性リンパ腫(LBL)=中枢リンパ節や末梢リンパ節で未成熟なリンパ球が増殖して腫瘍とな
る病気。
---------◇前駆型リンパ芽球性白血病ALL/リンパ腫 LBL(2001~)
={ 未熟B細胞系性 + 未熟T細胞性 }
={ ALL(骨髄中未成熟細胞 25%以上)= L1/L2}+{LBL (骨髄中未成熟細胞 25%未満) = L1/L2}
◇バーキットリンパ種 = 成熟B細胞性リンパ腫
----------
FAB分類によるALL
WHO 分類 ALL
WHO分類の
バーキットリンパ腫
従前の
バーキット
リンパ腫
LBL
WHO分類LBL
国立がんセンターHPから図を引用・一部改変
急性リンパ性白血病(ALL)とリンパ芽球性リンパ腫(LBL)はつい最近まで異なる疾患と考えられており、
前者は 1976 年に発表されたFAB分類(形態学分類)によりL1型、L2型、L3 型に分類されていた。し
かし 2000 年以降になり詳細な検査・研究が進んだ結果、WHO分類が発表され、従来別々の疾患と考
えられていたALLと LBL は実は同じ疾患で、細胞の主たる増殖部位が骨髄かリンパ節かによって症状
が異なって見えるだけだということが明らかになり、両者は同一疾患として扱われるようになった。しかし
症状が異なって見えるので、同一疾患ではあるが、主たる増殖部位が骨髄のものをALL,主たる増殖
部位がリンパ節のものはBLLと呼ぶようになった。そして、従来のALLと LBL をあわせた概念のうち、B
細胞とよばれるリンパ球系列が成熟しておこるものは、従来からバーキットリンパ腫と呼ばれていた疾患
と同一疾患とされた。
このように分類概念が重要視されるのは、症状の差異や顕微鏡での形態分類にとらわれずに、疾患
の本質が何によって起こっているのかを明らかにして整理することで、治療法や疾患の経過予測が判
明し、それが患者にとっては非常に重要な意味を持つからである。
さらに、ALL/LBL のうちフィラデルフィア(Ph)呼ばれる異常染色体(9番染色体の一部と22番染色体の
一部が切断、相互に交換し結合してできる)が見つかるタイプでは、きわめて治療が難しく再発率が高
いことがわかっているため、このような細分類も重視される。
こうした分類を平文で記述、関連を図示すると以下のようになる。
FAB分類ALLは、L1-ALL、L2-ALL、L3-ALLの 3 つに分類される。
WHO 分類ALLと WHO 分類 LBL は同じ疾患である
WHO 分類ALLと WHO 分類 LBL は総称して、WHO 分類で” 前駆型リンパ芽球性白血病/リン
パ腫(WHO分類ALL/LBL)”と呼ばれる。
WHO分類ALL/LBL は、L1-ALLと、L2-ALLと、FAB分類 LBL との統合である。
FAB分類LBLは、WHO 分類 LBL と WHO 分類バーキットリンパ腫を合わせた概念である。
WHO 分類バーキットリンパ腫は、従前バーキットリンパ腫とL3-ALLとの統合である。
WHO 分類ALLと WHO 分類BLLは、主たる病変部位の差異で区別される。
WHO 分類ALLは、主たる病変部位が、骨髄である。
WHO 分類 LBL は、主たる病変部位が、末梢リンパ節である。
WHO 分類ALL/LBL は、未熟T細胞性と未熟B細胞性からなる。
WHO 分類ALL/LBL は、Ph染色体陽性のものと陰性のものがある。
Ph染色体陽性の WHO 分類ALL/LBL は、治療困難である。
FAB分類
WHO分類
Ph+
L1-ALL
ALL
ALL
L2-ALL
PhALL/LBL
LBL
L3-ALL
未熟T細胞性
T細胞
バーキットリンパ腫
LBL
リンパ球
未熟B細胞性
成熟B細胞性
従前バーキットリンパ腫
B細胞
こうしたオントロジー的な知識構造を構築して活用することにより、たとえば 1990 年代にFAB分類でL3
-ALLと診断され治療を受けていた患者のデータは、現在ではバーキットリンパ腫として取り扱うこと
が適当であることが得られるし、LBLと診断されていた患者とL1-ALLと診断されていた患者ともに現
在では同一疾患のALL/LBLであり、Ph染色体の有無およびT細胞性かB細胞性かを検査すること
が重要であることが判断できる。
3.2 疾患概念とそれをとりまく臨床医学概念との関係
すでに見てきたように疾患原因の所在が不明確で、疾患概念の客観的な定義を観測される検査結果
や所見の特徴の分類にゆだねざるを得ないような疾患の場合には、その疾患概念の抽象的なあるい
は臨床的な分類は診断と治療の観点から差異を明確にするために導入されることが多い。一方、外傷
や臓器に発生する腫瘍(例えばがん)のような疾患では、その定義が明確なので周辺概念との関係で
定義を記述することが容易である。たとえば胃がんは、「胃に発生する悪性腫瘍である」と記述すること
でほぼ定義される。こうした疾患の多くは発生部位と病変構造物の異常との差異を表す性状との組み
合わせで記述可能なものが多く、むしろ病変構造物の異常との差異を表す性状間の意味的関係およ
び発生部位となる臓器間の意味的関係が得られれれば有用なことが多いと考えられる。
私たちは、臨床医学で頻用される疾患
<性質> ポリープ
概念約20000、部位概念約3000、症
<治療法> 内視鏡的胃ポリープ切除術
良性
状所見概念約1000についてこの図で
<一種>
<反対語>
胃全摘術
示すような意味関係を記述するととも
<手法>
腫瘍
悪性
に、前述した臨床的な分類体系との対
<切除法> 胃切除術
<性質>
<一種>
応関係を記述することによって静的な
悪性腫瘍
胃食道ファイバースコピー
意味関係データベース(オントロジーと
<一種>
胃 <検査法>
<臓器>
いうのが適切なのかいまだ確信はない
<同じ意味>
胃がん
が)の構築を目指している。そのため意
胃内視鏡検査
<病名と症状>
味関係の抽出を、コアとなる概念間の
腹痛
食欲不振
人手による関係付けと、それを元にし
嘔吐
<一種>
<同じ意味>
た既存の医学テキストコーパス(医学辞
体重減少
疼痛
食欲減退
典の定義文、国際疾病分類体系の記
<同じ意味>
<反対語>
述など)からの意味関係と属性・属性値
食欲
痛み
の半自動抽出を試みている。発表では
食欲増進
これらの概略について報告する。
文献:
1] Eiji Aramaki, Takeshi Imai, Masayo Kashiwagi, Masayuki Kajino, Kengo Miyo, Kazuhiko Ohe: Toward
Medical Ontology via Natural Language Processing, International Joint Conference on Natural Language
Processing (IJCNLP) workshop OntoLex2005 , pp.53-58, 2005.
2] 荒牧英治、今井健、梶野正幸、美代賢吾、大江和彦: メタ関係を利用したテキストからの人体部位関
係の抽出. 言語処理学会 第 12 回年次大会, 508-511, 2006.
3] 今井健、荒牧英治、梶野正幸、美代賢吾、大江和彦: 構文情報と医学用語属性を用いた画像診断
所見オントロジーの構築の試み. 医療情報学,25(6), 395-403, 2006.
4] 荒牧英治、今井健、梶野正幸、美代賢吾、大江和彦: 医学辞書を用いた用語間関係の自動抽出手
法と用語の自動分類手法に関する研究. 医療情報学, 25(6), 463-474, 2006