階層ベイズモデルを利用した小地域疾病地図

特集 空間科学と統計モデル
階層ベイズモデルを利用した小地域疾病地図
― 近隣地区を単位とする健康格差の視覚化 ―
中谷 友樹
はじめに
年齢調整された死亡率の指標としてよく利用され
本稿では効果的な疾病地図の作成に関わる空間
る SMR(標準化死亡比)を例とすると、通常の
的な統計モデルとして、階層ベイズモデルに基づ
SMR は次のように定義される。
く空間的平滑化モデルについて解説する。ここで
(1)
疾病地図とは、疾病の診断や罹患、死亡等に関係
する保健指標の分布図を意味する。本稿では、と
ただし、oi と ei は地区 i の観察死亡数と期待死
くに市区町村よりも小さな近隣地区単位を利用し
亡数(典型的には地域 i の各性・年齢別人口に全
て保健医療ニーズの地域差や健康格差を視覚化す
国の性・年齢階級別死亡率を乗じて合計した値)
る小地域疾病地図に着目する。それは、階層ベイ
である。これに対して、経験ベイズ補正式は、次
ズモデルならびに近年の地理情報システムの発達
のように示される。
と小地域統計の充実によって可能となった、健康
の地域差に関する新たな知見をもたらす地図であ
(2)
る。
ここでαおよびβは正のパラメターであり、そ
階層ベイズモデルの導入:少数問題と経験ベ
の比β/αは対象地域全体の SMR(smr g)に一致
イズ補正
するように求める。したがって、この補正は「地
疾病地図では死亡率のような割合あるいは比率
区 i で観察された SMR と対象地域全体の SMR
で定義される指標を問題とすることが多い。しか
の 重 み 付 け 平 均 値 」 と 解 釈 で き る。 そ の 重 み
し、小地域の空間単位では、観測されるイベント
(wi=ei /(ei+α))は地区 i の規模によって決まり、
数が少ないがために比率指標値は統計的に不安定
もし規模が大きければ(すなわち ei の値がαに
なものとなる。そのため、得られた指標をそのま
比べて十分大きければ)wi は1に近づき、この
ま地図化しても、そこから意味のある情報を読み
補正による影響はほとんど受けない。逆に、地区
取ることが困難な場合が多い。
i の規模が小さければ、当該地域の SMR は対象
従来、この疾病地図における少数問題 small
地域全体の SMR の平均的水準に近い値へと補正
number problem を克服するために様々な方法が
される。
提案されてきた。その中でも、その形式的な分か
この補正式は、次のような Poisson-Gamma 階
りやすさと有用性の大きさから、経験ベイズ法に
層ベイズモデルの枠組みから導出される。
基づいた比率指標の補正式がよく知られている。
『統計』
2014年8月号
- 22 -
階層ベイズモデルを利用した小地域疾病地図
(3)
(4)
象地域を分割して(例えば都道府県ごとに)補正
式を求める作業がしばしば行われる。しかしその
結果、特定の位置(例えば都道府県の境界)で
SMR の水準が不自然に変わってしまうこともあ
ここでθi は地区 i の(未知の)相対死亡リス
る。そこで地区 i ごとに、その周囲一定の範囲に
クであり、観測される死亡数は、θi ei を期待値と
ある地区群を利用してハイパー・パラメター(α(i)
するポアソン分布に従って発生していると考える
およびβ(i))を求める方法(空間的経験ベイズ補
(式(3)
)
。ただし、この相対リスクθi には地域変
正)もしばしば利用される。この方法は、移動平
動がある。その地域変動がどのようなものか分か
均のように移動する窓領域を利用して経験ベイズ
らないので、正規分布に似た分布型にもなり、こ
補正を地区ごとに繰り返すことで、空間的平滑化
こでの数学的操作上都合のよい平均β/α分散
を達成する。
2
β/α のガンマ分布を仮定する(式
(4)
)
。ベイズ
の定理を用いて、可能なθi のそれぞれの値につ
(5)
いて、
事前の知識からその値が生じる程度(式
(4)
で示される事前確率)と実際データに照らした際
この場合、規模の小さな地区での SMR は、そ
の当該のθi の値の尤もらしさ(式
(3)のモデルの
l
の周囲の地域の平均的な SMR 水準(smr(i)
)に向
尤度)の積を正規化すると、θi についての確か
けて補正される。すなわち、地区 i の規模が、安
らしさの確率分布に相当する事後分布が得られる。
定した SMR 値の推定に不十分であるならば、そ
このθi の事後分布の期待値(平均)が式
(1)にほ
の周囲の地域の情報を利用して指標の安定化をは
かならない。
かる方法と解釈でき、このような考え方を「近傍
事前分布のパラメターであるαとβはハイパ
の 地 区 群 か ら 力 を 借 り る borrowing strength
ー・パラメターと呼ばれる。式
(3)
と
(4)
を統合す
from neigh­bour­ing areas」のようにしばしば表現
ると、死亡数は負の2項分布に従うモデルとして
する。
書き直すことができるため、最尤法等を利用して
空間的経験ベイズ補正は、多くの場面で有用な
観察された死亡数の分布データからハイパー・パ
空間的平滑化の方法だが、より厳密な統計的推論
ラメターを推定できる。このようにハイパー・パ
や共変量の考慮といったモデルの拡張を施したい
ラメターは観察データからベイズ推定の枠組みを
場合もある。一般に「未知の変数について空間的
利用せずに推定する方法を経験ベイズ法と呼ぶ。
に近い地区間で状態が類似する」傾向は、空間的
従属性を伴ったランダム効果として概念化され、
空間的階層ベイズモデル:空間的平滑化のモ
そのパラメトリックな統計モデルとしては、正規
デル
分布に従うランダム項の空間的な自己回帰モデル
経験ベイズ法の利用にあたっては、ハイパー・
が便利である。そのため、死亡のようなイベント
パラメターを対象地域全体で推定すると、全ての
の発生がポアソン分布に従うと仮定するケースで
地区の SMR が同じ平均的水準に向けて補正され
は、次のような Poisson-Normal 階層モデル(提
ることになる。それは、対象地域が広域にわたる
案者3名の頭文字をとって BYM モデルと呼ばれ
場合には、現実的でない場合も多い。そのため対
る)が、疾病地図の空間的平滑化モデルとしてよ
- 23 -
『統計』 2014年8月号
特集 空間科学と統計モデル
がんの早期診断の地理的格差:地理空間での
く用いられる(Besag et al., 1991)
。
(6)
(7)
平滑化
以下では本稿の主題の一つである市区町村より
も小さな空間単位を利用した疾病地図の具体例を
考える。まずは、典型的な空間的平滑化の例とし
ここで、地区 i の相対リスクは、説明変数を伴
て、大阪府地域がん登録の資料を用いたがんの早
った系統的な変動成分と二つのランダム項 ui,vi
期診断に関する指標の分布図を紹介する(中谷ほ
によってモデル化されている(式
(7)
)
。ui は(条
か,2010;中谷,2012)。地域がん登録は、対象
件付)空間的自己回帰の形式で定式化された「空
とする地域でがんと診断された患者を網羅的に登
間的に構造化された」ランダム効果であり、近傍
録し、がんの診断・罹患・治療予後等の統計情報
の u(
j j≠i)の平均値を期待値とする正規分布に
を整理する。その過程で各種の指標に深刻な地理
従う。この項は相対リスクの地理的な連続性を反
的格差が認められれば、その格差の縮小はがん対
映し、θi の推定において必要ならば「近傍の地
策における重要な目標となる。
区群から力を借りる」ための項となる。これに対
この事例で取り上げるがんの早期診断割合(限
して、vi は互いに独立な正規分布に従う「空間的
局割合)とは、がんの進行度(ステージ)が判明
に構造化されていない」ランダム効果であり、地
している新発のがん患者(2000~2004年に間に診
理的に独立した相対リスクの地域差の成分に相当
断された20~79歳)の資料を利用して、がんと診
する。なお、共変量である xi,k については、相対
断された全患者中、診断時にがんが早期の段階(上
リスクを左右すると考えられる地域指標を利用し
皮がんあるいは限局がん)にあった患者の割合
て、その効果を測定するために用いられる場合も
θi と定義する。この指標をがん登録患者の診断
ある。本稿で後に紹介する事例では共変量は利用
時の住所を利用して、およそ3300あまりの小地域
していないが、BYM の一般的形式としてここで
(ほぼ町大字に対応)に集計した。その結果を単
は含めてある。
純に地図化すると、少数問題のために判読の困難
この階層ベイズモデルは、経験ベイズ補正式の
な結果しか得られない(図1(a))。
ように利用しやすい解析解を導くことができない
そこで、先に紹介した BYM モデルを利用して
こともあり、ハイパー・パラメターそのものを確
空間的に平滑化された分布図を求めた。ただし、
率変数とみなすフルベイズ・モデルとして利用す
早期診断割合の水準は(性と部位によって大きく
る。この場合、モデルに含まれる未知のパラメタ
異なるが)全体としては50%程度であり、また地
ーについて適当な(無情報)事前分布を与えた後、
区別のサンプル数も少ないことからポアソン分布
マルコフ連鎖モンテカルロ(MCMC)法によって、
近似には不適当である。そのため、BYM モデル
計算集約的にθi の事後分布を求め、分布図を作
を以下のように2項分布とロジット変換を利用す
成する。なお、階層ベイズによる疾病地図(空間
る形式に修正した。
的平滑化)モデルの数理的側面については丹後ほ
か(2007)が、他の様々な拡張された形式につい
ては Lawson(2013)が詳しい。
『統計』
2014年8月号
(8)
(9)
- 24 -
階層ベイズモデルを利用した小地域疾病地図
図1 がんの早期診断割合(全部位、男性)
(b)BYMモデルによる推定値
(a)観察値
出所:中谷(2012)(一部修正)
ここで ni は地区 i でがんと診断された患者の
る(Ito et al., 2014)。がんはより早期の段階で診
総数であり、その中でがんが早期の段階と診断さ
断されれば、よりよい治療成績が期待できるため、
れた患者数が oi である。
(真の)早期診断割合に
がん生存率の居住地間の格差は、がんの早期診断
相当するθi の事後分布平均値を求めて地図化し
割合の格差と関連しているものと考えられる。
た結果を図1
(b)に示した。がんが早期に発見さ
れない割合は、都心付近と一部の周辺地区で高い。
主観的健康感と社会地区:社会空間での平滑化
一方でがんを早期で発見できる割合は、大阪市か
がん登録のような大規模な資料であれば、空間
らみて北ならびに南東方向の郊外地域で高いこと
的平滑化モデルを用いることで、小地域を単位と
が分かる。この分布傾向は、居住地域の社会経済
した分布推定が可能である。しかし、健康に関す
的特性と対応し、相対的に貧困層の多いインナー
る情報を収集する様々な疫学調査・社会調査資料
シティ的地区で早期診断割合が低く、教育や所得
の多くは、データ規模はもちろん、小地域の全て
の水準の高いホワイトカラー層が多く居住する郊
を調査対象としないこともあって、直接的な地理
外部では早期診断割合が高い。社会的な富裕=貧
的分布推定には向かない。そこで、ここでは小地
困度を要約する地域指標を共変量として利用すれ
域統計を用いて、間接的に健康指標の地理的分布
ば、早期診断割合の社会的格差の計測も可能とな
を推定する方法を考える。
る。なおがんの部位別・性別に確認しても、総じ
現在、国勢調査資料を中心に小地域(町丁字等)
てがんの早期診断割合の地域差には、居住地域の
を単位とした居住者特性に関する膨大な統計情報
富裕/貧困を反映した差が確認される。さらに、
が利用可能である。これを活用する方法の一つに、
がん診断後の生存率についても、同様な小地域を
ジオデモグラフィクスと呼ばれる社会地区類型の
単位とする居住地間の社会的格差が確認されてい
作成がある。様々な居住者特性に関する指標群を
- 25 -
『統計』 2014年8月号
特集 空間科学と統計モデル
もった小地域データに対してクラスター分析を適
用すると、同質的な小地域のクラスターが得られ
図2 Mosaic Japan ツリー・プロットによる地区類
型別にみた主観的不健康感標準化比
る。例えば、あるクラスターの特徴が、持ち家の
戸建てが中心で教育歴や職業構成にみる社会経済
的地位の高い人たちが多い地区群であるとすれば、
ホワイトカラーを中心とする郊外住宅地の類型と
判断できる。このような地区の分類を行った後、
全ての小地域をいずれかの地区類型に割り振って
得られるデータセットが、ジオデモグラフィクス
である。
もし、地区類型別に健康指標を集計して特徴的
な違いが見られるのであれば、この地区類型の地
理的分布に基づいて、間接的に小地域を単位とす
注:標準化比の値が大きいほど、自分で自分を不健康と感じ
ている人の割合が大きい。
出所:中谷(2011a)(一部修正)
る健康指標の分布を推計できることになる。ここ
率指標であり、この値が1以上であれば、自分を
では、2000年の国勢調査小地域集計を主たる原デ
不健康と思う人の割合が全体の平均的水準より高
1
ータとして社会地区類型を求めた Mosaic Japan
い地区類型と解釈できる。
と、日本全国の成人サンプルからなる日本版総合
ただし、この50地区類型間で JGSS サンプル数
的社会調査(JGSS)累積データ2000-2003の資
の著しい偏りがあり(平均約215人、標準偏差約
料(利用したサンプル数はおよそ1万人)をあわ
136人)、サンプル数の少ない地区類型の指標値は
せて利用した事例を紹介する(中谷,2011a)
。
信頼性に乏しい極端な値をとりがちである。そこ
地図化する指標は、JGSS の設問の中から得ら
で、このツリー・プロット上で空間的経験ベイズ
れる主観的な健康感の指標であり、
「自分で自分
補正の方法により主観的不健康感標準化比の空間
の健康をよくないと感じている人の割合」とした
的平滑化を行った。図2には、平滑化済みの値を
(主観的不健康感の割合)
。これを、Mosaic Japan
示してある。ここでは、ツリー・プロットを、地
の50地区類型(当該製品ではタイプと呼ばれる類
区類型間の社会的「近さ」から構成された社会空
型セット)別に求めたものが図2である。この図
間とみなし、互いに「近い」地区類型は同じよう
はモザイク・ツリー・プロットと呼ばれ、円形の
な主観不健康感の水準を持つ傾向があると考えて
シンボルの一つが地区類型の一つに相当し、類似
いる。
した地区類型が互いに近くになるように配置され
図2をみると、健康的な街の類型と不健康な街
ている。なお、50の地区類型はA~Kの11の上位
の類型の存在が確認できる。例えば、高級住宅地
のグループにまとめられ、図2にはこのグループ
の類型とされるFグループの類型を中心に健康的
の名称を加えてある。また、図2の円シンボルの
な類型がみられる一方で、公的住宅団地の類型で
濃淡は、それぞれの地区類型における居住者の主
あるHグループの類型とそれに類似する類型は総
観的不健康感の水準を示しており、SMR と同様
じて不健康感の割合が高い。最も不健康感の割合
に性・年齢階級別の調整を施した標準化比を利用
が高い類型は、I36類型「町工場の密集地域」で
した。すなわち、全体の平均的水準を1とした比
あり、ブルーカラーの割合が高く長屋建やアパー
『統計』
2014年8月号
- 26 -
階層ベイズモデルを利用した小地域疾病地図
ト等の住宅が卓越する地区に相当する。
小地域(近隣)の特性と健康との関連性は、近年
この結果を利用して、同じ地区類型に分類され
の社会疫学や健康地理学における大きな問題関心
る町丁字では、同じ主観的不健康感の水準値(標
をなしている(中谷,2011b)。
準化比の値)を持つと仮定する。この仮定に基づ
いて、主観的不健康感標準化比の分布を、東京都
おわりに
区部周辺地域について推計すると図3のようにな
本稿では空間疫学を代表する統計モデルの一つ
る。郊外に主観的な健康感に優れた人の多い街の
として、階層ベイズモデルを利用した疾病地図モ
類型が分布する一方、東京都区部の東部から北部
デル(空間平滑化モデル)を解説した。それは、
にかけては、自分を不健康と感じる居住者の割合
小地域を単位とする疾病地図の作成において欠か
の高い街の類型が線的に集積して分布している。
せない空間統計モデルであり、本稿でその一端を
なお、同じデータセットを利用した他の研究で
示したように、現在利用可能な統計資源を活用し
は、所得などの個人属性をさらに調整しても、居
た小地域健康格差研究への様々な応用可能性を有
住する地区の社会地区類型によって主観的な健康
している。
感には有意な違いが認められた(中谷・埴淵,
2013)
。これを踏まえると、図3に示される健康
の地域差は単純に居住者の所得水準の違いばかり
でなく、居住する地域そのものの特性の違いによ
っても生み出されているようである。そのような
図3 東京大都市圏中心部における主観的不健康感
標準化比の小地域分布(Mosaic Japan の地区
類型を利用した推定値)
<注>
1 Mosaic Japan は、アクトンウィンズ株式会社ならびにエク
スペリアンジャパン株式会社から販売されている。
<参考文献>
中谷友樹(2011a)
:
「健康な街/不健康な街」を視る- GIS を用
いた小地域における地理的健康格差の視覚化-.日本循環器
病予防学会誌 46(1),38-55.
中谷友樹(2011b):健康と場所-近隣環境と健康格差研究.人
文地理 63(4),360-377.
中 谷 友 樹(2012): 地 理 疫 学 と が ん 登 録.JACR Monograph,
No.17, 11-13.
中谷友樹・埴淵知哉(2013)居住地域の健康格差と所得格差,
経済地理学年報 59(1),57-72.
中谷友樹・井岡亜希子・津熊秀明(2010):がん早期診断の地理
的格差-大阪府がん登録資料の小地域空間解析-.地理情報
システム学会講演論文集 19,4p.
丹後俊郎,横山徹爾,高橋邦彦(2007):『空間疫学への招待:
疾病地図と疾病集積性を中心として』朝倉書店.
Besag, J., York, J. and Mollie, A.(1991): Bayesian image restoration, with two applications in spatial statistics. Annals of
the Institute of Statistical Mathematics 43, 1-59,
Ito, Y., Nakaya, T., Nakayama, T., Miyashiro, I., Ioka, A. et al.
(2014): Socioeconomic inequalities in cancer survival: a population-based study of adult patients diagnosed in Osaka, Ja-
注:図中の空白は地区類型のデータ欠損
出所:中谷(2011a)
(一部修正)
pan, during the period 1993-2004. Acta Oncologica,(in press).
Lawson, A.B.(2013): Bayesian disease mapping: hierarchical
modeling in spatial epidemiology. Second Edition. CRC
Press.
(なかや ともき・立命館大学文学部教授)
- 27 -
『統計』 2014年8月号