公的統計ミクロデータ提供の現状と展望1) — 一橋大学での取り組みをも

日本統計学会誌
第 41 巻, 第 2 号, 2012 年 3 月
401 頁 ∼ 420 頁
公的統計ミクロデータ提供の現状と展望1)
— 一橋大学での取り組みをもとに
小林
良行∗
Development and Prospects on Provision of Microdata of Official
Statistics—Based on Experiences at Hitotsubashi University
Yoshiyuki Kobayashi∗
平成 21 年 4 月から全面施行された新しい統計法では,学術研究や高等教育の発展に資すると
認められる場合には,委託による統計の作成・提供及び匿名データの提供ができるという制度が
創設された.一橋大学は独立行政法人統計センターのサテライト機関として平成 21 年 6 月 22
日から匿名データの提供を行っている.本稿では,これまでのミクロデータ提供の活動について
紹介するとともに,一橋大学での取り組みを踏まえて今後のミクロデータ利用の普及に向けた課
題と展望について述べる.
The provision system of order-made tabulation and anonymized data of official statistics
has been founded under new Statistics Law. Hitotsubashi University provides services and
support for users of anonymized data as a satellite organization of the National Statistics Center
from 22nd June 2009. This paper reviews activities on microdata provision at Hitotsubashi
University and considers perspective on promotion of microdata use based on experiences at
Hitotsubashi University.
キーワード: 公的統計,ミクロデータ提供,オンサイト利用,教育用データ,統計メタデータ・
アーカイブ.
はじめに—我が国のミクロデータ提供の現状
1.
欧米諸国における政府統計ミクロデータ2) 提供の歴史は長く,たとえば米国では人口住宅
センサスの詳細調査票の 0.1%抽出標本データがすでに 1960 年代から提供されている.ミ
クロデータ提供主体としては,統計調査の個票データを保有する政府統計機関のほか,政府
∗
1)
2)
一橋大学経済研究所附属社会科学統計情報研究センター:〒 186-8603 東京都国立市中 2-1 (E-mail: [email protected]).
本稿は,第 5 回日本統計学会春季集会 (2011 年 3 月,東京) における報告に加筆・修正したものである.
政府統計機関が作成する統計は,慣習的に官庁統計又は政府統計と呼ばれている.統計法改正後は,
「公的統
計」という用語が「行政機関等が作成する統計」を表すものとして法律に規定されている.名称は異なって
も三者は同義である.本稿では,諸外国の状況の説明に使用する場合や原論文で使用されていた場合を除き,
原則として「公的統計」を用いている.
402
日本統計学会誌
第41巻 第2号 2012
統計機関が実施した統計調査や非政府機関が実施した社会調査のミクロデータを収集,保
管しているデータ・アーカイブがある3) .欧米諸国でミクロデータ提供が進んだ要因とし
て,調査客体の秘密の保護を図りつつ秘匿措置を施した個票データを提供することを可能
とするよう法制度が整備されてきたこと4) 及び統計データ開示管理 (Statistical Disclosure
Control) の方法に関する理論的,実証的研究が政府統計機関等で進展してきたこと5) が考
えられる.
UNECE (2007) によれば,近年,欧米諸国の政府統計機関による統計データ提供は次の
ような多様な形態で行われている6) .
(1)
統計表及びデータキューブ (Statistical Tables and Data Cubes)
(2)
匿名化データ (Anonymized Microdata Files)
(3)
リモートアクセス集計 (Remote Access Facilities)
(4)
データラボラトリ (Data Laboratories)
(1) は集計されたデータを提供するものである.データキューブは情報通信技術の進歩
を背景に 2000 年代に入って新たな提供形態として登場したもので,公表統計表 (マクロ
データ) より詳細な中間集計データを用意し,利用者の要求に応じて中間集計データの持
つ属性を組み合わせた集計表を作成,提供するものである7) .たとえば,オランダ統計局
の StatLine などがある.(2) には一般目的利用ファイル (Public Use Files) とライセンス・
3)
美添 (2005) によればデータ・アーカイブとは「統計調査などで得られた個票データを整理,収録し,その散
逸を防ぐとともに,当初の利用を超えた二次的な利用のために提供するための機構」である.総務省政策統括
官 (統計基準担当) (2007) にドイツの ZA (Central Archive for Empirical Social Research in Cologne),米
国の ISPCR (the Inter-university Consortium for Political and Social Research),イギリスの UKDA (the
U K Data Archive) などのほか主要なデータ・アーカイブについて,提供するミクロデータ,秘匿方法,利
用条件・手続き等がまとめられている.
4)
欧米諸国のミクロデータ提供の歴史的経緯,提供形態,法制度などに関する調査研究は松田他 (2000) に詳し
くまとめられている.
5)
SDC に関しては本稿の範囲を超えるので詳細には触れないが,Work Session on Statistical Data Confidentiality(UNECE) のサイト,the Journal of Official Statistics,Journal of the American Statistical Association
などで多くの先行研究が報告されている.また,Abowd and Woodcock (2001) の appendix に 1990 年代の
研究を中心にレビューが掲載されている.我が国では,統計審議会 (1995) が,個体の秘密保護の担保方策を
中心に標本データの提供について専門的・技術的な研究を行う必要性を指摘したが,旧統計法のもとでは調
査票の使用に厳しい制約があったため,匿名化技法の適用可能性に関する実証的な研究の蓄積がほとんどな
かったといえよう.管見の限りでは,統計数理的な面からの研究として,たとえば渋谷 (1997),佐井 (1998),
竹村 (2001),竹村 (編) (2003),佐井 (2009) などがある.実証的な研究としては,一橋大学と総務省統計局
の共同研究「政府統計ミクロデータの試行的提供」(2004〜2008 年実施),統計センターにおける一連の研究
(伊藤他 (2008, 2009, 2010)) などがある.また,星野 (2010) は模造 (synthesis) の概念を用いた絶対的匿名
性を持つ日本版 Public Use Files の可能性について論じている.
6)
これらの統計データ提供形態については,政府統計機関が学術研究を支援する際のガイドラインとして UNECE
がまとめた UNECE (2007) の p. 9–15 を参照のこと.また,各国の事例が UNECE (2007, p. 26–104) に紹
介されている.
公的統計ミクロデータ提供の現状と展望
403
ファイル (Licensed Files) の 2 種類がある8) .(3) は委託者からの要望に応じて個別情報を
集計した結果を返すもので,集計の委託者が個別情報に直接触れることはない.UNECE
(2007) では,(a) 研究者がプログラムを送付し,その実行結果をネットワークを通じて後
で受け取る Remote execution と (b) 研究者がオンラインで分析を実行し,その結果を即時
に得る Remote facilities の 2 種類があげられている.後述する我が国のオーダーメード集
計もこの提供形態に相当すると考えられる.(4) は監査証跡 (audit trails) が厳格に取られ,
政府統計機関による監督が行われる場所 (政府統計機関内又はその出先機関内) において,
より個体識別可能性が高いミクロデータの利用を提供するものである.我が国では調査票
情報のオンサイト利用がこの提供形態に相当すると考えられる. (2) と (4) は,利用者が
個票データや匿名化データのようなミクロデータを直接利用するものである.
一方,我が国では「統計行政の新中・長期構想」(平成 7 年 3 月 10 日統計審議会答申),
「統計行政の新たな展開方向」(平成 15 年 6 月 27 日各府省統計主管部局長等会議申合せ) な
ど9) でたびたび提言されてきたものの,学術研究へのミクロデータの提供は調査票の目的
外使用が例外的,限定的に認められるにとどまっていた10) .
7)
データキューブの構造は,分析,集約の切り口となる複数の属性 (ディメンジョン) と集計対象となる数値
(ファクト) のセットとして定義される多次元データベースである.ディメンジョンはデータの詳細度に応じ
て階層的に構造化される.データキューブにおいて,属性値の最も低いレベルの組み合わせによって一意に決
まる最小のデータ単位 (グレイン) は,個別のデータを要約した集計値である.データの要約レベル (又は詳
細レベル) を粒度 (グラニュラリティ) という.グレインの粒度が細かいほど個票データに近づき,開示リス
クは高まるがデータの有用性も高くなる.データキューブでは複数の属性や各属性の階層レベルを組み合わ
せることにより公表統計表 (マクロデータ) から個票データ (ミクロデータ) に近いレベルまで様々な粒度の集
計表を生成することができる (当然だが,グレインより詳細なものは作れない).データキューブに関連する
諸概念については,Kimball (1996),田中他 (1996),田中 (1997),豊島 (1996),Romero and Abelló (2009)
などを参照のこと.
8)
本稿では,このように広い意味で匿名化措置を施したミクロデータを表す場合,新統計法で定義されている
用語と区別するため,
「匿名化データ」とした.
9)
永山 (1999, 2000) は旧統計法のもとでの匿名標本データの作成上の条件,法制度上の扱い,提供のための具
体的な手続きなどについて提案している.渋谷 (1999) はミクロデータの作成及び二次利用のために蓄積され
たミクロデータ (渋谷 (1999) は公有化されたデータ,公有データなどと呼んでいる) の運営管理について技
術的な面からの提案を行っている.石田 (2000) は旧統計法の調査票目的外使用制度のもとでの匿名標本デー
タの作成と利用の促進方策に関して考察している.森 (2004) では政府統計ミクロデータを公共財ととらえ,
ミクロデータが与え得る新たな利用可能性について論じている.美添 (2008) は政府統計データ・アーカイブ
設立の意義とミクロデータ公開の際に検討しておくべき技術的な問題について指摘している.この他に日本
学術会議 (2001, 2005) による提言がある.
10)
「統計行政の新たな展開方向」の提言を受け,匿名標本データの作成,提供における課題の検討のため,総務
省統計局と一橋大学の共同研究「政府統計ミクロデータの試行的提供」が平成 16 年から平成 20 年までの間
行われた.研究者が利用するデータは一橋大学経済研究所附属社会科学統計情報研究センターが作成した秘
匿処理済みのミクロデータであったが,その利用にはあらかじめ調査票の目的外使用申請をして承認されな
ければならなかった.試行的提供の事業内容,実績の詳細については安田他 (2009) を参照のこと.また,試
行的提供以前では,(財) 統計情報研究開発センターが事務局となって目的外使用申請をし,リサンプリング・
データ (リサンプリングのほかトップコーディングなどの匿名化措置を施したデータ) を作成して,公募した
研究者に利用してもらい,データのユーザビリティを検証する研究「ミクロ統計データ活用研究会」(2000〜
2004 年) がある.これについては井出 (2004),松田 (2008) を参照のこと.
404
日本統計学会誌
第41巻 第2号 2012
平成 21 年 4 月から全面施行された新しい統計法 (以下,
「新統計法」という) では,統計
を社会全体で利用される情報基盤であるとする理念に基づき,公的統計が一層活用される
よう学術研究や高等教育の発展に資すると認められる場合には,委託による統計の作成・
提供 (以下,「オーダーメード集計」) 及び匿名性を確保した調査票情報 (以下,「匿名デー
タ11) 」) の提供ができるという制度が創設された.また,改正前の統計法 (以下,「旧統計
法」) にあった調査票の目的外使用の規定を継承するものとして,新統計法では調査票情報
の二次利用及び調査票情報の提供が規定されている12) .
公的統計のミクロデータを研究者が直接的に利用できるのは,学術研究又は高等教育13) の
目的で匿名データの提供を受ける場合か又は学術研究の目的で調査票情報の提供を受ける
場合である.匿名データに関して言うと,学術研究目的で匿名データの提供を受けること
ができる者の範囲には,大学等の研究者だけでなく大学院生も含まれ,条件付きながら学
部学生もデータを利用することが可能である14) .
しかしながら,政府全体で見ると新統計法の全面施行時に匿名データの提供が可能となっ
ていたのは,試行的提供で匿名化技法の適用と秘匿処理済みデータの有用性に関する実証
研究の蓄積があった総務省統計局の全国消費実態調査,就業構造基本調査,社会生活基本
調査及び住宅・土地統計調査の 4 調査のみであった.これら 4 調査の匿名データの提供は,
政令指定独立行政法人15) として提供事務の全部を統計局から委託された統計センターが提
供窓口となり平成 21 年 4 月から開始された.その後,平成 16 年全国消費実態調査の匿名
データが追加で利用可能になったものの匿名データを提供する新たな統計調査は増えてこ
なかった.平成 23 年度に入り,平成 16 年国民生活基礎調査 (厚生労働省) 及び労働力調査
(総務省) の匿名データの作成が統計委員会の諮問・答申を得たこと,また,平成 18 年社会
生活基本調査の調査実施後 5 年が経過したこと (調査実施後の匿名データの提供開始まで
の経過期間については統計委員会 (2009) で述べられている) により,平成 24 年 1 月 1 日
現在では 6 調査の匿名データが提供されている.一方で,オーダーメード集計は平成 21 年
4 月の時点でこそ統計センターが提供する国勢調査のみであったが,その後提供される調
11)
調査票情報及び匿名データは統計法第 2 条に定義されている用語である.
12)
調査票情報の二次利用 (統計法第 32 条) は調査実施者内部での二次利用ができることを,調査票情報の提供
(同法第 33 条) は外部への提供ができることを定めている.研究者が学術研究目的で調査票情報を利用でき
るのは第 33 条第 2 号に該当する場合である.
13)
高等教育とは学校教育法第 1 条で定められた大学又は高等専門学校における教育を指す.ここでいう大学に
は大学院と短期大学を含む.
14)
「匿名データの作成・提供に係るガイドライン」(総務省政策統括官 (統計基準担当) 決定) に匿名データの提
供を申出できる者及び利用者となれる者の例示があり,学部学生は学術研究目的で匿名データを利用する指導
教員の研究補助又は指導教員との共同研究に携わる場合に限り学術研究目的の匿名データ利用者となり得る.
15)
統計センターはオーダーメード集計及び匿名データの提供に関する事務の包括的な委託先として政令で指定
された独立行政法人である.
公的統計ミクロデータ提供の現状と展望
405
査数が拡大し,平成 23 年 7 月 1 日現在では政府全体で 22 調査となっている16) .
ミクロデータの保存,提供等の基盤となる統計データ・アーカイブの整備については,
新統計法の規定に基づき政府が定めた「公的統計の整備に関する基本的な計画」((内閣府,
2009).以下,「基本計画」と略称) の中で言及されている.統計センターでは,基本計画
に基づき,府省から寄託を受けた調査票情報や匿名データの保管,ドキュメントの保管,
府省が指示する方法による匿名データの作成,匿名データの提供といったアーカイブ業務
を行っている.分散型の統計機構をとる我が国では,基本的に統計調査を実施した各府省
が調査票情報やドキュメントの類の保存を行っている.総務省政策統括官 (統計基準担当)
では「調査票情報等の管理及び情報漏えい等の対策に関するガイドライン」(総務省政策統
括官 (統計基準担当),2009a) を作成し,各府省が統計調査によって収集した調査票情報を
国民の共有財産として将来にわたり利活用可能とするための指針を示している.統計デー
タ・アーカイブの必要性は,統計審議会 (1995),日本学術会議 (2001),各府省統計主管部
局長等会議 (2003),日本学術会議 (2005),美添 (2005),森 (2008),美添 (2008) などによ
り従来から多くの提言や指摘がなされてきており,統計法の改正によってようやく公的統
計データ・アーカイブが現実のものとなったといえよう.
一橋大学は統計センターとの間で平成 21 年 3 月 30 日に連携協力協定を締結し,統計セ
ンターのサテライト機関となった.サテライト機関の主な役割は,(1) 公的統計に関する
アーカイブの運営に関して [1] 匿名データの提供,[2] オーダーメード集計の提供,[3] オン
サイト利用施設の提供を行うこと,(2) 公的統計の二次的利用に関する研究・開発を行うこ
と,(3) 公的統計の二次的利用に関する普及・啓発を行うことなどである17) .
実際のサテライト機関の業務は,政府統計ミクロデータの試行的提供を行っていた実績
を踏まえて,本学経済研究所附属社会科学統計情報研究センター (以下,「本センター」)
のミクロデータ分析セクションが担当し,まず匿名データの提供から開始することとした.
匿名データ提供施設等の準備が整い,匿名データ利用相談・提供窓口を開設したのは平成
21 年 6 月下旬である.匿名データの提供は現在も本センターの中核的な業務となっている.
また,統計センターのオンサイト利用施設設置基準にかなうよう従来の匿名データ提供
施設の情報安全性を強化し,平成 22 年末にはサテライト機関で最初のオンサイト利用施設
を開設している.
本稿では,第 2 節で我が国におけるミクロデータ提供の今後の展望を洞察するための 1
16)
17)
「各府省の提供状況・対応窓口」(http://www.stat.go.jp/index/seido/zuhyou/23plan.xls) による.調査数は
各府省直接提供分と統計センターを通じた提供分の合計である.ただし,共管調査及び 7 月 1 日時点では未
提供のものを除いている.
サテライト機関は,統計センターから貸与された匿名データの保管や複製匿名データの作成と利用者への提供
などを行う統計データ・アーカイブの役割を持つと同時に,学術研究機関として公的統計ミクロデータの匿名
化技法など広く二次的利用に関する理論,実証両面の研究に寄与する役割を有するものと考えてよいだろう.
406
日本統計学会誌
第41巻 第2号 2012
つの手がかりとして,一橋大学における公的統計ミクロデータの提供に関する取り組みの
現状を紹介する.続いて第 3 節では,今後の公的統計ミクロデータ利用の普及に向けた課
題と展望について述べ,最後に全体のまとめを行う.
一橋大学における公的統計ミクロデータ提供の取り組み
2.
一橋大学では現在のところサテライト機関の機能のうち匿名データの提供とオンサイト
利用の提供の 2 つを行っている (オーダーメード集計は第 3 節で述べるような理由から実
現していない).以下では,まず本センターで行っている匿名データの提供について,続い
てオンサイト利用の提供について,これまでの経緯と現状を述べる.
2.1
匿名データの提供
本センターは,匿名データの提供に当たり,試行的提供の際に整備した小平キャンパス
国際共同研究センター内の施設を統計センターが定める技術基準に沿った匿名データ提供
施設となるよう変更した.さらに,利用者向けのマニュアル「匿名データ利用の手引」(以
下,
「利用の手引」) の作成及びミクロデータ利用のホームページの作成などの準備を行っ
た後,平成 21 年 6 月 22 日に匿名データ利用相談・提供窓口を開設した.
2.1.1
業務概要と業務体制
匿名データの提供に関して本センターが行っている業務は主に 3 つである.その第一の
ものは匿名データ提供事務そのものである.第二のものは,匿名データの特徴や利用上の
留意点及び各種手続き書類作成上の留意点を利用者に理解してもらうためのチュートリア
ルセミナーの実施といった利用者支援・普及啓発業務である.また,第三のものは,後続
のサテライト機関に対する支援業務である.これには,後続サテライト機関開設に当たり
統計センターと共同で実施する事務担当者向けの研修と事務処理内容や申出内容に関する
質問等があった場合に先行経験に基づき問題解決を手助けするヘルプデスクの 2 つの支援
が含まれる.
総務省統計局が所管する全国消費実態調査,就業構造基本調査,社会生活基本調査及び住
宅・土地統計調査の 4 調査の匿名データは,総務省統計局から委託を受けた統計センター
及びそのサテライト機関を窓口として提供されている.統計センターでは,
「匿名データの
作成・提供に係るガイドライン」((総務省政策統括官 (統計基準担当), 2009b)).以下,
「匿
名データガイドライン」) に基づき,サテライト機関が行う匿名データ提供事務の処理内
容を定めている.それをもとにサテライト機関では利用の手引を作成している.初めて匿
名データの提供を受ける場合は,提供依頼の申出から匿名データ格納媒体の受け取りまで
の間で少なくとも一回は利用相談・提供窓口を訪問し,本人確認を受けなければならない.
本センターでは匿名データの利用希望者 (利用の手引では「匿名データ提供依頼申出者」と
公的統計ミクロデータ提供の現状と展望
407
いう.以下,
「申出者」) が窓口を訪問した際に,事務の流れを整理した図 1 をもとに手続
きの内容を説明している.一連の提供事務のおおまかな流れは,[1] 申出者からの照会,[2]
仮の匿名データ提供依頼申出書 (以下,
「申出書」) による利用相談,[3] 申出書の受理,[4]
承諾・不承諾の通知18) ,[5] 匿名データの複製作成と申出者への提供,[6] データとその格
納媒体の管理状況確認(利用期間が 1 年を超える場合のデータ利用中 1 年ごと),[7] 返却
されたデータ提供媒体と利用したデータの消去報告書の受取り(データ利用期間終了時)
,
[8] 利用実績報告書の受取りとなる.これらの一連の事務に関連してデータ提供用媒体の在
庫管理,業務実績の統計センターへの報告,サテライト機関の会計処理に必要となる書類
の作成等の事務がある.提供事務全体を通じて最も重要で最も多くの時間を必要とするも
のが利用相談事務である.
匿名データ提供施設として統計センターの認証を得るには,匿名データ提供事務に係わ
る施設,施設内に設置する設備,統計センターから貸与された匿名データの原本の管理な
ど施設全体を管理する施設管理者及び利用者ごとの提供用匿名データの作成を担当する匿
名データ複製事務担当者を置くことが必要である19) .本センターではセンター主任を施設
管理者とし,ミクロデータ分析セクションの助教を複製事務担当者としている.また,匿
名データ利用相談・提供窓口の事務は准教授 1 名及び複製事務担当者でもある助教 1 名の
2 名で担当している.
2.1.2
匿名データ提供業務の活動実績
匿名データ提供業務について,平成 21 年 6 月 22 日の利用相談・提供窓口開設時から平
成 23 年 6 月末までの約 2 年間の本センターの活動実績を業務記録に基づいて整理してみる
と次のようになる.まず,具体的な調査名をあげて照会をしてきた利用相談件数は延べ 33
件,そのうち利用相談のみや申出の取下げで申出書提出に至らなかったものが 2 件,利用
相談後に利用者の居住地等から利便性を考えて統計センター又は他のサテライト機関に移
管したものが 2 件あり,本センターを通じてデータ利用まで至った件数 (申出件数) は延べ
29 件,利用者数は延べ 72 人である.平成 22 年度末までの政府全体の匿名データ提供件数
累計 58 件 (総務省政策統括官 (統計基準担当) (2011, p. 30)) と比べると,その約半数の 28
件 (平成 23 年 3 月末現在実績) が一橋大学を通じた申出であり,匿名データ提供に占める
貢献は少なくないものと考えられる.
平成 23 年 6 月末までの延べ申出件数 29 件を利用目的別でみると,表 1 に示すように 24
件 (57 人) が学術研究目的で,5 件 (15 人) が高等教育目的での利用である.
旧統計法の下では行政機関又は大学といった法人のみが調査票の目的外使用の申請者と
18)
申出を承諾するか否かは統計センターが判断する.サテライト機関は判断結果を受け取り申出者に郵送する.
19)
施設管理者と複製事務担当者は兼ねても構わない.
408
日本統計学会誌
図1
第41巻 第2号 2012
匿名データ提供手続きの流れ.
409
公的統計ミクロデータ提供の現状と展望
表1
申出主体,利用目的別申出件数及び利用者数.
総数
学術研究
(1)
高等教育
申出主体
申出件数
利用者数
申出件数
利用者数
申出件数
利用者数
総数
29
72
24
57
5
15
個人
28
70
24
57
4
13
法人
1
2
0
0
1
2
申出件数及び利用者数は窓口開設〜平成 23 年 6 月までの延べ数.利用者数は申出者と申出者以外の利用者の人
数合計.
(1) 個人申出を行った 24 件 (57 人) のうち 2 件 (3 人) は国外利用である.
表2
利用目的,利用期間別申出件数及び利用者数.
総数
利用期間
総数
1年未満
(1)
1年以上2年未満
(2)
2年以上3年未満
3年
学術研究
高等教育
申出件数
利用者数
申出件数
利用者数
申出件数
利用者数
29
72
24
57
5
15
10
27
5
12
5
15
4
8
4
8
0
0
11
28
11
28
0
0
4
9
4
9
0
0
25
60
23
54
2
6
(特掲)
総数のうちデータ利用中
(3)
申出件数及び利用者数は窓口開設時〜平成 23 年 6 月末の間の延べ数.
(1) 学術研究のうち 1 件及び高等教育のうち 1 件は利用期間の延長を行っている.
(2) 学術研究のうち 1 件は利用期間の延長を行っている.
(3) 平成 23 年 6 月末現在でデータ利用中の件数及び利用者数.利用期間の延長により継続してデータ利用中のも
のを含んでいる.
なりえたが,新統計法では調査票情報の提供及び匿名データの提供における申出主体は個
人であっても法人であってもよい.利用目的別の件数をさらに申出主体別にみると,学術
研究目的での利用の申出主体は個人のみとなっており,法人からの申出は現在のところな
い.一方,高等教育目的での利用は個人申出が主であり,その内容は指導教員による修士
論文の作成指導である.
平成 21 年 9 月に統計法施行規則の改正があり,匿名データの提供要件として国際比較統
計利活用事業での利用が追加された.省令の改正に伴い匿名データガイドラインの改正が
行われ,匿名データは日本国外の研究者の利用も認められることとなった.表 1 の申出件
数には国外の研究者による学術研究目的の個人申出 2 件 (3 人) を含んでいる.
次に表 2 は窓口開設から平成 23 年 6 月末までの申出件数と利用者数について利用目的,
利用期間別にまとめたものである.統計局の匿名データは最長 3 年まで利用申請すること
が可能であり,さらに 1 回だけ最長 2 年まで利用期間の延長の申出をすることができる.
利用期間別でみると,1 年未満の利用は,申出件数の半数が学術研究目的,半数が高等
410
日本統計学会誌
表3
第41巻 第2号 2012
利用目的,調査別提供件数.
調査
総数
学術研究
高等教育
40
30
10
全国消費実態調査
11
9
2
就業構造基本調査
13
8
5
10
8
2
6
5
1
0
0
0
総数
社会生活基本調査
(生活時間編)
社会生活基本調査
(生活行動編)
住宅・土地統計調査
(*) 1件の申出で複数の調査の匿名データを提供しているものがある.
(**) 窓口開設 (平成 21 年 6 月 22 日)〜平成 23 年 6 月までの延べ提供件数.
教育目的である.一方,1 年以上の利用では申出件数のすべてが学術研究目的となってい
る.学術研究目的の利用を期間別にみると,匿名データを最長利用可能期間である 3 年で
申出た件数は少なく,2 年以上 3 年未満の利用が最も多い.利用期間が長く取れるため研
究期間も余裕をもって設定できるメリットが生かされているといえよう.利用期間の終了
したものを除き平成 23 年 6 月末現在でデータを利用中のものをみてみると,件数及び利用
者数は 25 件 (60 人) である.そのうち学術研究目的の 2 件及び教育目的の 1 件は利用期間
の延長を行ったもので,いずれも延長期間は 1 年以内である.
次に表 3 で現在提供されている 4 調査別にデータ提供件数を見てみると,1 つの申出で 2
種類以上の調査の匿名データを利用する申出形態が多いことから総提供件数は 40 件となっ
ている.これを調査別でみると,最も多いのが就業構造基本調査の 13 件であり,次いで全
国消費実態調査の 11 件,社会生活基本調査 (生活時間編) の 10 件,社会生活基本調査 (生
活行動編) の 6 件の順となっている.住宅・土地統計調査については本センターを通じた
匿名データの提供申出の実績はない.
2.1.3
利用者支援・普及啓発業務及び他サテライト機関支援業務の活動実績
本センターでは利用者支援業務として,特に申出書については利用相談期間の短縮化の
ために書類作成上の注意点を過去の事例から得られた記入例に基づき解説するチュートリ
アルセミナーを開いている.また,匿名データのもとになる統計調査の概要,匿名データ
の特徴や利用上の注意点について解説するチュートリアルセミナーや匿名データの利用成
果を報告してもらう研究集会を開催している.これまで「匿名データ提供依頼申出書作成
説明会」(平成 22 年 8 月 6 日,一橋大学),
「匿名データの利用等に関する研究集会」(平成
23 年 3 月 4 日,一橋大学),
「匿名データ利用説明会」(第 1 回は全国消費実態調査について
(平成 23 年 8 月 3 日,一橋大学),第2回は国民生活基礎調査等について (平成 23 年 12 月
3 日,一橋大学)) を実施した.その他には,個別の要請に応じ匿名データ提供制度とデー
公的統計ミクロデータ提供の現状と展望
411
タ利用のための手続きの紹介セミナーを開催 (平成 21 年 7 月 27 日,九州大学.平成 23 年
2 月 4 日,立教大学) したり,統計関連学会連合大会での企画セッション「匿名データ」(平
成 21 年 9 月 8 日,同志社大学),経済統計学会でのチュートリアル「匿名データの提供と
利用申請について」(平成 22 年 9 月 17 日,大分大学) など学会の場を利用した活動を行っ
てきている.また,本センターでは利用者が匿名データの符号表の内容を直感的に理解で
きるよう,一部の調査のデータレイアウトを独自に作成し,チュートリアルセミナーの資
料としていた.セミナー参加者から全調査のデータレイアウト提供の要望が寄せられたこ
とから,統計センターに提言し,統計センターと共同で作成したデータレイアウトをホー
ムページ上で公開するなど随時利用者支援の活動を行ってきている.
本センターは,最初のサテライト機関として後続のサテライト機関に対する支援を行っ
ている.
「匿名データ提供担当者研修」は,匿名データ提供窓口を開設するサテライト機関
の担当者に対して,統計センターと共同で行っている初任者研修である.本センターは 2
日間の研修のうち 1 日を受け持ち,サテライト機関が行う一連の事務処理と事務処理上の
ポイントを研修している.これまで実施した匿名データ提供担当者研修は,後続のサテラ
イト機関の開設時期に合わせて平成 22 年 3 月 25 日(神戸大学)
,5 月 27 日(法政大学)及
び 8 月 25 日(情報システム・研究機構)の 3 回である.この研修は実際の窓口業務を開始
する前のものであり,業務開始後の窓口運営上の疑問や申出内容に関する質問等に関して
はヘルプデスクとして,随時,相談を受け問題解決に協力することとしている.これまでの
ところヘルプデスクとしての実績は,多くはないものの数件あり先行経験が役立っている.
2.2
オンサイト利用の提供
新統計法では第 33 条 (調査票情報の提供) に基づき,公的機関が行う統計の作成等と同
等の公益性を有すると判断される調査研究であってかつ調査票情報の適切な情報管理に必
要な措置が講じられている場合,各府省に設けられた相談窓口を通じ調査票情報の提供の
申出をすることができることとなった20) .調査票情報の提供制度を運用する上で各府省に
共通する事項や標準的な事務手続きを示すものとして「統計法第 33 条の運用に関するガイ
ドライン」((総務省政策統括官 (統計基準担当), 2008).以下,
「33 条ガイドライン」) が定
められている.各府省は 33 条ガイドラインを参考にして必要な手続き等を定め調査票情報
の提供を行うこととなる.
新統計法における調査票情報の提供申出と旧統計法における目的外使用申請とが異なる
点は,申請窓口が各府省に分散し調査票情報の提供の諾否の判断も府省ごとにできるよう
20)
公的機関が行う統計の作成等と同等の公益性を有すると判断される調査研究の範囲については統計法施行規
則第 9 条に規定されている.また,調査票情報の提供を受けた者は統計法に定める適正管理義務及び守秘義
務が生じるとともに,提供申出の際に明らかにした利用目的以外の目的での利用又は提供が禁じられている.
違反があった場合には同法の罰則規定が適用される.
412
日本統計学会誌
第41巻 第2号 2012
になったこと,承諾した場合の官報告示は不要になったこと,最大利用期間を各府省が設
定できるようになったことなどである.また,利用相談を通じて不備のない申請書類が出
来上がり,書類が受理されれば 1 か月ほどでデータが入手できるようになったのも大きな
違いである.
しかし,申出に当たっては,事前に使用する調査事項,作成する集計表や行う統計分析
の内容を確定し,調査を所管する府省の窓口を通じて審査を受けなければならない (これ
を事前チェック型調査票情報利用方式と呼ぶことにする).この点は旧統計法の目的外使用
申請と基本的なところは変わっておらず,申出の際に使用する調査事項をすべて列記しな
いとならないこと,それらはすべて作成する集計表等の中で使われていなければならない
こと,集計表や分析出力の様式をすべて21) 提出しなければならないことなどは,申出書類
を作る側にとってもまた申出内容を審査する側にとっても時間と労力のかかる作業である.
さて,新統計法第 33 条の運用面で特徴的なのは,調査票情報の利用方法としてオンサイ
ト利用が設けられたことである.オンサイト利用は,データ・アーカイブと同様に法令上
の規定はないが基本計画の中で言及されており,
「利用者が行政機関等の指定する場所及び
機器により調査票情報を利用する方法」とされている.
本センターが匿名データ提供施設の設備に追加,変更を加え,オンサイト利用施設とし
て統計センターの認証を得て,施設の提供を始めたのが平成 22 年 12 月 27 日であった.現
在のところ事前チェック型調査票情報利用方式のオンサイト利用に対する施設の提供は可
能であるが,この場合でも作成した集計表等を施設外に持ち出すには承認22) が必要であり,
施設利用者のメリットは少ない.
ところで,実証研究には,[1] 検証すべき問題が定式化できていて現実のデータを用いて
理論的な仮説の妥当性を検証したり,先行研究の追試をしたりする検証型の研究と [2] デー
タから探索的に新事実を発見したり,試行錯誤的にさまざまな分析手法を適用したり又は
新たな手法を開発したりする探索型の研究があると考えられる.検証型の研究では,通常
データの使用前に検証に必要な情報,すなわち使用する調査事項と作成する集計表等が確
定できているか,または少なくともその範囲が限定できていなければならないはずである.
このような研究には,事前チェック型調査票情報利用方式で対応ができているといえよう.
21)
22)
33 条ガイドラインでは,旧統計法の調査票の目的外使用の運用時の考え方を踏まえて,利用する調査事項は
使用目的,集計様式又は分析出力様式から判断して必要最小限かつ不要と考えられるものが含まれていない
こととされている.オンサイト利用以外の場合,集計表様式又は分析出力様式をすべて提出しなければなら
ないが,オンサイト利用の場合には主なものを提出すればよいとされている.これは,後述するように作成
した集計表等をオンサイト利用施設外に持ち出す前には当局の審査,承認が必要となることから,調査票情
報の提供申出時の負担軽減を図ったものと思われる.
諸外国でもオンサイト利用施設 (Data Laboratory 又は Research Data Center と呼ばれている) 内で作成し
た成果物を施設外に持ち出す前あるいは公表する前には当局による秘匿性 (confidentiality) の検査が行われ
ている.事例は UNECE (2007, p. 56–77) を参照.
公的統計ミクロデータ提供の現状と展望
413
一方,探索型の研究ではデータを使いだしてからファクトファインディングや手法の選択が
できた時点ではじめて必要な情報が確定することになる.問題はいつ確定するか事前に予
見できないことである.オンサイト利用において,もし必要な情報が確定した時点で当局
の審査を受け承認を得ることに法制度の運用の範囲の中で柔軟に対応できるならば,探索
型の研究にまで研究の範囲が広がることになり学術的な意義は少なくないものと思われる.
本センターは,使用する調査事項や作成する集計表等を調査票情報の提供申出の時点で
は特定せず,オンサイト利用施設内では自由に調査事項を使って試行錯誤的に統計の作成
ができ,施設外に成果物を持ちだそうとする際に,使用した調査事項と作成した集計表や
統計分析結果の承認を得るという事後チェック型調査票情報利用方式の実現可能性につい
て,統計局・統計センターと協議を重ねてきた.協議の結果,オンサイト利用施設の開設
と合わせて始めているのが,統計局との共同研究「試行錯誤型オンサイト利用の試行的運
用」である.これは事後チェック型調査票情報利用方式によるオンサイト利用施設の運用
形態 (統計局では「試行錯誤型」のオンサイト利用と呼んでいる) を試行的に実施すること
により本格運用時の課題を検討するものである.
今後に向けて
3.
以下ではミクロデータ利用の普及に向けた課題と今後の展望について述べてみたい.
まず 1 点目は,学生に対する教育で利用しやすい匿名データの利用形態や教育用データの
提供に関してである.ミクロデータ利用のリテラシーを身につける第 1 歩はスキルをもっ
た教師による教育訓練を受けることであろう.その際には訓練内容に応じた複数種類の教
育用データが利用できることが望ましい.また,匿名データ自体とその背景知識としての
統計調査の内容が学べる機会が多く提供されることも必要であろう.小林 (2011) は,匿名
データの教育目的での利用における課題について指摘し,教育用データの望ましい性質を
あげて,教育用データの開発と提供を提案している.ドイツでは教育目的専用の PUF と
して Campus Files が提供されている23) .わが国では 2011 年 8 月に統計センターが大学な
どでの統計演習に利用可能な教育用データの試行的な提供を始めているが,教育用データ
の作成方法など未だ研究の進んでいない分野といえる24) .
現行の匿名データガイドラインでは教育目的で匿名データを利用する場合,利用者全員
があらかじめ確定している必要がある.したがって残念ながら現行の制度運用では,たと
えば当日にならないと出席者が確定しないチュートリアルセミナーで体験的に匿名データ
23)
たとえば Wende (2004), Zwick (2007), Brandt et al. (2009) を見よ.
24)
日本学術会議 (2005) 及び松田 (2008) は,簡便な手続きで大学院生にも利用できる教育用データ (「レプリ
カ・データ」と呼んでいる) の作成を提案していたが,旧統計法のもとでは実現に至らなかった.小林 (2008,
2010a, b) は教育用データに利用できる疑似個別データの作成方法を提案している.
414
日本統計学会誌
第41巻 第2号 2012
を利用することには制約がある.何らかの制度運用面からの改善が求められる.
ところで,匿名データガイドラインでは,高等教育目的の利用を行う場合に教育責任者
(指導教員)は利用者たる学生 (大学院生,学部学生) に対し,あらかじめ統計利用に係る
倫理教育 (制度,遵守事項,罰則等の教育) を行うこととされている.しかし,法制度に由
来するミクロデータ利用倫理の教育を個々の教員に求めるのはいささか厳しいのではない
か.教育に当たっては,条文だけを示すのでなく,その趣旨を解説することが必要と考え
るが,法制度の専門家でない教員のみで実現するのは荷が重いといえよう.少なくとも制
度を所管する側と匿名データを提供している統計調査を所管する側から,匿名データを利
用する学生に最小限どのような事項を理解しておいてもらいたいかをより具体的に示して
もらえると,学生の教育に匿名データを利用しようと考えている教員にとってメリットが
あるだろう.
2 点目はプログラム送付型オーダーメード集計の利用者向けのテスト環境の提供に関し
てである.サテライト機関ではプログラム送付型オーダーメード集計が業務としてできる
ことになっているが,現在のところ本センターでは実施していない.本センターでは旧統
計法時代に特定領域研究「統計情報活用のフロンティアの拡大」(1996〜1998 年度) の折に
プログラム送付型オーダーメード集計を実施した経験があるが,送付されてきたプログラ
ムのテストと手直しに多大な時間と労力を要し事務負担が重かったため,その後の「政府
統計ミクロデータの試行的提供」(2004〜2008 年実施) では断念した経緯がある.プログラ
ム送付型オーダーメード集計を実施するには,実際のデータと同じフォーマットを持ち自
由に使えるテストデータの存在が不可欠であるが,かつてはそのようなデータを利用する
ことができなかったことがネックとなったと考えられる.
仮に適当なテストデータが作成でき基本統計量や共分散行列などと併せてウェブ上で提
供されることになれば,利用者の利便性向上とサテライト機関の事務負担軽減につながる
ものと考えられる.テストデータは全くの架空データではなく,統計を作成した際に何ら
かの妥当な結果が得られるようなものが望ましい.この性質は教育用データにも共通する
ものである.
テストデータとしては,調査票情報や匿名データを超高次元クロス集計25) して得られる,
ミクロデータとマクロデータの中間的なレベルのデータ (このようなデータはメソデータ
(mesodata)26) と呼ばれている) が 1 つの可能性として考えられる.メソデータを多次元デー
25)
伊藤 (2008) は,
「個別データが有するすべての属性群を集計事項の対象としたうえで作成する n 次元の多重
クロス集計表」を超高次元クロス集計表と呼んでいる.
26)
定義と例示は Radermacher et al. (2009, p. 25) を参照のこと.伊藤 (2008) の超高次元クロス集計表,松田
(1999, p. 123–125) が「セミ・マクロ・データ」と呼ぶ詳細な多重分類集計表は,このメソデータに該当する
ものと考えられる.
公的統計ミクロデータ提供の現状と展望
415
タベースとして表現したものが,第 1 節で統計データ提供形態の一種として紹介したデー
タキューブである.これに対して,適当な粒度 (脚注 7 参照) のメソデータを多次元配列で
はなく 1 次元配列の形で表すと27) ミクロデータと似たレコード形式とすることができるの
で,このような表現形式のデータをプログラム送付型オーダーメード集計のテストデータ
とすればよい.テストデータとするメソデータの粒度を公表結果表と個票データのどちら
に近いものにするかは,作成者の選択に委ねられるが,開示リスクとデータ利用の柔軟性
のトレードオフで考えることになろう.テストデータに持たせる分類事項28) は,その組み
合わせによっては同時に詳細にしてしまうと開示リスクが急激に高くなることが考えられ
る (たとえば地域と年齢,産業,職業などの組み合わせ).どの分類事項を細かくしたら別
のどの分類事項を粗くするかといった選択などは,調査に関する背景知識に基づいた判断
が必要となろう.
現行の匿名データガイドラインで想定されている学術研究目的の範囲では,サテライト
機関であっても,このような一般への提供を行うためのテストデータの作成を直接の利用
目的として調査票情報や匿名データを利用することは実現が難しいように思われる.行政
機関等による作成と提供が期待される.
3 点目は統計メタデータ29) の整備に関してである.統計データに関するメタデータは単
にコードブックのみではない.調査設計,標本抽出方法と推定方法,集計値の算出方法,作
成している集計表の構成なども調査を理解する上で必要なメタデータと言える.また,回
収率,補定状況など調査の過程で副次的に得られるデータ30) もメタデータに含まれる.統
27)
28)
29)
寺崎 (2000) は,統計ソフトウェア SAS で使用されている分類変数及び分析変数という用語を用いて,集計
表を「分類変数の値の組み合わせに該当する観測値の数 (度数) や分析変数の統計量を求めて表の形に整理し
たもの」と定義している.また,複数の分類変数の値を並べて 1 つの変数の値とみなしたものをパターン化
変数と呼び,多次元の集計表は形式上,パターン化変数が 1 つの 1 次元集計表 (これをリスト形式による集
計表と呼んでいる) と同じものであるとしてその利用について提案している.公表統計表より詳細な中間集
計データをセル単位で作成し,それを集計の基礎として複数の公表統計表を作成する集計方法は実務的には
すでに実現されている.米国労働統計局では tally レコード方式による TPL (Table Producing Language)
を開発,集計に利用した.総理府統計局 (現在の統計センター) ではセルレコード方式の集計方法で昭和 52
年及び 54 年の就業構造基本調査の結果表を作成した.Tally レコードとセルレコードには集計技術上の工
夫がされているが,本質的にはリスト形式集計表と同じと考えてよい.TPL 及び tally レコードについては
Mendelssohn (1974),蛭田・福井 (1979) を参照のこと.セルレコード方式については安野 (1981) 及びその
発想のもとになったと思われる木村 (1980) を参照せよ.
SAS の分類変数及び分析変数とは,一般に公的統計の統計表では分類事項及び集計事項と呼ばれるものであ
る (統計実務上では,分類事項は分類項目,集計事項は集計項目と呼ばれることもある).分類事項は調査事
項のうち集計表の分類標識となるものであり,これには質的変数,量的変数を階級化して得られる質的変数,
世帯規模のように限定された範囲の整数値をとる量的変数がある.集計事項は調査事項のうち集計表の集計
対象となるものであり,これには量的変数や観測値の数がある.
Radermacher et al. (2009) によれば統計メタデータとは統計の利用及び解釈を可能とするのに必要な情報と
されている.Dippo and Sundgren (2000) は,統計メタデータには統計データに関するデータと統計データ
の作成過程に関するデータがあるとし,統計メタデータは統計の品質を記述するものである一方それ自体が
統計データの有用性とアクセスしやすさを改善する一つの品質構成要素であるとしている.統計メタデータ
に関する用語は,たとえば UNECE (2000b),SDMX Initiative (2009) などを参照のこと.
416
日本統計学会誌
第41巻 第2号 2012
計データは単に数値を得ただけではその意味を理解することはできない.数値は,それが
何を表しているか,どのように作られているのかといった情報と組み合わせて初めて意味
を理解でき有効に利用できるといえよう.
欧米の政府統計機関や国際機関における統計メタデータの整備に関する研究は少なく
とも 1990 年代に遡ることができる (たとえばスウェーデン統計局の Rosén and Sundgren
(1991),Sundgren (1993),米センサス局の Gillman and Appel (1994),Gillman (1999) な
ど).90 年代半ば以降には統計メタデータに関するガイドラインや統計メタデータの標準が
作られ,情報通信技術の進歩に伴って実務的にも統計メタデータを利用して電子的に保管
された統計データの検索,提供を行う情報システムが米国の ICPSR,ニュージーランド統
計局などで実現されてきている31) .中でも UNECE では 1991 年からほぼ 1〜2 年ごとに統
計メタデータに関するワークセッション (METIS) が開催されるなど研究の蓄積が多い32) .
一方,管見の限りでは,我が国における統計メタデータに関する研究は少ないように思
われる.たとえば,金子 (2002) が官庁統計の統計数値データの利用促進における統計数値
メタデータの重要性に言及している.美添 (2005) は官庁統計データ・アーカイブの設立と
メタデータの整備の必要性を指摘している.行政機関がまとめたものでは,各府省統計主
30)
これらは特にパラデータ (paradata) と呼ばれ,統計の品質評価の分野で使用される (たとえば,Kreuter et
al. (2010),Scheuren (2000) など).paradata は,Mick Couper が 1998 年の Joint Statistical Meeting での
報告の際に使用した造語とされている (JSM 予稿集中の Couper (1998) には明示的には出てこない).当初
は,CAI (Computer Assisted Interviewing) のようなコンピュータ支援による調査データ収集の過程で副産
物として自動的に生成されるデータ (電話によるコール回数や項目ごとの回答時間,回答拒否などの記録デー
タ,キー入力記録など) を意味していた.Scheuren (2005) は「統計調査過程に関するデータ.コンピュータ
化されたメタデータの一部」,Laflamme (2008) は「データ収集過程の初めから終わりまでを記述する情報.
たとえば標本設計,監査証跡 (audit trail),コールトランザクション履歴及びコスト情報はパラデータの一
部」としている.Radermacher et al. (2009, p. 24) によると「統計データの収集や作成の過程に関する情報」
とされ,現在では,より広範な概念で使われている.Nicolaas (2011) のように「一般に合意されたパラデー
タに関する標準的な定義はない.
」とし,メタデータとパラデータを別のものとして扱っている例もみられる
が,一般的にはパラデータはメタデータに含まれるものとされている.Kreuter and Casas-Cordero (2010)
にはパラデータに関する先行研究のサーベイ結果がまとめられている.
米国国立健康統計センター (National Center for Health Statistics) の調査 the National Health Interview
Survey (NHIS) の Public Use Microdata Files (PUMFs) を補うものとして提供されている NHIS Paradata
File はパラデータの公表例である (Taylor (2008)).
31)
ガイドラインの類については UNECE (1995, 2000a),OECD (2007),UNECE (2009) などがある.また,
統計メタデータの標準はいくつか提案されており,代表的なものとしてミクロデータのメタデータ記述向
けの DDI (Data Documentation Initiative) と集計データのメタデータ記述向けの SDMX (Statistical Data
and Metadata eXchange) の 2 つがある.DDI については http://www.ddialliance.org/what,SDMX につ
いては http://sdmx.org/?page id=6 で成立経緯,利用者ガイドなど詳細を知ることができる.DDI,SDMX,
ISO/IEC11179 など複数の標準間の対比については,Gregory (2008), Gregory et al. (2009), Gregory (2011)
などを参照のこと.
ICPSR など各国の社会調査のデータ・アーカイブにおける DDI の利用については前田 (2011) が詳しい.ま
たニュージーランド統計局などの UNECE 加盟国の政府統計機関における DDI と SDMX の利用状況につ
いては Born et al. (2009) に各国の事例報告がまとめられている.
32)
Work Session on Statistical Metadata (METIS) は UNECE,Eurostat,OECD の共催ワークセッションで
2010 年に発足 20 周年を迎えた.METIS の 20 年間の活動については Gillman (2010) を参照のこと.
公的統計ミクロデータ提供の現状と展望
417
管部局長等会議 (2003) の中で統計データ・アーカイブ機能の検討についてと国際比較性
に配慮した統計データ及びメタデータの提供について言及されている.また,公的統計の
データ・アーカイブではないが,最近の動きとして東京大学社会科学研究所附属社会調査・
データアーカイブ研究センターが SSJ データアーカイブのメタデータ整備に関し DDI(Data
Documentation Initiative) の利用可能性の検討を行っている33) .
統計メタデータというと長い間単にコンピュータで扱うデータのコードブック (符号表)
を指すことが多かったが,今日では統計データとその作成過程に関する広範な情報を指す
ものとなっている.統計メタデータは,統計の利用者が統計データの意味を理解するため
に利用するだけでなく,統計の作成者が統計の品質を改善するために利用することができ
るものである.統計メタデータの収集,保管は統計データをアーカイブに収録する時点で
行うのでは遅く,情報の散逸なくメタデータの収集を可能とするためには統計調査の最初
の段階から統計データの作成過程と並行して統計メタデータも一体的に収集できるように
しておくことが必要であろう.ここでは統計データ・アーカイブの整備と併せて統計メタ
データ・アーカイブというべきものの整備の必要性を指摘しておきたい.
おわりに
4.
本センターの中核的な業務である匿名データ提供に関する活動実績及びオンサイト利用
の提供の現状について紹介してきた.また,今後のミクロデータ利用の普及に向けていく
つかの提案を述べてきた.今後も公的統計が社会の情報基盤として果たす役割の重要性は
ますます高まっていくものと思われるが,新統計法の主要な柱の一つである公的統計の二
次的利用は未だ緒に就いたところとの感があり,より一層の発展には学術研究や教育の分
野でいかに利用者及びその候補者の裾野を広げていけるかにかかっていると言えよう.
謝辞
春季集会の報告をもとにして本稿の執筆をするよう勧めてくださった美添泰人教授 (青山
学院大学) に感謝いたします.査読者の方からは貴重なコメントをいただき,内容を大き
く改善することができた.ここに記して謝意を表します.本稿の記述内容に誤りがあれば
それは筆者の理解不足や誤解によるものであり,その責はすべて筆者にある.
参
考
文
献
Abowd, J. M. and Woodcock, S. D. (2001). Disclosure Limitation in Longitudinal Linked Data, Confidentiality,
Disclosure, and Data Access: Theory and Practical Applications for Statistical Agencies, Elsevier Science,
215–277.
33)
DDI 利用可能性検討会 (2011) を参照のこと.
418
日本統計学会誌
第41巻 第2号 2012
Born, A., Linnerud, J. and Gardner, J. (2009). Analysis of Existing Metadata Case Studies, WP.7, Joint
UNECE/Eurostat/OECD Workshop on Statistical Metadata (METIS).
Brandt, M., Crössmann, A. and G,rke, C. (2009). Harmonization of Statistical Confidentiality in the Federal
Republic of Germany, WP.5, Joint UNECE/Eurostat Work Session on Statistical Data Confidentiality.
Couper, M. (1998). Measuring Survey Quality in a CASIC Environment, Proceedings of the Survey Research
Methods Section of the ASA at JSM1998 , 41–49.
DDI 利用可能性検討会 (2011).『Data Documentation Initiative の利用可能性』SSJDA リサーチペーパー
No. 46.
Dippo, C. and Sundgren, B. (2000). The Role of Metadata in Statistics, Proceedings of the Second International
Conference on Establishment Surveys, 909–918.
Gillman, D. W. and Appel, M. V. (1994). Developing a Metadata Database at the Census Bureau, Proceedings
of the Survey Research Methods Section of the ASA at JSM1994 , 781–784.
Gillman, D. W. (1999). Statistical Metadata Research at the Census Bureau, 1999 Federal Committee on
Statistical Methodology Research Conference: Complete Proceedings.
Gillman, D. W. (2010). METIS: 20 Years of Progress, WP.30, Joint UNECE/Eurostat/OECD Work Session
on Statistical Metadata (METIS).
Gregory, A. (2008). Status on the Mapping of Metadata Standards:ISO/IEC 11179,SDMX, and Others, WP.9,
Joint UNECE/Eurostat/OECD Work Session on Statistical Metadata (METIS).
Gregory, A. (2011). The Data Documentation Initiative (DDI): An Introduction for National Statistical Institutes, Open Data Foundation.
Gregory, A., Heus, P. and Ryssevik, J. (2009). Metadata, Working Paper No.57, German Council for Social
and Economic Data, Federal Ministry of Education and Research.
蛭田宏平・福井武弘 (1979). 「外国政府機関等における汎用統計集計システムの紹介と考察」『統計局研究彙報』
第 33 号,57–150.
星野伸明 (2010). 「公的統計ミクロデータ提供制度の課題」『日本統計学会誌』40,23–45.
井出満 (2004). 「日本におけるミクロデータ提供の現状」『研究所報』32,39–42.
石田晃 (2000). 「利用方法の将来展望」
『講座 ミクロ統計分析1 統計調査制度とミクロ統計の開示』日本評論
社,363–371.
伊藤伸介 (2008). 「ミクロアグリゲーションに関する研究動向」『製表技術参考資料』No. 10,3–31.
伊藤伸介・磯部祥子・秋山裕美 (2008). 「匿名化技法としてのミクロアグリゲーションの有効性に関する研究−
全国消費実態調査を例に−」『製表技術参考資料』No. 10,33–66.
伊藤伸介・磯部祥子・秋山裕美 (2009). 「秘匿性の評価方法に関する実証研究−全国消費実態調査のミクロアグ
リゲートデータを用いて−」『製表技術参考資料』No. 11,3–35.
伊藤伸介・高野正博・秋山裕美・後藤武彦 (2010). 「ミクロデータにおける有用性と秘匿性の定量的な評価に関
する研究」『製表技術参考資料』No. 14,3–40.
金子康樹 (2002). 「統計数値メタデータのデータ要素と表現の標準化」『レコード・マネジメント』45,55–68.
各府省統計主管部局長等会議 (2003). 統計行政の新たな展開方向
等会議申合せ).
(平成 15 年 6 月 27 日各府省統計主管部局長
Kimball, R. (1996). Data Warehouse Toolkit, John Wiley & Sons Inc., 藤本康秀監修 (1998). 『データウェアハ
ウス・ツールキット』日経 BP 社.
木村英典 (1980). 「機能別集計システムから新システムへ」『統計局研究彙報』第 34 号,37–64.
小林良行 (2008). 「複数の公表された集計表からの疑似個別データ作成の試み (中間報告)」『2008 年度統計技術
研究会報告』149–154,内部資料.
小林良行 (2010a). 「集計データを用いた疑似個別データ作成について」
『2010 年度統計関連学会連合大会講演報
告集』36.
小林良行 (2010b). 「統計教育のための疑似個別データ作成について」
『経済統計学会第 54 回 (2010 年度) 全国研
究大会報告要旨集』50–51.
小林良行 (2011). 「匿名データの教育目的利用に関する一考察」『統計学』第 100 号,100–105.
419
公的統計ミクロデータ提供の現状と展望
Kreuter, F. and Casas-Cordero, C. (2010). Paradata, Working Paper No.136, German Council for Social and
Economic Data,Federal Ministry of Education and Research.
Kreuter, F., Couper, M. and Lyberg, L. (2010). The use of paradata to monitor and manage survey data
collection, Proceedings of the Survey Research Methods Section of the ASA at JSM 2010 , 282–296.
Laflamme, F. (2008). Understanding Survey Data Collection through the Analysis of Paradata at Statistics
Canada, Proceedings of the Survey Research Methods Section of the ASA at JSM 2008 , 4217–4224.
前田幸男 (2011). 「情報技術と統計メタデータ:DDI についての概観」SSJDA リサーチペーパー
No. 46,40–51.
松田芳郎 (1999). 『ミクロ統計データの描く社会経済像』日本評論社.
松田芳郎・濱砂敬郎・森博美 (編著) (2000). 『講座
本評論社.
ミクロ統計分析1
統計調査制度とミクロ統計の開示』日
松田芳郎 (2008). 「日本におけるミクロ政府統計活用の新しい夜明け」『統計』59,2–9.
Mendelssohn, R. C. (1974). The Bureau of Labor Statistic’s Table Producing Language (TPL), ACM Press.
森博美 (2004). 「ミクロデータの利用特性と統計利用論」『研究所報』32,9–38.
森博美 (2008). 「情報資産としての統計と政府統計アーカイブ」『統計学』第 94 号,15–25.
永山貞則 (1999). 「日本でのミクロデータ公開の展望」『研究所報』25,311–318.
永山貞則 (2000). 「匿名標本データの位置づけ」『講座
日本評論社,351–362.
内閣府 (2009). 公的統計の整備に関する基本的な計画
ミクロ統計分析1
統計調査制度とミクロ統計の開示』
(平成 21 年 3 月 13 日閣議決定).
Nicolaas, G. (2011). Survey Paradata: A review , ESRC National Centre for Research Methods Review paper,
National Centre for Research Methods.
日本学術会議 (2001). 情報化社会における政府統計の一次データの提供形態のあり方について
報常置委員会報告 平成 13 年 7 月 23 日).
(学術基盤情
日本学術会議 (2005). 政府統計・世論調査等の一次データ (含む個票データ) の体系的保存と活用・公開方策に
ついて (学術基盤情報常置委員会報告 平成 17 年 9 月 15 日).
OECD (2007). Data and Metadata Reporting and Presentation Handbook , OECD.
Radermacher, W., Baigorri, A., Delcambre, D., Kloek, W. and Linden, H. (2009). Terminology relating to the
Implementation of the Vision on the Production Method of EU Statistics, Eurostat.
Romero, O. and Abelló, A. (2009). A Survey of Multidimensional Modeling Methodologies, International Journal of Data Warehousing and Mining, 5(2), 1–23.
Rosén, B. and Sundgren, B. (1991). Documentation for Reuse of Microdata from the Surveys Carried out By
Statistics Sweden, Statistics Sweden.
佐井至道 (1998). 「個票データにおける個体数とセル数の関係」『応用統計学』27(3),127–145.
佐井至道 (2009). 「多重母集団寸法指標のノンパラメトリック最尤推定− 2 時点の個票データへの適用−」
『統計
数理』57(2),425–442.
Scheuren, F. (2000). Macro and Micro Paradata for Survey Assessment, CRP.10, UNECE Work Session on
Statistical Metadata (METIS).
Scheuren, F. (2005). Paradata from Concept to Completion, Proceedings of Statistics Canada International
Symposium 2005: Methodological Challenges for Future Information Needs, Statistics Canada.
SDMX Initiative (2009). Metadata Common Vocabulary, SDMX Content-Oriented Guidelines, http://sdmx.
org/wp-content/uploads/2009/01/04 sdmx cog annex 4 mcv 2009.pdf.
渋谷政昭 (1997). 「多項分布における度数 0,1 のセルの数−漏洩管理のための基礎事実−」『応用統計学』26,
161–170.
渋谷政昭 (1999). 「ミクロデータの公有化と利用の技術的課題」『研究所報』25,101–113.
総務省政策統括官 (統計基準担当) (2007).
進に関する研究会資料 7.
諸外国の統計データの二次的利用の状況
統計データの二次利用促
総務省政策統括官 (統計基準担当) (2008). 統計法第 33 条の運用に関するガイドライン
日総務省政策統括官 (統計基準担当) 決定).
(平成 20 年 12 月 24
総務省政策統括官 (統計基準担当) (2009a). 調査票情報等の管理及び情報漏えい等の対策に関するガイドライン
(平成 21 年 2 月 6 日総務省政策統括官 (統計基準担当) 決定).
420
日本統計学会誌
第41巻 第2号 2012
総務省政策統括官 (統計基準担当) (2009b). 匿名データの作成・提供に係るガイドライン
日総務省政策統括官 (統計基準担当) 決定).
総務省政策統括官 (統計基準担当) (2011).
平成 22 年度
統計法試行状況報告
(平成 21 年 2 月 17
(平成 23 年 7 月 8 日).
Sundgren, B. (1993). Guidelines on the Design and Implementation of Statistical Metainformation Systems,
R&D Report Statistics Sweden 1993:4.
竹村彰通 (2001). 「多重分割表の加法交互作用モデリングによる母集団一意数の推定」東京大学大学院経済学研
究科.
竹村彰通 (編) (2003). 特集「個票開示問題の統計理論」『統計数理』51(2),統計数理研究所.
田中聡 (1997). 「データウェアハウスと多次元データベース」『情報処理』38,745–750.
田中聡・木村 哲・豊島 一政・石井 義興 (1996). 「多次元データベース入門〜オンライン分析処理を中心として
〜」『情報処理学会データベースシステム研究会報告』96(103), 1–7.
Taylor, B. L. (2008). The 2006 National Health Interview Survey (NHIS) Paradata File: Overview and Applications, Proceedings of the Survey Research Methods Section of the ASA at JSM 2008 , 1909–1913.
寺崎康博 (2000). 「リスト形式による集計表とパターン化変数」松田芳郎・伴金美・美添泰人 (編著)『講座ミク
ロ統計分析2 ミクロ統計の集計解析と技法』日本評論社,111–122.
統計委員会 (2009). 全国消費実態調査,社会生活基本調査,就業構造基本調査及び住宅・土地統計調査に係る
匿名データの作成について (平成 21 年 3 月 9 日統計委員会答申).
統計審議会 (1995).
統計行政の新中・長期構想
(平成 7 年 3 月 10 日統計審議会答申).
豊島一政 (1996). 「多次元データベースと RDB(OLAP の紹介)」
『情報処理学会全国大会講演論文集』第 52 回平
成 8 年前期 (4),157–158.
UNECE (1995). Guidelines for the Modeling of Statistical Data and Metadata, Conference of European Statisticians, Methodological Material.
UNECE (2000a). Guidelines for Statistical Metadata on the Internet, Conference of European Statisticians,
Statistical Standards and Studies, No. 52.
UNECE (2000b). Terminology on Statistical Metadata, Conference of European Statisticians, Statistical Standards and Studies, No. 53.
UNECE (2007). Managing Statistical Confidentiality & Microdata Access, United Nations.
UNECE (2009). The Common Metadata Framework , http://www1.unece.org/stat/platform/display/metis/
The+Common+Metadata+Framework, オンラインによる提供のみ.
Wende, T. (2004). Different Grades of Statistical Disclosure Control Correlated with German Statistics Law,
Privacy in Statistical Databases, Proceedings of PSD2004 , Springer, 336–342.
安田聖・山口幸三・横内宏至 (2009). 『政府統計ミクロデータの試行的提供』統計資料シリーズ
大学経済研究所附属社会科学統計情報研究センター.
No. 64,一橋
安野勝吾 (1981). 「統計局における汎用統計集計システムの考察」『統計局研究彙報』第 37 号, 53–101.
美添泰人 (2005). 「統計データの保存と再利用の体制」『統計』57(6),32–37.
美添泰人 (2008). 「統計改革の残された課題」国友直人・山本拓 (監修・編)『21 世紀の統計科学I 社会・経済
の統計科学』東京大学出版会,171–196.
Zwick, M. (2007). Campus Files—Free Public Use Files for Teaching Purposes, Schmollers Jahrbuch-Zeitschrift
für Wirtschafts und Sozialwissenschaften, 127(4), 655–668.