基礎概念

基礎概念
• データ主体と個人情報
– 個人情報、個人データ、保有個人データ
– 散在情報と処理情報
•
•
•
•
•
•
プライバシー
個人識別情報
機微情報
行動観察
匿名化
仮名化
データ主体と個人情報
• データ主体:EUのデータ保護指令では「識別
された、あるいは識別されうる自然人」
• データ事業者
• 個人情報の集め方
– データ主体の自発的提供
– データ事業者が収集(購買履歴など)
– 推計した情報。プロファイリングされた情報
• 個人情報、個人データ、保有個人データ
個人情報
散在情報
個人データ
処理情報
保有個人データ
個人情報取扱事業者
が保有し管理
• 散在情報と処理情報
• pile vs. file
プライバシー
• 1980年代以前:一人にしておいてもらう権利
– 個人の不可侵な領域を設定
– 領域内の情報を他人との同意に基づき、ある対
価と引き替えに他人に知らしめる
• 忘れられる権利(the right to be forgotten)
• 追跡拒否権(Do Not Track: DNT)
リンクを切って、Aのページへ
アクセスできないようにする:
忘れられる権利
個人:A
検索エンジン
Aのデータが出ている
ページを収集しないよう
にする:追跡拒否権
自己情報コントロール権
• 自己情報の開示、訂正、削除を要求し、それ
を不当ではない対価で実現させることである。
• もし、これらの要求に応じられない場合は、そ
の正当な理由を請求者に知らせなければな
らない。
• この権利は3章で述べるように1980年に制定
されたOECDプライバシーガイドラインの8原則
のひとつで第13条
多様な個人情報
• 基本4情報
– 氏名、性別、生年月日、住所
•
•
•
•
•
•
•
•
•
•
番号情報
物理的な履歴(位置、移動履歴)
情報的な履歴(インターネット利用履歴)
購買履歴
監視カメラビデオと顔画像
インターネットにおける住所(IPアドレス、メールアドレス)
ソーシャル・ネットワーキング・サービス
生体情報
医療情報
遺伝子情報
– 遺伝子差別禁止法
個人識別情報
• 条件1:個人又は個人の所有物と密接に関係すること、
• 条件2:情報と特定の個人が1対1に対応すること
• 条件3:複数の事業者または複数のサービスで共通
に利用されるものであること
• 条件4:情報源の個人が簡単に変更したり利用停止さ
せたりできないこと
機微情報
• 人種、 信条、 宗教、 社会的身分、 前科、
前歴、 病歴
• 差別を産む可能性のある情報
個人情報の新たな視点
• 時間的視点
– データ取得時刻の精度
– データが正しい期間
– データが時系列的に増加する場合、増加の間隔
や頻度
• 個人紐付けの視点
– Link,照合性
• 行動観察
– データベース格納の可知/不可知
匿名化
• 個人データのレコード構造
個人ID
氏名
擬似ID
マ イ 性別 住所 生年月日
ナ ン
バー
機微情報(要配慮情 その他の情報
報)
宗教 前科
前歴
• 基本4情報
• 匿名化とは
• 提供元基準、提供先基準
病名 商品
見 た
映画
仮名化
• 氏名、あるいは個人IDをランダムに生成した
記号列で置き換える方法
• 仮名と個人IDの対応表
– 保持:連結可能匿名性
•
– 保持しない:連結不可能匿名性
仮名化
– 仮名化とは、個人ID(氏名など)を乱数で置き換え
ること
– 注:仮名生成は個人IDをハッシュ関数(パラメタ付
き)に食わせて生成。このときハッシュ関数に与
えるパラメタを消去すると、同じ仮名は生成でき
なくなる
•  連結不可能匿名化になる
– EUのデータ保護規則(改正案)では、仮名化した
個人情報は重要との認識の下、パーソナルデー
タの仮名化に関する自主ルール作成を推奨
EUのデータ保護規則修正案
• 現在、審議中のEUのデータ保護規則の議会
修正案では、仮名データが追加され
– 追加情報の利用が伴わなければ特定のデータ主
体に帰属させることができない個人データ
– 追加情報は別管理され、不帰属を確実にするた
めの技術的及び組織的措置が講じられる場合に
限る
– (石井先生の「個人情報保護の現在と未来」より)
仮名化は一種類ではない:
更新頻度により、個人識別性が変化
全部、同一の個人のデータですが
仮名
体重
仮名
体重
仮名
体重
体重
A123
60.0
A123
60.0
A123
60.0
60.0
A123
65.5
A123
65.5
B234
65.5
65.5
A123
70.8
B432
70.8
C567
70.8
A123
68.5
B432
68.5
X321
68.5
68.5
A123
69.0
C789
69.0
Y654
69.0
69.0
仮名
更新
• 仮名変更なし
• 仮名変更あり
• 個人識別性大
• 更新頻度が高く
なると個人識別
性が下がるが、
データの価値減
少
• 健康、医療な
ど継続的観察
が必要な場合
は仮名変更は
しない
更新
頻度
大
• データごと
仮名変更
• 同一人のデー
タであると分
からない。個
人識別性 低
い
同じ
70.8
無名化
1レコードの長さに関する留意点
仮名
場所1
場所2
場所3
…
場所1
場所2
場所3
…
A123 港区
渋谷
麻布
…
港区
渋谷
麻布
…
A123 お台場
豊洲
新橋
…
お台場
豊洲
新橋
…
A123 …
…
….
….
…
…
….
….
A123 xy
yz
zw
…
xy
yz
zw
…
A123
• 仮名変更なし
• 個人識別性大
• 長期の滞在場
所が分かると
容易照合性あ
り
無名化
• 仮名消去しても長
期の滞在場所が分
かると容易照合性
あり
1行(1レコード)の情報も容易照合性が失われる程度に
短く切断する必要あり。
医療では継続性の価値が高い
• 頻繁な仮名変更は匿名化の強化に役立ちます
• が、データ主体である個人の継続的な個人デー
タが重要である場合には、データの価値を損な
います。
– 例えば、医療データにおいては、特定の個人の医療
データあるいは健康データを継続的に収集し、分析
することによって病気を特定したり、処方薬を選定し
たりすることが効果的あるいは必要です。
– とはいえ、医療関係者も仮名の変更を全く拒否して
いるわけではないらしい。
– 疾病毎など変更しても役立つケースあり
仮名更新頻度とデータ利用可値の関係
• 仮名の更新頻度とデータ利用可値は下の図のよう
な関係があります。
• ただし、応用分野によって更新頻度が高くてもそこ
そこの価値がある場合もあります。
• 次のスライドに簡単に思いつくケーススタディをまと
めてみました。
大雑把ですが、各色の例は
交通
購買
医療
利用価値
更新頻度
更新なし
低い
高い
1データ毎更新
情報カテゴリー 仮名の更新頻度
利用価値
医療情報
更新なし
患者個人の長期病歴や生活習慣とかか
る病気の関係を分析できる
更新あり
個人の追跡調査できず。ただし、短期間
の流行把握は可能
更新なし
個人ID収集も同意あり個人の車の状態
を把握して修理アドバイスや運転癖の指
摘できる
運転履歴
個人ID収集も同意なし車と運転癖との
関連のデータ分析
情報カテゴリー
仮名の更新頻度
利用価値
低頻度
交通流の長期的傾向把握(都市設計など
に使える)
1ヶ月単位くらいだと、曜日毎の交通流把
握が可能で、交通規制などに役立つかも
しれない
短い時間の間の交通流の把握のみ
運転履歴
高頻度
更新なし
購買履歴
個人ID収集も同意あり行動ターゲッティ
ング広告
個人ID収集も同意なし不明
低頻度
個人の長期間にわたる購買傾向。例えば
春にXを買った人は夏にYを買う傾向があ
るというようなデータマイニング
高頻度
個人の短期的な購買傾向把握
1データ毎に更新
特定の品物の売れ行き調査
仮名化でできることは?
• 前のスライドの例にあるように、仮名化データでできる
ことはおおよそ統計処理
• 当然、個人のプロファイリングにも使えない
– プロファイルの類型をデータマイニングして統計データと
みなし、別のところから得た個人情報と照合してターゲッ
ト広告は可能か?
• 一度、統計情報化はされているわけだが
– 個人情報保護委員会が決めるのかな
– プロファイリングそのものをしたいときには、やっぱり同意
を得て、個人情報そのものを使うしか。
– 仮名化されたデータのトレーサビリティはかなり難しい。ト
レーサビリティは名簿屋対策だが、名簿屋以外への負担
が大きい。その負担を立法者は意識していただろうか。。。