丸山の講演ファイル pdf - CSIS

Outline
R で空間統計解析
丸山 祐造
東京大学
空間情報科学研究センター
2007.07.18
R は統計ソフトウェア
I
I
I
I
以前は SAS や SPSS を始めとする商用統計ソ
フトウェアの独壇場だった
フリーで高性能の R の登場で大きく変わりつ
つある.
まともな統計学者は,新しい手法に関する論
文を書くと同時に R のコードを配る.あるい
はまとまった形で,パッケージ(後述)とし
て公開する.
Stanford の Friedman 教授 決定木 (CART) の
発案者として,データマイニング業界でも
有名
R の開発体制
R
R
R による統計解析
R による統計解析
R による空間統計解析
R による空間統計解析
それぞれについて,完全な説明は不可能なので,
聴衆の皆さんが R を使いたいと,思えるような例
や図をお見せしたい.
比較
R の歴史
競合するソフトウェアの特徴
I プログラム言語 C, Fortran など
I
I
I
表計算ソフト EXCEL
I
I
I
I
I
I
I
GUI の操作,手軽にグラフィックス
データ加工やプログラム作成には不向き
統計解析ソフト SAS,SPSS など
I
I
計算速度が速い
プログラム作成が簡単でない
I
データ加工,プログラムが容易.
グラフィックスも簡単.GUI.
非常に高価
R は??
R の動くプラットフォーム
I
I
I
R の特徴
I
I
I
I
I
I
一流の統計学者のグループによる急速な改良
と拡張
開発を支える公式団体 R Foundation
第 2.3 版で日本語 (国際) 化.現在は 2.5 版
開発当初からできるだけ S-PLUS 互換を目
指す
現在では S-PLUS に十分匹敵,一部は凌駕す
る機能を持つ
I
I
I
I
I
I
Unix, Linux, Free BSD 等の Unix-like OS
Microsoft Windows
Mac OS X
その他.zaurus SL シリーズなど
基本的には CUI
アドオンパッケージ Rcmd により GUI モー
ド でも実行可能
1980 年代 ベル研究所の Chambers 等が対話
的な統計解析環境として S 言語を開発
1988 年度の米国計算機学会 ソフトウェア部
門賞受賞
S-PLUS 等の商用ソフトとして世界の統計家・
ユーザーが使用
1991 年 ニュージーランドの統計学者 R.
Ihaka, R. Gentleman が講義用にスキーム言語
のアイデアを用いた S 言語の独自な実装
1995 年,GNU GPL 条項の下で公開,フリー.
現在までに,全世界の統計家とユーザの熱狂
的な支持を獲得
I
I
I
R には本体だけでも多様な標準的統計手法を
実装
システムそのものに,アドオンパッケージと
呼ばれるボランティアによる特定手法用の追
加機能を開発,利用するための完備した機構
が用意
社会科学,機械学習,遺伝学,多変量解析,
ファイナンス,環境科学,空間統計学,計量
経済学など
現在の公開アドオンパッケージ数は約 1100.
パッケージは容易に R 本体に追加でき,本来
の機能と区別無しに使える
R の特徴
I
I
I
I
統計解析以外にも,数値解析,線形代数,組
合せ論,データ処理,文字列処理などの関数
がある.
インタプリタ言語.しかし,内部で C や
Fortran が動いており,Excel より速いのはも
ちろん,商用の Mathematica などよりも計算
が速い.
出版物レベルの高度なグラフィックス機能
pdf, eps, jpeg, png, windows metafile, bmp
解析結果を直ちにグラフィックス表示でき,
対話的にデータ解析を行える
R の特徴
I
I
I
I
I
貧富の差無く使え,高機能・汎用性がある唯
一の本格的な統計システム
学校・自宅で制限無く実習でき,社会でも使
えるシステム
統計的手法の共通基盤,新しい統計手法がま
ず実装されるワークベンチ
商用ソフトでは不可能なマイナーな手法の
実装
R を前提とした統計本の出版ラッシュ. 日本
でも既に 10 冊以上.
約 10 年前の文科 II 類の学生のデータ
R に関する情報サイト
I
I
一次元のデータ
I
R
R による統計解析
R による空間統計解析
I
あなたの身長は何センチですか?
I
あなたの体重は何キロですか?
I
あなたの父親の身長は何センチですか?
I
I
I
あなたの母親の身長は何センチですか?
I
通学時間は片道何分ですか?
I
アルバイトは週平均何時間ぐらいしていますか?
I
テレビを一日平均何分ぐらい見ますか?
I
I
煙草をすいますか? 1:はい, 0:いいえ
I
など,17 項目.n = 324
二次元以上のデータ
I
I
I
I
I
各変数毎の分布だけでなく,変数間の関係が
重要
基本は散布図
関係の強さの定量的な指標が相関係数
P
(x − x̄)(yi − ȳ )
pP i
P
(xi − x̄)2 (yi − ȳ )2
3 変数以上でも,2 変数の相関関係の組合せ
を考えるのが基本
R の pairs を使うと,非常にわかりやすい
回帰分析
I
I
I
まず説明変数が一つの単回帰分析
統計局統計センターにある社会・人口統計体
系のデータ
I
I
I
I
Gakureki 最終学歴が大学・大学院卒の者の割合
Shushou 合計特殊出生率
県別のデータで単回帰分析
I
Shushou = a + b × Gakureki + 確率的な誤差
データの様子を把握する基本は,度数分布,
ヒストグラム
より定量的に,
,
,
平均 どのあたりを中心に分布しているか
分散 ばらつき傾向.散らばっていれば大
きい.
Pn
Pn
(xi − x̄)2
i=1 xi
, 分散 i=1
平均 x̄ =
n
n
平均と分散だけだと集約しすぎ?
alternative (最小値,下側 25%点,中央値,
上側 25%点,最大値)
グラフに描いたものが箱ひげ図
重回帰分析
I
I
公式サイト The R Project for Statistical
Computing
http://www.r-project.org/
R 本体,貢献パッケージ,公式マニュアル
等,開発者,ユーザー向けの三つの ML によ
る活発な情報交換
日本ユーザーサイト RjpWiki
http://www.okada.jp.org/RWiki/
豊富な Tips 集,R に関する様々な日本語情
報,日本語マニュアル等,リンク集,Q&A
コーナー
I
興味のある変数 y を,y に関係する変数(説
明変数)を用いて言い当てたい,あるいは予
測したい.
関係するかどうかは,事前に分からないの
で,関係しそうなものもそうでないものも,
使えそうなものは全て候補に加える.
それらを x1 , . . . , xp とする
線形和として言い当てる(予測する)
ŷ = a0 + a1 x1 + · · · + ap xp
重回帰分析 変数選択の重要性
ベストモデルの選択方法
ベストモデルの選択方法
I
I
I
I
役に立たない変数を含めても,役に立つ変数
が含まれなくても性能が悪くなる.
役に立つ変数だけのベストの組み合わせを選
びたい.
つまり,役に立たない変数を除いて
ŷ = a0 + a2x2 + a7x7 + · · · + ap−1xp−1
I
I
submodel は 2 個ある.p = 10 だと
210 = 1024
例えば,
p
n log(残差平方和) + 2 × 説明変数の個数
I
のようなモデルを作るのが目的
各サブモデルに一次元の量を対応させて,そ
の大小でモデルの良さを比較出来れば,嬉
しい.
I
I
I
GIS 業界への最近の貢献
R
I
R による統計解析
I
I
R による空間統計解析
I
GIS 業界への最近の貢献
I
I
I
同じく牧山さん シェープファイル ⇒google
earth の kml 形式に変換する R のプログラムを
Rjpwiki に投稿
有料では複数のソフトがあるが,フリーでは
R だけ(らしい)
牧山さん & なかまさん
Google や Yahoo の MapAPI を用いたジオコー
ディング
シェープファイル(ESRI Shapefile)は,ESRI
社の提唱した,公開されたベクタデータの業
界標準フォーマット
ESRI・ERDAS 製品はもちろん,多くの GIS ソ
フトウェアで利用が可能
無料のソフトを用いてシェープファイルの編
集・加工をすることは(一部のソフトを除い
て)できない
R では shapefiles,maptools を用いてシェープ
ファイルの編集・加工をすることが可能
R の空間統計用パッケージ
当初,複数の空間統計解析用のパッケージが独立
に開発されていたが,2003 年から Roger Bivand さ
んや Edzer Pebesma さんを中心にまとまった.
I 空間データ用の共通のクラス sp やそのメ
ソッド
I シェープファイルの読み書き
I GIS や OGR/GDAL と密な連携.
I 既存の空間統計解析用パッケージとの連携
(geoR/geoRglm, gstat, spatstat, splancs,
DCluster, spdep, ...)
http://www.r-project.org/Rgeo
BIC (Bayesian Criterion)
n log(残差平方和) + log(サンプル数) × 説明変数の個数
ŷ = a0 + a2x2 + a7 x7
I
AIC (the Akaike Information Criterion)
AIC や BIC は小さい方が望ましい指標
残差平方和は説明変数の個数が増えると,小
さくなる
R では,関数 step を使って容易に AIC や BIC
に基づく説明変数の選択が可能.
GIS 業界への最近の貢献
I
I
牧山さん(Rjpwiki でのペンネームは okinawa)
2005 年に,ESRIJapan が公開している全国市
区町村境界データの県別の切り出しを行い,
Rjpwiki に置いた(もちろん ESRI の許可を得
ている)
もちろん最近では,国土数値情報データ変換
ツールなどで街区レベル位置参照情報データ
で自分の好みの地域の shapefile が作成できる
が,先駆的役割を果たしたと言える.
空間予測 クリギング
I
I
興味の対象となる変数 y の観測されていない
地点での値を予測空間データを分析する場合
の大きな目的の一つ
興味の対象となる変数の観測値,観測地点間
の位置関係,および観測地点と観測しようと
する地点との位置関係などを考慮に入れて,
興味の対象となる変数の値を予測 クリギ
ング
クリギング
I
I
I
I
クリギング
n 個の観測地点 u1, . . . , un で予測の対象となる
変数についての観測値が得られている.
それを y1 , . . . , yn とする
未観測地点 u0 での予測の対象となる変数 y の
値を言い当てたい.⇒ 空間予測
予測量は,通常 y1 から yn の線形和
a1 y 1 + · · · + a n y n
I
最小二乗法のような基準で,a1, . . . , an を最
適化する.
I
a1 , . . . , an は,
I
I
I
I
I
I
まとめ
観測地点 u1 , . . . un の間の位置関係
観測地点 u1 , . . . un と未観測地点 u0 の位置関係
空間相関として与える統計モデル
推定方法,最尤法 or · · ·
説明変数があれば,説明変数
などによって決まる.
u0 を対象となる領域全体を動かすと,予測面
が出来る.
I
I
I
R はフリーであり,OS を選ばず自由に自分の
手近にあるパソコンにインストール出来る.
Rjpwiki などに,日本語の情報があり,簡単な
ことはすぐに出来るようになる.
是非使って下さい!
!