Stata+α 「散布図」

Stata+α
「散布図」
2014 年 4 月
今月ご紹介する内容は Stata13 の PDF マニュアル[G]Graphics にある graph twoway
scatter の内容に復習用の素材を追加したものです。今月は操作する内容が比較的多いので、
学習のポイントを先にまとめておきます。
学習のポイント)
■関数 ceil()
■ブール演算
■グラフスキーム
■対数軸
■軸目盛のカスタムルール
■グリッド線
■Variables Manger ダイアログ
サンプルデータはすべて Stata をインストールした PC 内部や、Stata 社のウェブサイトに
用意されているものを利用します。
1 月の「ヒトストグラム」
、2 月の「ボックスプロット」を読んでから、今回の「散布図」
に取り組んでください(重複する項目は解説しません)。グラフの作成については基本的に、
コマンドの直接入力ではなく、メニュー操作による方法をご紹介します。
次のコマンドでサンプルデータを取り込み、codebook でデータの内容を確認します。
.webuse uslifeexp2,clear
.codebook
散布図の作成ならば、Scatter ですが、最初にシンボルを線で接続した Connected のグラフ
を作成してみましょう。
1
図 1.グラフ作成のダイアログ
40
45
life expectancy
50
55
60
65
次のようなグラフができたでしょうか。
1900
1910
1920
Year
1930
1940
図 2.データ点をつないだグラフ
少しおさらいをしましょう。このデータは時系列に調査した平均寿命ですが、これを調査
年=偶数または奇数の 2 つに分けて、あたかも異なる 2 つの時系列データであるかのような
図 3 を作ってみましょう。
2
65
60
life expectancy
50
55
45
40
1900
1910
1920
Year
odd
1930
1940
even
図 3.偶数/奇数年データのグラフ
データを 2 つに分けるやり方はいくつか考えられます。ここで次のコマンドを利用しまし
た。
.g x=year/2
.g k=ceil(x)
.g mark=(x==k)
最初に西暦の year を 2 で割って変数 x を作成します。次に関数 ceil で x から、変数 k を作
成します。もし、ceil(950.5)と
いうパターンなら k は 951 と
なります。つまり、ceil()は x
よりも大きく、一番近い整数を
返す関数です。3 番目のコマン
ドは、x と k が等しい(偶数の)
場合に mark に 1 を、不一致(奇
数)の場合、0 を代入します(ブ
ール演算)。ここまで準備がで
きたら、次のように設定してグ
ラフを作成します。
図 4.図 3 のグラフを作成するためのダイアログの設定
3
ポイントは Plot 1 および Plot 2 のダイアログで if の条件タブに mark==0 と mark==1 を
設定することです。このように操作すると、図 3 のグラフを作成できます。
次は 2 枚のグラフを重ねるのではなく、左右に並べた図 5 のグラフを作成してみましょう。
まずはグラフ作成のダイアログでリセットボタンをクリックしてください。リセットボタ
ンは「ボックスプロット」の号で解説済です。
1
60
50
40
life expectancy
70
0
1900
1910
1920
1930
19401900
1910
1920
Year
Graphs by mark
図 5.mark で 2 つに分けたグラフ
今度はグラフ作成の By のタブを利用します。
図 6.By タブの利用
4
1930
1940
図 6 のダイアログはグラフ全体に対する効果を設定します。
さて、ここからは散布図の作成と、グラフの編集テクニックについて解説します。
スキームの利用
最初に紹介する scheme(スキーム)はグラフのデザインテンプレートを利用する機能です。
グラフウィンドウが開いていたら、それを閉じてください。そして、改めてグラフ作成の
ダイアログを開きます。既存の設定が残っていたらリセットボタンをクリックしてクリア
してください。
改めて、次のような散布図作成のダイアログを表示します。Plot1 のタブで Y 変数に le、X
変数に year を同様に選択します。次に Overall のタブを表示し、Scheme の項目で
Economist を選択します。
図 7.Overall タブで Scheme を選択する
OK ボタンをクリックし、続けて Submit ボタン
65
をクリックすると、左のようなグラフを作成し
ます。
55
50
45
40
1900
1910
1920
Year
1930
1940
life expectancy
60
Scheme オプションとして Economist を用いる
と、英国エコノミスト誌のグラフデザインを用
いてグラフを表現します。いろいろなスキーム
が用意されていますので、試してみましょう。
さらに、「ボックスプロット」の号で解説した
Graph Editor の Object Browser を利用して次
のような情報を追加してください。
図 8.Economist Scheme
5
タイトル:Scatterplot
サブタイトル:Life expectancy at birth, U.S.
ノート:1
キャプション:Source:National Vital Statistics Report, Vol.50 No.6
図 9.グラフエディタにおけるタイトルの入力
Text の項目に文字列を入力したら、必ず
1
Scatterplot
Enter キーを押します。結果として次の
Life expectancy at birth, U.S.
ようなグラフになります。
65
図 7 でご覧いただいたようにスキームに
55
50
life expectancy
60
45
1900
1910
1920
Year
1930
40
1940
Source:National Vital Statistics Report, Vol.50 No.6
図 10.スキームを活用したグラフ
6
は幾つかの種類が用意されていますので、
是非、お試しください。
軸のカスタマイズ
最後に軸をカスタマイズするテクニックを紹介します。目的は各国の一人当たり GNP と平
55
60
Life expectancy at birth
65
70
75
80
均寿命の関係について次のような散布図を作ることです。
.5
2.5
10
GNP per capita,thousands of dollars
20
30 40
図 11.カスタマイズした散布図
最初に新しいデータの読み込みます。
.webuse lifeexp,clear
80
そしてメニュー操作で散布図を作成します。
X 軸に変数 gnppc、Y
75
軸に平均寿命 lexp を設
Life expectancy at birth
65
70
定し、散布図を作成し
55
60
ます。
0
10000
20000
GNP per capita
30000
40000
図 12. 各国の一人当たり GNP と平均寿命の散布図
7
10000 未満のデータ部が密集していますので、X 軸を対数目盛に変更します。同じように操
作して次のダイアログで Axis scale properties のボタンをクリックします。
図 13.Twoway ダイアログ
図 14 のスケールを調整するダイアログで対数スケールの利用を選択して Accept ボタンを
クリックします。
図 14. 軸スケールのプロパティダイアログ
データの分布は見やすくなりましたが、対数軸目盛りの左側の数値が重なってしましまし
た。
8
80
75
Life expectancy at birth
65
70
60
55
10000
2000030000
40000
GNP per capita
図 15. 対数軸に変更した散布図
そこで、次に示す編集方針に則って、グラフをカスタマイズします。
ステップ 1)そもそも GNP の桁数が多いので、新しい変数 gnp000 を作成する。つまり、
GNP を 1000 で割って桁数を調整する。
ステップ 2)X 軸のラベルを現状の 10000,20000,30000,40000 から、0.5,2.5,10,20,30,40 に
変更する。
ステップ 3)X 軸にグリッドライン(縦線)を引く。
ステップ 4)gnp000 に「GNP per capita, thousands of dollars」というラベルを付けてグラ
フの見栄えを整える。
それでは、早速、このステップにしたがってグラフを加工していきます。
ステップ 1)次のコマンドで新しい変数 gnp000 を作成します。
.g gnp000=gnppc/1000
ステップ 2)グラフ作成のダイアログで変数を gnp000 に変更します。
9
図 16.変数を変更する
そして、前出の Twoway のダイアログ(図 13)で Major tick/label properties のボタンをク
リックします。ダイアログに目的の情報(X 値)である.5 2.5 10 20 30 40 という情報をスペー
ス区切りで入力します。
図 17. 軸目盛りのカスタマイズオプション
ステップ 3)同じダイアログの Grid タブを利用して、X 軸にグリッドライン(縦線)を引きま
す。
図 18.グリッドラインの設定ダイアログ
10
Two-way のダイアログで OK ボタンをクリックしてグラフ作成のダイアログを一度、閉じ
ます。
ステップ 4)図 13 の Twoway ダイアログを利用して、X 軸タイトルに GNP per capita,
thousands of dollars と表示します。次に示すツールバーで Variables Manager のアイコン
をクリックします。
図 19.Variables Manager ダイアログ
Variable Manager のダイアログの左側のリストで変数 gnp000 を選択し、右側の Label テ
キストボックスに目的の情報を入力します。
図 20.Variables Manager ダイアログ
このように設定し、改めて散布図を作成しますと、図 11 のグラフが作成できます。
データのインポートから始まり、一変量についてのヒストグラム、ボックスプロット、そ
して二変量による散布図と進んできました。次回は相関というテーマでお届けしたいと思
います。
■
11