プロ野球選手の年俸のヘドニック分析 回帰分析の実例

プロ野球選手
プロ野球選手の
野球選手の年俸の
年俸のヘドニック分析
ヘドニック分析
回帰分析の実例(
回帰分析の実例(2
の実例(2)記述統計の範囲内で
村尾博
青森公立大学
更新日:2013 年 11 月 28 日
この資料はプロ野球選手の年俸に関するヘドニック価格モデルを用い、回帰分析の実例を
紹介するものである。既に述べたことの繰り返しになるが、推測統計を学んでいない学生
を対象とし、したがって記述統計の範囲内に限定した回帰分析になっている。具体的には
係数推定値の「解釈」は行うが、異なった係数推定値に関する「比較」「評価」はしない。
係数推定値の比較や評価は推測統計(確率)の知識が必要になってくる。
この資料はコンピュータを使って行う演習のための「問題兼解答用紙」に解答を書いた内
容になっている。
「統計的な有意性」など、一部に推測統計の用語が現れてくるが、それら
は無視しなさい。また、この資料のデータは、ある学生が卒業論文のために収集し、その
学生の同意を得て入手したものである。したがって、この資料は卒業論文の一例を紹介す
るといった意味合いもある。
--------------------------------------------------------------------------------------------------------------------演習X(野球年俸)
問題兼解答用紙
青森公立大学
フリガナ:
XXXX年XX月XX日
氏名:
学籍番号:
クラス: 村尾クラス
注意事項
(1) これと同じ内容のファイルをダウンロードし、コンピュータを使って解答等を書くことになる。
(2) 解答のための空白がある場合は、指定された空白に解答を書くこと。
(3) 解答のための空白が ? で用意されている場合は、 ? に代えて適切な数値や語句をタイプする
こと。数値の場合は数値の意味を考え、適当なところで四捨五入しなさい。
(4) 解答の選択肢が与えられている場合は、ひとつの選択肢を選ぶこと。
例えば、(選択肢1 | 選択肢2 | 選択肢3) といった形で選択肢2を選んだことを明示する
1
こと。選ばない選択肢は削除し、選んだ選択肢だけを残すようにしても良い。要はどれを選ん
だかが明確であれば良い。
(5) 図または表を挿入することが求められている場合は指定された空白に挿入すること。必要なら
ば図や表の大きさを適切なサイズに調整しなさい。
-----------------------------------------------------------------------------1. はじめに
(1) ここではプロ野球選手の年俸に関する次の線形回帰モデルを考える。
k
log Yi = β 1 +
∑β
j
X ji + u i
j =2
ただし、 log Yi は選手 i の年俸 Yi の自然対数、 X ji ( j = 2, 3,⋯ , k ) は選手 i の属性からなる説明
変数、 u i は回帰の誤差項(撹乱項)、 β j ( j = 1, 2,3,⋯ , k ) は回帰係数である。このような内容にお
ける説明変数としては、プロ野球における経験の長さ、出場数、打率、ホームラン数、出塁数、守
備位置などが考えられる。説明変数として何を使うかは後ほど示す。
守備位置や球団などの質的情報は、ダミー変数を使ってデジタル化することは説明するまでもな
いであろう。
出場数・打率・ホームラン数・出塁数などの実績が同じであっても、「属する球団によって年俸が大
きく異なるのか」「守備位置によって年俸が大きく異なるのか」といった疑問は、興味深い調査ポイ
ントであるが、それらは仮説検定の範疇になってくる。つまり、推測統計の範疇になってくる。ここで
は記述統計に限定することから、仮説検定の話は含めない。
(2) ここで述べているようなモデルは、ある財(野球選手)に見られる価格(年俸)の差異
を財の様々な属性で説明する特徴があり、
「ヘドニック価格モデル」(hedonic pricing model)
と呼ばれるタイプになる。ヘドニック価格モデルの適用例は、
・労働者の労働所得を労働者の属性で説明する
・住宅の価格を住宅の属性で説明する
・自動車の価格を自動車の属性で説明する
といった実証的な研究で多く見られる。
ひとつの財の価格がどのように決定されるのかに関する価格決定モデルとしては、財の需
要と供給とのバランスから価格が決定されるとする「需要・供給モデル」が有名である。
需要・供給モデルは完全競争の仮定から成り立っており、そこには「財の同質性」の仮定
2
が含まれている。したがって需要・供給モデルは、完全競争の状態に近く、したがって「一財
一価」と考えて良いような市場に適している。住宅価格のように価格に大きな差異が見られる場合
でも、住宅全般の「価格レベル」に興味がある場合は「一財一価」となることから、需要・供給モデル
が利用できる。しかし、異なった住宅の間に見られる価格の差異を説明するのに需要・供
給モデルは適していない。「適していない」というよりも、
「出来ない」といった表現の方
が正しい。
住宅のように差別化された財の価格がどのように決定されるのかに関し、理論的な価格決
定モデルが求められる。そこで「財の同質性」の仮定に代わり、
「財は多次元の属性を持っ
ている」といった仮定を用いると、
「財の価格は財の属性の関数になる」といった理論的な
結果が導出できる。それは「ヘドニック価格モデル」や「ヘドニック価格関数」と呼ばれ
る。そしてヘドニック価格モデルを使った分析は「ヘドニック価格分析」や「ヘドニック
分析」と呼ばれる。このタイプのモデルは自然の「価値」を計測するような分析にも使わ
れており、そのような場合は「価格」の付かない名前「ヘドニック分析」や「ヘドニック
評価法」が使われていると言って良いであろう。
需要・供給モデルが「同質な財の価格決定モデル」であるのに対し、ヘドニック価格モデ
ルは「差別化された財の価格決定モデル」と位置づけることができる。したがってヘドニ
ック価格モデルは、需要・供給モデルと共に、ひとつの財に関する価格決定モデルとして
重要である。
ヘドニック価格モデルの参考文献を書いておく。
Lancaster, K. J. (1966) “A New Approach to Consumer Theory”, Journal of Political
Economy, Vol. 74, pp. 132-157.
Rosen, S. (1974) “Hedonic Prices and Implicit Markets: Product Differentiation in Pure
Competition,” Journal of Political Economy, Vol. 82, No. 1, pp. 34-55.
2.準備と追加説明
準備と追加説明
(1)通常のファイル保管場所から次のファイルをダウンロードする。
ファイル名
説 明
演習X_野球年俸.doc
Microsoft Wordのファイルであり、これと同じ内容になっている。
Microsoft Wordを使って自分の解答等をこのファイルに書くことにな
る。
baseball_JP.xls
Microsoft Excelのファイルであり、データを含む。
3
graph_wd.tsp
TSPプログラムであり、データはプログラムの後に含めている。回帰
モデルを通常最小2乗法(OLS)で推定し、グラフを出力する。それは
経験年数と年俸との関係を示すグラフである。
(2)データは日本プロ野球球団(12 球団)に属する野球選手 144 人の横断面データであり、
投手を除く一軍選手が含まれている。次の変数に関するデータを様々な入手源から得た。
No.
変数名
説 明
1
team
球団名
2
player
選手名
3
salary
年俸(円)
(2007 年)
4
games
出場試合数 “games played”(2006 年、以下同様)
5
atbats
打席数 “at bats”
6
runs
得点数 “runs scored”
7
hits
安打数
8
doubles
二塁打数
9
triples
三塁打数
10
hruns
ホームラン数 “home runs”
11
rbis
打点数“runs batted in”
12
sbases
盗塁数 “stolen bases”
13
bavg
打率 “batting average”
14
years
プロ野球球団での経験年数
15
bb_cum
生涯の四球数
16
bb
17
so_cum
18
so
19
allstar_cum
20
allstar
オールスター出場率(%)allstar=(allstar_cum/years)*100
21
frstbase
一塁手であれば1の値を取るダミー変数“first base”
1年あたりの四球数 bb = bb_cum/years, “base on balls”
生涯の三振数
1年あたりの三振数 so = so_cum/years, “strike out”
生涯のオールスター出場回数
(以下同様)
22
scndbase
二塁手であれば1 “second base”
23
shrtstop
ショートであれば1 “shortstop”
24
thrdbase
三塁手であれば1 “third base”
25
outfield
外野手であれば1
26
catcher
捕手であれば1
4
27
central
セ・リーグであれば1
28
chunichi
中日ドラゴンであれば1(2007 年、以下同様)
29
hanshin
阪神タイガーズであれば1
30
yakult
東京ヤクルトスワローズ
31
giants
読売ジャイアンツであれば1
32
hiroshima
広島東洋カープであれば1
33
yokohama
横浜ベイスターズであれば1
34
nihon_ham
北海道日本ハムファイターズであれば1
35
seibu
36
soft_bank
37
lotte
千葉ロッテマリーンズであれば1
38
orix
オリックス・バファローズであれば1
39
rakuten
西武ライオンズであれば1
福岡ソフトバンクホークスであれば1
東北楽天ゴールデンイーグルスであれば1
年俸は 2007 年のデータであり、次の本から得た。
『プロ野球選手データ名鑑 2007』宝島社(2007 年 3 月 16 日発行、ISBN 978-4-7966-5647-4)
一方、野球選手の統計データは 2006 年のデータであり、次のウェブサイトから入手した。
1
「日本野球機構オフィシャルサイト」
(http://www.npb.or.jp/)
2
「中日ドラゴンズ通算記録集」(http://www.tees.ne.jp/~mko502/)
3
「我らツバメ軍団」(http://www.swallows-fan.com/)
4
「横浜ベイスターズ記録サイトあと何?」
(http://www.kernelsupport.co.jp/atonan/index.html)
5
「Yahoo スポーツ・プロ野球」(http://baseball.yahoo.co.jp/npb/)
6
「Simplicity」(http://www.ne.jp/asahi/white-ball/simplicity/index.html)
7
「プロ野球データ管理室」(http://www.din.or.jp/~nakatomi/)
(3)このデータは、ある学生が卒業論文のために収集し、その学生の同意を得て入手した
ものである。
3.実行項目
(1) データの
データの基本統計値
基本統計値
5
観測データを数値で要約するといった意味で、解答欄に示されている要約値を報告しなさい。年
俸については単位が「万円」となるデータを用いて平均等を計算せよ。後ほど行う回帰分析のこと
を考えると、回帰分析に関わる全ての量的変数に関する要約が良いのかも知れないが、時間的な
制約から、解答欄に示されている 2 つの量的変数のみに限定する。
【解答欄】
変数
平均
標準偏差
最大値
最小値
年俸(万円)
9,595
12,154
65,000
800
経験年数(年)
8.9
4.9
21
1
(2) ヒストグラムの
ヒストグラムの作成
観測データをグラフで要約するといった意味で、次の 2 つのヒストグラムを作成しなさい。
・年俸(万円)のヒストグラム
・経験年数(年)のヒストグラム
表計算ソフト「エクセル」の「データ分析」に含まれている「ヒストグラム」機能を使えば作成できる。
年俸(万円)の階級は、5,000 万円間隔で次のようにする。
0 ≤ x < 5,000万円
5,000万円 ≤ x < 10,000万円
10,000万円 ≤ x < 15,000万円
⋮
70,000万円 ≤ x < 75,000万円
年棒が高くなるに従い、小さい階級幅から大きな階級幅へ変えるのが良いのであろうが、表計算ソ
フト「エクセル」の「ヒストグラム」機能では、柱の面積が度数を反映するようにならない。このようなこ
ともあり、階級幅は 5,000 万円間隔で一定にする。
一方、経験年数(年)の階級は、2 年間隔で次のようにする。
0≤ x<2
2≤ x<4
4≤ x<6
⋮
22 ≤ x < 24
いずれのヒストグラムにおいても、柱の間隔をゼロにすることを忘れないように。そしてヒストクラムの
横軸は
・年俸(万円)
・経験年数(年)
6
にする。完成した 2 つのヒストグラムを解答欄に貼り付けなさい。一般的に所得の分布は右に歪ん
でいることが知られている。野球選手の年俸の分布は、右に歪んでいるのであろうか。
【解答欄】
(年俸のヒストグラム)
(経験年数のヒストグラム)
7
(3) 散布図の
散布図の作成
年俸と経験年数との関係に関する現実をグラフに表示するといった意味で、年俸(万円)と経験年
数との散布図を作成し、解答欄に貼り付けなさい。表計算ソフト「エクセル」の「グラフ」に含まれて
いる「散布図」を使えば作成できる。ここでも年俸の単位は「万円」にする。グラフのタイトルは「野球
選手の年俸と経験年数の散布図」、横軸のラベルは「経験年数」、縦軸のラベルは「年俸(万円)」
にする。
【解答欄】
(4) 回帰モデル
回帰モデルの
モデルの推定
表計算ソフト「エクセル」の「回帰分析」機能を用い、冒頭の回帰モデルを推定する。従属変数は年
俸の自然対数(log_salary)であり、説明変数としては次の 7 個を用いる。便宜上、このモデルを
「モデル1」と呼ぶことにする。
・経験年数 (years)
・経験年数 2 乗項 (years_2pw)
・1年あたりの出場試合数 (games)
・1年あたりのホームラン数 (hruns)
・1年あたりの得点数 (runs)
・1年あたりの四球数 (bb)
・オールスター出場率(%)(allstar)
なお、オールスター出場率(%)は人気度を示す変数として用いている。その他の説明変数は説明
8
するまでもないであろう。年俸の自然対数(log_salary)は年俸(salary)から作るが、エクセルでは
「LN 関数」を使って行う。モデル1を推定し、その回帰出力の「通常報告セクション」を下の解答欄
に貼り付けよ。
【解答欄】
回帰統計
重相関 R
0.92522
重決定 R2
0.856031
補正 R2
0.848621
標準誤差
0.40095
観測数
144
分散分析表
自由度
変動
分散
回帰
7
129.9996
18.57137
残差
136
21.86352
0.160761
合計
143
151.8631
係数
標準誤差
t
観測された分散比
115.5215
P-値
切片
15.70706
0.140016
112.1808
6.5E-136
years
0.129203
0.025829
5.002261
1.72E-06
years_2pw
-0.00492
0.001239
-3.9715
0.000115
games
0.005643
0.001628
3.46679
0.000705
hruns
0.020709
0.005125
4.040967
8.86E-05
runs
0.003304
0.002328
1.419507
0.158039
bb
0.025553
0.003518
7.264032
2.64E-11
allstar
0.008195
0.002387
3.433121
0.000791
(5)推定結果の
推定結果の報告
モデル1の回帰出力に基づき、下の解答欄に示す情報を報告せよ。数値の意味を考え、適当
なところで四捨五入せよ。
【解答欄】
従属変数:野球選手の年俸(自然対数)
説明変数
係数推定値
定数項
15.707
(112.18)
9
経験年数 (years)
0.129
(5.00)
経験年数 2 乗項 (years_2pw)
-0.00492
(-3.97)
1年あたりの出場試合数 (games)
0.006
(3.47)
1年あたりのホームラン数 (hruns)
0.021
(4.04)
1年あたりの得点数 (runs)
0.003
(1.41)
1年あたりの四球数 (bb)
0.026
(7.26)
オールスター出場率(%)(allstar)
0.008
(3.43)
決定係数
0.86
重相関係数
0.93
自由度調整済み決定係数
0.85
データの大きさ
144
注)係数推定値の下に示すカッコ内の数値は、統計的な有意性(重要性)を表すt値である。
(6) 推定結果
推定結果の
結果の解釈
モデル1の推定結果を参照し、下の解答欄の情報を完成させなさい。なお、回帰出力において
−2
「.123E-02」といった結果が表示されていることがあるが、「.123E-02」は「 0.123 ×10 」を表す。
オールスター出場率の単位はパーセント(%)であることに留意しなさい。
【解答欄】
(A) 1年あたりの出場試合数が1回増えると、年俸は平均で 0.6% 増える傾向がある。
(B) 1年あたりのホームラン数が1本増えると、年俸は平均で 2.1% 増える傾向がある。
(C) 1年あたりの得点数が1点増えると、年俸は平均で 0.3% 増える傾向がある。
(D) オールスター出場率が 1%増えると、年俸は平均で 0.8% 増える傾向がある。
(E) 経 験 年 数 2 乗 項 の 係 数 推 定 値 が マ イ ナ ス で あ る こ と か ら 、 経 験 年 数 に 対 し て 年 俸
(log_salary )は(凹関数(上に凸)|凸関数(下に凸)
)になっていることが分かる。
したがって経験年数が増えるに従って年俸が(増え|減り)
、やがて(最高点|最低点)
に達し、その後は年俸が(減る|増える)ことが読み取れる。
(7)経験年数と
経験年数と年俸と
年俸との関係
次は「GiveWin2」を起動して TSP プログラム「graph_wd.tsp」を開き、プログラムを実行
10
しなさい。この TSP プログラムは経験年数(years)と年俸( log Yˆ )との関係を示すグラフ
を出力する。そのグラフを下の解答欄に貼り付けなさい。当然のことながら、このような
グラフを描く場合は、経験年数を除く他の説明変数は全て固定する。具体的には平均値の
ところに固定する。その状態において、経験年数の観測値に対応する従属変数の予測値
( log Yˆi )を計算する。そして経験年数の観測値と従属変数の予測値との関係を描けば、想
定しているようなグラフが得られる。グラフを見て次の点を確認しなさい。
(a) 経験年数に対して年俸は凹関数(上に凸)になっており、経験年数が増えるに従っ
て年俸が増え、やがてピークに達し、その後は年俸が減る。
(b)年俸がピークに達するのは経験年数が 13 年ぐらいのときである。
なお、「 log Yˆ 」対「 Yˆ 」はスケール(数値)が異なるものの、上下動の変化や最高点は同じ
になる。したがって最高点を求める場面では「自然対数」対「原数値」といったスケール
の違いに関して神経質になる必要はない。
【解答欄】
(野球選手の年俸と経験年数との関係を表すグラフ)
11
付録:モデルの改良
付録:モデルの改良
自分が良いと思う説明変数を選び、より良い回帰モデルを作ってみよう。だたし、従属変
数は年俸 Yi の自然対数 log Yi にする。より良いモデルとは、次の 3 点を満たすものとする。
(1) 自由度修正済み決定係数が「モデル1」よりも良いこと。
(2) 係数推定値の符号は理論ないしは常識と整合的であること。
(3 全ての説明変数は統計的に有意であること。
多重共線性(説明変数の組合せの問題)など、モデルを選ぶ際に考慮すべきチェック項目は他
にもあるが、ここでは上の 3 点に限定する。より良い回帰モデルを作り、その回帰出力の「通
常報告セクション」を下の解答欄に貼り付けよ。
【解答欄】
回帰統計
重相関 R
0.930654
重決定 R2
0.866117
補正 R2
0.860254
標準誤差
0.385237
観測数
144
分散分析表
自由度
変動
分散
回帰
6
131.5313
21.92188
残差
137
20.33184
0.148408
合計
143
151.8631
係数
標準誤差
t
観測された分散
比
147.714
P-値
切片
15.85478
0.121517
130.4741
1.4E-145
years
0.1326
0.024241
5.470011
2.07E-07
-0.00473
0.001182
-4.00552
0.000101
0.01774
0.004856
3.653159
0.000368
bb
0.024268
0.003402
7.132605
5.17E-11
allstar
0.007959
0.002278
3.494638
0.00064
hits
0.006373
0.000932
6.837209
2.44E-10
years_2pw
hruns
おわり
12