野球データにおける統計解析 - 数理情報学科

野球データにおける統計解析
龍谷大学 理工学部
数理情報学科
T020009 乾 信太郎
研究内容
●
「メジャーリーグの数理科学 上・下」J.アルバート/J.ベネット著
(シュプリンガー・フェアラーク東京株式会社 出版)
に書かれている概念に基づいて日本のプロ野球データについて
統計解析を行った。
●
統計解析によって得られる図をOpenGLで作成した。
1.出塁率の予測
選手個人の出塁率成績について解析する
個人出塁率の散布図を作成
最小2乗法で
横軸に2003年の出塁率,
最適な直線
縦軸に2004年の出塁率
を求める
2005年の予測出塁率
最適な直線を推測式として
と実際の結果を比較,
採用,2004年の出塁率か
推測式を評価
ら2005年の出塁率を予測
出塁率散布図(横軸:2003年,縦軸:2004年)
2003年
松中選手 0.429
城島選手 0.399
新井選手 0.299
2004年
0.464
0.432
0.340
出塁率最適直線(横軸:2003年,縦軸:2004年)
2005年の出塁率の予測
(横軸:2004年,縦軸:2005年)
2004
2005
実績値 推定値
小笠原選手 0.449 0.4258
多 村選手
0.363 0.3659
今 江選手
0.291 0.3185
2005年の出塁率の予測
(横軸:2004年,縦軸:2005年)
2005
推定値
小笠原選手 0.4258
多 村選手
0.3659
今 江選手
0.3185
2005
実績値
0.362
0.369
0.353
推測値の評価
(横軸:2004年,縦軸:2005年)
推測値が十分妥当であった
か、そうでなかったかを判
断するための基準として,
RMSE(平均二乗平方根誤
差)を求める。
RMSE = 0.0192
散布図上にプロットされ
ている40名の選手の中
で約半分の23名の選手が
RMSE~-RMSEの範囲内
にプロットされている。
2.チーム打撃成績とチーム得点
チーム打撃成績(出塁率,長打率
打率)と平均得点から散布図作成
横軸:それぞれの打撃成績
縦軸:平均得点
最小2乗法でそれぞ
れの最適な直線
を求める
推測式から得られる値と
実際のデータを比較し,
誤差を検討する
チーム打率と平均得点
(横軸:チーム打率,縦軸:平均得点)
平
均
得
点
チーム打率
チーム出塁率と平均得点
(横軸:チーム出塁率,縦軸:平均得点)
平
均
得
点
チーム出塁率
チーム長打率と平均得点
(横軸:チーム長打率,縦軸:平均得点)
平
均
得
点
チーム長打率
誤差を比較する
(縦軸:誤差値)
打率の箱ひげ図は他の箱ひげ図に比べて、最高値と最低値との差
が大きく、箱が極端に大きい。
●
●
出塁率と長打率の箱ひげ図では、若干出塁率のほうが最大値と最
小値との差、箱が大きい。
研究を終えて
●
野球のデータを統計学に用いることによって,統計学について
学習することができた。
●
さまざまなグラフをつくることによってVisualC++、OpenGL
の理解を深めることが出来た。
●
統計データを用いた推測式として、ある程度の予測をたてるこ
とはできたが、優良と言える推測式は作ることはできなかっ
た。