野球データにおける統計解析 龍谷大学 理工学部 数理情報学科 T020009 乾 信太郎 研究内容 ● 「メジャーリーグの数理科学 上・下」J.アルバート/J.ベネット著 (シュプリンガー・フェアラーク東京株式会社 出版) に書かれている概念に基づいて日本のプロ野球データについて 統計解析を行った。 ● 統計解析によって得られる図をOpenGLで作成した。 1.出塁率の予測 選手個人の出塁率成績について解析する 個人出塁率の散布図を作成 最小2乗法で 横軸に2003年の出塁率, 最適な直線 縦軸に2004年の出塁率 を求める 2005年の予測出塁率 最適な直線を推測式として と実際の結果を比較, 採用,2004年の出塁率か 推測式を評価 ら2005年の出塁率を予測 出塁率散布図(横軸:2003年,縦軸:2004年) 2003年 松中選手 0.429 城島選手 0.399 新井選手 0.299 2004年 0.464 0.432 0.340 出塁率最適直線(横軸:2003年,縦軸:2004年) 2005年の出塁率の予測 (横軸:2004年,縦軸:2005年) 2004 2005 実績値 推定値 小笠原選手 0.449 0.4258 多 村選手 0.363 0.3659 今 江選手 0.291 0.3185 2005年の出塁率の予測 (横軸:2004年,縦軸:2005年) 2005 推定値 小笠原選手 0.4258 多 村選手 0.3659 今 江選手 0.3185 2005 実績値 0.362 0.369 0.353 推測値の評価 (横軸:2004年,縦軸:2005年) 推測値が十分妥当であった か、そうでなかったかを判 断するための基準として, RMSE(平均二乗平方根誤 差)を求める。 RMSE = 0.0192 散布図上にプロットされ ている40名の選手の中 で約半分の23名の選手が RMSE~-RMSEの範囲内 にプロットされている。 2.チーム打撃成績とチーム得点 チーム打撃成績(出塁率,長打率 打率)と平均得点から散布図作成 横軸:それぞれの打撃成績 縦軸:平均得点 最小2乗法でそれぞ れの最適な直線 を求める 推測式から得られる値と 実際のデータを比較し, 誤差を検討する チーム打率と平均得点 (横軸:チーム打率,縦軸:平均得点) 平 均 得 点 チーム打率 チーム出塁率と平均得点 (横軸:チーム出塁率,縦軸:平均得点) 平 均 得 点 チーム出塁率 チーム長打率と平均得点 (横軸:チーム長打率,縦軸:平均得点) 平 均 得 点 チーム長打率 誤差を比較する (縦軸:誤差値) 打率の箱ひげ図は他の箱ひげ図に比べて、最高値と最低値との差 が大きく、箱が極端に大きい。 ● ● 出塁率と長打率の箱ひげ図では、若干出塁率のほうが最大値と最 小値との差、箱が大きい。 研究を終えて ● 野球のデータを統計学に用いることによって,統計学について 学習することができた。 ● さまざまなグラフをつくることによってVisualC++、OpenGL の理解を深めることが出来た。 ● 統計データを用いた推測式として、ある程度の予測をたてるこ とはできたが、優良と言える推測式は作ることはできなかっ た。
© Copyright 2024 Paperzz