MBA-IB & GSSM Tsukuba University データ解析 レポート課題 2007年9月10日 Group G. 高橋(源)、菅生、久保、高橋(さ)、庄司 Page 1 チームの役割 久保 菅生 高橋 高橋 庄司 page 2 晶子 恵 沙織 源 敏 GSSM M1 MBA-IB M1 MBA-IB M1 GSSM M1 GSSM M1 データ整理係 オブザーバ 資料作成係(発表者1) 実験実行者(発表者2) GSSM Tsukuba University Contents 目的 2. 分析のアウトライン 3. 回帰モデル 1. 単回帰モデルのFitting確認(有意確認) 2. 重回帰モデルの構築とチューニング 3. 最終モデルの決定 1. 4. page 3 考察とまとめ GSSM Tsukuba University 目的 売上高を表現するモデルを構築する。 page 4 特に業種は問わず GSSM Tsukuba University 分析のアウトライン 売上高を一番有効にあらわす項目を以下のとお りとし、統計値(P値、R2乗、切片等)を観察する。 流動資産で単回帰分析の初期モデル その他売上高を有効にあらわす項目を以下のと おりと仮定し統計値を観察する。(重回帰分析) 総資産、棚卸商品製品+0.5、資本金、 広告宣伝費+0.5、株式時価総額、流動負債 page 5 GSSM Tsukuba University 単回帰分析結果 グラフ 対数売上高と対数流動資産の相関係数は0.9140734 結果: R2乗: 0.8355 R2乗(調整済):0.8355 p-value: 2.2e-16未満 切片: 0.593793 係数: 0.919799 以上の結果より以下の数式が導 き出される。 10y=100.593793+0.919799x page 6 GSSM Tsukuba University 重回帰分析結果 前ページの単回帰分析の結果(左)と重回帰分析の結果を比較すると 精度がよくなったことが言える。 page 7 GSSM Tsukuba University 重回帰分析結果 R2乗: 0.8928 R2乗(調整済):0.8924 切片: 0.380738 ←単回帰分析 0.8355より精度向上!! 係数: Estimate (Intercept) 0.380738 log10(流動資産) 0.151741 log10(総資産) 0.350566 log10(棚卸商品製品 + 0.5) 0.005090 log10(資本金) -0.081707 log10(広告宣伝費 + 0.5) 0.016124 log10(株式時価総額) 0.124080 log10(流動負債) 0.388758 page 8 Std. Error t value 0.038751 9.825 0.025150 6.033 0.040703 8.613 0.003541 1.437 0.019901 -4.106 0.003002 5.371 0.020969 5.917 0.023873 16.285 Pr(>|t|) < 2e-16 *** 1.89e-09 *** < 2e-16 *** 0.151 4.19e-05 *** 8.71e-08 *** 3.81e-09 *** < 2e-16 *** GSSM Tsukuba University モデルの改良(チューニング) 売上高棚卸商品製品+0.5は有意でない (有意水準5%) 売上高棚卸商品製品+0.5を削除した場合、R2乗は 0.0001程度の変化で小さい 説明変数としての寄与はほとんどないと考えて削除 以上から我々の最終モデルは以下のとおりとする 10^(売上高) =10^(0.381+0.152*流動資産+0.351*総資産-0.82*資本金 +0.39*流動負債+0.16*(広告宣伝費+0.5)+0.124*株式時価総額) page 9 GSSM Tsukuba University 重回帰分析(チューニング後)結果 重回帰分析のチューニング前結果(左)と最終モデルの結果を比較し てもほとんど変わらない page 10 GSSM Tsukuba University まとめと考察 売上高を目的変数としてモデルを構築した 説明変数を会計の貸借対照表を中心に選択 棚卸商品製品だけモデルに寄与しなかった。 営業活動の売上高に変わる前段階の棚卸商品 製品は直接的要因にはならない興味深い結果を 得た(在庫回転率との関係) 総合的に評価することが重要である page 11 R-squreやCorを中心に判断しているが、複数の指標 によりデータを解釈しないと見誤る その他として単回帰と重回帰のANOVAを確認 GSSM Tsukuba University MBA-IB & GSSM Tsukuba University Appendix(詳細結果ログファイル) Page 12 Procedure(1) 0.目的変数を売上高、説明変数を流動資産とする。 1.Sales1.lmの宣言 sales1.lm <- lm(log10(売上高) log10(流動資産)) 2.Sales1.lmのSummaryをとる 3.Residualsをとる 4.重回帰分析をする 5.Salse2.lmの宣言 流動資産、総資産、棚卸商品製品+0.5、資本金、広告宣伝費+0.5、株式時価総額、流動負債 6.Sales2.lmのSummary ※棚卸商品製品は相関低い ※単回帰分析、MultipleR2乗0.830と比較して0.893へ向上した。 7.Sales1と2でのAnovaをとる 分散分析をする Sales2が精度が向上したことを証明。 8.Plotを打つ 考察:See Rファイル 視覚的にもSlaes2のほうが性能がよく見える。 page 13 GSSM Tsukuba University Procedure(2) 9.モデルの改良:棚卸し 9-1.Sales2.lmから棚卸商品製品+0.5を取り除く。それをSales3.lmへ入れる。 Multiple R2乗 0.8927 ・・・精度さがってる。。。。 効果なし? 9-2.Sales3.lmから資本金を取り除く。それをSales4.lmへ入れる。 Multiple R2乗 0.8919 ・・・精度下がっている。。。 9-3.Sales4.lmから広告宣伝費+0.5を取り除く。それをSales5.lmへ入れる。 Multiple R2乗 0.8902 ・・・精度下がっている。。。 9-4.Sales5.lmから株式時価総額を取り除く。それをSales6.lmへ入れる。 Multiple R2乗 0.889 ・・・精度下がっている。。。 9-5.Sales6.lmから流動資産を取り除く。それをSales7.lmへ入れる。 Multiple R2乗 0.8862 ・・・精度下がっている。。。 9-6.Sales7.lmから総資産を取り除く。それをSales8.lmへ入れる。 Multiple R2乗 0.8637 ・・・精度下がっている。。。 9-7.Sales9.lm 流動資産と流動負債の重回帰をする Multiple R2乗 0.8746 ・・・精度あがらない。。。 結論 精度を上げるには要素を減らすほうがよい。オリジナルのR2乗は0.8928で一番よいが、 要素を減らしても0.001しか変わらない棚卸商品製品は除く page 14 GSSM Tsukuba University 単回帰分析結果 結果: R2乗: 0.8355, Adjusted R-squared: 0.8355 F-statistic: 1.061e+04 on 1 and 2089 DF, p-value: < 2.2e-16 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.593793 0.040420 14.69 <2e-16 *** log10(流動資産) 0.919799 0.008929 103.02 <2e-16 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 page 15 GSSM Tsukuba University 重回帰分析結果(1) Coefficients: Estimate (Intercept) 0.380738 log10(流動資産) 0.151741 log10(総資産) 0.350566 log10(棚卸商品製品 + 0.5) 0.005090 log10(資本金) -0.081707 log10(広告宣伝費 + 0.5) 0.016124 log10(株式時価総額) 0.124080 log10(流動負債) 0.388758 page 16 Std. Error 0.038751 0.025150 0.040703 0.003541 0.019901 0.003002 0.020969 0.023873 t value Pr(>|t|) 9.825 < 2e-16 *** 6.033 1.89e-09 *** 8.613 < 2e-16 *** 1.437 0.151 -4.106 4.19e-05 *** 5.371 8.71e-08 *** 5.917 3.81e-09 *** 16.285 < 2e-16 *** GSSM Tsukuba University 重回帰分析結果(2) Residuals: Min 1Q Median 3Q Max -0.952310 -0.109983 -0.003606 0.117629 0.930513 Residual standard error: 0.199 on 2083 degrees of freedom Multiple R-Squared: 0.8928, Adjusted R-squared: 0.8924 F-statistic: 2478 on 7 and 2083 DF, p-value: < 2.2e-16 page 17 GSSM Tsukuba University 重回帰分析結果 (チューニング後) (1) Coefficients: Estimate (Intercept) 0.378059 log10(流動資産) 0.159678 log10(総資産) 0.342940 log10(資本金) -0.077800 log10(広告宣伝費 + 0.5) 0.016697 log10(株式時価総額) 0.122423 log10(流動負債) 0.391185 page 18 Std. Error 0.038716 0.024542 0.040366 0.019719 0.002976 0.020942 0.023819 t value 9.765 6.506 8.496 -3.945 5.610 5.846 16.423 Pr(>|t|) < 2e-16 *** 9.62e-11 *** < 2e-16 *** 8.23e-05 *** 2.29e-08 *** 5.84e-09 *** < 2e-16 *** GSSM Tsukuba University 重回帰分析結果 チューニング後(2) Residuals: Min 1Q Median 3Q Max -0.956695 -0.108960 -0.003734 0.118670 0.925951 Residual standard error: 0.1991 on 2084 degrees of freedom Multiple R-Squared: 0.8927, Adjusted R-squared: 0.8924 F-statistic: 2889 on 6 and 2084 DF, p-value: < 2.2e-16 page 19 GSSM Tsukuba University ANOVA Model1&Model2 > anova(Sales1.lm,Sales2.lm) Analysis of Variance Table Model 1: log10(売上高) ~ log10(流動資産) Model 2: log10(売上高) ~ log10(流動資産) + log10(総資産) + log10(棚卸商品製品 + 0.5) + log10(資本金) + log10(広告宣伝費 + 0.5) + log10(株式時価総額) + log10(流動負債) Res.Df RSS Df 2089 126.544 2083 82.492 6 Sum of Sq F Pr(>F) 1 2 44.052 185.39 < 2.2e-16 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 page 20 GSSM Tsukuba University ANOVA Model1&Model3 > anova(Sales1.lm,Sales3.lm) Analysis of Variance Table Model 1: log10(売上高) ~ log10(流動資産) Model 2: log10(売上高) ~ log10(流動資産) + log10(総資産) + log10(資本金) + log10(広告宣伝費 + 0.5) + log10(株式時価総額) + log10(流動負債) Res.Df RSS Df 2089 126.544 2084 82.574 5 Sum of Sq F Pr(>F) 1 2 43.970 221.94 < 2.2e-16 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 page 21 GSSM Tsukuba University 説明変数間の相関 流動資産 流動資産 総資産 資本金 0.9483521 0.8274 総資産 0.9483521 資本金 0.8274 0.8931298 0.8931298 0.3946522 0.3767886 株式時価 0.8487269 総額 0.907549 page 22 株式時価 総額 0.4458797 0.8487269 流動負債 0.9254687 0.3946522 0.907549 0.3767886 0.904027 棚卸製品 0.4458797 商品 流動負債 0.9254687 棚卸製品 商品 0.7679574 0.904027 0.7679574 GSSM Tsukuba University 気づき&反省 page 精度があわないと騒いでいて実はCorを観たら 結構あてはまっているという結果だったはず(こ のときの結果って反映されていますか?) 確認する数字は間違いないようにしよう!! R-squreだけを観て判断ではなくほかにもCorや Cov、AIC(Akaike information Criterion)なども 確認したほうがよりあてはまりを正しく言える 23 GSSM Tsukuba University Note page BLOC変数変換で確認する。対数をランクする ので順位にしたときの離散化誤差のみが情報の 可逆性に寄与する(3次までの保証は確認でき ている) BOX-COX変換ログとか指数で前処理として正 規逆変換して使用している。基本はランキングに してやる 規模の同時性(係数の和が1) 24 GSSM Tsukuba University
© Copyright 2024 Paperzz