GSSM Tsukuba University

MBA-IB & GSSM Tsukuba University
データ解析 レポート課題
2007年9月10日
Group G.
高橋(源)、菅生、久保、高橋(さ)、庄司
Page
1
チームの役割
久保
菅生
高橋
高橋
庄司
page
2
晶子
恵
沙織
源
敏
GSSM M1
MBA-IB M1
MBA-IB M1
GSSM M1
GSSM M1
データ整理係
オブザーバ
資料作成係(発表者1)
実験実行者(発表者2)
GSSM Tsukuba University
Contents
目的
2. 分析のアウトライン
3. 回帰モデル
1. 単回帰モデルのFitting確認(有意確認)
2. 重回帰モデルの構築とチューニング
3. 最終モデルの決定
1.
4.
page
3
考察とまとめ
GSSM Tsukuba University
目的
„
売上高を表現するモデルを構築する。
‰
page
4
特に業種は問わず
GSSM Tsukuba University
分析のアウトライン
„
売上高を一番有効にあらわす項目を以下のとお
りとし、統計値(P値、R2乗、切片等)を観察する。
流動資産で単回帰分析の初期モデル
„
その他売上高を有効にあらわす項目を以下のと
おりと仮定し統計値を観察する。(重回帰分析)
総資産、棚卸商品製品+0.5、資本金、
広告宣伝費+0.5、株式時価総額、流動負債
page
5
GSSM Tsukuba University
単回帰分析結果
グラフ
対数売上高と対数流動資産の相関係数は0.9140734
結果:
R2乗:
0.8355
R2乗(調整済):0.8355
p-value:
2.2e-16未満
切片:
0.593793
係数:
0.919799
以上の結果より以下の数式が導
き出される。
10y=100.593793+0.919799x
page
6
GSSM Tsukuba University
重回帰分析結果
前ページの単回帰分析の結果(左)と重回帰分析の結果を比較すると
精度がよくなったことが言える。
page
7
GSSM Tsukuba University
重回帰分析結果
R2乗:
0.8928
R2乗(調整済):0.8924
切片:
0.380738
←単回帰分析 0.8355より精度向上!!
係数:
Estimate
(Intercept)
0.380738
log10(流動資産)
0.151741
log10(総資産)
0.350566
log10(棚卸商品製品 + 0.5) 0.005090
log10(資本金)
-0.081707
log10(広告宣伝費 + 0.5) 0.016124
log10(株式時価総額)
0.124080
log10(流動負債)
0.388758
page
8
Std. Error t value
0.038751 9.825
0.025150 6.033
0.040703 8.613
0.003541 1.437
0.019901 -4.106
0.003002 5.371
0.020969 5.917
0.023873 16.285
Pr(>|t|)
< 2e-16 ***
1.89e-09 ***
< 2e-16 ***
0.151
4.19e-05 ***
8.71e-08 ***
3.81e-09 ***
< 2e-16 ***
GSSM Tsukuba University
モデルの改良(チューニング)
„
„
売上高棚卸商品製品+0.5は有意でない
(有意水準5%)
売上高棚卸商品製品+0.5を削除した場合、R2乗は
0.0001程度の変化で小さい
説明変数としての寄与はほとんどないと考えて削除
以上から我々の最終モデルは以下のとおりとする
10^(売上高) =10^(0.381+0.152*流動資産+0.351*総資産-0.82*資本金
+0.39*流動負債+0.16*(広告宣伝費+0.5)+0.124*株式時価総額)
page
9
GSSM Tsukuba University
重回帰分析(チューニング後)結果
重回帰分析のチューニング前結果(左)と最終モデルの結果を比較し
てもほとんど変わらない
page
10
GSSM Tsukuba University
まとめと考察
„
„
売上高を目的変数としてモデルを構築した
説明変数を会計の貸借対照表を中心に選択
‰
棚卸商品製品だけモデルに寄与しなかった。
„
営業活動の売上高に変わる前段階の棚卸商品
製品は直接的要因にはならない興味深い結果を
得た(在庫回転率との関係)
„
総合的に評価することが重要である
‰
‰
page
11
R-squreやCorを中心に判断しているが、複数の指標
によりデータを解釈しないと見誤る
その他として単回帰と重回帰のANOVAを確認
GSSM Tsukuba University
MBA-IB & GSSM Tsukuba University
Appendix(詳細結果ログファイル)
Page
12
Procedure(1)
0.目的変数を売上高、説明変数を流動資産とする。
1.Sales1.lmの宣言
sales1.lm <- lm(log10(売上高) log10(流動資産))
2.Sales1.lmのSummaryをとる
3.Residualsをとる
4.重回帰分析をする
5.Salse2.lmの宣言
流動資産、総資産、棚卸商品製品+0.5、資本金、広告宣伝費+0.5、株式時価総額、流動負債
6.Sales2.lmのSummary
※棚卸商品製品は相関低い
※単回帰分析、MultipleR2乗0.830と比較して0.893へ向上した。
7.Sales1と2でのAnovaをとる 分散分析をする
Sales2が精度が向上したことを証明。
8.Plotを打つ
考察:See Rファイル
視覚的にもSlaes2のほうが性能がよく見える。
page
13
GSSM Tsukuba University
Procedure(2)
9.モデルの改良:棚卸し
9-1.Sales2.lmから棚卸商品製品+0.5を取り除く。それをSales3.lmへ入れる。
Multiple R2乗 0.8927 ・・・精度さがってる。。。。
効果なし?
9-2.Sales3.lmから資本金を取り除く。それをSales4.lmへ入れる。
Multiple R2乗 0.8919 ・・・精度下がっている。。。
9-3.Sales4.lmから広告宣伝費+0.5を取り除く。それをSales5.lmへ入れる。
Multiple R2乗 0.8902 ・・・精度下がっている。。。
9-4.Sales5.lmから株式時価総額を取り除く。それをSales6.lmへ入れる。
Multiple R2乗 0.889 ・・・精度下がっている。。。
9-5.Sales6.lmから流動資産を取り除く。それをSales7.lmへ入れる。
Multiple R2乗 0.8862 ・・・精度下がっている。。。
9-6.Sales7.lmから総資産を取り除く。それをSales8.lmへ入れる。
Multiple R2乗 0.8637 ・・・精度下がっている。。。
9-7.Sales9.lm 流動資産と流動負債の重回帰をする
Multiple R2乗 0.8746 ・・・精度あがらない。。。
結論 精度を上げるには要素を減らすほうがよい。オリジナルのR2乗は0.8928で一番よいが、
要素を減らしても0.001しか変わらない棚卸商品製品は除く
page
14
GSSM Tsukuba University
単回帰分析結果
結果:
R2乗: 0.8355, Adjusted R-squared: 0.8355
F-statistic: 1.061e+04 on 1 and 2089 DF, p-value: < 2.2e-16
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
0.593793 0.040420 14.69 <2e-16 ***
log10(流動資産) 0.919799 0.008929 103.02 <2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
page
15
GSSM Tsukuba University
重回帰分析結果(1)
Coefficients:
Estimate
(Intercept)
0.380738
log10(流動資産)
0.151741
log10(総資産)
0.350566
log10(棚卸商品製品 + 0.5) 0.005090
log10(資本金)
-0.081707
log10(広告宣伝費 + 0.5) 0.016124
log10(株式時価総額)
0.124080
log10(流動負債)
0.388758
page
16
Std. Error
0.038751
0.025150
0.040703
0.003541
0.019901
0.003002
0.020969
0.023873
t value Pr(>|t|)
9.825 < 2e-16 ***
6.033 1.89e-09 ***
8.613 < 2e-16 ***
1.437 0.151
-4.106 4.19e-05 ***
5.371
8.71e-08 ***
5.917 3.81e-09 ***
16.285 < 2e-16 ***
GSSM Tsukuba University
重回帰分析結果(2)
Residuals:
Min
1Q Median
3Q
Max
-0.952310 -0.109983 -0.003606 0.117629 0.930513
Residual standard error: 0.199 on 2083 degrees of freedom
Multiple R-Squared: 0.8928, Adjusted R-squared: 0.8924
F-statistic: 2478 on 7 and 2083 DF, p-value: < 2.2e-16
page
17
GSSM Tsukuba University
重回帰分析結果 (チューニング後) (1)
Coefficients:
Estimate
(Intercept)
0.378059
log10(流動資産)
0.159678
log10(総資産)
0.342940
log10(資本金)
-0.077800
log10(広告宣伝費 + 0.5) 0.016697
log10(株式時価総額)
0.122423
log10(流動負債)
0.391185
page
18
Std. Error
0.038716
0.024542
0.040366
0.019719
0.002976
0.020942
0.023819
t value
9.765
6.506
8.496
-3.945
5.610
5.846
16.423
Pr(>|t|)
< 2e-16 ***
9.62e-11 ***
< 2e-16 ***
8.23e-05 ***
2.29e-08 ***
5.84e-09 ***
< 2e-16 ***
GSSM Tsukuba University
重回帰分析結果 チューニング後(2)
Residuals:
Min
1Q
Median
3Q
Max
-0.956695 -0.108960 -0.003734 0.118670 0.925951
Residual standard error: 0.1991 on 2084 degrees of freedom
Multiple R-Squared: 0.8927, Adjusted R-squared: 0.8924
F-statistic: 2889 on 6 and 2084 DF, p-value: < 2.2e-16
page
19
GSSM Tsukuba University
ANOVA Model1&Model2
> anova(Sales1.lm,Sales2.lm)
Analysis of Variance Table
Model 1: log10(売上高) ~ log10(流動資産)
Model 2: log10(売上高) ~ log10(流動資産) + log10(総資産) +
log10(棚卸商品製品 + 0.5) + log10(資本金) + log10(広告宣伝費 +
0.5) + log10(株式時価総額) + log10(流動負債)
Res.Df RSS Df
2089 126.544
2083 82.492 6
Sum of Sq
F
Pr(>F)
1
2
44.052
185.39 < 2.2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
page
20
GSSM Tsukuba University
ANOVA Model1&Model3
> anova(Sales1.lm,Sales3.lm)
Analysis of Variance Table
Model 1: log10(売上高) ~ log10(流動資産)
Model 2: log10(売上高) ~ log10(流動資産) + log10(総資産) +
log10(資本金) + log10(広告宣伝費 + 0.5) + log10(株式時価総額) +
log10(流動負債)
Res.Df RSS Df
2089
126.544
2084
82.574 5
Sum of Sq
F
Pr(>F)
1
2
43.970
221.94
< 2.2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
page
21
GSSM Tsukuba University
説明変数間の相関
流動資産
流動資産
総資産
資本金
0.9483521 0.8274
総資産
0.9483521
資本金
0.8274
0.8931298
0.8931298
0.3946522 0.3767886
株式時価 0.8487269
総額
0.907549
page
22
株式時価
総額
0.4458797 0.8487269
流動負債
0.9254687
0.3946522 0.907549
0.3767886 0.904027
棚卸製品 0.4458797
商品
流動負債 0.9254687
棚卸製品
商品
0.7679574
0.904027
0.7679574
GSSM Tsukuba University
気づき&反省
„
„
page
精度があわないと騒いでいて実はCorを観たら
結構あてはまっているという結果だったはず(こ
のときの結果って反映されていますか?)
確認する数字は間違いないようにしよう!!
R-squreだけを観て判断ではなくほかにもCorや
Cov、AIC(Akaike information Criterion)なども
確認したほうがよりあてはまりを正しく言える
23
GSSM Tsukuba University
Note
„
„
„
page
BLOC変数変換で確認する。対数をランクする
ので順位にしたときの離散化誤差のみが情報の
可逆性に寄与する(3次までの保証は確認でき
ている)
BOX-COX変換ログとか指数で前処理として正
規逆変換して使用している。基本はランキングに
してやる
規模の同時性(係数の和が1)
24
GSSM Tsukuba University