Introduction to Big Data Science

Introduction to Big Data Science
08th Period
Statistical Analysis: Multivariate
Regression - Exercise
Big Data Science
1
Contents
 下記の演習問題から、3問程度やる
Within
class, do three exercise problems from the
following.
 適宜、前回資料に戻りながら
refer to the
previous class's handout as needed
Big Data Science
2
練習 exercise
• 以降問題 perform regression analysis for
the following exercise questions and report
results.
 以降に共通の手順: common steps:
• ①.csvファイル を開いてデータを確認。 Open .csv file
and check data
• ②ソフトにデータを読ませ,散布図をかいてみる。※説明
変数が複数の場合、そのうち1つでもよい do scatterplots
※if more than one independent variables, suffice it
with just one scatterplot, with any one of the
independent var's versus the dependent var.
• ③モデルを回帰推定,解釈,よしあし評価 perform
regression analysis - interpret and evaluate model
• ④「問」への答えをまとめる answer questions provided
in the following pages
3
 Exercise1 変動費と固定費(1Prod_cost.csv)Variable cost and fixed cost
of a factory
• 工場の生産出荷数(ケース/月)と,生産にかかるコスト(万円/月)の
月次データ。data on production amount (in cases/month) and the
cost associated with the production (in man-yen/month)
– 被説明変数: 生産コスト(万円/月)Dependent variable:
production cost (man-yen/month)
– 説明変数: 生産出荷数(ケース/月)Independent variable:
production amount (cases/month)
• Q1:生産コストのうち,生産出荷数に比例する部分の比例係数(変動費)
はいくらか。 また,比例しない部分(固定費)はいくらか。What is the
estimated coefficient slope? (this is variable cost.) What is the
estimated intercept? (this is fixed cost.)
• Q2:生産出荷数=500000のとき,生産コストの期待値はどれだけになる
か。At production amount=500000, what is the expected production
cost (in man-yen/month) ?
• Q3 : 変動費、固定費それぞれのp-値に基づき、確からしさがそれぞれどの
程度か、述べよ。Describe how much statistically significant each of
variable and fixed costs is, based on the p-values.
• Q4 : R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。
Based on R-squared, evaluate how good the fit is to the model.
4
 Exercise 2 理工学実験の成績(2CSELab.csv)Final grades in undergrad's
CSElab class (edited data)
• ある年の理工学実験の最終成績データ(一部改変)。
– 被説明変数: 最終成績(100点満点) Dependent var.: Gross
final grade (full = 100)
– 説明変数: Independent var.'s:
» 小テスト計(10点満点) aggregated quiz scores (full=10)
» レポート(40点満点) report grades (full=40)
» 期末試験(105点満点) final exam (full=105)
• Q1:総合成績に対して、小テスト・レポート・期末試験はそれぞれどれだ
けの重みをもっているか。What are the expected weight from each of
quiz, report and final exam, on the gross final grade? (look at the
estimated coefficients)
• Q2:小テスト計4点,レポート35点,期末試験65点という人の最終成
績の期待値は何点になるか。What is the expected gross final grade of
a student with agg. quiz score=4, report grade=35 and final
exam=65?
• Q3: 小テスト、レポート、期末試験それぞれの重みのp-値に基づき、
各々の確からしさがどの程度か、述べよ。Describe how much significant
each weight of quiz, report, and final exam, based on the p-values.
• Q4: R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。
Based on R-squared, evaluate how good the fit is to the model.
5
 Exercise 3 不動産価格(3RealEstate.csv)Real estate prices
• 事務所ビル不動産の賃貸価格(月額)のデータ。Data of monthly rented office space
(yen/month)
– 被説明変数: 評価額(円/月)
Dependent var.: rented office space
price (yen/month)
– 説明変数: Independent var.'s:
» 床面積(m2) floor space (in m2)
» オフィスの数(室) number of rooms
» 入口の数(個) number of entrances
» 築年数(年) property's vintage (in years)
• Q1:賃貸価格には,床面積・オフィスの数・入り口の数・築年数はそれぞれどれだけ
影響するか。What is the expected impact on the rented office space price, from
each of floor space, number of rooms, number of entrances and property's
vintage?
• Q2:床面積2000m2, オフィス数3,入り口の数1,築年数15年というオフィスの賃
貸価格の期待値はいくらか。What is the expected office space price, of an office
with floor space=2000m2, three rooms, one entrance and 15-year-old
vintage?
• Q3 : 床面積、オフィスの数、入り口の数、築年数のそれぞれの影響度の確からしさを、
p-値をもとに述べよ。Based on p-values, describe how much statistically
significant each of the independent variables is.
• Q4: R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。Based on
R-squared, evaluate how good the fit is to the model.
6
 Exercise4 結婚年齢と年収(4Marriage.csv)
• ある大手結婚相談所の成婚カップルの実際のデータ。Data of married
couples in a marriage-matching service firm
– 被説明変数: 男性の成婚年齢(才)Dependent var.: man's age at
marriage (years old)
– 説明変数: Independent var.'s:
» 男性の年収(万円) man's income (annual man-yen)
» 女性の年齢(才) woman's age (years old)
» 女性の年収(万円) Woman's income (annual man-yen)
• Q1:男性の成婚年齢には,男性の年収・女性の年齢・女性の年収がどれだ
け影響するか。What are the expected impacts to man's marriage age,
from each of man's income, woman's age and woman's income?
• Q2:男性年収400万,女性年齢31歳,女性年収400万の場合,男性年齢の
期待値は何歳か。What is the expected man's age at marriage, with his
income 400 man-yen and woman's age at 31 and her income 400
man-yen?
• Q3 : それぞれの説明変数の確からしさを、p-値をもとに述べよ。Based on
p-values, describe how much statistically significant each of the
independent variables is.
• Q4: R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。
Based on R-squared, evaluate how good the fit is to the model.
7
 Exercise 5 特別講座の継続意欲調査(6ContinueStudy.csv)willingness to continue class
studying
• ある大学の特別講座受講生に対して,今後も継続して学習したいかを調べたアンケート調
査データ。(fictitious) survey data on the willingness to continue studying in a
university class setup
– 被説明変数: 継続意欲 y(1:そう思わない~7:そう思う 以下おなじ)
Dependent var.: Survey-responded seven willingness levels to continued
study (1: Don't want to continue - 7: Want to continue)
– 説明変数: Independent var.'s:
» 学習動機 Study motives x1-x4
•
•
•
•
» 喜び
x1自己啓発 self-development
x2専門性向上 knowledge-building
x3日常活用 daily utilization
x4人脈作り making friends through class
Satisfaction motives
• x5知的発見の喜び intellectual discovery
• x6視野拡大の喜び expanded horizons
• x7実用性の喜び real-world applicability
– Q1:継続して学習したいという意欲には,学習動機が作用するのか,それとも喜び
が作用するのか。Which of the motives, study motives or satisfaction
motives, carries more influence on the willingness to continue
studying ?
– Q2 : それぞれの説明変数の確からしさを、p-値をもとに述べよ。Based on pvalues, describe how much statistically significant each of the independent
variables is.
– Q3: R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。Based on
R-squared, evaluate how good the fit is to the model
8
資料 additional resources
9
10
①
例
②
③
11
x
例1
例2
t分布の関数 t-distribution:
ただし where
12
重量の係数b1
0.052788
ここの面積 =Prob.値= 0.0001
t値 (t-Statistic)
0.052788÷0.389108
=7.371096
0.389108
定数項C
4.918210
ここの面積 =Prob.値= 0.1810
t値 (t-Statistic)
7.205869÷4.918210
=1.465141
7.205869
13