Introduction to Big Data Science 08th Period Statistical Analysis: Multivariate Regression - Exercise Big Data Science 1 Contents 下記の演習問題から、3問程度やる Within class, do three exercise problems from the following. 適宜、前回資料に戻りながら refer to the previous class's handout as needed Big Data Science 2 練習 exercise • 以降問題 perform regression analysis for the following exercise questions and report results. 以降に共通の手順: common steps: • ①.csvファイル を開いてデータを確認。 Open .csv file and check data • ②ソフトにデータを読ませ,散布図をかいてみる。※説明 変数が複数の場合、そのうち1つでもよい do scatterplots ※if more than one independent variables, suffice it with just one scatterplot, with any one of the independent var's versus the dependent var. • ③モデルを回帰推定,解釈,よしあし評価 perform regression analysis - interpret and evaluate model • ④「問」への答えをまとめる answer questions provided in the following pages 3 Exercise1 変動費と固定費(1Prod_cost.csv)Variable cost and fixed cost of a factory • 工場の生産出荷数(ケース/月)と,生産にかかるコスト(万円/月)の 月次データ。data on production amount (in cases/month) and the cost associated with the production (in man-yen/month) – 被説明変数: 生産コスト(万円/月)Dependent variable: production cost (man-yen/month) – 説明変数: 生産出荷数(ケース/月)Independent variable: production amount (cases/month) • Q1:生産コストのうち,生産出荷数に比例する部分の比例係数(変動費) はいくらか。 また,比例しない部分(固定費)はいくらか。What is the estimated coefficient slope? (this is variable cost.) What is the estimated intercept? (this is fixed cost.) • Q2:生産出荷数=500000のとき,生産コストの期待値はどれだけになる か。At production amount=500000, what is the expected production cost (in man-yen/month) ? • Q3 : 変動費、固定費それぞれのp-値に基づき、確からしさがそれぞれどの 程度か、述べよ。Describe how much statistically significant each of variable and fixed costs is, based on the p-values. • Q4 : R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。 Based on R-squared, evaluate how good the fit is to the model. 4 Exercise 2 理工学実験の成績(2CSELab.csv)Final grades in undergrad's CSElab class (edited data) • ある年の理工学実験の最終成績データ(一部改変)。 – 被説明変数: 最終成績(100点満点) Dependent var.: Gross final grade (full = 100) – 説明変数: Independent var.'s: » 小テスト計(10点満点) aggregated quiz scores (full=10) » レポート(40点満点) report grades (full=40) » 期末試験(105点満点) final exam (full=105) • Q1:総合成績に対して、小テスト・レポート・期末試験はそれぞれどれだ けの重みをもっているか。What are the expected weight from each of quiz, report and final exam, on the gross final grade? (look at the estimated coefficients) • Q2:小テスト計4点,レポート35点,期末試験65点という人の最終成 績の期待値は何点になるか。What is the expected gross final grade of a student with agg. quiz score=4, report grade=35 and final exam=65? • Q3: 小テスト、レポート、期末試験それぞれの重みのp-値に基づき、 各々の確からしさがどの程度か、述べよ。Describe how much significant each weight of quiz, report, and final exam, based on the p-values. • Q4: R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。 Based on R-squared, evaluate how good the fit is to the model. 5 Exercise 3 不動産価格(3RealEstate.csv)Real estate prices • 事務所ビル不動産の賃貸価格(月額)のデータ。Data of monthly rented office space (yen/month) – 被説明変数: 評価額(円/月) Dependent var.: rented office space price (yen/month) – 説明変数: Independent var.'s: » 床面積(m2) floor space (in m2) » オフィスの数(室) number of rooms » 入口の数(個) number of entrances » 築年数(年) property's vintage (in years) • Q1:賃貸価格には,床面積・オフィスの数・入り口の数・築年数はそれぞれどれだけ 影響するか。What is the expected impact on the rented office space price, from each of floor space, number of rooms, number of entrances and property's vintage? • Q2:床面積2000m2, オフィス数3,入り口の数1,築年数15年というオフィスの賃 貸価格の期待値はいくらか。What is the expected office space price, of an office with floor space=2000m2, three rooms, one entrance and 15-year-old vintage? • Q3 : 床面積、オフィスの数、入り口の数、築年数のそれぞれの影響度の確からしさを、 p-値をもとに述べよ。Based on p-values, describe how much statistically significant each of the independent variables is. • Q4: R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。Based on R-squared, evaluate how good the fit is to the model. 6 Exercise4 結婚年齢と年収(4Marriage.csv) • ある大手結婚相談所の成婚カップルの実際のデータ。Data of married couples in a marriage-matching service firm – 被説明変数: 男性の成婚年齢(才)Dependent var.: man's age at marriage (years old) – 説明変数: Independent var.'s: » 男性の年収(万円) man's income (annual man-yen) » 女性の年齢(才) woman's age (years old) » 女性の年収(万円) Woman's income (annual man-yen) • Q1:男性の成婚年齢には,男性の年収・女性の年齢・女性の年収がどれだ け影響するか。What are the expected impacts to man's marriage age, from each of man's income, woman's age and woman's income? • Q2:男性年収400万,女性年齢31歳,女性年収400万の場合,男性年齢の 期待値は何歳か。What is the expected man's age at marriage, with his income 400 man-yen and woman's age at 31 and her income 400 man-yen? • Q3 : それぞれの説明変数の確からしさを、p-値をもとに述べよ。Based on p-values, describe how much statistically significant each of the independent variables is. • Q4: R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。 Based on R-squared, evaluate how good the fit is to the model. 7 Exercise 5 特別講座の継続意欲調査(6ContinueStudy.csv)willingness to continue class studying • ある大学の特別講座受講生に対して,今後も継続して学習したいかを調べたアンケート調 査データ。(fictitious) survey data on the willingness to continue studying in a university class setup – 被説明変数: 継続意欲 y(1:そう思わない~7:そう思う 以下おなじ) Dependent var.: Survey-responded seven willingness levels to continued study (1: Don't want to continue - 7: Want to continue) – 説明変数: Independent var.'s: » 学習動機 Study motives x1-x4 • • • • » 喜び x1自己啓発 self-development x2専門性向上 knowledge-building x3日常活用 daily utilization x4人脈作り making friends through class Satisfaction motives • x5知的発見の喜び intellectual discovery • x6視野拡大の喜び expanded horizons • x7実用性の喜び real-world applicability – Q1:継続して学習したいという意欲には,学習動機が作用するのか,それとも喜び が作用するのか。Which of the motives, study motives or satisfaction motives, carries more influence on the willingness to continue studying ? – Q2 : それぞれの説明変数の確からしさを、p-値をもとに述べよ。Based on pvalues, describe how much statistically significant each of the independent variables is. – Q3: R-squaredに基づき、モデル全体のあてはまりがどの程度か述べよ。Based on R-squared, evaluate how good the fit is to the model 8 資料 additional resources 9 10 ① 例 ② ③ 11 x 例1 例2 t分布の関数 t-distribution: ただし where 12 重量の係数b1 0.052788 ここの面積 =Prob.値= 0.0001 t値 (t-Statistic) 0.052788÷0.389108 =7.371096 0.389108 定数項C 4.918210 ここの面積 =Prob.値= 0.1810 t値 (t-Statistic) 7.205869÷4.918210 =1.465141 7.205869 13
© Copyright 2024 Paperzz