1 ÖNGÖRÜ TEKNĐKLERĐ ÖDEV 5 (KEY) Aşağıda verilen Y zaman

ÖNGÖRÜ TEKNĐKLERĐ
ÖDEV 5 (KEY)
Aşağıda verilen Y zaman sersisi bir ürünle ilgili satışları,aylar itibariyle, gösteren bir
seridir.
a) Bu serinin garfiğini çizip serinin taşıdığı desenleri (Trend, mevsimsellik vb.)
belirtiniz.
b) Mevsimlik değişimleri ve genel terndi yansıtacak bir regresyon modeli önerip
bu modelin parametrelerini tahmin ediniz.(Gerekli olduğunu düşündüğünüz
kukla (Dummy) değişkenleri ekleyiniz.)
c) Önerdiğiniz model için yapılan analizleri irdeleyerek bu modelin: anlamlı olup
olmadığını; modele dahil edilen bağımsız değişkenler arasında çoklu
korelasyon olup olmadığını; hata terimleri arasında seri korelasyon olup
olmadığını; hata terimlerinin dağılımının sıfır ortalamalı ve sabit varyanslı olup
olmadığını test ediniz.
d) Yukarıda önerdiğiniz modeli iyileştirmek amacıyla bağımsız değişkenler
grubuna yeni bir değişken olarak z = t 2 yi dahil edip b) ve c) deki analizleri
bir kez daha yapınız. Bu Model b) de önerilen modelden daha iyi bir model
midir? Neden?
e) b) ve d) de önerilen modellerden hangisi daha iyi ise onu kullanarak 5.ci yılın
M1 ile M12 arasındaki aylarının her biri için öngörü değerlerini hesaplayınız.
Eğer 5.ci yılın aylar itibariyle gerçekleşen satışları aşağıda verildiği gibi ise
öngörü değerlerinzi kullanarak bu son 12 ay için modelinizin verdiği RMSE
değerini hesaplayınız.
aylar
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
t
Y
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
857
921
1071
1133
1209
1234
1262
1258
1175
1174
1123
1159
1250
1289
1448
1497
1560
1586
1597
1615
1535
1543
1493
1510
Aylar
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
t
Y
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
1604
1643
1795
1868
1920
1953
1980
1989
1897
1910
1854
1957
1955
2008
2171
2202
2288
2314
2343
2339
2339
2267
2206
2226
1
Cevaplar
a) Y serisi hem pozitif trend, hem de ayları mevsim kabul eden bir desen içermektedir.
Time Series Plot of Y
2500
2250
2000
Y
1750
1500
1250
1000
1
5
10
15
20
25
Index
30
35
40
45
b) Y serisi zaman, t, ve ayların etkisini yansıtan bir doğrusal regresyonla modellenebilir. Bu
amaçla 12 ayın etkilerini yansıtmak amacıyla m1’i baz alan m2-m12 arasında sembollerle
gösterilen 11 dummy değişken yaratılıp modele dahil edildi. Analiz sonuçları ve model
parametrelerinin tahmin değerleri aşağıdaki tablolarda verilmiştir.
Regression Analysis: Y versus t; m2; ...
The regression equation is
Y = 840 + 30,3 t + 18,4 m2 + 144 m3 + 167 m4 + 206 m5 + 204 m6 + 197 m7 + 171 m8
+ 77,3 m9 + 33,9 m10 - 50,9 m11 - 37,3 m12
Predictor
Constant
t
m2
m3
m4
m5
m6
m7
m8
m9
m10
m11
m12
Coef
839,995
30,3424
18,41
144,07
167,47
206,38
203,54
196,95
171,35
77,26
33,92
-50,92
-37,27
S = 18,4894
SE Coef
9,987
0,1989
13,08
13,08
13,09
13,10
13,11
13,13
13,15
13,17
13,20
13,22
13,26
R-Sq = 99,9%
T
84,11
152,54
1,41
11,01
12,80
15,76
15,52
15,00
13,03
5,87
2,57
-3,85
-2,81
P
0,000
0,000
0,168
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,015
0,000
0,008
VIF
1,1
1,8
1,8
1,8
1,8
1,8
1,8
1,9
1,9
1,9
1,9
1,9
R-Sq(adj) = 99,8%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
12
35
47
SS
8616896
11965
8628861
MS
718075
342
F
2100,50
P
0,000
2
Unusual Observations
Obs
36
45
48
t
36,0
45,0
48,0
Y
1957,00
2339,00
2226,00
Fit
1895,05
2282,66
2259,16
SE Fit
9,32
9,91
9,91
Residual
61,95
56,34
-33,16
St Resid
3,88R
3,61R
-2,12R
R denotes an observation with a large standardized residual.
Durbin-Watson statistic = 2,01031
Burada m2 dummy değişkeninin Y deki değişkenliği açıklamaya katkısı ihmal edilecek
kadar küçük görülmektedir. Bu modeli biraz daha iyileştirmek gerekirse, m2 modelden
çıkarılabilir. Yeni haliyle modelimizin analiz sonuçları aşağıda verilmiştir.
Model 2:
The regression equation is
Y = 849 + 30,3 t + 135 m3 + 158 m4 + 197 m5 + 194 m6 + 188 m7 + 162 m8 + 68,0 m9
+ 24,7 m10 - 60,2 m11 - 46,5 m12
Predictor
Constant
t
m3
m4
m5
m6
m7
m8
m9
m10
m11
m12
Coef
849,116
30,3466
134,86
158,26
197,16
194,32
187,72
162,12
68,03
24,68
-60,17
-46,51
S = 18,7399
SE Coef
7,704
0,2016
11,48
11,49
11,50
11,51
11,53
11,55
11,57
11,60
11,63
11,67
R-Sq = 99,9%
T
110,22
150,54
11,75
13,78
17,15
16,88
16,28
14,04
5,88
2,13
-5,17
-3,99
P
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,040
0,000
0,000
VIF
1,1
1,4
1,4
1,4
1,4
1,4
1,4
1,4
1,4
1,4
1,4
R-Sq(adj) = 99,8%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
11
36
47
SS
8616218
12643
8628861
MS
783293
351
F
2230,44
Fit
1895,08
2282,74
2259,24
SE Fit
9,45
10,05
10,05
Residual
61,92
56,26
-33,24
P
0,000
Unusual Observations
Obs
36
45
48
t
36,0
45,0
48,0
Y
1957,00
2339,00
2226,00
St Resid
3,83R
3,56R
-2,10R
R denotes an observation with a large standardized residual.
Durbin-Watson statistic = 2,08586
Bu modelin bir önceki modelden daha iyi olduğunu görüyoruz. Multi-colinearity ve serial
correlation sorunları olmayan bir model (D-W istatistiği ve VIF değerelerine bakarak)
olduğu görülmektedir.
Residual (Hata terimleri analizi aşağıda verimiştir.)
3
Descriptive Statistics: RESI1
Variable
Maximum
RESI1
61,92
N
48
Mean
5,24025E-14
SE Mean
StDev
Minimum
2,37
16,40
-33,24
Q1
Median
-7,69
-0,295
Q3
5,99
Hataların Ortalaması yaklaşık olarak sıfır olup rassallık özellikleri taşımaktadır. Ancak
hataların dağılımının normal olduğu hipotezi ret edilmektedir. (Kolmogorov-Smirnov
testinde p-value<0.01 olduğu görülmektedir.) ACF ve PACF grafiklerinde herhangi bir
güçlü korelasyon görülmemektedir. DW=2,08586 olup bu da serial korelasyon olmadığının
işaretidir. Modelin verdiği öngörü değerleri ile gerçekte gözlemlenen Y değerleri serisinin
aynı eksenler sistemindeki grafiği de modelin ne kadar iyi uyum sağladığını göstermektedir.
grafiğin görsel olarak yansıttığını sayısal olarak
R2(adj)= %99,8 olup buda
doğrulamaktadır..
P r o b a b ilit y P lo t o f R E S I1
N o rm a l
99
M ean
S tD e v
N
KS
P -V a l u e
95
90
5 , 2 1 0 6 4 7 E -1 4
1 6 ,4 0
48
0 ,1 6 4
< 0 ,0 1 0
Percent
80
70
60
50
40
30
20
10
5
1
-5 0
-2 5
0
25
50
75
R ES I1
P a r tia l Au to c o r r e la tio n F u n c tio n fo r R E S I1
(w it h 5 % s ig n ific a n c e lim it s fo r t h e p a rt ia l a u t o c o rre la t io n s )
1,0
Partial Autocorrelation
0,8
0,6
0,4
0,2
0,0
-0 , 2
-0 , 4
-0 , 6
-0 , 8
-1 , 0
1
2
3
4
5
6
7
8
9
10
11
12
La g
4
Au to c o r r e la tio n F u n c tio n fo r R E S I1
(w ith 5 % s ig n ific a n c e lim its fo r th e a u to c o rre la tio n s )
1 ,0
0 ,8
Autocorrelation
0 ,6
0 ,4
0 ,2
0 ,0
-0 ,2
-0 ,4
-0 ,6
-0 ,8
-1 ,0
1
2
3
4
5
6
7
8
9
10
11
12
La g
T im e S e r ie s P lo t o f Y ; F IT S 1
2500
V a ri a b l e
Y
F IT S 1
2250
Data
2000
1750
1500
1250
1000
1
5
10
15
20
25
In d e x
30
35
40
45
5
d)
t-sq modele dahil edilirse ne olur sorusunu yanıtlamak amacıyla gerekli regresyon
analizleri yapıldı ve aşağıdaki sonuçlar elde edildi.
Regression Analysis: Y versus t; t-sq; ...
The regression equation is
Y = 840 + 30,3 t - 0,0000 t-sq + 18,4 m2 + 144 m3 + 167 m4 + 206 m5 + 204 m6
+ 197 m7 + 171 m8 + 77,3 m9 + 33,9 m10 - 50,9 m11 - 37,3 m12
Predictor
Constant
t
t-sq
m2
m3
m4
m5
m6
m7
m8
m9
m10
m11
m12
Coef
839,98
30,3442
-0,00004
18,41
144,06
167,47
206,38
203,54
196,94
171,35
77,26
33,92
-50,92
-37,27
S = 18,7593
SE Coef
11,86
0,8007
0,01581
13,27
13,27
13,28
13,30
13,31
13,33
13,35
13,37
13,39
13,42
13,45
R-Sq = 99,9%
T
70,81
37,90
-0,00
1,39
10,85
12,61
15,52
15,29
14,78
12,84
5,78
2,53
-3,80
-2,77
P
0,000
0,000
0,998
0,174
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,016
0,001
0,009
VIF
16,8
16,7
1,8
1,8
1,8
1,8
1,8
1,9
1,9
1,9
1,9
1,9
1,9
R-Sq(adj) = 99,8%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
13
34
47
SS
8616896
11965
8628861
MS
662838
352
F
1883,53
Fit
1895,06
2282,65
2259,15
SE Fit
9,54
10,72
11,42
Residual
61,94
56,35
-33,15
P
0,000
Unusual Observations
Obs
36
45
48
t
36,0
45,0
48,0
Y
1957,00
2339,00
2226,00
St Resid
3,83R
3,66R
-2,23R
R denotes an observation with a large standardized residual.
Durbin-Watson statistic = 2,01030
6
Burada multi-colinearity sorunu(VIF değerleri t ve t-sq için çok yüksek çıktı) var. t-sq ve
m2 nin katsayıları (model parametre değerleri) sıfır olabilir şeklinde yorumlanacağı için
önce m2 değişkenini modele dahil etmesek ne olur sorusunu yanıtlayalım.
Regression Analysis: Y versus t; t-sq; ...
The regression equation is
Y = 849 + 30,4 t - 0,0003 t-sq + 135 m3 + 158 m4 + 197 m5 + 194 m6 + 188 m7
+ 162 m8 + 68,0 m9 + 24,7 m10 - 60,2 m11 - 46,5 m12
Predictor
Constant
t
t-sq
m3
m4
m5
m6
m7
m8
m9
m10
m11
m12
Coef
849,00
30,3613
-0,00030
134,85
158,25
197,15
194,31
187,71
162,12
68,02
24,67
-60,17
-46,51
S = 19,0056
SE Coef
10,05
0,8112
0,01602
11,64
11,65
11,67
11,68
11,70
11,72
11,74
11,77
11,80
11,84
R-Sq = 99,9%
T
84,44
37,43
-0,02
11,58
13,58
16,90
16,63
16,04
13,83
5,79
2,10
-5,10
-3,93
P
0,000
0,000
0,985
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,043
0,000
0,000
VIF
16,8
16,7
1,4
1,4
1,4
1,4
1,4
1,4
1,4
1,4
1,4
1,4
R-Sq(adj) = 99,8%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
12
35
47
SS
8616219
12642
8628861
MS
718018
361
F
1987,80
Fit
1895,10
2282,67
2259,14
SE Fit
9,66
10,86
11,57
Residual
61,90
56,33
-33,14
P
0,000
Unusual Observations
Obs
36
45
48
t
36,0
45,0
48,0
Y
1957,00
2339,00
2226,00
St Resid
3,78R
3,61R
-2,20R
R denotes an observation with a large standardized residual.
Durbin-Watson statistic = 2,08572
Multi colinearity hala bir önemli kusur olarak kaldı. t ve t-sq arasında var olan yüksek
korelasyon her iki değişkenin de modelde aynı zamanda yer almamasını gerektirir. Ayrıca
bu modelin verdiği R-sq(adj) değeri ile denen ikinci modelinki aynıdır (%99,8).
Sonuç: t-sq değişkenimi içeren model bir önceki modelden daha iyi değildir.
.
7
e) Beşinci yıl için öngörü değerleri hesaplanırken ikinci modelin verdiği regresyon
debkleminde t=49-60 arası değerler ile m3-m12 için dummy değişken değerleri konulup
aşağıdaki Y-hat değerleri elde edildi. Böylece elde edilen öngörü değerlerini de içeren Y ve
Y-hat zaman serilerinin grafikleri aşağıda verildiği gibi olup son 12 dönem için elde edilen
değerlerin grafiği hem trendi hem de mevsimlik etki desenlerini yansıtmaktadır. Bu haliyle
bakıldığında önerilen ikinci modelin vereceği öngörü değerlerine güvenebileceğimiz
kanısına varabiliriz.
Sonuç olarak: ikinci model tercih edilmelidir.
t
49
50
51
52
53
54
55
56
57
58
59
60
Aylar
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
m3
0
0
1
0
0
0
0
0
0
0
0
0
m4
0
0
0
1
0
0
0
0
0
0
0
0
m5 m6
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
m7
0
0
0
0
0
0
1
0
0
0
0
0
m8
0
0
0
0
0
0
0
1
0
0
0
0
m9
0
0
0
0
0
0
0
0
1
0
0
0
m10
0
0
0
0
0
0
0
0
0
1
0
0
m11
0
0
0
0
0
0
0
0
0
0
1
0
m12
0
0
0
0
0
0
0
0
0
0
0
1
Y-hat
2336,001
2366,346
2531,551
2585,295
2654,54
2682,044
2705,789
2710,534
2646,788
2633,783
2579,277
2623,282
Time Series Plot of Y; FITS1
Variable
Y
FITS1
2500
Data
2000
1500
1000
1
6
12
18
24
30
36
Index
42
48
54
60
8