1 4.5 Primjer: Nelinearni model višestruke regresije Pod - T-com

4.5 Primjer: Nelinearni model višestruke regresije
Pod nelinearnim regresijskim modelom podrazumijeva se regresijski model nelinearan u
parametrima. Postoji li transformacija kojom se polazni nelinearni model linearizira, model će
se analizirati kao model višestruke linearne regresije. Međutim, ako model nije moguće
linearizirati, takav je model pravi nelinearni model.
Primjer 4.2
Analizirana je proizvodnja Q (u tonama), u ovisnosti o radu L (u satima) i kapitalu K u
satima rada strojeva u 14 industrijskih poduzeća. Pretpostavljena je Cobb-Douglasova
proizvodna funkcija. Empirijske vrijednosti varijabli navedene su u Tabeli 4.16
Tabela 4.16 Proizvodnja u tonama, rad u satima i kapital (u radima sata strojeva u 14
industrijskih poduzeća
Q
L
K
340
1272
463
376
1427
508
307
989
429
369
1539
485
404
1616
542
383
1599
508
415
1668
553
321
1066
446
342
1066
485
391
1591
519
360
1350
491
391
1462
531
412
1720
542
376
1591
497
Pretpostavljena je Cobb-Douglasova proizvodna funkcija:
Q   0 L1 K  2  e
(4.69)
Logaritamskom transformacijom se nelinearni regresijski model (4.69) svodi na oblik
višestruke linearne regresije:
log Q  log  0  1 log L   2 log K  
U tom je modelu log Q regresand (egzogena) varijabla, a log L i log K su regresorske
(endogene) varijable.
1
(4.70)
Na osnovi rezultata regresijske analize provedene uz programsku potporu EViews dobiveni su
između ostalih slijedeći rezultati1 predočeni u Tabeli 4.17:
Napomena: greške relacije u nelinearnom regresijskom modelu imaju log-normalnu
distribuciju jer po pretpostavci slučajne varijable u linearnom regresijskom modelu imaju
normalnu distribuciju  i ~ N (0, 2 ) . Općenito vrijedi:
2
i
E (e )  e
 
2
2

E ( y)  e
2
i
2
1
2
0 x1 x2
→
ˆ
yˆ  e
2
ˆ0 x1 x2
ˆ
ˆ
1

→ E (e )  e
a zbog pretpostavke da je µ=0
2
2
2
Tabela 4.17 Rezultati regresijske analize za podatke iz Tabele 4.16 (ispis EViews 5.1)
Dependent Variable: L_Q
Method: Least Squares
Sample: 1 14
Included observations: 14
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
L_L
L_K
-0.418912
0.193073
0.793744
0.096816
0.009993
0.024356
-4.326889
19.32019
32.58900
0.0012
0.0000
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.998833
0.998621
0.003405
0.000128
61.37746
2.123003
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
5.911021
0.091695
-8.339637
-8.202696
4707.829
0.000000
Procijenjeni regresijski model u logaritamskom obliku glasi:
log Qˆ = - 0.4189122351  0.1930729662 log L  0.7937437512 log K
Interpretacije procijenjenih parametara: Procijenjeni parametri u nelinearnom modelu (4.69)
su procjene koeficijenata parcijalnih elastičnosti pa se interpretiraju na slijedeći način:
1
U ispisu su uvedene slijedeće oznake:
L _ Q  log(Q) L _ L  log(L) L _ K  log(K) . Pri transformaciji su korišteni su prirodni logaritmi.
2
Procijenjeni parametar uz prvu regresorsku varijablu je ˆ1  0.193 , što znači da ako se rad
poveća za 1%, a kapital ostane konstantan, tada će se proizvodnja u prosjeku povećati za
0.193%. Slično, poveća li se kapital za 1%, s tim da je rad konstantan, proizvodnja će se u
prosjeku povećati za 0.794%
Dio ispisa rezultata za podatke iz Tabele 4.11 dobiven programskom potporom SAS dan je u
Tabeli 4.18
Tabela 4.18: Procjene parametara jednim brojem i 95% intervalne procjene
parametara za podatke iz Tabele 4.12 (ispis SAS 9.1)
Parameter Estimates
Variable
Intercept
L_L
L_K
DF
1
1
1
Parameter
Estimate
Standard
Error
-0.41891
0.19307
0.79374
0.09682
0.00999
0.02436
t Value
Pr > |t|
-4.33
19.32
32.59
0.0012
<.0001
<.0001
Parameter Estimates
Variable
DF
Intercept
L_L
L_K
1
1
1
95% Confidence Limits
-0.63200
0.17108
0.74014
-0.20582
0.21507
0.84735
Intervalne procjene parametara uz nezavisne varijable za pouzdanost 95% glase:
P0.17108  1  0.21507  0.95
P0.74014   2  0.84735  0.95
a tumače se na slijedeći način:
Poveća li se rad za 1%, a kapital ostane konstantan, proizvodnja će se u prosjeku, uz
vjerojatnost 0.95 povećati između 0.17108% i 0.21507%.
Analogno, poveća li se kapital za 1%, a rad ostane konstantan, proizvodnja će se u prosjeku,
uz vjerojatnost 0.95 povećati između 0.74014% i 0.84735%.
Pojedinačni testovi, kojima se testira značajnost regresorskih varijabli, predočeni su u Tabeli
4.19
Tabela 4.19: Test o značajnosti pojedine regresorske varijable. Razina signifikantnosti
  0.05
3
df=11,   0.05
df=11,   0.05
H 0 : 1  0
H0 : 2  0
H1 : 1  0
H1 :  2  0
t1 
ˆ1
 19.32
SE ( ˆ1 )
t2 
ˆ 2
 32.59
SE ( ˆ 2 )
t 0.05 (11)  1.796
t 0.05 (11)  1.796
t1  t 0.05 (11)  H 1
t 2  t 0.05 (11)  H 1
Alternativno: p  vrij  0.0000
Alternativno: p  vrij  0.0000
p  vrij    H1
p  vrij    H1
Zaključuje se da je uz zadanu razinu signifikantnosti (   0.05 ) svaka pojedina regresorska
varijabla statistički signifikantna.
Rezultati skupnog testa, za podatke primjera 4.2 predočeni su u Tabeli 4.20
Tabela 4.20: Skupni test o značajnosti regresorskih varijabli
H 0 : 1   2  0
H1 :  j  0,
F
j  1,2
SP / k
 4707.829
SR /( n  (k  1))
F(02.,057 )  3.98
F  F(02.,057 )  H 1
Alternativ no :
p  vrij  0.000000
p  vrij    H 1
Na osnovi rezultata skupnog testa za primjer 4.2 zaključuje se da barem jedna regresorska
varijabla ima signifikantnog utjecaja na varijacije proizvodnje.
4
Iz dijela ispisa rezultata regresijske analize za podatke iz primjera 4.2 pomoću programske
potpore SAS navedenog u Tabeli 4.20 mogu se izvesti slijedeći zaključci o reprezentativnosti
modela:
Tabela 4.21: Tabela ANOVA i pokatzatelji reprezentativnosti modela (ispis SAS 9.1)
Analysis of Variance
Source
DF
Sum of
Squares
Mean
Square
Model
Error
Corrected Total
2
11
13
0.10918
0.00012755
0.10930
0.05459
0.00001160
Root MSE
Dependent Mean
Coeff Var
0.00341
5.91102
0.05761
R-Square
Adj R-Sq
F Value
Pr > F
4707.83
<.0001
0.9988
0.9986
Sredina kvadrata neprotumačenih odstupanja, odnosno procijenjena varijanca regresije iznosi
ˆ 2  0.0000116 , procijenjena standardna devijacija regresije je ˆ  0.00341 , odnosno
procijenjeni koeficijent varijacije je Vˆ  0.05761 S obzirom da je model procijenjen na
osnovi logaritamskih vrijednosti varijabli, procijenjena standardna devijacija regresije tumači
se kao prosječno odstupanje logaritama empirijskih od logaritama procijenjenih vrijednosti
proizvodnje. To odstupanje izraženo relativno iznosi 0.058%.
Koeficijent determinacije je R 2  0.9988 , što znači da je 99.88% svih odstupanja
protumačeno procijenjenim regresijskim modelom. Korigirani je koeficijent determinacije
R 2  0.9986 .
Koeficijent multiple korelacije iznosi R  0.9988  0.9994 , što znači da u lineariziranom
modelu između zavisne varijable i odabranog skupa nezavisnih varijabli postoji vrlo jaka
linearna veza.
Testira li se u primjeru 4.2 s procijenjenim modelom:
log Qˆ  22.83955  1.430253 log L  3.045391log K
5
hipoteza2 H 0 : 1   2  1 , tj. pretpostavka o konstantnom prinosu dolazi se (ispis EViews) do
slijedećeg rezultata:
Tabela 4.22 Rezultat Waldovog testa za hipotezu H 0 : 1   2  1 u primjeru 4.2 (ispis
EViews 5.1)
Wald Test:
Equation: Untitled
Test Statistic
Value
F-statistic
Chi-square
df
0.629022
0.629022
Probability
(1, 11)
1
0.4445
0.4277
Value
Std. Err.
Null Hypothesis Summary:
Normalized Restriction (= 0)
-1 + C(2) + C(3)
-0.013183
0.016622
Restrictions are linear in coefficients.
Empirijska razina signifikantnosti za F-test je 0.4445, a empirijska razina signifikantnosti za
Hi-kvadrat test je 0.4277, te se nulta hipoteza o konstantnom prinosu prihvaća kao moguća.
Napomena 4.1
Test o konstantnom prinosu može se provesti alternativno kao t-test, pri čemu se hipoteze
formuliraju:
H 0 : 1   2  1  0
H 0 : 1   2  1  0
A testovna veličina:
t
ˆ1  ˆ 2  1
SE ( ˆ1  ˆ 2 )
Pripada t-distribuciji s n-(k+1) stupnjeva slobode.
2
U programu EViews parametri su označeni:
 0  C (1), 1  C (2),  2  C (3),...
6
Nazivnik od t može se izračunati polazeći od matrice varijanci i kovarijanci procijenjenih
parametara prema formuli:
SE (ˆ1  ˆ2 )  Cov(ˆ1  ˆ2 )  var(ˆ1 )  var(ˆ2 )  2Cov(ˆ1  ˆ2 )
Matrica varijanci i kovarijanci procijenjenih parametara u ovom je primjeru (ispis SAS 9.1):
Covariance of Estimates
Variable
Intercept
Intercept
L_L
L_K
0.009373346
0.0005707463
-0.0021747
L_L
L_K
0.0005707463
0.0000998665
-0.000208395
-0.0021747
-0.000208395
0.0005932239
Stoga je:
SE ( ˆ1  ˆ 2 )  0.0000998665  0.0005932439  2  0.000208395  0.016622
t
ˆ1  ˆ 2  1  0,01319

 0.7935
SE ( ˆ1  ˆ 2 ) 0,016622
Teorijska vrijednost t-distribucije s 14-3=11 stupnjeva slobode za razinu signifikantnosti
  0.05 iznosi t 0.025 (11)  2.201. S obzirom da je t  t / 2 (11) nulta se hipoteza ne
može odbaciti. Nulta hipoteza, test veličina ( ˆ  ˆ )  1 , te standardna pogreška
1
2
SE ( ˆ1  ˆ 2) nalaze se u ispisu rezultata Waldovog testa
posljednjem dijelu tabele 4.22.
(ispis EViews 5.1) u
Null Hypothesis Summary:
Normalized Restriction (= 0)
Value
-1 + C(2) + C(3)
-0.013183
Restrictions are linear in coefficients.
7
Std. Err.
0.016622
4.6 Predviđanje pomoću modela višestruke linearne regresije
Kao što je već opisano u poglavlju 3.7, predviđanje buduće vrijednosti zavisne varijable
pomoću regresijskog modela jedan je od osnovnih ciljeva regresijske analize.
Zadatak predviđanja je da se dođe do prognostičkih vrijednosti, te prognostičkih intervala.
Postupak predviđanja modelom višestruke linearne regresije samo je poopćenje bivarijatnog
slučaja opisanog u poglavlju 3.7 uz napomenu da formule za izračunavanje prognostičkih
pogrešaka uključuju prethodno izvedene formule kao posebni slučaj.
Ako se pretpostavi da se veza među varijablama odabranim u model u budućnosti (odnosno u
okolini promotrenih prostornih točaka) neće mijenjati, tada se očekuje da za nove vrijednosti
regresorskih varijabli, odnosno za vektor opaženih (ili pretpostavljenih) vrijednosti
xf  ( x f 1
x f 2  x fk ) prognostička vrijednost zadovoljava jednadžbu:
y f  xf    f ,
(4.71)
a uz ispunjenje polaznih pretpostavki o modelu najbolji linearni procjenitelj vrijednosti y f je:
yˆ f  xf ˆ
(4.72)
pri čemu je ˆ najbolji linearni nepristrani procjenitelj vektora parametara.
Matrica varijanci i kovarijanci od yˆ f je:
Var ( yˆ f )  Var ( xf ˆ )  xfVar ( ˆ ) xf   2 xf ( X X )1 x f
(4.73)
S obzirom da je vektor procijenjenih parametara normalno distribuiran i slučajna varijabla yˆ f
ima normalnu distribuciju. Kako je zbog (4.72):
E ( yˆ f )  xf  ,
to je prema (4.74) i (4.73) distribucija od yˆ f :
8
(4.74)



yˆ f ~ N ( x f  , 2 x f ( X X ) 1 x f )
(4.75)
Prognostička pogreška, definirana kao odstupanje procjenitelja yˆ f od varijable y f :

u  y f  yˆ f  xf (   ˆ )   f
(4.76)
ima centriranu normalnu distribuciju (vidjeti (3.182) –(3.185)):


uf ~ N (0,  2 (1  xf ( X X )1 x f ))
(4.77)
Njena varijanca proporcionalna je varijanci varijable y, koja je općenito nepoznata i
procjenjuje se s (4.39). Standardizirana prognostička pogreška izračunata kao omjer greške u
i procijenjene standardne devijacije od u
(koja se dobije uvrštavanjem procjene ˆ ) ima t-
distribuciju s [n-(k+1)] stupnjeva slobode:
y f  yˆ f
~ tn  (k  1)
SE ( y f  yˆ f )
(4.78)
Odatle je prognostički interval:
Pyˆ f  t / 2 SE ( y f  yˆ f )  y f  yˆ f  t / 2 SE ( y f  yˆ f )  1  
(4.79)
Pored prognostičkog intervala (4.79) računa se i intervalna procjena vrijednosti y f u
populaciji. Ta je procjena prema (4.78) jednaka:
Pyˆ f  t / 2 SE ( yˆ f )  y f  yˆ f  t / 2 SE ( yˆ f )  1  
(4.80)
pri čemu je SE ( yˆ f ) procijenjena standardna devijacija od yˆ f dobivena uvrštavanjem
procjene ˆ u drugi korijen izraza za njegovu varijancu (4.73).
9
Za primjer 4.1 može se izračunati prognostička vrijednost prometa za pretpostavljen broj
poslovnih jedinica 14000 i pretpostavljenu vrijednost indeksa nominalnih plaća 112.
Programskom potporom SAS dobivena je prognostička vrijednost i intervalna procjena
zavisne varijable u populaciji:
Obs
JEDINICE
PROMET
1
2
3
4
5
6
7
8
9
10
11
12919
12139
11406
11529
11190
13082
12725
13364
12772
12183
14000
2816.63
2649.86
2434.78
2781.05
2839.45
3242.06
3428.84
3736.54
3826.39
3980.57
.
IND_NP
79.2
83.9
92.4
95.5
97.0
100.0
103.8
108.0
109.6
111.7
112.0
Obs
Predicted
PROMET
Lower
prediction
limit of
PROMET
Upper
prediction
limit of
PROMET
Residual
of
PROMET
1
2
3
4
5
6
7
8
9
10
11
2617.52
2571.06
2684.47
2839.56
2798.49
3465.17
3507.33
3855.08
3744.14
3653.31
4194.27
2238.72
2307.56
2430.39
2608.98
2506.92
3242.36
3319.09
3567.72
3506.10
3384.81
3784.47
2996.33
2834.56
2938.56
3070.15
3090.07
3687.97
3695.57
4142.44
3982.18
3921.81
4604.07
199.101
78.796
-249.695
-58.515
40.959
-223.108
-78.495
-118.547
82.245
327.258
.
Uvrsti li se u jednadžbu
yˆ  4193.368  0.291367 x1  38.46876 x2
x1  14000,
x2  112 ,
Dobiva se
yˆ f  4193.368  0.291367 14000  38.46876112  4194.27
,
odnosno prema modelu se za pretpostavljene vrijednosti nezavisnih varijabli očekuje promet
od 4194.27 miliona HRK.
Uz vjerojatnost 0.95 se procjenjuje da će se za pretpostavljene vrijednosti nezavisnih varijabli
promet u populaciji kretati između 3784.47 i miliona HRK.
10