Model jednostavne linearne regresije - T-com

Model jednostavne linearne regresije
Regresijska analiza je najčešće korištena
metodologija u ekonometriji, a bavi se opisivanjem
ovisnosti jedne varijable o jednoj ili više drugih
varijabli. Varijabla od primarnog interesa, čije se
varijacije objašnjavaju pomoću varijacija drugih
varijabli naziva se zavisnom (regresand)
varijablom, a varijable kojima se objašnjavaju
varijacije zavisne varijable nazivaju se nezavisnim
(regresorskim) varijablama.
y  f ( x1, x2 ,, xK )  
y  f ( x1 , x2 ,, xK )  
Modelom jednostavne linearne regresije izražena je
stohastička linearna veza između zavisne varijable y i
nezavisne varijable x, koja se može formalno opisati
izrazom:
y  f (x)  
f ( x)   0  1 x
Linearnost se odnosi na način na koji se parametri i
greške relacije pojavljuju u regresijskoj jednadžbi, a
ne na odnos među varijablama. Primjerice, modeli:
yi   0  1 xi   i
2
yi   0  1 ln xi   i
yi   0  1 cos xi   i
Model:
1  i
yi   0 xi e
je nelinearni model koji se logaritamskom
transformacijom može svesti na linearni oblik:
ln yi  ln  0  1 ln xi   i
yi   0  1 xi   i
y1   0  1 x1   1
y 2   0  1 x 2   2

yi   0  1 xi   i

y n   0  1 x n   n
y  X  
i  1,2,..., n
 y1 
y 
 2

y 
 yi 

 
 y n 
1
1


X 
1


1
x1 
x2 


xi 


xn 
 0 
  
 1 
1 
 
 2
 
  
 i 
 
 
 n 
Polazne pretpostavke u analizi
modela jednostavne linearne regresije
su:
Veza između zavisne varijable y i nezavisne varijable x je linearna.
Varijabla x je deterministička varijabla ili se alternativno pretpostavlja
da su njene vrijednosti fiksne u ponovljenim mjerenjima (uzorcima).
Greške relacije u prosjeku ne utječu na zavisnu varijablu
E ( i )  0
Zbog jednostavnosti se pretpostavlja da je analizirani uzorak izabran
na slučajan način, te da su stoga bilo koje dvije slučajne varijable
međusobno nezavisne, a time su i nekorelirane, tj
Cov( i ,  j )  E ( i  j )  0
Također se polazi od pretpostavke da su  i
normalno distribuirane slučajne varijable s jednakom varijancom,
 i ~ N (0, 2 ) Var ( i )   2
i  1, ,n
Normalna razdioba pretpostavlja se zbog spoznaje da su slučajne
pogreške pri mjerenju normalno distribuirane.
Pretpostavka o nepromjenjivosti ili homoskedastičnosti varijance
uvodi se jer se pretpostavlja da varijacije slučajnih odstupanja od
regresije ne ovise o razini varijable x, tj. da se ne razlikuju u različitim
područjima vrijednosti nezavisne varijable.
Pretpostavke (1) – (3), bez pretpostavke o obliku distribucije
grešaka relacije, nazivaju se Gauss Markovljevim uvjetima.
Statistička povezanost varijabli x i y
Postoje različite metode procjenjivanja parametara, a najčešće se
koriste: metoda najmanjih kvadrata, metoda momenata i metoda
najveće vjerodostojnosti. Ako nisu ispunjene polazne pretpostavke o
modelu, vrijednosti parametara procjenjuju se robusnim metodama.
Broj opservacije
Metoda najmanjih kvadrata
y
x
1
y1
x1
2
y2
x2
3
y3
x3
4
y4
x4
5
y5
x5
.
.
.
.
.
.
.
.
.
n
yn
xn
(mjerenja)
yi  ( ˆ0  ˆ1 xi )  minimum
Među različitim metodama mjerenja udaljenosti najčešće je korištena
metoda najmanjih kvadrata.
Metoda najmanjih kvadrata (Least Square method; LS-metoda) sastoji se
u izboru onih procjena nepoznatih parametara koje minimiziraju sumu
kvadrata odstupanja empirijskih vrijednosti zavisne varijable
od procijenjenih ili regresijskih vrijednosti yˆ i  ˆ0  ˆ1 xi , tj.:
n
2
ˆ
ˆ
 ( yi   0  1 xi )  S (ˆ0 , ˆ1 )  minimum
i 1
n
S ( ˆ0 , ˆ1 )
 2 ( yi  ˆ0  ˆ1 xi )  0
ˆ0
i 1
n
S ( ˆ0 , ˆ1 )
 2 xi ( yi  ˆ0  ˆ1 xi )  0
ˆ1
i 1
n
n
i 1
i 1
ˆ  ˆ
y

n

 i 0 1  xi  0
n
y
i 1
n
i
n

y
 ˆ 0  ˆ1
x
i 1
i
n

x
0
y  ˆ0  ˆ1 x
tj. regresijski pravac prolazi točkom  x, y 
slijedi da je:
ˆ0  y  ˆ1 x
n
n
n
1 n
1ˆ n
2
ˆ
 xi yi  n  yi  n 1  xi   xi  1  xi  0
i 1
i 1
i 1
i 1
i 1
n
ˆ1 
n
n
x y
i 1
n
 xi yi 
i 1
i
i 1


  xi 
n
2
 i 1 
x


i
n
i 1
n
i
2
n
ˆ1 
x y
i 1
n
i
x
i 1
2
i
i
 nx y
 nx
2
ˆ0  y  ˆ1 x
1
ˆ
  ( X X ) X y



 1

1

( X X )  
  x1





 n
 n
 x
i

i 1
x1  


x2  
 
 
xi  


 

xn  
n

  xi 
i 1

n 

1
1

 1  1  


 xi  xn  1


1
1
x2

xi 

i 1

n
2
x

i

i 1
n
1
1
 n 2
  xi
 i1n
 x
i
 
i 1

n
n  ( xi2  nx 2 )
i 1
 y1 
y 
n
2


 
y

i 



1
1

1

1



i 1
X y  




 
n

 x1 x 2  xi  x n   yi   x y 

i i


    i 1
 
 y n 
Odnosno jednadžba glasi:


2
  xi   xi 
i 1
 i 1n

n


 x

n
yi 

i


ˆ
  0   i 1
 i 1
 n

 ˆ 
n
 1  n  ( xi2  nx 2 )  xi yi 
 i 1

i 1
n
n
Primjer
Analizira se prihod od prodaje proizvoda (u tisućama HRK) u
ovisnosti o izdacima za promidžbene aktivnosti u trgovinama na
malo (u tisućama HRK). Podaci se odnose na maloprodajno
poslovanje odabranog poduzeća u tridesetak prodavaonica
Slavonsko-Baranjske županije, a vezani su uz period od III. kvartala
2005. do II. kvartala 2008. godine, tabela 3.1.
Kvartalni izdaci za promidžbene aktivnosti i prihod od prodaje
PRIHOD
yi
3212
4284
4145
4096
4632
4741
5321
6863
7173
8270
8300
9435
70472
IZDACI ZA
PROMIDŽBENE
AKTIVNOSTI
xi
171
190
197
200
204
224
290
374
389
423
436
546
3644
Dijagram rasipanja omogućuje da se uoči:
Oblik veze među odabranim varijablama
Smjer povezanosti
Jakost povezanosti
U konkretnom slučaju, procijenjena regresijska jednadžba
glasi:
yˆ  968.99930 16.14819x
Regresijski koeficijent ˆ1  16.14819 pokazuje da će se na temelju
procijenjenog modela, za povećanje
izdataka za promidžbene aktivnosti u iznosu od tisuću kuna prihod u
prosjeku povećati za 16.14819 tisuća kuna.
Konstantni član u modelu rijetko se interpretira i često nema suvislo
značenje.
Regresijske vrijednosti i rezidualna odstupanja
x1  171
yˆ1  ˆ0  ˆ1 x1
yˆ1  968.99930 16.14819171  3730.34
x2  190
yˆ 2  ˆ0  ˆ1 x2
yˆ 2  968.99930  16.14819 190  3747.34
Rezidualna odstupanja
razlike su stvarnih vrijednosti zavisne varijable od procijenjenih
ˆi  yi  yˆ i
i=1,2,...n
Relativna rezidualna odstupanja
ˆi , rel
ˆi
yi  yˆ i
 100 
100
yi
yi
U konkretnom primjeru, prvo rezidualno odstupanje je:
ˆ1  y1  yˆ1  3212  3730.34  518.340
ˆ1,rel
y1  yˆ1
 518.340

100 
100  16.1374%
y1
3212
Regresijska jednadžba sa standardiziranim
regresijskim varijablama
y 
*
i
yi  y
x 
*
i
y
xi  x
x
U tom slučaju jednadžba ne sadrži konstantni član i poprima oblik:
* *
ˆ
yˆ  1 x
*
Očitavanjem rezultata (Standardized Estimate) programskog ispisa iz
tabele 3.2 dobiva se:
yˆ  0.98832x
*
*
Procijenjeni parametar tumači se na slijedeći način:
Povećaju li se izdaci za promidžbene aktivnosti za jednu
standardnu devijaciju, prihod će se u prosjeku
povećati za 0.98832 standardnih devijacija.
ˆ1*
Analiza varijance u modelu
jednostavne linearne regresije
• Rezidualna odstupanja koriste se za mjerenje
prilagođenosti regresije opažanjima iz uzorka.
Naime, nakon što se odredi procijenjeni
regresijski pravac postavlja se pitanje je li
izračunata regresija dobra. Općenito se
smatra da je regresija dobro prilagođena
opažanjima iz uzorka ako je velik dio
proporcije varijance varijable y (procijenjene
na osnovi uzorka) protumačen modelom.
Jednadžba analize varijance
( yi  y )  ( yˆi  y )  ( yi  yˆi )
n
n
n
2
2
2
ˆ
ˆ
(
y

y
)

(
y

y
)

(
y

y
)
 i
 i
 i i
i 1 
i 1 
i 1

ST
n
ST    yi  y 
i 1
2
SP
SP 
SR
n
n
i 1
i 1
2
2
ˆ
ˆ
(
y

y
)
SR

(
y

y
)
 i
 i i
• Ako se zbrojevi kvadrata podijele s odgovarajućim
stupnjevima slobode dolazi se do sredina kvadrata koje su
nezavisne procjene komponenti varijance. Zbrojevi kvadrata,
stupnjevi slobode, sredine kvadrata i druge informacije
predočuju se u tabeli analize varijance (ANOVA)
Dijagrami rasipanja i pripadne vrijednosti koeficijenta
linearne korelacija r
• Analizom prihoda od prodaje proizvoda (varijabla y u tisućama HRK) u
ovisnosti o izdacima za promidžbene aktivnosti u trgovinama na malo
(varijabla x u tisućama HRK), za maloprodajno poslovanje odabranog
poduzeća Slavonsko-Baranjske županije, dobivena je regresijska
jednadžba:
yˆ  968.99930 16.14819x
• Analizom prihoda od prodaje proizvoda (varijabla y u tisućama HRK) u
ovisnosti o izdacima za promidžbene aktivnosti u trgovinama na malo
(varijabla x u tisućama HRK), za maloprodajno poslovanje odabranog
poduzeća Slavonsko-Baranjske županije, dobivena je regresijska
jednadžba:
yˆ  968.99930 16.14819x
Jednosmjerni t-testovi hipoteze o
značajnosti regresijskog parametra
ˆ1  0
ˆ1
t1 

ˆ
SE( 1 ) SE( ˆ1 )

p  vrijednost  P t (n  2)  temp

p  vrijednost   H1
Napomena