Korelacijska i regresijska analiza

Korelacijska i regresijska analiza
Odnosi među pojavama
• Odnos među pojavama može biti:
– deterministički ili funkcionalni i
– stohastički ili statistički
Kod determinističkoga se odnosa za svaku vrijednost
jedne pojave točno zna vrijednost druge pojave.
Kod stohastičkoga se odnosa na osnovi vrijednosti
jedne pojave ne može sa sigurnošću predvidjeti
vrijednost druge pojave.
• Primjeri determinističkih odnosa: stranica kvadrata i njegov opseg,
količina prodane robe i dobiveni iznos novca.
• Primjeri stohastičkih odnosa: cijena neke robe i njezina potražnja,
visina i starost stabla.
• Osnovna su pitanja koja pri proučavanju odnosa između
dviju ili više pojava postavljamo:
– Jesu li statističke varijable povezane?
– Na koji su način povezane?
– Koliko su snažno povezane?
– Može li se povezanost numerički izraziti?
• Istraživanjem i kvantificiranjem povezanosti među
promatranim pojavama, odnosno varijablama bavi se
korelacijska analiza.
• Utvrđivanjem analitičkog izraza povezanosti među
pojavama bavi se regresijska analiza.
Dijagram raspršenja
• Polazna točka u korelacijskoj i regresijskoj
analizi jest dijagram raspršenja. To je grafički
prikaz točaka u koordinatnome sustavu koje
predstavljaju niz uređenih parova (x1, y1),
(x2, y2), …, (xn, yn); pri čemu su x1, x2, …, xn,
vrijednosti jedne varijable (X ), a y1, y2, …, yn,
vrijednosti druge varijable (Y ).
• Uočimo li neku pravilnost u rasporedu točaka u
dijagramu raspršenja, možemo zaključiti jesu li
varijable korelirane ili nisu.
Primjeri dijagrama raspršenja
Y
Y
X
Postoji korelacija
X
Nema korelacije
Y
Y
X
Linearna i nelinearna korelacija
X
Y
Y
X
Korelacije pozitivnog i negativnog smjera
X
Y
Y
X
Jaka i slaba korelacija
X
Y
X
Potpuna korelacija
Koeficijenti korelacije
• Koeficijenti korelacije su pokazatelji stupnja
•
•
statističke povezanosti.
Ako se istražuje veza između dviju varijabli i ako je ta
veza linearna, stupanj povezanosti izražava se
koeficijentom linearne korelacije.
Istražuje li se postojanje linearne veze jedne varijable u
ovisnosti od dviju ili više drugih varijabli, stupanj
povezanosti izražava se koeficijentom višestruke
linearne korelacije.
• Stupanj nelinearne ili krivolinijske veze između varijabli
•
izražava se koeficijentom krivolinijske korelacije.
Ako su promatrane pojave predstavljene redosljednim
varijablama, stupanj njihove povezanosti izražava se
koeficijentom korelacije ranga.
Pearsonov* koeficijent korelacije
• Pearsonov koeficijent korelacije (r ) mjeri jakost i smjer linearne
•
korelacije.
Računa se po formuli:
r=
σ xy
σ xσ y
,
gdje su σx i σy standardne devijacije varijabli X i Y, a σxy je
kovarijanca - aritmetička sredina umnožaka odstupanja varijabli od
njihovih aritmetičkih sredina.
Kovarijanca niza n uređenih parova vrijednosti obilježja X i Y računa se po formuli:
σ xy
1 n
= ∑ ( xi − x ) ( y i − y )
n i =1
n
ili po formuli:
σ xy =
∑ xi y i
i =1
n
−xy
*Karl Pearson (1857. - 1936.), engleski matematičar, statističar i biolog.
• Uvijek je -1 ≤ r ≤ 1.
– Ako je |r | = 1, veza je funkcionalna;
– ako je r = 0, ne postoji linearna korelacija među ispitivanim
pojavama.
• Smjer korelacije jednak je predznaku od r.
• Stupanj jakosti korelacije okvirno je dan saljedećom tablicom:
|r|
0
Jakost korelacije
nema korelacije
0 - 0,5
slaba korelacija
0,5 - 0,8
srednje jaka
korelacija
jaka korelacija
0,8 - 1
1
potpuna korelacija
Regresijska analiza
• Regresijska analiza bavi se određivanjem
funkcionalne zavisnosti između dviju ili više
varijabli. Analitički izraz te zavisnosti zove se
regresijski model.
• Ako model izražava vezu između zavisne i jedne
nezavisne varijable, riječ je o jednostavnom
regresijskom modelu.
• Ako model izražava vezu između zavisne i dviju
ili više nezavisnih varijabli, riječ je o modelu
višestruke regresije.
• Regresijski modeli mogu izražavati i linearne i
nelinearne veze između promatranih pojava ili
varijabli.
• Najjednostavniji oblik zavisnosti, odnosno
najjednostavniji regresijski model je model
jednostavne linearne regresije*:
y = ax + b,
gdje je a, b ∈ R.
• Ovakvim modelom pokušavamo objasniti veličinu
y preko samo jedne veličine (x), a svi ostali
utjecaji se zanemaruju.
• Takav je pristup u praksi opravdan jer smo
najčešće u nemogućnosti sagledati sve utjecaje
na veličinu y, pa uzimamo u obzir samo
najbitnije.
*Model je linearan ako svaka varijabla u modelu ima potenciju 1.
• No moguće je da se analizom dođe do zaključka
da je y u značajnoj linearnoj zavisnosti od više
varijabli. Tada bi određivali model oblika:
y = ax1 + ax2 + … + axk + b,
gdje je ai, b ∈ R, i = 1, …, k.
To je model višestruke linearne regresije.
• Podaci za regresijsku analizu nastaju
opažanjem ili mjerenjem u statističkim
pokusima.
• U gospodarskim primjenama regresijskog
modela podaci se javljaju kao:
1. brojčane vrijednosti pojava za određene
gospodarske ili prostorne jedinice
2. vremenski nizovi
3. kombinacija 1. i 2.
Model jednostavne linearne regresije
• Pretpostavimo da je zadan dijagram raspršenja
•
od n točaka (x1, y1), (x2, y2), ..., (xn, yn), te da
nas oblik tog dijagrama upućuje na postojanje
linearne korelacije među obilježjima X i Y.
Pravac regresije p ima jednadžbu:
y = ax + b.
Nagib (a) i odsječak (b) određuju se metodom najmanjih
kvadrata.
Metoda najmanjih kvadrata
• Metoda najmanjih kvadrata bazira se na uvjetu da zbroj
kvadrata vertikalnih odstupanja točaka u dijagramu
raspršenja od traženog pravca regresije bude minimalan.
Y
y = ax + b
( x2 , y 2 )
( x1 , y 1 )
( x3 y 3 )
ε2
ε3
ε1
ax2 + b
ax1 + b
ax3 + b
X
x1
x2
x3
Vertikalna odstupanja od pravca regresije
• Iz zadanog uvjeta dobije se:
a=
σ xy
σx
,
2
b = y − a x,
gdje je σx2 varijanca varijable X, a σxy kovarijanca između
varijabli X i Y.
,
.
Parametar «a» zove se regresijski koeficijent . On pokazuje za
koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna
varijabla promijeni za jedan.
Parametar «b» je konstanta i pokazuje vrijednost zavisne varijable
u slučaju kada je nezavisna varijabla jednaka nuli.
Primjedba
• Kao što smo promatrali pravac regresije veličine Y u
odnosu na veličinu X, možemo promatrati i obrnuto:
pravac regresije veličine X u odnosu na veličinu Y. Taj
pravac ima jednadžbu:
x = a′y + b′,
,
.
gdje je:
a′ =
σ xy
σy
,
2
b′ = x − a ′ y .
Primjer 1: Mjerenjem duljine klipa kukuruza (u cm) i broja zrna na klipu na uzorku od 20 klipova dobiveni
su sljedeći podaci:
Duljina klipa (X)
17,5
15,5
21,0
26,0
21,5
18,0
19,5
23,0
22,5
19,0
Broj zrna na klipu (Y) 480
456
564
714
602
558
640
648
562
565
Duljina klipa (X )
Broj zrna na klipu (Y)
20,5
600
17,0
490
16,5
472
15,5
458
22,0
560
25,0
598
21,0
603
18,0
565
19,5
620
Na osnovi dobivenih podataka nacrtan je dijagram raspršenja.
700
650
600
550
500
450
5
10
15
20
25
Ovaj dijagram upućuje na zaključak da postoji linearna korelacija, pa ima
smisla tražiti jednadžbu pravca regresije:
23,0
672
Za određivanje te jednadžbe treba izračunamti varijancu i kvarijancu, za zadane
podatke. Izračunavanjem se dobiva:
σxy = 178,217; σx = 2,96859; σy = 71,9731.
Uvrštavanjem u formule za određivanje nagiba i odsječka pravca regresije dobivamo:
178,217
a=
= 20,2232
2
2.96859
b = y − a x = 571,35 − 20,2232 ⋅ 20,125 = 164,358
Jednadžba pravca regresije je y = 20,2232x + 164,358.
Njegov je graf dan je na sljedećoj slici. slici
700
650
600
550
500
450
5
10
15
20
25
Primjer 2:
Promatrana je veza između broja proizvedenih proizvoda (X) i
ukupnog profita (Y) (u tisućama kuna). Dobiveni podaci dani su
u tablici:
xi
yi
100
26
105
29
110
33
120
36
145
41
150
43
a) Nacrtajte dijagram raspršenja.
b) Odredite jednadžbu pravca regresije koji
pokazuje ovisnost ukupnog profita o broju
proizvedenih proizvoda i označite značenje
parametara.
c) Ucrtajte pravac regresije u prethodni graf.
d) Izračunajte regresijske vrijednosti i
vrijednosti rezidualnih odstupanja.
Rješenje:
a)
50
45
40
35
30
25
Series1
20
15
10
5
0
0
20
40
60
80
100
120
140
160
b)
xi
yi
xi2
xi yi
100
26
10000
2600
105
29
11025
3045
110
33
12100
3630
120
36
14400
4320
145
41
21025
5945
150
43
22500
6450
730
208
91050
25990
x=
730
= 121,67,
6
y=
208
= 34,67
6
xi yi − n x y 25990 − 6 ⋅121,67 ⋅ 34,67
680,2
∑
a=
=
=
= 0,30523
2
2
2
2228,47
91050 − 6 ⋅121,67
∑ xi − n x
b = y − b x = 34,67 − 0,30523 ⋅121,67 = −2,46733
Jednadžba pravca regresije je:
y = 0,30523x − 2,46733
d)
50
y = 0,306x - 2,5597
45
2
R = 0,9446
40
35
30
Series1
25
Linear (Series1)
20
15
10
5
0
0
20
40
60
80
100
120
140
160
d) Izračunavanje regresijskih vrijednosti i vrijednosti rezidualnih odstupanja.
yˆ i
εi
xi
yi
100
26
28,05567
-2,05567
105
29
29,58182
-0,58182
110
33
31,10797
1,89203
120
36
34,16027
1,83973
145
41
41,79102
-0,79102
150
43
43,31717
-0,31717
730
208
208,0139
0
∑ y = ∑ yˆ
i
i
Primjer 3:
• Analiziraju se ukupni troškovi proizvodnje u
jednom poduzeću. Na temelju kvartalnih
podataka utvrđene su količine proizvodnje i
ukupni troškovi proizvodnje. Podaci su dani u
tablici.
– (a) Nacrtajte dijagram rasipanja. Što zaključujete iz
dijagrama?
– (b) Procijenite vrijednosti parametara regresijskog
modela i protumačite njihovo značenje.
– (c) Izračunajte regresijske vrijednosti.
– (d) Odredite vrijednosti rezidualnih odstupanja.
Proizvodnja
Uk. troškovi
352
146
373
153
411
177
441
190
462
205
490
208
529
227
577
238
641
268
692
274
743
300
xi
yi
xi2
xi yi
352
146
123904
51392
373
153
139129
57069
411
177
168921
72747
441
190
194481
83790
462
205
213444
94710
490
208
240100
101920
529
227
279841
120083
577
238
332929
137326
641
268
410881
171788
692
274
478864
189608
743
300
552049
222900
5711
2386
3134543
1303333
5711
2386
x=
= 519,1818
y=
= 216,9091
11
11
1303333 − 11 ⋅ 519,1818 ⋅ 216,9091 64565,17
a=
=
= 0,38092
2
169495,84
3134543 − 11 ⋅ 519,1818
b = 216,9091 − 0,38092 ⋅ 519,1818 = 19,14236
y = 19,14236 + 0,38092 x
xi
yi
xi 2
xi yi
352
146
123904
51392
373
153
139129
411
177
441
yˆ i
ui
ui,rel
153,2262
-7,2262
-4,95%
57069
161,2255
-8,2255
-5,38%
168921
72747
175,7005
1,2995
0,73%
190
194481
83790
187,1281
2,8719
1,51%
462
205
213444
94710
195,1274
9,8726
4,82%
490
208
240100
101920
205,7932
2,2068
1,06%
529
227
279841
120083
220,6490
6,3510
2,80%
577
238
332929
137326
238,9332
-0,9332
-0,39%
641
268
410881
171788
263,3121
4,6879
1,75%
692
274
478864
189608
282,7390
-8,7390
-3,19%
743
300
552049
222900
302,1659
-2,1659
-0,72%
5711
2386
3134543 1303333
2386,0001
0,0000
-