Korelacijska i regresijska analiza Odnosi među pojavama • Odnos među pojavama može biti: – deterministički ili funkcionalni i – stohastički ili statistički Kod determinističkoga se odnosa za svaku vrijednost jedne pojave točno zna vrijednost druge pojave. Kod stohastičkoga se odnosa na osnovi vrijednosti jedne pojave ne može sa sigurnošću predvidjeti vrijednost druge pojave. • Primjeri determinističkih odnosa: stranica kvadrata i njegov opseg, količina prodane robe i dobiveni iznos novca. • Primjeri stohastičkih odnosa: cijena neke robe i njezina potražnja, visina i starost stabla. • Osnovna su pitanja koja pri proučavanju odnosa između dviju ili više pojava postavljamo: – Jesu li statističke varijable povezane? – Na koji su način povezane? – Koliko su snažno povezane? – Može li se povezanost numerički izraziti? • Istraživanjem i kvantificiranjem povezanosti među promatranim pojavama, odnosno varijablama bavi se korelacijska analiza. • Utvrđivanjem analitičkog izraza povezanosti među pojavama bavi se regresijska analiza. Dijagram raspršenja • Polazna točka u korelacijskoj i regresijskoj analizi jest dijagram raspršenja. To je grafički prikaz točaka u koordinatnome sustavu koje predstavljaju niz uređenih parova (x1, y1), (x2, y2), …, (xn, yn); pri čemu su x1, x2, …, xn, vrijednosti jedne varijable (X ), a y1, y2, …, yn, vrijednosti druge varijable (Y ). • Uočimo li neku pravilnost u rasporedu točaka u dijagramu raspršenja, možemo zaključiti jesu li varijable korelirane ili nisu. Primjeri dijagrama raspršenja Y Y X Postoji korelacija X Nema korelacije Y Y X Linearna i nelinearna korelacija X Y Y X Korelacije pozitivnog i negativnog smjera X Y Y X Jaka i slaba korelacija X Y X Potpuna korelacija Koeficijenti korelacije • Koeficijenti korelacije su pokazatelji stupnja • • statističke povezanosti. Ako se istražuje veza između dviju varijabli i ako je ta veza linearna, stupanj povezanosti izražava se koeficijentom linearne korelacije. Istražuje li se postojanje linearne veze jedne varijable u ovisnosti od dviju ili više drugih varijabli, stupanj povezanosti izražava se koeficijentom višestruke linearne korelacije. • Stupanj nelinearne ili krivolinijske veze između varijabli • izražava se koeficijentom krivolinijske korelacije. Ako su promatrane pojave predstavljene redosljednim varijablama, stupanj njihove povezanosti izražava se koeficijentom korelacije ranga. Pearsonov* koeficijent korelacije • Pearsonov koeficijent korelacije (r ) mjeri jakost i smjer linearne • korelacije. Računa se po formuli: r= σ xy σ xσ y , gdje su σx i σy standardne devijacije varijabli X i Y, a σxy je kovarijanca - aritmetička sredina umnožaka odstupanja varijabli od njihovih aritmetičkih sredina. Kovarijanca niza n uređenih parova vrijednosti obilježja X i Y računa se po formuli: σ xy 1 n = ∑ ( xi − x ) ( y i − y ) n i =1 n ili po formuli: σ xy = ∑ xi y i i =1 n −xy *Karl Pearson (1857. - 1936.), engleski matematičar, statističar i biolog. • Uvijek je -1 ≤ r ≤ 1. – Ako je |r | = 1, veza je funkcionalna; – ako je r = 0, ne postoji linearna korelacija među ispitivanim pojavama. • Smjer korelacije jednak je predznaku od r. • Stupanj jakosti korelacije okvirno je dan saljedećom tablicom: |r| 0 Jakost korelacije nema korelacije 0 - 0,5 slaba korelacija 0,5 - 0,8 srednje jaka korelacija jaka korelacija 0,8 - 1 1 potpuna korelacija Regresijska analiza • Regresijska analiza bavi se određivanjem funkcionalne zavisnosti između dviju ili više varijabli. Analitički izraz te zavisnosti zove se regresijski model. • Ako model izražava vezu između zavisne i jedne nezavisne varijable, riječ je o jednostavnom regresijskom modelu. • Ako model izražava vezu između zavisne i dviju ili više nezavisnih varijabli, riječ je o modelu višestruke regresije. • Regresijski modeli mogu izražavati i linearne i nelinearne veze između promatranih pojava ili varijabli. • Najjednostavniji oblik zavisnosti, odnosno najjednostavniji regresijski model je model jednostavne linearne regresije*: y = ax + b, gdje je a, b ∈ R. • Ovakvim modelom pokušavamo objasniti veličinu y preko samo jedne veličine (x), a svi ostali utjecaji se zanemaruju. • Takav je pristup u praksi opravdan jer smo najčešće u nemogućnosti sagledati sve utjecaje na veličinu y, pa uzimamo u obzir samo najbitnije. *Model je linearan ako svaka varijabla u modelu ima potenciju 1. • No moguće je da se analizom dođe do zaključka da je y u značajnoj linearnoj zavisnosti od više varijabli. Tada bi određivali model oblika: y = ax1 + ax2 + … + axk + b, gdje je ai, b ∈ R, i = 1, …, k. To je model višestruke linearne regresije. • Podaci za regresijsku analizu nastaju opažanjem ili mjerenjem u statističkim pokusima. • U gospodarskim primjenama regresijskog modela podaci se javljaju kao: 1. brojčane vrijednosti pojava za određene gospodarske ili prostorne jedinice 2. vremenski nizovi 3. kombinacija 1. i 2. Model jednostavne linearne regresije • Pretpostavimo da je zadan dijagram raspršenja • od n točaka (x1, y1), (x2, y2), ..., (xn, yn), te da nas oblik tog dijagrama upućuje na postojanje linearne korelacije među obilježjima X i Y. Pravac regresije p ima jednadžbu: y = ax + b. Nagib (a) i odsječak (b) određuju se metodom najmanjih kvadrata. Metoda najmanjih kvadrata • Metoda najmanjih kvadrata bazira se na uvjetu da zbroj kvadrata vertikalnih odstupanja točaka u dijagramu raspršenja od traženog pravca regresije bude minimalan. Y y = ax + b ( x2 , y 2 ) ( x1 , y 1 ) ( x3 y 3 ) ε2 ε3 ε1 ax2 + b ax1 + b ax3 + b X x1 x2 x3 Vertikalna odstupanja od pravca regresije • Iz zadanog uvjeta dobije se: a= σ xy σx , 2 b = y − a x, gdje je σx2 varijanca varijable X, a σxy kovarijanca između varijabli X i Y. , . Parametar «a» zove se regresijski koeficijent . On pokazuje za koliko se u prosjeku mijenja zavisna varijabla ako se nezavisna varijabla promijeni za jedan. Parametar «b» je konstanta i pokazuje vrijednost zavisne varijable u slučaju kada je nezavisna varijabla jednaka nuli. Primjedba • Kao što smo promatrali pravac regresije veličine Y u odnosu na veličinu X, možemo promatrati i obrnuto: pravac regresije veličine X u odnosu na veličinu Y. Taj pravac ima jednadžbu: x = a′y + b′, , . gdje je: a′ = σ xy σy , 2 b′ = x − a ′ y . Primjer 1: Mjerenjem duljine klipa kukuruza (u cm) i broja zrna na klipu na uzorku od 20 klipova dobiveni su sljedeći podaci: Duljina klipa (X) 17,5 15,5 21,0 26,0 21,5 18,0 19,5 23,0 22,5 19,0 Broj zrna na klipu (Y) 480 456 564 714 602 558 640 648 562 565 Duljina klipa (X ) Broj zrna na klipu (Y) 20,5 600 17,0 490 16,5 472 15,5 458 22,0 560 25,0 598 21,0 603 18,0 565 19,5 620 Na osnovi dobivenih podataka nacrtan je dijagram raspršenja. 700 650 600 550 500 450 5 10 15 20 25 Ovaj dijagram upućuje na zaključak da postoji linearna korelacija, pa ima smisla tražiti jednadžbu pravca regresije: 23,0 672 Za određivanje te jednadžbe treba izračunamti varijancu i kvarijancu, za zadane podatke. Izračunavanjem se dobiva: σxy = 178,217; σx = 2,96859; σy = 71,9731. Uvrštavanjem u formule za određivanje nagiba i odsječka pravca regresije dobivamo: 178,217 a= = 20,2232 2 2.96859 b = y − a x = 571,35 − 20,2232 ⋅ 20,125 = 164,358 Jednadžba pravca regresije je y = 20,2232x + 164,358. Njegov je graf dan je na sljedećoj slici. slici 700 650 600 550 500 450 5 10 15 20 25 Primjer 2: Promatrana je veza između broja proizvedenih proizvoda (X) i ukupnog profita (Y) (u tisućama kuna). Dobiveni podaci dani su u tablici: xi yi 100 26 105 29 110 33 120 36 145 41 150 43 a) Nacrtajte dijagram raspršenja. b) Odredite jednadžbu pravca regresije koji pokazuje ovisnost ukupnog profita o broju proizvedenih proizvoda i označite značenje parametara. c) Ucrtajte pravac regresije u prethodni graf. d) Izračunajte regresijske vrijednosti i vrijednosti rezidualnih odstupanja. Rješenje: a) 50 45 40 35 30 25 Series1 20 15 10 5 0 0 20 40 60 80 100 120 140 160 b) xi yi xi2 xi yi 100 26 10000 2600 105 29 11025 3045 110 33 12100 3630 120 36 14400 4320 145 41 21025 5945 150 43 22500 6450 730 208 91050 25990 x= 730 = 121,67, 6 y= 208 = 34,67 6 xi yi − n x y 25990 − 6 ⋅121,67 ⋅ 34,67 680,2 ∑ a= = = = 0,30523 2 2 2 2228,47 91050 − 6 ⋅121,67 ∑ xi − n x b = y − b x = 34,67 − 0,30523 ⋅121,67 = −2,46733 Jednadžba pravca regresije je: y = 0,30523x − 2,46733 d) 50 y = 0,306x - 2,5597 45 2 R = 0,9446 40 35 30 Series1 25 Linear (Series1) 20 15 10 5 0 0 20 40 60 80 100 120 140 160 d) Izračunavanje regresijskih vrijednosti i vrijednosti rezidualnih odstupanja. yˆ i εi xi yi 100 26 28,05567 -2,05567 105 29 29,58182 -0,58182 110 33 31,10797 1,89203 120 36 34,16027 1,83973 145 41 41,79102 -0,79102 150 43 43,31717 -0,31717 730 208 208,0139 0 ∑ y = ∑ yˆ i i Primjer 3: • Analiziraju se ukupni troškovi proizvodnje u jednom poduzeću. Na temelju kvartalnih podataka utvrđene su količine proizvodnje i ukupni troškovi proizvodnje. Podaci su dani u tablici. – (a) Nacrtajte dijagram rasipanja. Što zaključujete iz dijagrama? – (b) Procijenite vrijednosti parametara regresijskog modela i protumačite njihovo značenje. – (c) Izračunajte regresijske vrijednosti. – (d) Odredite vrijednosti rezidualnih odstupanja. Proizvodnja Uk. troškovi 352 146 373 153 411 177 441 190 462 205 490 208 529 227 577 238 641 268 692 274 743 300 xi yi xi2 xi yi 352 146 123904 51392 373 153 139129 57069 411 177 168921 72747 441 190 194481 83790 462 205 213444 94710 490 208 240100 101920 529 227 279841 120083 577 238 332929 137326 641 268 410881 171788 692 274 478864 189608 743 300 552049 222900 5711 2386 3134543 1303333 5711 2386 x= = 519,1818 y= = 216,9091 11 11 1303333 − 11 ⋅ 519,1818 ⋅ 216,9091 64565,17 a= = = 0,38092 2 169495,84 3134543 − 11 ⋅ 519,1818 b = 216,9091 − 0,38092 ⋅ 519,1818 = 19,14236 y = 19,14236 + 0,38092 x xi yi xi 2 xi yi 352 146 123904 51392 373 153 139129 411 177 441 yˆ i ui ui,rel 153,2262 -7,2262 -4,95% 57069 161,2255 -8,2255 -5,38% 168921 72747 175,7005 1,2995 0,73% 190 194481 83790 187,1281 2,8719 1,51% 462 205 213444 94710 195,1274 9,8726 4,82% 490 208 240100 101920 205,7932 2,2068 1,06% 529 227 279841 120083 220,6490 6,3510 2,80% 577 238 332929 137326 238,9332 -0,9332 -0,39% 641 268 410881 171788 263,3121 4,6879 1,75% 692 274 478864 189608 282,7390 -8,7390 -3,19% 743 300 552049 222900 302,1659 -2,1659 -0,72% 5711 2386 3134543 1303333 2386,0001 0,0000 -
© Copyright 2024 Paperzz