SPSS "Statistical Package for the Social Sciences" 6. dio Deskriptivne statističke analize • Postoje dvije osnovne grupe statističkih analiza: – Deskriptivna statistika – Postupci i metode kojima na temelju dobivenih podataka opisujemo grupu ispitanika ili neku pojavu • U deskriptivnu statistiku spadaju slijedeće mjere: – – – – Frekvencije Postotci Centralne tendencije Mjere varijabilnosti (disperzije, raspršenja, odstupanja) podataka • Potrebno je voditi računa o tipu podataka – Npr. besmisleno je računati aritmetičku sredinu ili standardnu devijaciju za varijablu Spol – Statistika zaključivanja – Postupci i metode kojima se izvlače zaključci iz podataka, testiraju se postavljene hipoteze, … 2 Primjer SPSS datoteke s podacima 3 Frekvencije • Predstavljaju broj ispitanika koji imaju određenu vrijednost neke varijable • Najbrži uvid u raspodjelu rezultata • Analize → Descriptive statistics → Frequences 4 Frekvencije • Predstavljaju broj ispitanika koji imaju određenu vrijednost neke varijable • Najbrži uvid u raspodjelu rezultata • Analize → Descriptive statistics → Frequences 5 Frekvencije • Predstavljaju broj ispitanika koji imaju određenu vrijednost neke varijable • Najbrži uvid u raspodjelu rezultata • Analize → Descriptive statistics → Frequences Statistics AGE OF RESPONDENT N Valid 1847 Missing 0 VOTE FOR CLINTON, BUSH, PEROT Valid Bush Perot Clinton Total Frequency 661 278 908 1847 Percent 35,8 15,1 49,2 100,0 Valid Percent 35,8 15,1 49,2 100,0 Cumulat iv e Percent 35,8 50,8 100,0 6 Frekvencije • Predstavljaju broj ispitanika koji imaju određenu vrijednost neke varijable • Najbrži uvid u raspodjelu rezultata • Analize → Descriptive statistics → Frequences 7 Frekvencije • Ako se radi o vrijednostima koje imaju veliki raspon mogućih rezultata tada često ovaj prikaz nije pogodan i nepregledan je • Frekvencije pojedinih rezultata se vrlo malo razlikuju, a mi dobivamo tabelu ili grafikon sa velikim brojem različitih vrijednosti AGE OF RESPONDENT Valid 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 Frequency 15 29 27 39 32 25 38 29 37 40 37 47 43 40 45 53 53 35 49 41 42 53 33 Percent ,8 1,6 1,5 2,1 1,7 1,4 2,1 1,6 2,0 2,2 2,0 2,5 2,3 2,2 2,4 2,9 2,9 1,9 2,7 2,2 2,3 2,9 1,8 Valid Percent ,8 1,6 1,5 2,1 1,7 1,4 2,1 1,6 2,0 2,2 2,0 2,5 2,3 2,2 2,4 2,9 2,9 1,9 2,7 2,2 2,3 2,9 1,8 Cumulat iv e Percent ,8 2,4 3,8 6,0 7,7 9,0 11,1 12,7 14,7 16,8 18,8 21,4 23,7 25,9 28,3 31,2 34,1 36,0 38,6 40,8 43,1 46,0 47,8 8 Frekvencije • Ako se radi o vrijednostima koje imaju veliki raspon mogućih rezultata tada često ovaj prikaz nije pogodan i nepregledan je • Frekvencije pojedinih rezultata se vrlo malo razlikuju, a mi dobivamo tabelu ili grafikon sa velikim brojem različitih vrijednosti 9 Frekvencije - kategorije odn. intervalni razredi - • Da bi se dobio informativniji prikaz distribucija rezultata se dijeli u manji broj kategorija (intervalnih razreda) • Kriterije postavlja sam istraživač prema zahtjevima koji su postavljeni: – Određenom statističkom metodom koja se primjenjuje – Teorijskom idejom na kojoj se istraživanje temelji • Primjer: – Raspodjela ispitanika u kategorije prema postignutom koeficijentu inteligencije – Vrijednosti dobivene na testu inteligencije VITI se razvrstavaju u kategorije prema Vekslerovoj teoriji inteligencije • Kriteriji za razvrstavanje rezultata u kategorije: nastava iz Statističkih kolegija → 10 Frekvencije - kategorije odn. intervalni razredi - • Pojmovi kojima se barata pri razmatranju raspodjele ispitanika po kategorijama: R – raspon dobivenih rezultata - razlika najvišeg i najnižeg dobivenog rezultata i – interval - brojčana vrijednost koja pokazuje opseg jednog razreda r – razred - kategorija u koju spada neki ispitanik f – frekvencija - broj slučajeva (ispitanika) koji spadaju u jednu kategoriju 11 Frekvencije - kategorije odn. intervalni razredi - • U primjeru naše baze su vrijednosti varijable age raspoređeni u kategorije u varijabli agecat: 12 Frekvencije - kategorije odn. intervalni razredi - • Tabela i grafikon dobiveni na temelju varijable agecat: age categories Valid lt 35 35 - 44 45 - 64 65 + Total Frequency 438 444 617 348 1847 Percent 23,7 24,0 33,4 18,8 100,0 Valid Percent 23,7 24,0 33,4 18,8 100,0 Cumulativ e Percent 23,7 47,8 81,2 100,0 13 Postotci 14 Postotci • Prikaz prethodnog grafikona za dobne kategorije ali u postotcima 15 Postotci • Prikaz prethodnog grafikona za dobne kategorije ali u postotcima 16 Usporedba prikaza frekvencija i postotaka 17 Valid Percent i Cumulative Percent age categories Valid lt 35 35 - 44 45 - 64 65 + Total Frequency 438 444 617 348 1847 Percent 23,7 24,0 33,4 18,8 100,0 Valid Percent 23,7 24,0 33,4 18,8 100,0 Cumulativ e Percent 23,7 47,8 81,2 100,0 • Valid Percent - postotna zastupljenost pojedinih kategorija u odnosu na valjani broj ispitanika – U gornjem slučaju nema nedostajućih podataka pa su svi valjani • Cumulative Percent - kumulativni postotci odnosno zbroj postotka jednog razreda sa postotcima prethodnih razreda 18 Ako bismo imali nedostajuće podatke Statistics age categories N Valid Missing 1816 31 age categories Valid Missing Total lt 35 35 - 44 45 - 64 65 + Total Sy stem Frequency 426 435 611 344 1816 31 1847 Percent 23,1 23,6 33,1 18,6 98,3 1,7 100,0 Valid Percent 23,5 24,0 33,6 18,9 100,0 Cumulat iv e Percent 23,5 47,4 81,1 100,0 19 Mjere centralne tendencije • Ukazuju na tendencije grupiranja oko neke centralne vrijednosti u distribuciji rezultata • Najčešće mjere centralne tendencije: – Mean (Aritmetička sredina) – Medijan – Mod 20 Mjere centralne tendencije • Aritmetička sredina - prosječan rezultat u dobivenoj distribuciji – Za računanje aritmetičke sredine moraju biti ispunjena dva uvjeta: 1. 2. Rezultati potječu sa intervalne (ili omjerne) skale Postoji pretpostavka o normalnoj raspodjeli tih rezultata u populaciji – Pouzdanija od Medijana i Moda i najčešće se koristi ali ima nedostatak da je osjetljiva na ekstremne rezultate • • Primjer: 29 radnika jedne firme ima plaću između 2.000 i 3.000 kuna, a direktor ima 50.000. Prosječna plaća u toj firmi je cca 4.000 kuna (?!) Medijan - vrijednost koja ima jednak broj slučajeva "lijevo" i "desno" – Otporan na ekstremne slučajeve (jer na nju utječu svi podaci iz uzorka ali samo svojim položajem, a ne i svojom vrijednošću) • Mod - govori koji se rezultat u nekoj distribuciji podatak najčešće pojavljuje – Nedostatak Moda se najbolje uočava kada imamo distribuciju sa dva ili više najčešća rezultata (bimodalna ili multimodalna distribucija) – Problematična u slučaju kontinuiranih varijabli jer je broj mogućih vrijednosti u bilo kom intervalu na takvim varijablama praktično neograničen • Zato se najčešće najprije vrši kategorizacija podataka 21 Mjere centralne tendencije u SPSS-u • Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo na Analyze → Descriptive Statistics → Descriptives 22 Mjere centralne tendencije u SPSS-u • Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo na Analyze → Descriptive Statistics → Descriptives • … → Options… 23 Mjere centralne tendencije u SPSS-u • Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo na Analyze → Descriptive Statistics → Descriptives • … → Continue 24 Mjere centralne tendencije u SPSS-u • Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo na Analyze → Descriptive Statistics → Descriptives Descriptive Statistics AGE OF RESPONDENT Valid N (listwise) N 1847 1847 Mean 47,91 25 Mjere centralne tendencije u SPSS-u • Ako radimo s podacima s ordinalne skale tada idemo na Analyze → Descriptive Statistics → Frequencies… 26 Mjere centralne tendencije u SPSS-u • Ako radimo s podacima s ordinalne skale tada idemo na Analyze → Descriptive Statistics → Frequencies… • … → Statistics… 27 Mjere centralne tendencije u SPSS-u • Ako radimo s podacima s ordinalne skale tada idemo na Analyze → Descriptive Statistics → Frequencies… • … → Continue 28 Mjere centralne tendencije u SPSS-u • Ako radimo s podacima s ordinalne skale tada idemo na Analyze → Descriptive Statistics → Frequencies… Statistics test N Mean Median Mode Valid Missing 1847 0 47,91 46,00 48 29 Mjere varijabilnosti • Same vrijednosti centralne tendencije uglavnom ne pružaju dovoljno informacija o uzorku – Sasvim je moguće da se identične vrijednosti centralne tendencije dobiju na potpuno različitim uzorcima • – • • • • Primjer: Tri roditelja s po jednim malim djetetom i šest tinejđera Mjere centralne tendencije nam ne govore ništa o tome koliko se podaci iz uzorka međusobno razlikuju Ako su rezultati gusto grupirani oko srednje vrijednosti onda ta srednja vrijednost vjerno reprezentira mjerenu pojavu Ako su odstupanja rezultata od srednje vrijednosti velika onda nam srednja vrijednost ne govori mnogo o mjerenoj pojavi Zaključivanje o aritmetičkoj sredini će biti utoliko točnije ukoliko je veći uzorak i što je mjerena pojava manje varijabilna Neke mjere varijabilnosti koje se često koriste su: – – – Raspon Standardna devijacija Varijanca 30 Mjere varijabilnosti - Raspon - • Razlika između najvećeg i najmanjeg rezultata • Gruba mjera ali se može koristiti kao dodatni opis • Njen smisao je problematičan (pogotovo ako podaci ne potjeću sa intervalne skale) 31 Mjere varijabilnosti - Standardna devijacija • Odgovora aritmetičkoj sredini kao mjeri centralne tendencije • Najpreciznija i najpouzdanija mjera varijabilnosti pojava • Računa se u odnosu na aritmetičku sredinu pa i za nju vrijede uvjeti: 1. Rezultati potječu sa intervalne (ili omjerne) skale 2. Postoji pretpostavka o normalnoj raspodjeli tih rezultata u populaciji • Formula za izračunavanje standardne devijacije: σ= (𝑋−𝑀)2 𝑁−1 gdje je: X - pojedinačni rezultat ispitanika M - aritmetička sredina N - ukupan broj slučajeva mjerenja 32 Mjere varijabilnosti - Varijanca - • Varijanca je jednaka kvadratu standardne devijacije: ν = σ2 • Varijanca i standardna devijacija predstavljaju sličnu mjeru varijabilnosti • Međutim, postoje statističke operacije koje bez učešća varijance ne bi bile moguće 33 Mjere varijabilnosti u SPSS-u • Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo na Analyze → Descriptive Statistics → Descriptives • … → Continue 34 Mjere varijabilnosti u SPSS-u • Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo na Analyze → Descriptive Statistics → Descriptives Descriptive Statistics AGE OF RESPONDENT Valid N (listwise) N 1847 1847 Range 67 St d. Dev iation 16,334 Variance 266,798 35 Mjere varijabilnosti u SPSS-u • Ako radimo s podacima s ordinalne skale tada idemo na Analyze → Descriptive Statistics → Frequencies… • … → Continue 36 Mjere varijabilnosti u SPSS-u • Ako radimo s podacima s ordinalne skale tada idemo na Analyze → Descriptive Statistics → Frequencies… Statistics test N St d. Dev iation Variance Range Valid Missing 1847 0 16,334 266,798 67 37 Deskripcija uzorka • Osnovni podaci potrebni za minimalni statistički opis uzorka su: – podatak o nekoj centralnoj tendenciji uzorka na danoj varijabli – podatak o nekoj njenoj varijabilnosti na toj varijabli – podatak sa koje mjerne skale potječu podaci • možda su već sadržani u informaciji o primijenjenim mjerama centralne tendencije i varijabilnosti (ako su pravilno primijenjene) u smislu da podaci potječu sa skale koja je pogodna za primjenu odabrane mjere varijabilnosti ili centralne tendencije – dobro je znati i nešto o obliku distribucije → ... 38 Odstupanje distribucije podataka od normalne razdiobe • Provjera eventualnog odstupanja empirijske distribucije od normalne distribucije (između ostalog) služi za: – odluku o korištenju određenih statističkih testova • • Jedan od načina da se provede provjera normalnosti je korištenje mjera varijabilnosti Skewness i Kurtosis Skewness: – pozitivno ili negativno (horizontalno) odstupanje – da li je empirijska razdioba pozitivno ili negativno asimetrična – Grafički: Da li razdioba skreće u lijevu ili desnu stranu • Kurtosis: – – – – – odstupanje po visini (vertikalno odstupanje) Grafički: Da li je razdioba izdužena (leptokurtična) ili spljoštena (platikurtična) Kurtosis se uspoređuje sa 0 (koliko iznosi za normalnu distribuciju) Ako je Kurtosis manji od 0 tada je distribucija spljoštena (platikurtična) Ako je Kurtosis veći od 0 tada je distribucija izdužena (leptokurtična) 39 Negativno i pozitivno odstupanje od normalne razdiobe Negative skew Positive skew 40 Vertikalno odstupanje od normalne razdiobe (Positive Kurtosis) (Negative Kurtosis) 41 Provjera normalnosti u SPSS-u • Analyze → Descriptive Statistics → Descriptives… 42 Provjera normalnosti u SPSS-u • Želimo provjeriti normalnost razdiobe za dob: • i idemo na Options… 43 Provjera normalnosti u SPSS-u • Označimo Kurtosis i Skewness: • i kliknemo na Continue 44 Provjera normalnosti u SPSS-u Descriptive Statistics AGE OF RESPONDENT Valid N (listwise) N St at ist ic 1847 1847 Minimum St at ist ic 22 Maximum St at ist ic 89 Mean St at ist ic 47,91 St d. Dev St atiation ist ic 16,334 Skewness St at ist ic St d. Error ,524 ,057 Kurt osis St at ist ic St d. Error -,554 ,114 • Skewness = 0,524 što znači da je naša distribucija pozitivno asimetrična s obzirom na normalnu (skreće na desnu stranu) • Kurtosis = -0,554 (manji od 0) što znači da je distribucija spljoštena u odnosu na normalnu (platikurtična) 45 Grafički prikaz za dob - usporedba sa normalnom krivuljom 46 Značajnost odstupanja distribucije od normalne razdiobe • • Postoji više načina da se odredi da li je odstupanje distribucije od normalne razdiobe značajno Jedan način: – Skewness i Kurtosis podijelimo sa njihovim standardnim greškama (standardne greške se također dobiju u tabeli s rezultatima) – Ako je bilo koja od dobivenih vrijednosti veća od 1,96 ili 2,58 tada zaključujemo da empirijska distribucija značajno (na nivou 0,05 odnosno 0,01) odstupa od normalne distribucije – Dakle: • Sk/SESk>2,58 \/ Ku/SEKu>2,58 → p (statistička značajnost)>0,05 • Sk/SESk>1,96 \/ Ku/SEKu>1,96 → p (statistička značajnost)>0,01 • U našem primjeru: 0,524/0,057 = 9,19 0,554/0,114 = 4,86 Dakle, oba kvocijenta su veća od 2.58 pa možemo zaključiti da empirijska distribucija značajno odstupa od normalne distribucije 47 Značajnost odstupanja distribucije od normalne razdiobe • Drugi način: Kolmogorov-Smirnov test • Analyze → Descriptive Statistics → Explore 48 Kolmogorov-Smirnov test • Na Dependent List stavljamo varijablu koju želimo testirati (u našem slučaju age) 49 Kolmogorov-Smirnov test • Nakon toga idemo na opciju Plots 50 Kolmogorov-Smirnov test • Označimo opcije Histogram i Normality plots with tests • Dobijemo tri tabele i jedan histogram • Nama je važna tabela Tests of Normality 51 Tests of Normality Tests of Normality a AGE OF RESPONDENT Kolmogorov -Smirnov St at ist ic df Sig. ,078 1847 ,000 Shapiro-Wilk St at ist ic df ,959 1847 Sig. ,000 a. Lillief ors Signif icance Correction • • • Stupac Sig. Nam govori o značajnosti odstupanja naše distribucije od normalne (u našem slučaju 0,000) Budući da je Sig. manje od 0,01, a hipoteza je bila da naša distribucija ne odstupa značajno od normalne, odbacujemo postavljenu hipotezu i donosimo zaključak da naša distribucija statistički značajno (na nivou značajnosti od 0,01) odstupa od normalne U tabeli se vidi i da je rađen i drugi test eventualnog odstupanja empirijske distribucije od normalne (Shapiro-Wilk) – No, budući da je on predviđen za uzorke od 50 ili manje ispitanika (u našem slučaju ih ima 1847) on nam nije potreban – U verziji SPSS 20 se Shapiro-Wilk test i pojavljuje samo u slučaju kada imamo manje od 50 ispitanika 52 Drugi primjer - Ocjene svih studenata na godini (36 studenata) iz jednog kolegija 53 Drugi primjer - Ocjene svih studenata na godini (36 studenata) iz jednog kolegija 54 Drugi primjer - Ocjene svih studenata na godini (36 studenata) iz jednog kolegija 55 Drugi primjer - Ocjene svih studenata na godini (36 studenata) iz jednog kolegija Tests of Normal ity a ocjene Kolmogorov -Smirnov St at ist ic df Sig. ,167 36 ,013 Shapiro-Wilk St at ist ic df ,921 36 Sig. ,013 a. Lillief ors Signif icance Correction 56 Izračunavanje Z-vrijednosti u SPSS-u • Analyze → Descriptive Statistics → Descriptives… • Kada odaberemo varijablu i prebacimo je u desni prozor tada označimo "Save standardized values as variables" 57 Izračunavanje Z-vrijednosti u SPSS-u • Z-vrijednosti za varijablu naziv_varijable se pojavljuju u datoteci s podacima kao nova varijabla s nazivom Znaziv_varijable • U našem slučaju se nova varijabla zove Zage 58 Svaki ispitanik ima pripadnu Z-vrijednost za promatranu varijablu 59 Interpretacija Z-vrijednosti 𝑥𝑖 − 𝐴𝑆 𝑧𝑖 = 𝑆𝐷 • • • • • Pozitivna - pripadna vrijednost varijable ispitanika je veća od aritmetičke sredine uzorka Negativna - pripadna vrijednost varijable ispitanika je manja od aritmetičke sredine uzorka Apsolutna vrijednost Z-vrijednosti nam kaže koliko standardnih devijacija je ispitanik udaljen od aritmetičke sredine Većina slučajeva bi trebala imati Z-vrijednost između -3,5 i +3,5 Ipak, neke Z-vrijednosti mogu imati apsolutnu vrijednost veću od 3,5 i za njih možemo reći da su vrlo daleko od aritmetičke sredine – Trebalo bi ih odbaciti ali o tome na nastavi iz Statistike → 60 Deskriptivne mjere za dva ili više poduzoraka • Često se javlja potreba za uspoređivanjem deskriptivnih mjera dvaju ili više poduzoraka u okviru jednog istraživanja • Npr. na našem primjeru glasanja možemo usporediti aritmetičke sredine dobi muških i ženskih ispitanika • Postoji više načina da se to napravi u SPSS-u 61 Deskriptivne mjere za dva ili više poduzoraka • Analyze → Compare Means → Means… 62 Deskriptivne mjere za dva ili više poduzoraka • U Dependent List prebacimo varijablu čije rezultate želimo usporediti (age) • U Independent List prebacimo varijablu u kojoj se nalaze informacije o našim poduzorcima (sex) 63 Deskriptivne mjere za dva ili više poduzoraka • Da bismo odabrali deskriptivne mjere koje želimo vidjeti, kliknemo na Options… 64 Deskriptivne mjere za dva ili više poduzoraka • Na desnu stranu treba staviti mjere koje želimo prikazati • Automatski su stavljene gornje tri ali mi to možemo promijeniti 65 Deskriptivne mjere za dva ili više poduzoraka - rezultati Case Processing Summary N AGE OF RESPONDENT * RESPONDENTS SEX Included Percent 1847 100,0% Cases Excluded N Percent 0 Total N ,0% 1847 Percent 100,0% Report AGE OF RESPONDENT RESPONDENTS SEX male f emale Total Mean 47,68 48,09 47,91 N 804 1043 1847 St d. Dev iation 15,518 16,941 16,334 • Prva tabela kaže koje varijable križamo i koliko ispitanika ima valjane podatke • U drugoj tabeli vidimo: – Prosječna starost muških ispitanika je manja nego ženskih ispitanika – Broj muških ispitanika je manji nego ženskih ispitanika – Standardna devijacija muških ispitanika je manja nego ženskih ispitanika 66
© Copyright 2024 Paperzz