"Statistical Package for the Social Sciences" 6. dio

SPSS
"Statistical Package for the Social Sciences"
6. dio
Deskriptivne statističke analize
• Postoje dvije osnovne grupe statističkih analiza:
– Deskriptivna statistika – Postupci i metode kojima na temelju
dobivenih podataka opisujemo grupu ispitanika ili neku pojavu
• U deskriptivnu statistiku spadaju slijedeće mjere:
–
–
–
–
Frekvencije
Postotci
Centralne tendencije
Mjere varijabilnosti (disperzije, raspršenja, odstupanja) podataka
• Potrebno je voditi računa o tipu podataka
– Npr. besmisleno je računati aritmetičku sredinu ili standardnu devijaciju
za varijablu Spol
– Statistika zaključivanja – Postupci i metode kojima se izvlače
zaključci iz podataka, testiraju se postavljene hipoteze, …
2
Primjer SPSS datoteke s podacima
3
Frekvencije
• Predstavljaju broj ispitanika koji imaju određenu vrijednost neke
varijable
• Najbrži uvid u raspodjelu rezultata
• Analize → Descriptive statistics → Frequences
4
Frekvencije
• Predstavljaju broj ispitanika koji imaju određenu vrijednost neke
varijable
• Najbrži uvid u raspodjelu rezultata
• Analize → Descriptive statistics → Frequences
5
Frekvencije
• Predstavljaju broj ispitanika koji imaju određenu vrijednost neke
varijable
• Najbrži uvid u raspodjelu rezultata
• Analize → Descriptive statistics → Frequences
Statistics
AGE OF RESPONDENT
N
Valid
1847
Missing
0
VOTE FOR CLINTON, BUSH, PEROT
Valid
Bush
Perot
Clinton
Total
Frequency
661
278
908
1847
Percent
35,8
15,1
49,2
100,0
Valid Percent
35,8
15,1
49,2
100,0
Cumulat iv e
Percent
35,8
50,8
100,0
6
Frekvencije
• Predstavljaju broj ispitanika koji imaju određenu vrijednost neke
varijable
• Najbrži uvid u raspodjelu rezultata
• Analize → Descriptive statistics → Frequences
7
Frekvencije
• Ako se radi o vrijednostima koje imaju veliki raspon mogućih
rezultata tada često ovaj prikaz nije pogodan i nepregledan je
• Frekvencije pojedinih rezultata se vrlo malo razlikuju, a mi dobivamo
tabelu ili grafikon sa velikim brojem različitih vrijednosti
AGE OF RESPONDENT
Valid
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
Frequency
15
29
27
39
32
25
38
29
37
40
37
47
43
40
45
53
53
35
49
41
42
53
33
Percent
,8
1,6
1,5
2,1
1,7
1,4
2,1
1,6
2,0
2,2
2,0
2,5
2,3
2,2
2,4
2,9
2,9
1,9
2,7
2,2
2,3
2,9
1,8
Valid Percent
,8
1,6
1,5
2,1
1,7
1,4
2,1
1,6
2,0
2,2
2,0
2,5
2,3
2,2
2,4
2,9
2,9
1,9
2,7
2,2
2,3
2,9
1,8
Cumulat iv e
Percent
,8
2,4
3,8
6,0
7,7
9,0
11,1
12,7
14,7
16,8
18,8
21,4
23,7
25,9
28,3
31,2
34,1
36,0
38,6
40,8
43,1
46,0
47,8
8
Frekvencije
• Ako se radi o vrijednostima koje imaju veliki raspon mogućih
rezultata tada često ovaj prikaz nije pogodan i nepregledan je
• Frekvencije pojedinih rezultata se vrlo malo razlikuju, a mi dobivamo
tabelu ili grafikon sa velikim brojem različitih vrijednosti
9
Frekvencije
- kategorije odn. intervalni razredi -
• Da bi se dobio informativniji prikaz distribucija rezultata
se dijeli u manji broj kategorija (intervalnih razreda)
• Kriterije postavlja sam istraživač prema zahtjevima koji
su postavljeni:
– Određenom statističkom metodom koja se primjenjuje
– Teorijskom idejom na kojoj se istraživanje temelji
• Primjer:
– Raspodjela ispitanika u kategorije prema postignutom koeficijentu
inteligencije
– Vrijednosti dobivene na testu inteligencije VITI se razvrstavaju u
kategorije prema Vekslerovoj teoriji inteligencije
• Kriteriji za razvrstavanje rezultata u kategorije: nastava iz
Statističkih kolegija →
10
Frekvencije
- kategorije odn. intervalni razredi -
• Pojmovi kojima se barata pri razmatranju raspodjele
ispitanika po kategorijama:
R – raspon dobivenih rezultata - razlika najvišeg i najnižeg
dobivenog rezultata
i – interval - brojčana vrijednost koja pokazuje opseg jednog
razreda
r – razred - kategorija u koju spada neki ispitanik
f – frekvencija - broj slučajeva (ispitanika) koji spadaju u jednu
kategoriju
11
Frekvencije
- kategorije odn. intervalni razredi -
• U primjeru naše baze su vrijednosti
varijable age raspoređeni u kategorije u
varijabli agecat:
12
Frekvencije
- kategorije odn. intervalni razredi -
• Tabela i grafikon dobiveni na temelju
varijable agecat:
age categories
Valid
lt 35
35 - 44
45 - 64
65 +
Total
Frequency
438
444
617
348
1847
Percent
23,7
24,0
33,4
18,8
100,0
Valid Percent
23,7
24,0
33,4
18,8
100,0
Cumulativ e
Percent
23,7
47,8
81,2
100,0
13
Postotci
14
Postotci
• Prikaz prethodnog grafikona za dobne
kategorije ali u postotcima
15
Postotci
• Prikaz prethodnog grafikona za dobne
kategorije ali u postotcima
16
Usporedba prikaza frekvencija i
postotaka
17
Valid Percent i Cumulative Percent
age categories
Valid
lt 35
35 - 44
45 - 64
65 +
Total
Frequency
438
444
617
348
1847
Percent
23,7
24,0
33,4
18,8
100,0
Valid Percent
23,7
24,0
33,4
18,8
100,0
Cumulativ e
Percent
23,7
47,8
81,2
100,0
• Valid Percent - postotna zastupljenost pojedinih
kategorija u odnosu na valjani broj ispitanika
– U gornjem slučaju nema nedostajućih podataka pa su svi valjani
• Cumulative Percent - kumulativni postotci odnosno zbroj
postotka jednog razreda sa postotcima prethodnih
razreda
18
Ako bismo imali nedostajuće
podatke
Statistics
age categories
N
Valid
Missing
1816
31
age categories
Valid
Missing
Total
lt 35
35 - 44
45 - 64
65 +
Total
Sy stem
Frequency
426
435
611
344
1816
31
1847
Percent
23,1
23,6
33,1
18,6
98,3
1,7
100,0
Valid Percent
23,5
24,0
33,6
18,9
100,0
Cumulat iv e
Percent
23,5
47,4
81,1
100,0
19
Mjere centralne tendencije
• Ukazuju na tendencije grupiranja oko neke
centralne vrijednosti u distribuciji rezultata
• Najčešće mjere centralne tendencije:
– Mean (Aritmetička sredina)
– Medijan
– Mod
20
Mjere centralne tendencije
•
Aritmetička sredina - prosječan rezultat u dobivenoj distribuciji
– Za računanje aritmetičke sredine moraju biti ispunjena dva uvjeta:
1.
2.
Rezultati potječu sa intervalne (ili omjerne) skale
Postoji pretpostavka o normalnoj raspodjeli tih rezultata u populaciji
– Pouzdanija od Medijana i Moda i najčešće se koristi ali ima nedostatak da je
osjetljiva na ekstremne rezultate
•
•
Primjer: 29 radnika jedne firme ima plaću između 2.000 i 3.000 kuna, a direktor ima
50.000. Prosječna plaća u toj firmi je cca 4.000 kuna (?!)
Medijan - vrijednost koja ima jednak broj slučajeva "lijevo" i "desno"
– Otporan na ekstremne slučajeve (jer na nju utječu svi podaci iz uzorka ali samo
svojim položajem, a ne i svojom vrijednošću)
•
Mod - govori koji se rezultat u nekoj distribuciji podatak najčešće pojavljuje
– Nedostatak Moda se najbolje uočava kada imamo distribuciju sa dva ili više
najčešća rezultata (bimodalna ili multimodalna distribucija)
– Problematična u slučaju kontinuiranih varijabli jer je broj mogućih vrijednosti u
bilo kom intervalu na takvim varijablama praktično neograničen
• Zato se najčešće najprije vrši kategorizacija podataka
21
Mjere centralne tendencije u
SPSS-u
• Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo
na Analyze → Descriptive Statistics → Descriptives
22
Mjere centralne tendencije u
SPSS-u
• Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo
na Analyze → Descriptive Statistics → Descriptives
• … → Options…
23
Mjere centralne tendencije u
SPSS-u
• Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo
na Analyze → Descriptive Statistics → Descriptives
• … → Continue
24
Mjere centralne tendencije u
SPSS-u
• Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo
na Analyze → Descriptive Statistics → Descriptives
Descriptive Statistics
AGE OF RESPONDENT
Valid N (listwise)
N
1847
1847
Mean
47,91
25
Mjere centralne tendencije u
SPSS-u
• Ako radimo s podacima s ordinalne skale tada idemo na Analyze →
Descriptive Statistics → Frequencies…
26
Mjere centralne tendencije u
SPSS-u
• Ako radimo s podacima s ordinalne skale tada idemo na Analyze →
Descriptive Statistics → Frequencies…
• … → Statistics…
27
Mjere centralne tendencije u
SPSS-u
• Ako radimo s podacima s ordinalne skale tada idemo na Analyze →
Descriptive Statistics → Frequencies…
• … → Continue
28
Mjere centralne tendencije u
SPSS-u
• Ako radimo s podacima s ordinalne skale tada idemo na Analyze →
Descriptive Statistics → Frequencies…
Statistics
test
N
Mean
Median
Mode
Valid
Missing
1847
0
47,91
46,00
48
29
Mjere varijabilnosti
•
Same vrijednosti centralne tendencije uglavnom ne pružaju dovoljno informacija o
uzorku
–
Sasvim je moguće da se identične vrijednosti centralne tendencije dobiju na potpuno
različitim uzorcima
•
–
•
•
•
•
Primjer: Tri roditelja s po jednim malim djetetom i šest tinejđera
Mjere centralne tendencije nam ne govore ništa o tome koliko se podaci iz uzorka
međusobno razlikuju
Ako su rezultati gusto grupirani oko srednje vrijednosti onda ta srednja vrijednost
vjerno reprezentira mjerenu pojavu
Ako su odstupanja rezultata od srednje vrijednosti velika onda nam srednja vrijednost
ne govori mnogo o mjerenoj pojavi
Zaključivanje o aritmetičkoj sredini će biti utoliko točnije ukoliko je veći uzorak i što je
mjerena pojava manje varijabilna
Neke mjere varijabilnosti koje se često koriste su:
–
–
–
Raspon
Standardna devijacija
Varijanca
30
Mjere varijabilnosti
- Raspon -
• Razlika između najvećeg i najmanjeg
rezultata
• Gruba mjera ali se može koristiti kao
dodatni opis
• Njen smisao je problematičan (pogotovo
ako podaci ne potjeću sa intervalne skale)
31
Mjere varijabilnosti
- Standardna devijacija • Odgovora aritmetičkoj sredini kao mjeri centralne tendencije
• Najpreciznija i najpouzdanija mjera varijabilnosti pojava
• Računa se u odnosu na aritmetičku sredinu pa i za nju vrijede uvjeti:
1. Rezultati potječu sa intervalne (ili omjerne) skale
2. Postoji pretpostavka o normalnoj raspodjeli tih rezultata u populaciji
• Formula za izračunavanje standardne devijacije:
σ=
(𝑋−𝑀)2
𝑁−1
gdje je:
X - pojedinačni rezultat ispitanika
M - aritmetička sredina
N - ukupan broj slučajeva mjerenja
32
Mjere varijabilnosti
- Varijanca -
• Varijanca je jednaka kvadratu standardne
devijacije:
ν = σ2
• Varijanca i standardna devijacija
predstavljaju sličnu mjeru varijabilnosti
• Međutim, postoje statističke operacije koje
bez učešća varijance ne bi bile moguće
33
Mjere varijabilnosti u SPSS-u
• Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo
na Analyze → Descriptive Statistics → Descriptives
• … → Continue
34
Mjere varijabilnosti u SPSS-u
• Ako radimo s podacima s intervalne (ili omjerne) skale tada idemo
na Analyze → Descriptive Statistics → Descriptives
Descriptive Statistics
AGE OF RESPONDENT
Valid N (listwise)
N
1847
1847
Range
67
St d. Dev iation
16,334
Variance
266,798
35
Mjere varijabilnosti u SPSS-u
• Ako radimo s podacima s ordinalne skale tada idemo na Analyze →
Descriptive Statistics → Frequencies…
• … → Continue
36
Mjere varijabilnosti u SPSS-u
• Ako radimo s podacima s ordinalne skale tada idemo na Analyze →
Descriptive Statistics → Frequencies…
Statistics
test
N
St d. Dev iation
Variance
Range
Valid
Missing
1847
0
16,334
266,798
67
37
Deskripcija uzorka
• Osnovni podaci potrebni za minimalni statistički
opis uzorka su:
– podatak o nekoj centralnoj tendenciji uzorka na danoj
varijabli
– podatak o nekoj njenoj varijabilnosti na toj varijabli
– podatak sa koje mjerne skale potječu podaci
• možda su već sadržani u informaciji o primijenjenim mjerama
centralne tendencije i varijabilnosti (ako su pravilno primijenjene) u
smislu da podaci potječu sa skale koja je pogodna za primjenu
odabrane mjere varijabilnosti ili centralne tendencije
– dobro je znati i nešto o obliku distribucije → ...
38
Odstupanje distribucije podataka
od normalne razdiobe
•
Provjera eventualnog odstupanja empirijske distribucije od normalne
distribucije (između ostalog) služi za:
– odluku o korištenju određenih statističkih testova
•
•
Jedan od načina da se provede provjera normalnosti je korištenje mjera
varijabilnosti Skewness i Kurtosis
Skewness:
– pozitivno ili negativno (horizontalno) odstupanje
– da li je empirijska razdioba pozitivno ili negativno asimetrična
– Grafički: Da li razdioba skreće u lijevu ili desnu stranu
•
Kurtosis:
–
–
–
–
–
odstupanje po visini (vertikalno odstupanje)
Grafički: Da li je razdioba izdužena (leptokurtična) ili spljoštena (platikurtična)
Kurtosis se uspoređuje sa 0 (koliko iznosi za normalnu distribuciju)
Ako je Kurtosis manji od 0 tada je distribucija spljoštena (platikurtična)
Ako je Kurtosis veći od 0 tada je distribucija izdužena (leptokurtična)
39
Negativno i pozitivno odstupanje od
normalne razdiobe
Negative skew
Positive skew
40
Vertikalno odstupanje od normalne
razdiobe
(Positive Kurtosis)
(Negative Kurtosis)
41
Provjera normalnosti u SPSS-u
• Analyze → Descriptive Statistics → Descriptives…
42
Provjera normalnosti u SPSS-u
• Želimo provjeriti normalnost razdiobe za dob:
• i idemo na Options…
43
Provjera normalnosti u SPSS-u
• Označimo Kurtosis i Skewness:
• i kliknemo na Continue
44
Provjera normalnosti u SPSS-u
Descriptive Statistics
AGE OF RESPONDENT
Valid N (listwise)
N
St at ist ic
1847
1847
Minimum
St at ist ic
22
Maximum
St at ist ic
89
Mean
St at ist ic
47,91
St d.
Dev
St atiation
ist ic
16,334
Skewness
St at ist ic
St d. Error
,524
,057
Kurt osis
St at ist ic
St d. Error
-,554
,114
• Skewness = 0,524 što znači da je naša distribucija
pozitivno asimetrična s obzirom na normalnu (skreće na
desnu stranu)
• Kurtosis = -0,554 (manji od 0) što znači da je distribucija
spljoštena u odnosu na normalnu (platikurtična)
45
Grafički prikaz za dob - usporedba
sa normalnom krivuljom
46
Značajnost odstupanja distribucije
od normalne razdiobe
•
•
Postoji više načina da se odredi da li je odstupanje distribucije od normalne
razdiobe značajno
Jedan način:
– Skewness i Kurtosis podijelimo sa njihovim standardnim greškama (standardne
greške se također dobiju u tabeli s rezultatima)
– Ako je bilo koja od dobivenih vrijednosti veća od 1,96 ili 2,58 tada zaključujemo
da empirijska distribucija značajno (na nivou 0,05 odnosno 0,01) odstupa od
normalne distribucije
– Dakle:
• Sk/SESk>2,58 \/ Ku/SEKu>2,58 → p (statistička značajnost)>0,05
• Sk/SESk>1,96 \/ Ku/SEKu>1,96 → p (statistička značajnost)>0,01
•
U našem primjeru:
0,524/0,057 = 9,19
0,554/0,114 = 4,86
Dakle, oba kvocijenta su veća od 2.58 pa možemo zaključiti da empirijska
distribucija značajno odstupa od normalne distribucije
47
Značajnost odstupanja distribucije
od normalne razdiobe
• Drugi način: Kolmogorov-Smirnov test
• Analyze → Descriptive Statistics → Explore
48
Kolmogorov-Smirnov test
• Na Dependent List stavljamo varijablu koju
želimo testirati (u našem slučaju age)
49
Kolmogorov-Smirnov test
• Nakon toga idemo na opciju Plots
50
Kolmogorov-Smirnov test
• Označimo opcije Histogram i Normality plots with tests
• Dobijemo tri tabele i jedan histogram
• Nama je važna tabela Tests of Normality
51
Tests of Normality
Tests of Normality
a
AGE OF RESPONDENT
Kolmogorov -Smirnov
St at ist ic
df
Sig.
,078
1847
,000
Shapiro-Wilk
St at ist ic
df
,959
1847
Sig.
,000
a. Lillief ors Signif icance Correction
•
•
•
Stupac Sig. Nam govori o značajnosti odstupanja naše distribucije od
normalne (u našem slučaju 0,000)
Budući da je Sig. manje od 0,01, a hipoteza je bila da naša distribucija ne
odstupa značajno od normalne, odbacujemo postavljenu hipotezu i
donosimo zaključak da naša distribucija statistički značajno (na nivou
značajnosti od 0,01) odstupa od normalne
U tabeli se vidi i da je rađen i drugi test eventualnog odstupanja empirijske
distribucije od normalne (Shapiro-Wilk)
– No, budući da je on predviđen za uzorke od 50 ili manje ispitanika (u našem
slučaju ih ima 1847) on nam nije potreban
– U verziji SPSS 20 se Shapiro-Wilk test i pojavljuje samo u slučaju kada imamo
manje od 50 ispitanika
52
Drugi primjer - Ocjene svih studenata na
godini (36 studenata) iz jednog kolegija
53
Drugi primjer - Ocjene svih studenata na
godini (36 studenata) iz jednog kolegija
54
Drugi primjer - Ocjene svih studenata na
godini (36 studenata) iz jednog kolegija
55
Drugi primjer - Ocjene svih studenata na
godini (36 studenata) iz jednog kolegija
Tests of Normal ity
a
ocjene
Kolmogorov -Smirnov
St at ist ic
df
Sig.
,167
36
,013
Shapiro-Wilk
St at ist ic
df
,921
36
Sig.
,013
a. Lillief ors Signif icance Correction
56
Izračunavanje Z-vrijednosti u
SPSS-u
• Analyze → Descriptive Statistics → Descriptives…
• Kada odaberemo varijablu i prebacimo je u desni prozor
tada označimo "Save standardized values as variables"
57
Izračunavanje Z-vrijednosti u
SPSS-u
• Z-vrijednosti za varijablu naziv_varijable se pojavljuju u
datoteci s podacima kao nova varijabla s nazivom
Znaziv_varijable
• U našem slučaju se nova varijabla zove Zage
58
Svaki ispitanik ima pripadnu Z-vrijednost za
promatranu varijablu
59
Interpretacija Z-vrijednosti
𝑥𝑖 − 𝐴𝑆
𝑧𝑖 =
𝑆𝐷
•
•
•
•
•
Pozitivna - pripadna vrijednost varijable ispitanika je veća od aritmetičke
sredine uzorka
Negativna - pripadna vrijednost varijable ispitanika je manja od aritmetičke
sredine uzorka
Apsolutna vrijednost Z-vrijednosti nam kaže koliko standardnih devijacija je
ispitanik udaljen od aritmetičke sredine
Većina slučajeva bi trebala imati Z-vrijednost između -3,5 i +3,5
Ipak, neke Z-vrijednosti mogu imati apsolutnu vrijednost veću od 3,5 i za
njih možemo reći da su vrlo daleko od aritmetičke sredine
– Trebalo bi ih odbaciti ali o tome na nastavi iz Statistike →
60
Deskriptivne mjere za dva ili više
poduzoraka
• Često se javlja potreba za uspoređivanjem
deskriptivnih mjera dvaju ili više
poduzoraka u okviru jednog istraživanja
• Npr. na našem primjeru glasanja možemo
usporediti aritmetičke sredine dobi muških
i ženskih ispitanika
• Postoji više načina da se to napravi u
SPSS-u
61
Deskriptivne mjere za dva ili više
poduzoraka
• Analyze → Compare Means → Means…
62
Deskriptivne mjere za dva ili više
poduzoraka
• U Dependent List prebacimo varijablu čije rezultate želimo
usporediti (age)
• U Independent List prebacimo varijablu u kojoj se nalaze informacije
o našim poduzorcima (sex)
63
Deskriptivne mjere za dva ili više
poduzoraka
• Da bismo odabrali deskriptivne mjere koje želimo vidjeti, kliknemo
na Options…
64
Deskriptivne mjere za dva ili više
poduzoraka
• Na desnu stranu treba staviti mjere koje želimo prikazati
• Automatski su stavljene gornje tri ali mi to možemo promijeniti
65
Deskriptivne mjere za dva ili više
poduzoraka - rezultati
Case Processing Summary
N
AGE OF RESPONDENT
* RESPONDENTS SEX
Included
Percent
1847
100,0%
Cases
Excluded
N
Percent
0
Total
N
,0%
1847
Percent
100,0%
Report
AGE OF RESPONDENT
RESPONDENTS SEX
male
f emale
Total
Mean
47,68
48,09
47,91
N
804
1043
1847
St d. Dev iation
15,518
16,941
16,334
• Prva tabela kaže koje varijable križamo i koliko ispitanika ima
valjane podatke
• U drugoj tabeli vidimo:
– Prosječna starost muških ispitanika je manja nego ženskih ispitanika
– Broj muških ispitanika je manji nego ženskih ispitanika
– Standardna devijacija muških ispitanika je manja nego ženskih ispitanika
66