Εβδομάδα #5 - amarkos.gr

ΤΟ ΣΤΑΤΙΣΤΙΚΟ ΠΡΟΓΡΑΜΜΑ SPSS
Το SPSS (Statistical Package for Social Sciences) είναι ένα
στατιστικό πρόγραμμα με ευρύτατη χρήση σε όλους τους
ερευνητικούς χώρους και ιδιαίτερα στο χώρο των κοινωνικών
επιστημών.
Δίνει λύσεις και απαντήσεις σε θέματα που απαιτούν χρήση της
Στατιστικής Επιστήμης, αλλά δεν μαθαίνει στο χρήστη
Στατιστική. Αντίθετα, αυτός που γνωρίζει Στατιστική μπορεί
ευκολότερα να κατανοήσει το πρόγραμμα, τη λειτουργία του
και να ερμηνεύσει τα αποτελέσματα που θα του δώσει αυτό.
ΕΝΕΡΓΟΠΟΙΗΣΗ
Η ενεργοποίηση του SPSS γίνεται με 2 τρόπους :
 Με διπλό πάτημα του εικονιδίου SPSS στην επιφάνεια
εργασίας, ή
 Επιλέγοντας Έναρξη  Προγράμματα  SPSS for
windows  SPSS 19.0 for windows
Στη συνέχεια εμφανίζεται το παράθυρο SPSS Data Editor
(Επεξεργασία Δεδομένων του SPSS) καλυπτόμενο από ένα
παράθυρο εκτέλεσης διαφόρων εργασιών, τύπου
What would you like to do?
Στο παράθυρο αυτό, ήδη υπάρχοντα αρχεία του SPSS
ανοίγονται από την επιλογή
Open an existing data source
Τα αρχεία του SPSS έχουν την κατάληξη .sav
Συνήθως κλείνουμε το μενού αυτό, πατώντας στο κουμπί του
κλεισίματος.
ΦΥΛΛΑ ΕΡΓΑΣΙΑΣ
Το SPSS Data Editor έχει 2 φύλλα εργασίας, όπως φαίνονται
στο κάτω αριστερό μέρος της οθόνης, όπου εμφανίζονται οι 2
επιλογές:
 Data View (Προβολή Δεδομένων)
 Variable View (Προβολή Μεταβλητών)
Αρχικά, εμφανίζεται πάντα το Data View που έχει τη μορφή
λογιστικού φύλλου, όπου μπορούμε να εισάγουμε και να
τροποποιήσουμε δεδομένα.
Παρατηρούμε ότι όλες οι στήλες έχουν τη λέξη var (από το
variable), ενώ οι γραμμές αριθμούνται 1,2,3,…….
Μόλις βάλουμε τον κέρσορα στο πρώτο κελί και πατήσουμε
π.χ. 1 και μετά Enter, στο κελί το 1 εισάγεται σαν 1.00 και η
στήλη παίρνει την ονομασία VAR00001 (δηλαδή, μεταβλητή
1).
Ο χρυσός κανόνας για τη σωστή εισαγωγή στοιχείων είναι, ότι
κάθε γραμμή αντιπροσωπεύει τις απαντήσεις ενός
συμμετέχοντα στην έρευνα, ενώ κάθε στήλη παρουσιάζει μία
και μόνον μία μεταβλητή.
Οι αύξοντες αριθμοί, κατά συνέπεια, στο αριστερό μέρος της
οθόνης αριθμούν τα άτομα της έρευνας. Ομοίως η μεταβλητή
π.χ. «Φύλο» θα βρίσκεται σε μια στήλη, η μεταβλητή «Ηλικία»
στη διπλανή στήλη κ.ο.κ.
Στο Variable View εμφανίζονται λεπτομέρειες για τις
μεταβλητές μας (π.χ. ονομασία, τύπος κ.τ.λ).
ΠΙΝΑΚΕΣ ΕΡΓΑΣΙΑΣ ΤΟΥ SPSS DATA EDITOR
Οι τίτλοι και οι εργασίες που μπορούμε να εκτελέσουμε είναι:
 File: Άνοιγμα ενός νέου αρχείου
αποθηκευμένα αποτελέσματα κ.τ.λ.
 Edit: Αντιγραφή, επικόλληση, διαγραφή κ.τ.λ.
δεδομένων,
 View: Εμφάνιση μεταβλητών (από ποσοτική σε ποιοτική).
 Data: Αλλαγές στο αρχείο δεδομένων.
 Transform: Τροποποιήσεις στις τιμές συγκεκριμένων
μεταβλητών.
 Analyze: Επιλογή κατάλληλης στατιστικής τεχνικής για
την ανάλυση των δεδομένων μας.
 Graphs: Επιλογή κατάλληλου διαγράμματος.
 Utilities: Εκτέλεση βοηθητικών εργασιών, π.χ. αλλαγή
γραμματοσειράς.
 Window: Αλλαγή τρόπου
παράθυρα στην οθόνη.
που
παρουσιάζονται
τα
 Help: Παροχή πληροφοριών για τη λειτουργία του
προγράμματος και για στατιστικούς όρους.
VARIABLE VIEW
Στο Data View, έστω, ότι περάσαμε τις μεταβλητές:
 «Φύλο» που αντιστοιχεί στη στήλη VAR00001 με τιμές
αγόρι=1 και κορίτσι=0.
 «Ηλικία» που αντιστοιχεί στη στήλη VAR00002 με τιμές
π.χ. 24, 35, 27, 45,….. κ.τ.λ.
Στο Variable View στη στήλη Name και στη γραμμή 1
εμφανίζεται VAR00001, ενώ στη γραμμή 2 εμφανίζεται
VAR00002. Μετονομάζουμε την VAR00001 σε Gender και την
VAR00002 σε Age. Παρατηρούμε ότι οι δύο νέες ονομασίες
περάσανε και στο Data View.
 Type : Τύπος μεταβλητής (αριθμός, λέξη, ημερομηνία,
κ.τ.λ.). Το πρόγραμμα από μόνο του τοποθετεί Numeric.
 Width : Ο μέγιστος αριθμός χαρακτήρων για τη
συγκεκριμένη μεταβλητή, που επιθυμεί ο ερευνητής να
εμφανίζεται στα Outputs. Ο προεπιλεγμένος αριθμός είναι
8.
 Decimals : Πόσα δεκαδικά ψηφία θέλουμε. Αυτόματα
ορίζονται 2. Αν στο Type έχει οριστεί λεκτική μεταβλητή
(string) τότε το SPSS αναιρεί το δικαίωμα παρέμβασης
στο Decimals (όπως και στο Values και Missing).
 Label : Είναι η ετικέτα της μεταβλητής που μας δίνει
πρόσθετες πληροφορίες γι’αυτήν. Έτσι, αν για μια
μεταβλητή στο Name είχαμε Beerweek στο Label θα
μπορούσαμε να γράψουμε «Πόσες μπίρες πίνετε την
εβδομάδα».
 Values : Αυτό που αντιπροσωπεύει το κάθε
κωδικοποιημένο στοιχείο της μεταβλητής. Υποθέτουμε ότι
έχουμε αγόρι=1 και κορίτσι=0. Κάνοντας κλικ στο None
εμφανίζεται ένα σκούρο τετραγωνάκι. Κλικ σε αυτό και
εμφανίζεται ένα παράθυρο. Στο Value βάζουμε 1 και στο
Label αγόρι και πατάμε Add. Επανερχόμαστε βάζοντας 0
στο Value και κορίτσι στο Label πατώντας ξανά Add και
μετά O.K.
 Missing values : Πολλές φορές σε μια στατιστική ανάλυση
κάποιες τιμές απουσιάζουν είτε γιατί δεν απάντησαν οι
ερωτώμενοι ή γιατί δεν περάστηκαν. Το SPSS πρέπει να
γνωρίζει ποια τιμή απουσιάζει. Την τιμή αυτή δεν
μπορούμε να τη δηλώσουμε με κενό. Για παράδειγμα, αν
κάπου δεν δηλώνεται η ηλικία, βάζουμε την τιμή 999 (η
οποία δεν μπορεί να αντιστοιχεί σε ηλικία ερωτώμενου).
Έτσι, κάνουμε κλικ στο σκούρο, ενεργοποιούμε το
Discrete missing values και γράφουμε 999.
 Columns : Καθορίζει το μέγεθος των κελιών μιας στήλης
στο Data View.
 Align : Καθορίζει αν στο Data View τα νούμερα θα μπουν
Right, Left, Center.
 Measure : Γίνεται επιλογή της κλίμακας μέτρησης της
μεταβλητής. Οι μεταβλητές διαχωρίζονται σε 3
κατηγορίες : Scale, Ordinal, Nominal.

Scale ορίζεται μια μεταβλητή όταν μπορεί να πάρει
ξεχωριστές ή συνεχόμενες τιμές (ποσοτική
μεταβλητή).
Π.χ. Πόσων ετών είστε; ……. ετών.
Ποιο είναι το ύψος σας; ……. μέτρα
Βαθμός στα Μαθηματικά …….

Ordinal ορίζεται μια μεταβλητή αν οι τιμές της
αντιπροσωπεύουν μια ιεραρχημένη λίστα (διάταξη)
στην κωδικοποίηση (ποιοτική τακτική μεταβλητή).
Π.χ. Οι διαφημίσεις για παιχνίδια πρέπει να
προβάλλονται στην T.V μετά τις 10μμ.
Διαφωνώ απόλυτα ………………Συμφωνώ απόλυτα
1
2
3
4
5
Ποια είναι η ηλικία σας;
20-29 
30-39 
40-49 

Nominal είναι οι ποιοτικές ονομαστικές μεταβλητές
χωρίς να υπάρχει κάποιο είδος ιεράρχησης στις τιμές
τους.
Π.χ. Στην αγορά αυτοκινήτου, τι χρώμα προτιμάτε;
 μαύρο  κόκκινο  λευκό
Μια υποκατηγορία των Nominal είναι οι διχοτομικές
δηλαδή οι μεταβλητές που παίρνουν 2 μόνον τιμές.
Π.χ. Φύλο  άνδρας  γυναίκα
Έχετε αυτοκίνητο;  έχω  δεν έχω
ΚΑΤΑΧΩΡΙΣΗ ΔΕΔΟΜΕΝΩΝ
Στο παράθυρο SPSS Data Editor και στο φύλλο Data View
μπορούμε να καταχωρίσουμε τα δεδομένα μας.
Θυμόμαστε ότι οι στήλες αντιπροσωπεύουν διαφορετικές
μεταβλητές και οι γραμμές διαφορετικά άτομα.
Για να καταχωρίσετε δεδομένα, απλώς επισημάνετε ένα από τα
κελιά πατώντας σε αυτό. Μετά πληκτρολογήστε έναν αριθμό.
Πατώντας Enter ή επιλέγοντας άλλο κελί θα καταχωρίσετε τον
αριθμό αυτό στο λογιστικό φύλλο.
Για τη διόρθωση σφαλμάτων, απλώς επισημάνετε το κελί όπου
βρίσκεται το σφάλμα και πληκτρολογήστε τον σωστό αριθμό.
Προσοχή, η διόρθωση θα καταχωρηθεί όταν πατήστε το Enter.
ΜΕΤΑΚΙΝΗΣΗ ΜΕΣΑ ΣΤΟ ΠΑΡΑΘΥΡΟ
Για να μετακινηθείτε κατά μία γραμμή ή μια στήλη πατήστε τα
βελάκια που βρίσκονται κάτω δεξιά.
Για να κάνετε μεγάλες μετακινήσεις μέσα στη σελίδα, σύρετε
την κατακόρυφη και οριζόντια ράβδο κύλισης.
Για να μετακινηθείτε κατά μία οθόνη πάνω ή κάτω πατήστε τα
πλήκτρα PgUp και PgDn αντίστοιχα.
Τα 4 βελάκια του πληκτρολογίου μετακινούν το δείκτη κατά
ένα κενό διάστημα προς την κατεύθυνση του βέλους.
ΑΠΟΘΗΚΕΥΣΗ ΔΕΔΟΜΕΝΩΝ
Ανοίγουμε το μενού File (Αρχείο) και στη συνέχεια επιλέγουμε
Save as (Αποθήκευση ως). Δώστε ένα χαρακτηριστικό όνομα
στο αρχείο σας.
Κατόπιν με το Save in (Αποθήκευση σε) σας ρωτάει που θέλετε
να αποθηκευτεί το αρχείο σας, για να μπορείτε εύκολα να το
βρίσκετε.
ΑΝΟΙΓΜΑ ΑΡΧΕΙΩΝ ΔΕΔΟΜΕΝΩΝ
Ανοίγουμε το μενού File, δείχνουμε την επιλογή Open,
επιλέγουμε τη διαταγή Data και ανοίγουμε τον πτυσσόμενο
κατάλογο Look in (Διερεύνηση σε). Έτσι, βρίσκουμε το αρχείο
εκεί που το αποθηκεύσαμε.
Αν ένα αρχείο μόλις το αποθηκεύσαμε, δεν θα το βρούμε.
Γι’αυτό γράφουμε το όνομα του αρχείου στο File name (Όνομα
αρχείου) και πατούμε Open.
Για να δημιουργήσουμε ένα νέο αρχείο, ανοίγουμε File,
επιλέγουμε New και πατούμε Data.
ΕΚΤΥΠΩΣΗ ΑΡΧΕΙΩΝ
Η εκτύπωση αρχείων από το SPSS γίνεται ως εξής:
File  Print
Επίσης, με το
File  Print Preview
Μπορείτε να δείτε πως θα εκτυπωθεί το αρχείο σας.
Προσοχή, η αποθήκευση ενός αρχείου SPSS δεν συνεπάγεται
και την αποθήκευση του Output. Η αποθήκευση του τελευταίου
θα πρέπει να γίνει ξεχωριστά, με τον γνωστό τρόπο, δηλ.
File  Save as  όνομα αρχείου
και βέβαια επιλογή που θέλετε να γίνει η αποθήκευση.
Σε περίπτωση που θέλετε να βρείτε τα αποθηκευμένα Outputs,
τότε
File  Open  Output
Η εκτύπωση ενός Output γίνεται επίσης με τον ίδιο τρόπο, δηλ.
File  Print
ΑΣΚΗΣΗ 1
Για 12 ερωτώμενους προέκυψαν τα εξής δεδομένα:
Intelligence
5
8
5
4
3
5
2
3
2
1
2
4
i)
ii)
iii)
iv)
Age
27
22
20
19
18
19
21
22
19
18
18
20
Gender
1
1
2
2
2
1
1
2
1
2
1
2
Να περαστούν τα δεδομένα στο Data View.
Να συμπληρωθεί το Variable View θέτοντας 1=
άνδρας, 2=γυναίκα.
Στο Data View πατήστε View  Value Labels. Τι
παρατηρείτε;
Αποθηκεύστε τα δεδομένα σας.
Ο ΠΡΩΤΟΣ ΣΑΣ ΑΠΛΟΣ ΣΤΑΤΙΣΤΙΚΟΣ ΥΠΟΛΟΓΙΣΜΟΣ
Για να υπολογίσετε το μέσο όρο της μεταβλητής Intelligence
της προηγούμενης άσκησης (δηλ. τη μέση ευφυΐα των ατόμων
του δείγματος) ακολουθείστε τα βήματα:





Analyze
Descriptive statistics (Περιγραφικά στατιστικά)
Descriptive
Στο πλαίσιο διαλόγου επιλέγουμε Intelligence
Πατούμε το ▶ και μεταφέρουμε τη μεταβλητή Intelligence
στο πλαίσιο variables
 Πατούμε Ο.Κ
Descriptive Statistics
N
Minimum
Ευφυΐα
12
Valid N (listwise)
12
1
Maximum
8
Mean
3,67
Std. Deviation
1,923
Δηλαδή, το output που παίρνουμε, εμφανίζει τη μεταβλητή που
επιλέξαμε, το πλήθος των ατόμων Ν=12, την ελάχιστη τιμή
minimum=1, τη μέγιστη τιμή maximum=8, τη μέση τιμή της
Mean=3,67 και την τυπική απόκλιση Std. Deviation=1,923.
ΑΠΟ ΤΟ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΣΤΟ SPSS
Σε μια έρευνα για τη στάση των καπνιστών απέναντι στα
προειδοποιητικά μηνύματα που βρίσκονται στα πακέτα των
τσιγάρων, μέρος του ερωτηματολογίου, περιλάμβανε και τις
ερωτήσεις:
1. Πόσα τσιγάρα καπνίζετε την ημέρα; ………
2. Διαβάστε προσεκτικά τις παρακάτω απόψεις και βάλτε x
στο αντίστοιχο τετράγωνο, δηλώνοντας το βαθμό συμφωνίας ή
διαφωνίας σας
Διαφωνώ
Απόλυτα
Διαφωνώ
Ούτε συμφωνώ
Ούτε Διαφωνώ
Συμφωνώ
Συμφωνώ
Απόλυτα
Θεωρώ ότι είναι αποτελεσματικά
για τη μείωση του καπνίσματος
Δεν σέβονται το γεγονός ότι είναι
επιλογή μου να καπνίζω
Αυτά πρέπει ν’ αναγράφονται στα
πακέτα των τσιγάρων
Συμβάλουν μακροχρόνια στη
μείωση της κατανάλωσης καπνού
στην Ελλάδα
3. Η ηλικία σας είναι ……..
4. Είστε □ Άνδρας □ Γυναίκα
Πριν τη μεταφορά των αποτελεσμάτων στο SPSS θα πρέπει να
γίνει καταγραφή των μεταβλητών που προκύπτουν από το
ερωτηματολόγιο.
Στη συνέχεια, θα πρέπει να οριστούν οι τιμές (values) των
μεταβλητών. Έτσι:
 Για τις μεταβλητές «Τσιγάρα ημερησίως» και «Ηλικία»,
εφ’ όσον δεν υπάρχουν κατηγοριοποιημένες απαντήσεις,
δεν δίνουμε τιμές.
 Για τις 4 μεταβλητές της ερώτησης 2, θέτουμε:
Διαφωνώ Απόλυτα = 1
Διαφωνώ = 2
Ούτε συμφωνώ, ούτε διαφωνώ = 3
Συμφωνώ = 4
Συμφωνώ Απόλυτα = 5
 Για τη μεταβλητή «Φύλο» θέτουμε:
Άνδρας = 1
Γυναίκα = 2
Υπενθυμίζεται ότι αν κάποια τιμή λείπει, ορίζουμε τον αριθμό
999 ως missing value.
Ως προς τον τύπο των μεταβλητών:
«Τσιγάρα ημερησίως» και «Ηλικία» = Scale
Οι 4 μεταβλητές της ερώτησης 2 = Ordinal
Η μεταβλητή «Φύλο» = Nominal
Εφ’ όσον όλες οι μεταβλητές εμπεριέχουν ακέραιες τιμές, τα 2
δεκαδικά ψηφία είναι περιττά.
ΜΙΑ ΠΕΡΙΠΛΟΚΗ ΚΩΔΙΚΟΠΟΙΗΣΗ
Ας υποθέσουμε, ότι στο προηγούμενο ερωτηματολόγιο υπήρχε
και η εξής ερώτηση:
5. Σε ποια από τα παρακάτω μέρη καπνίζετε;
□ στο σπίτι
□ στο χώρο εργασίας
□ σε υπαίθριους χώρους
□ σε χώρους διασκέδασης
□ αλλού
Η κωδικοποίηση της ερώτησης 5 είναι δυσκολότερη από τις
προηγούμενες ερωτήσεις, διότι ο αριθμός των απαντήσεων
μπορεί να ποικίλλει. Δηλαδή, ένας ερωτώμενος που καπνίζει
μόνον σε χώρους διασκέδασης θα δώσει μόνον μία απάντηση,
ένας άλλος που καπνίζει στο χώρο εργασίας και στο σπίτι θα
δώσει 2 απαντήσεις, κ.ο.κ.
Στις περιπτώσεις αυτές δεν δημιουργείται μόνον μια μεταβλητή,
αλλά τόσες όσες είναι και οι κωδικοποιημένες απαντήσεις.
Δηλαδή, στη συγκεκριμένη περίπτωση, αντί για 1 μεταβλητή,
δημιουργούνται 5 νέες μεταβλητές, κάθε μία από τις οποίες
είναι διχοτομική, π.χ. κάποιος καπνίζει στο σπίτι του ή δεν
καπνίζει στο σπίτι του. Έτσι, κωδικοποιούμε:
Μεταβλητή Home: 1= καπνίζει σπίτι, 0= δεν καπνίζει σπίτι
Μεταβλητή Work: 1= καπνίζει εργασία, 0= δεν καπνίζει εργασία
Μεταβλητή Outside: 1= καπνίζει υπαίθρια, 0= δεν καπνίζει
υπαίθρια
Μεταβλητή Fun: 1= καπνίζει διασκέδαση, 0= δεν καπνίζει
διασκέδαση
Μεταβλητή Else: 1= καπνίζει αλλού, 0= δεν καπνίζει αλλού
ΑΝΑΚΩΔΙΚΟΠΟΙΗΣΗ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ
Οι 4 μεταβλητές που δημιουργήθηκαν από την ερώτηση 2, ας
τις ονομάσουμε με τη σειρά warn_1, warn_2, warn_3, warn_4,
έχουν σκοπό να μετρήσουν τη στάση (attitude) των καπνιστών
απέναντι στα προειδοποιητικά μηνύματα.
Παρατηρούμε ότι στις μεταβλητές warn_1, warn_3, και warn_4
η τιμή 1 εκφράζει την εξαιρετικά αρνητική στάση έναντι των
προειδοποιητικών μηνυμάτων και κλιμακούμενη η τιμή 5
εκφράζει την εξαιρετικά θετική στάση έναντι των
προειδοποιητικών μηνυμάτων. Η μεταβλητή όμως warn_2
εκφράζει ακριβώς τη αντίθετη στάση.
Έτσι λοιπόν, είναι απαραίτητο η μεταβλητή αυτή να
ανακωδικοποιηθεί (recode) έτσι ώστε η τιμή 1 να εκφράζει την
εξαιρετικά αρνητική στάση και κλιμακούμενη η τιμή 5 να
εκφράζει την εξαιρετικά θετική στάση.
Η διαδικασία αυτή είναι απαραίτητη στην περίπτωση που
θέλουμε να «προσθέσουμε» τις 4 μεταβλητές και να
δημιουργήσουμε μία μόνον μεταβλητή που να δηλώνει τη
στάση των καπνιστών έναντι των προειδοποιητικών μηνυμάτων.
Η ανακωδικοποίηση γίνεται ως εξής:
Transform  Recode into Different variables
Στο παράθυρο που εμφανίζεται, περνάμε τη μεταβλητή warn_2
στο
Numeric Variable  Output Variable
Στο Name ονομάζουμε τη νέα μεταβλητή, έστω warn_2_r και
στο Label δίνουμε πρόσθετες πληροφορίες γι’ αυτήν και
πατούμε change.
Από την επιλογή Old and New variables γίνεται η εισαγωγή των
τιμών της νέας μεταβλητής. Έτσι, στο Old value πατούμε 1 και
στο New value πατούμε 5 και μετά πατούμε Add. Ομοίως
συνεχίζουμε τις αλλαγές 24, 33, 42, 51.
ΠΡΟΣΟΧΗ!! Θα πρέπει να πατήσουμε και 999999. Μετά
πατάμε:
Add  Continue  O.K
Πηγαίνοντας στο Variable View ορίζουμε το 999 ως missing
value, ορίζουμε τις ετικέτες, τα δεκαδικά ψηφία και επιλέγουμε
τον τύπο της νέας μεταβλητής.
ΚΑΤΗΓΟΡΙΟΠΟΙΗΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ
Πολλές φορές μπορεί να προκύψει δυσχρηστία κάποιων
μεταβλητών, όπως π.χ. να υπάρχει μεγάλο εύρος απαντήσεων
σε μια μεταβλητή. Έτσι, στην ερώτηση 1 «Πόσα τσιγάρα
καπνίζετε την ημέρα;» θα μπορούσε το εύρος των απαντήσεων
να είναι μεγάλο. Η δημιουργία κατηγοριοποιημένων
απαντήσεων θα διευκόλυνε την έρευνα.
Γι’ αυτό επιλέγουμε την τεχνική της ανακωδικοποιήσεως
επιλέγοντας όμως τώρα το Range. Συγκεκριμένα:
TransformRecode into Different variables
Ακολουθούμε την ίδια με προηγούμενα διαδικασία, αλλά τώρα
επιλέγουμε Range.
Έτσι, για απαντήσεις που κυμαίνονται από 5-15 τσιγάρα δίνεται
η τιμή 1, από 16-30 τσιγάρα δίνεται η τιμή 2, ενώ για
απαντήσεις που ξεπερνούν τα 31 τσιγάρα δίνεται η τιμή 3. Μια
τέτοια μετατροπή θα ήταν χρήσιμη αν θα θέλαμε να
διαχωρίσουμε το δείγμα σε ελαφρείς, μέτριους και βαρείς
καπνιστές.
Γι’ αυτό, κάτω από το Range τοποθετούμε 5 through 15, στο
New Value και στο Value βάζουμε 1 και πατάμε Add. Ομοίως,
για τις άλλες περιπτώσεις.
ΔΗΜΙΟΥΡΓΙΑ ΚΛΙΜΑΚΑΣ
Οι μεταβλητές warn_1, warn_3, warn_4 καθώς και η νέα που
μόλις δημιουργήσαμε warn_2_r μετρούν ουσιαστικά το ίδιο
πράγμα, δηλ. τη στάση των καπνιστών απέναντι στα
προειδοποιητικά μηνύματα. Άρα μπορούμε να έχουμε 1
μεταβλητή που να το μετρά αυτό. Πως; Αν προσθέσουμε τις
παραπάνω μεταβλητές. Έστω ότι τη νέα μεταβλητή την
ονομάζουμε att_scal. Πατάμε
TransformCompute
στο Target Variable βάζουμε att_scal και στο Numeric
Expression σχηματίζουμε τη νέα συνάρτηση
warn_1 + warn_2_r + warn_3 + warn_4
Πατώντας Ο.Κ, στο Editor View δημιουργείται η νέα
μεταβλητή att_scal (προφανώς οι τιμές της θα είναι 4  x  20).
ΠΡΟΣΟΧΗ!! Αν αρχικά υπήρχαν missing values τότε κάποια
κελιά θα είναι κενά. Το πρόγραμμα τα αφήνει κενά για να μας
υπενθυμίσει ότι αυτά πρέπει να αντικατασταθούν εκ νέου με
missing values (999). Συνεπώς στη νέα μεταβλητή, από το
Variable View θα ορίσουμε εκτός από τις missing values και τα
υπόλοιπα στοιχεία της μεταβλητής.
ΕΠΙΛΟΓΗ ΔΕΔΟΜΕΝΩΝ (SELECTED CASES)
Πολλές φορές είναι ανάγκη να επικεντρωθούμε σε μια μόνον
κατηγορία δεδομένων. Έτσι για παράδειγμα, έστω ότι μας
ενδιαφέρουν μόνον οι καπνιστές που καπνίζουν 5-15 τσιγάρα
την ημέρα (δηλ. οι ελαφρείς καπνιστές). Για να απομονώσουμε
αυτή την κατηγορία και να δουλέψουμε μόνον με αυτή, πατάμε
DataSelected CasesIf condition is satisfied
Με την επιλογή if οδηγούμαστε σε ένα παράθυρο στο οποίο θα
ορίσουμε ποια συνθήκη πρέπει να ισχύει, ώστε το πρόγραμμα
να επιλέξει μόνον τη συγκεκριμένη κατηγορία, δηλ. τους
ελαφρείς καπνιστές.
Έτσι, επιλέγουμε τη μεταβλητή smokers και με το ▶ την
περνάμε όπου γράφουμε smokers = 1. Παρατηρούμε ότι στο
Data View και στην αριστερή στήλη κάποιες περιπτώσεις έχουν
διαγραφεί με μια γραμμή. Από δω και στο εξής οι διαγραμμένοι
ερωτώμενοι δεν θα συμπεριλαμβάνονται στην έρευνα. Αν
θέλουμε να επανέλθουμε στην αρχική κατάσταση, τότε:
DataSelected CasesAll Cases
ΔΙΑΧΩΡΙΣΜΟΣ ΑΡΧΕΙΟΥ (SPLIT FILES)
Έστω ότι θέλουμε να χωρίσουμε το αρχείο μας σύμφωνα με τα
επίπεδα μιας μεταβλητής. Έτσι, δημιουργούνται 2 ή
περισσότερα αρχεία και όλες οι αναλύσεις πραγματοποιούνται
χωριστά για το κάθε επίπεδο. Δηλαδή, αν πάμε στη μεταβλητή
«Φύλο» τότε το αρχείο μας θα σπάσει προφανώς σε 2 μέρη:
DataSplit FileOrganize output by groups
Μεταφέρουμε τη μεταβλητή «Φύλο» στο Groups Based on και
πατάμε Ο.Κ. Στο Data View παρατηρούμε ότι στη μεταβλητή
«Φύλο» όλα τα 1 είναι μαζί και μετά ακολουθούν όλα τα 2.
Δηλαδή, το αρχείο έχει διασπαστεί σε 2 τμήματα.
Από δω και στο εξής οποιαδήποτε ανάλυση θα συνεπάγεται το
διαχωρισμό του output σε 2 επίπεδα.
Για να επανέλθουμε στην αρχική κατάσταση:
DataSplit FileAnalyze all cases, do not create groupsOK
ΤΑΞΙΝΟΜΗΣΗ ΔΕΔΟΜΕΝΩΝ (SORT CASES)
Για να ταξινομήσουμε δεδομένα σε αύξουσα (Ascending) ή
φθίνουσα (Descending) σειρά, επιλέγουμε:
DataSort Cases
Για παράδειγμα, αν θέλουμε να ταξινομήσουμε τα δεδομένα με
βάση τον αριθμό των τσιγάρων που καπνίζουν οι
συμμετέχοντες, τότε στη λίστα Sort by μεταφέρουμε τη
μεταβλητή ciga_num, μετά με το Ascending δηλώνεται το είδος
της ταξινόμησης και μετά πατάμε ΟΚ.
ΚΑΤΑΤΑΞΗ ΜΕ ΣΕΙΡΑ ΔΕΔΟΜΕΝΩΝ (RANK CASES)
Έστω, ότι επιθυμούμε να ιεραρχήσουμε τη στάση των
καπνιστών έναντι των προειδοποιητικών μηνυμάτων (δηλ. ποιος
έχει τη θετικότερη στάση, ποιος την αμέσως λιγότερη κ.ο.κ),
τότε:
TransformRank Cases
Στη συνέχεια επιλέγουμε τη μεταβλητή που θέλουμε να
ιεραρχηθεί, έστω att_scale και την εισάγουμε στο Variable.
Τώρα στο Data View εμφανίζεται μια νέα στήλη που
αντιπροσωπεύει την κατάταξη με σειρά (ιεράρχηση) της στάσης
των ερωτώμενων απέναντι στα προειδοποιητικά μηνύματα.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ & ΓΡΑΦΗΜΑΤΑ
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Σχεδόν σε όλες τις έρευνες είναι απαραίτητη η περιγραφή των
δεδομένων, για τρεις κυρίως λόγους:
 Εξοικείωση του ερευνητή με τις μεταβλητές που
χρησιμοποιούνται.
 Συμβάλλει στην παρουσίαση (γραφήματα) και κατανόηση
των δεδομένων του δείγματος (εύρεση μέσου, καταγραφή
συχνοτήτων) καθώς επίσης και στην εξαγωγή χρήσιμων
συμπερασμάτων.
 Εξασφαλίζει στον ερευνητή, ότι συγκεκριμένες
προαπαιτούμενες υποθέσεις σχετικές με τις στατιστικές
αναλύσεις που θα ακολουθήσουν, ισχύουν ή δεν ισχύουν
(π.χ. κανονικότητα του δείγματος).
Έτσι για παράδειγμα, σε μια έρευνα που διενεργήθηκε για τη
βαθμολογία φοιτητών του ΤΕΕΠΗ, πριν ο ερευνητής εφαρμόσει
τεχνικές στατιστικής ανάλυσης (π.χ. συσχέτιση, παλινδρόμηση)
θα ήταν χρήσιμο να εξερευνήσει στοιχεία του δείγματος όπως:
 Ποια η μέση βαθμολογία του δείγματος.
 Ποιο το εύρος των βαθμών του δείγματος.
 Πως κατανέμεται η μεταβλητή «βαθμολογία».
 Πόσο απέχουν οι παρατηρήσεις από τον μέσο βαθμό
(διασπορά).
Γενικά, η περιγραφική στατιστική εκφράζει με έναν αριθμό
(εύρεση μέσου όρου και τυπικής απόκλισης) ή με μια εικόνα
(γράφημα) μερικά χαρακτηριστικά του συνόλου του δείγματος.
ΠΕΡΙΓΡΑΦΙΚΗ ΑΝΑΛΥΣΗ Scale ΜΕΤΑΒΛΗΤΩΝ
Για τέτοιου είδους μεταβλητές, ο ερευνητής μπορεί να
υπολογίσει τον μέσο, την τυπική απόκλιση, το εύρος, το
ελάχιστο, το μέγιστο κ.ο.κ. Επίσης, μπορεί να δημιουργήσει
γραφήματα, όπως μπάρες και ιστογράμματα
ΑΣΚΗΣΗ 2
Ο πίνακας παρουσιάζει τους επιβάτες (σε χιλ.) που ταξίδεψαν
με μια αεροπορική εταιρεία από το 1997 έως και 2004.
Έτος
Επιβάτες (σε χιλ.)
1997
2024
1998
4911
1999
4938
2000
5691
2001
5139
2002
5260
2003
5320
2004
5541
Με την εφαρμογή της περιγραφικής ανάλυσης θα απαντήσουμε
στα εξής ερωτήματα:
 Ποιος είναι ο μέσος αριθμός επιβατών που ταξίδεψαν με
την αεροπορική εταιρεία.
 Ποιος ο ελάχιστος και μέγιστος αριθμός επιβατών.
 Ποια είναι η τυπική απόκλιση.
Έτσι, ακολουθείται η εξής διαδικασία:
AnalyzeDescriptive StatisticsDescriptives
Στη λίστα Variable(s) μεταφέρουμε την επιθυμητή μεταβλητή,
π.χ. Passengers.
Ακολούθως από την επιλογή Options ζητάμε:
 Μέσος (Mean)
 Τυπική απόκλιση (Std. Deviation)
 Εύρος (Range)
 Άθροισμα (Sum)
 Ελάχιστο (Minimum)
 Μέγιστο (Maximum)
Στο Output εμφανίζεται:
Descriptive Statistics
Std.
N
Range
Επιβάτες
8
Valid N (listwise)
8
3667
Minimum
2024
Maximum
Sum
5691
38824
Mean
4853,00
Deviation
1174,427
Το Ν=8 δείχνει τον αριθμό των παρατηρήσεων. Επειδή δεν
υπάρχουν Missing Values ο αριθμός των περιπτώσεων ισούται
με τον αριθμό των έγκυρων παρατηρήσεων (Valid N).
Το Range = Maximum-Minimum = 3667 χιλ. επιβάτες.
Ο ελάχιστος αριθμός επιβατών είναι 2024 χιλ. επιβάτες.
Ο μέγιστος αριθμός επιβατών είναι 5691 χιλ. επιβάτες.
Στα 8 χρόνια ταξίδεψαν 38824 χιλ. επιβάτες.
Ο μέσος αριθμός επιβατών ανά έτος που ταξιδεύει με την
εταιρεία είναι 4853 χιλ. επιβάτες.
Τέλος, η τυπική απόκλιση είναι 1174,427 χιλ. επιβάτες.
Διαγραμματικά, ακολουθούμε την διαδικασία:
GraphsLegacy DialogsLineDefineOther statistic
Περνάμε τη μεταβλητή «Passengers» στο πλαίσιο Variable και
τη μεταβλητή «Year» στο Category Axis.
Επίσης, μπορούμε να κάνουμε γραφική απεικόνιση με το Bar
αντί του Line, ως εξής:
GraphsLegacy DialogsBarDefineOther statistic
Επίσης, μπορούμε να κάνουμε γραφική απεικόνιση με το Area
αντί του Line, ως εξής:
GraphsLegacy DialogsAreaDefineOther statistic
Η διαφορά του Line από το Area είναι ότι το πρώτο
παρουσιάζει τη σχέση των μεταβλητών με μια γραμμή, ενώ το
δεύτερο δείχνει τη σχέση μεταξύ των μεταβλητών με μια
σκιαγραφημένη περιοχή.
ΠΕΡΙΓΡΑΦΙΚΗ
ΑΝΑΛΥΣΗ
μεταβλητές Ordinal ή Nominal
για
κατηγοριοποιημένες
Για τις Ordinal ή Nominal μεταβλητές, η εύρεση του μέσου
όρου, της τυπικής απόκλισης, του ελάχιστου και του μέγιστου,
δεν έχει νόημα (π.χ. για τη μεταβλητή ως προς την προτίμηση
του χρώματος αυτοκινήτου 1= άσπρο, 2 = κόκκινο, 3 = μπλε, 4
= γκρι, ο μέσος 2.5 δεν έχει νόημα).
Η περιγραφική ανάλυση που χρησιμοποιείται εδώ είναι οι
συχνότητες.
ΑΣΚΗΣΗ 3
Ο πίνακας παρουσιάζει 15 συμμετέχοντες, ως προς τη μάρκα
οδοντόκρεμας που προτιμούν:
ΦΥΛΟ
ΜΑΡΚΑ
Άνδρας
Α
Γυναίκα
Β
Γυναίκα
Γ
Άνδρας
Β
Άνδρας
Α
Γυναίκα
Α
Γυναίκα
Β
Γυναίκα
Γ
Γυναίκα
Β
Γυναίκα
Α
Άνδρας
Β
Γυναίκα
Γ
Άνδρας
Α
Άνδρας
Β
Γυναίκα
Α
Για να υπολογιστούν οι συχνότητες, ακολουθούμε την
παρακάτω διαδικασία:
AnalyzeDescriptive StatisticsFrequencies
Στη συνέχεια περνάμε τις 2 μεταβλητές στη λίστα Variables και
από το Charts επιλέγουμε Bar Charts.
ΣΗΜΕΙΩΣΗ: Τα ραβδογράμματα θα μπορούσαν να είχαν
δημιουργηθεί και από την επιλογή
Graphs Legacy DialogsBarDefine
Μετά επιλέγεται το «N of cases» όπου ο κάθετος άξονας
αντιπροσωπεύει τις συχνότητες των μεταβλητών ή αν
προτιμάμε ο κάθετος άξονας να εμφανίζει ποσοστά επιλέγουμε
το «% of Cases». Στη συνέχεια οι δύο μεταβλητές (μία, μία)
μεταφέρονται στο Category Axis.
ΠΙΝΑΚΟΕΙΔΕΙΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ (Cross Tabs)
Με τις πινακοειδείς διασταυρώσεις ο ερευνητής έχει τη
δυνατότητα να λάβει περισσότερες πληροφορίες για τις
μεταβλητές. Τα στοιχεία που προκύπτουν, προέρχονται από τη
διασταύρωση 2 μεταβλητών και η περιγραφική ανάλυση γίνεται
πιο λεπτομερής.
Έτσι, για την ΑΣΚΗΣΗ 3 ακολουθείται η εξής διαδικασία:
AnalyzeDescriptivesCrosstabs
Η μεταβλητή «Gender» μεταφέρεται στη λίστα Rows και η
«Brand» στη λίστα Columns.
Από την επιλογή Cells επιλέγουμε την εμφάνιση των ποσοστών
με το Total.
ΑΛΛΟΙ ΤΡΟΠΟΙ ΠΕΡΙΓΡΑΦΙΚΗΣ
ΜΕΤΑΒΛΗΤΕΣ Scale
ΑΝΑΛΥΣΗΣ
ΓΙΑ
Εκτός από τη μέθοδο περιγραφικής ανάλυσης που
παρουσιάσαμε, ο μέσος όρος, η τυπική απόκλιση, το εύρος, το
ελάχιστο και το μέγιστο μπορούμε να το υπολογίσουμε και από
την επιλογή Frequencies. Με τη επιλογή αυτή είναι δυνατόν να
εμφανίσουμε ιστόγραμμα για τον έλεγχο της κανονικότητας της
κατανομής του δείγματος.
ΑΣΚΗΣΗ 4
Ο πίνακας παρουσιάζει τον χρόνο (min) που 15 συμμετέχοντες
σε μια έρευνα χρησιμοποίησαν το κινητό τους στη διάρκεια
ενός 24ώρου.
12
15
30
40
20
8
10
25
11
35
17
19
18
24
6
Ακολουθούμε τη διαδικασία:
AnalyzeDescriptives StatisticsFrequencies
Μετά μεταφέρουμε την μεταβλητή «Min» στη λίστα Variable.
ΣΗΜΕΙΩΣΗ: Το Display frequency tables δεν πρέπει να έχει
επιλεγεί.
Από το Charts επιλέγουμε Histograms καθώς και την εμφάνιση
της καμπύλης της κανονικής κατανομής.
Από το Statistics επιλέγουμε Mean, Median, Mode, Std.
deviation, Minimum, Maximum.
Το ιστόγραμμα θα μπορούσε να είχε δημιουργηθεί απευθείας
από την επιλογή
GraphsHistogram
Μετά η μεταβλητή μεταφέρεται στο Variable και επιλέγουμε
επίσης το Display normal curve.
ΠΙΝΑΚΟΕΙΔΕΙΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ Scale με Nominal ή
Ordinal
Εφ’ όσον η μια από τις 2 μεταβλητές δεν είναι nominal ή
ordinal (έστω ότι είναι scale), η πινακοειδής διασταύρωση της
Άσκησης 3 που παρουσιάστηκε είναι ανέφικτη. Στην περίπτωση
αυτή οι 2 μεταβλητές μπορούν να διασταυρωθούν λαμβάνοντας
υπόψη τους μέσους όρους της scale μεταβλητής για κάθε μια
από τις κατηγορίες της Nominal ή Ordinal.
ΑΣΚΗΣΗ 5
Ο πίνακας παρουσιάζει τον χρόνο (min) που 15 συμμετέχοντες
σε μια έρευνα χρησιμοποίησαν το κινητό τους στη διάρκεια
ενός 24ώρου.
ΧΡΟΝΟΣ
ΦΥΛΟ
12
Α
15
Α
30
Γ
40
Α
20
Α
8
Α
10
Γ
25
Α
11
Γ
35
Γ
17
Α
19
Α
18
Α
24
Γ
6
Α
Ακολουθούμε τη διαδικασία:
AnalyzeCompare MeansMeans
Η scale μεταβλητή «Min» μεταφέρεται στη λίστα Dependent
List και η nominal μεταβλητή «Gender» μεταφέρεται στη λίστα
Independent List.
Ο πίνακας που προκύπτει παρουσιάζει το μέσο χρόνο
συνομιλίας για τους άνδρες και τις γυναίκες.
ΠΙΝΑΚΟΕΙΔΕΙΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ Scale με Nominal ή
Ordinal ΜΕ 3 ΜΕΤΑΒΛΗΤΕΣ
ΑΣΚΗΣΗ 6
Ο πίνακας παρουσιάζει τον χρόνο (min) που 15 συμμετέχοντες
σε μια έρευνα χρησιμοποίησαν το κινητό τους στη διάρκεια
ενός 24ώρου.
ΧΡΟΝΟΣ ΦΥΛΟ
ΜΟΡΦ. ΕΠΙΠΕΔΟ
12
Α
Γυμν/Λυκ
15
Α
Γυμν/Λυκ
30
Γ
ΑΕΙ/ΤΕΙ
40
Α
ΑΕΙ/ΤΕΙ
20
Α
Γυμν/Λυκ
8
Α
ΑΕΙ/ΤΕΙ
10
Γ
Μεταπτ.
25
Α
ΑΕΙ/ΤΕΙ
11
Γ
Γυμν/Λυκ
35
Γ
Γυμν/Λυκ
17
Α
Μεταπτ.
19
Α
ΑΕΙ/ΤΕΙ
18
Α
Γυμν/Λυκ
24
Γ
Γυμν/Λυκ
6
Α
Μεταπτ.
Η διασταύρωση των 3 μεταβλητών μπορεί να δώσει ακόμη πιο
λεπτομερείς πληροφορίες για τη συνομιλία των συμμετεχόντων.
Για την διασταύρωση των 3 μεταβλητών ακολουθείται η
διαδικασία:
AnalyzeCompare MeansMeans
Η scale μεταβλητή «Min» μεταφέρεται στη λίστα Dependent
List και η nominal μεταβλητή «Gender» μεταφέρεται στη λίστα
Independent List. Μετά επιλέγουμε το Next και η λίστα
Independent εκκενώνεται, όπου εκεί τώρα μεταφέρεται η
ordinal μεταβλητή «Edlevel».
Η ΕΠΙΛΟΓΗ Explore
Η επιλογή Explore μπορεί να αντικαταστήσει την επιλογή
Means που είδαμε στην Άσκηση 5, με την έννοια ότι μπορεί να
μας δώσει περισσότερες πληροφορίες για τη μεταβλητή και
επιπλέον να γνωρίσουμε και τα Boxplots (θηκογράμματα).
Η διαδικασία είναι:
AnalyzeDescriptives StatisticsExplore
Στη συνέχεια μεταφέρουμε τη μεταβλητή «Min» στη λίστα
Dependent και τη μεταβλητή «Gender» στη λίστα Factor.
Από τα Plots επιλέγουμε το γράφημα Boxplots.
Στα Boxplots φαίνεται το εύρος των παρατηρήσεων για τις
γυναίκες και τους άνδρες καθώς και ο ελάχιστος και μέγιστος
χρόνος ομιλίας για καθεμιά από τις 2 κατηγορίες. Η μαύρη
γραμμή δείχνει τον διάμεσο χρόνο συνομιλίας. Το ο4 πάνω
αριστερά αντιπροσωπεύει μια παρατήρηση που απέχει πολύ από
το μέσο (outlier). Φαίνεται ότι για τους άνδρες υπάρχει
μικρότερο εύρος παρατηρήσεων σε σχέση με τις γυναίκες, ενώ
ο διάμεσος χρόνος συνομιλίας είναι μικρότερος.
ΟΜΑΔΟΠΟΙΗΜΕΝΑ ΓΡΑΦΗΜΑΤΑ
Τα γραφήματα σε πολλές περιπτώσεις είναι πιο σύνθετα. Έστω
ότι ζητείται η γραφική παρουσίαση «του πως συσχετίζονται τα
τετραγωνικά μέτρα των κατοικιών 20 ερωτώμενων με την
ιδιοκτησία (ιδιόκτητο ή ενοικιασμένο). Τα δεδομένα
παρουσιάζονται στην επόμενη άσκηση, όπου έχει
χρησιμοποιηθεί η κωδικοποίηση:
House (Ιδιοκτησία): 1= Ιδιόκτητο, 2=ενοικιασμένο
m2: 1=μικρότερο από 80m2 , 2=80m2-120m2 , 3=πάνω από 80m2
ΑΣΚΗΣΗ 7
House
m2
1
2
1
3
2
2
1
3
1
2
2
3
1
2
1
1
1
3
1
3
2
1
2
2
1
3
2
1
1
2
2
2
1
2
1
3
1
3
2
1
Για τη δημιουργία ενός ομαδοποιημένου
ακολουθείται η εξής διαδικασία:
Bar
Chart
GraphsBarClustered
Η μεταβλητή «House» μεταφέρεται στο πλαίσιο Category Axis
και η μεταβλητή «m2» μεταφέρεται στο πλαίσιο Define Clusters
by.
Στο σχήμα φαίνεται ότι τα περισσότερα από τα ιδιόκτητα σπίτια
είναι πάνω από 120 m2. Αντίθετα από τα μη ιδιόκτητα σπίτια τα
3 είναι μικρότερα από 80 m2, τα 3 είναι 80-120 m2 και μόνον
ένα είναι μεγαλύτερο από 120 m2.
ΕΠΕΞΕΡΓΑΣΙΑ ΓΡΑΦΗΜΑΤΩΝ
Το SPSS δίνει τη δυνατότητα επεξεργασίας (editing) των
παραγόμενων γραφημάτων. Πιο συγκεκριμένα, δίνεται η
δυνατότητα αλλαγής χρωμάτων, διαστάσεων, κ.α.
Για τα δεδομένα της Άσκησης 7 προκειμένου να δημιουργηθεί
ένα Pie Chart για τη μεταβλητή «m2» ακολουθείται η
διαδικασία:
GraphsPieSummaries for groups of cases
Στη συνέχεια η μεταβλητή «m2» μεταφέρεται στο πλαίσιο
Define slices by.
Για να γίνει επεξεργασία αυτού του γραφήματος κάνουμε
double click πάνω στο γράφημα όπου ανοίγει ένα παράθυρο.
Για να γίνει αλλαγή του χρώματος στο κομμάτι της πίτας που
επιθυμούμε κάνουμε ξανά double click σ’ αυτό. Στο παράθυρο
Properties επιλέγεται το Fill & Border.
Για να γίνει το Pie Chart τρισδιάστατο επιλέγεται το Depth &
Angle και στη συνέχεια το 3-D
ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ
Σκοπός της ανάλυσης συσχέτισης είναι η εξερεύνηση της
σχέσης μεταξύ 2 ή περισσοτέρων μεταβλητών. Τα
αποτελέσματα αυτής της ανάλυσης δίνουν πληροφορίες για την
ένταση και κατεύθυνση (μερικές) της σχέσης μεταξύ των
μεταβλητών.
Έτσι, η ανάλυση συσχέτισης χρησιμοποιείται για να ελέγξει
κατά πόσο συσχετίζονται π.χ. :
 Το φύλο με την στάση ως προς τα ελεύθερα αναγνώσματα
 Ο αριθμός τσιγάρων που καπνίζουν οι νέοι με την
ποσότητα αλκοόλ που καταναλώνουν
 Η ηλικία των παιδιών με το βάρος των παιδιών
 Το ύψος των γονέων με το ύψος των παιδιών τους
 Δόσεις φαρμάκου με την αντίδραση των ασθενών
 Βαθμολογία στα Μαθηματικά με τη βαθμολογία στην
Στατιστική
 Ζήτηση ενός προϊόντος με την τιμή του προϊόντος
Οι συντελεστές συσχέτισης είναι αριθμοί που μετρούν αφ’ ενός
την ένταση της εξάρτησης (ασθενής, ισχυρή) μεταξύ των
μεταβλητών και αφ’ ετέρου (μερικοί) δείχνουν την κατεύθυνση
της σχέσης (αρνητική, θετική) μεταξύ των μεταβλητών.
Οι συντελεστές συσχέτισης, συνήθως, παίρνουν τιμές μεταξύ -1
και +1. Για τιμές μεταξύ -1 και 0 έχουμε αρνητική συσχέτιση
μεταξύ των μεταβλητών, ενώ για τιμές μεταξύ 0 και +1 έχουμε
θετική συσχέτιση.
ΣΗΜΑΝΤΙΚΟ : Αν και η συσχέτιση αντικατοπτρίζει την
ένταση της σχέσης μεταξύ των μεταβλητών δεν εξηγεί τη σχέση
αιτίας – αιτιατού, δηλαδή ποια μεταβλητή προκαλεί τη
μεταβολή της άλλης.
ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ PEARSON
Ο σ.σ. Pearson δείχνει τη γραμμική σχέση μεταξύ 2
μεταβλητών. Απαραίτητες προϋποθέσεις χρήσης του είναι:
 Ύπαρξη μεταβλητών scale
 Οι μεταβλητές να κατανέμονται κανονικά στον πληθυσμό
(ειδικά αν το δείγμα είναι μικρό)
 Οι μεταβλητές να έχουν γραμμική σχέση (αυτό
διαπιστώνεται από το διάγραμμα διασποράς – scatter
diagram - )
Η χρήση του Pearson πρέπει να αποφεύγεται όταν η μία ή και οι
δύο μεταβλητές είναι nominal. Έτσι, αν σε μια έρευνα αγοράς
αυτοκινήτου με το 1=κόκκινο, 2=μαύρο, 3=άσπρο, 4=μπλε
δηλώνουν οι ερωτώμενοι τα χρώματα προτίμησης του
αυτοκινήτου, είναι μάλλον ανούσιο να συσχετιστεί η παραπάνω
μεταβλητή με τα ετήσια χιλιόμετρα που κάνουν οι ερωτώμενοι
με τα αυτοκίνητά τους. Δηλαδή μια ισχυρή συσχέτιση εδώ τι θα
σήμαινε;
ΠΡΟΣΟΧΗ: Στην περίπτωση που ο συντελεστής συσχέτισης
είναι 0 δεν σημαίνει ότι δεν υπάρχει συσχέτιση, απλώς λέμε ότι
δεν υπάρχει γραμμική συσχέτιση μεταξύ των μεταβλητών.
ΑΣΚΗΣΗ 8
Η ποσότητα των προϊόντων που αγόρασαν καταναλωτές σε ένα
supermarket σε μια ώρα, αυθόρμητα (δηλ. χωρίς να έχουν
προγραμματίσει την αγορά των συγκεκριμένων προϊόντων) και
το ποσοστό έκπτωσης για κάθε ένα από τα 10 προϊόντα της
έρευνας, δίνεται παρακάτω. Εξετάστε αν υπάρχει συσχέτιση
μεταξύ του ποσοστού έκπτωσης και του αριθμού αυθορμήτων
αγορών.
Α/Α
Έκπτωση (%)
Αυθόρμητες αγορές
1
16
4
2
29
6
3
36
9
4
43
10
5
20
5
6
32
7
7
20
5
8
3
1
9
4
2
10
6
3
Κατασκευή του Scatterplot
Graphs → Legacy Dialogs → Scatter/Dot → Simple Scatter →
→ Define
Η μεταβλητή unplanned εισάγεται στον άξονα Υ και η
μεταβλητή discount στον άξονα Χ.
Τι δείχνει το γράφημα: καθώς αυξάνεται το ποσοστό της
έκπτωσης, οι αγορές που δεν είχαν προγραμματιστεί από τους
καταναλωτές επίσης αυξάνονται. Φαίνεται ότι υπάρχει θετική
σχέση μεταξύ των 2 μεταβλητών.
Υπολογισμός του σ.σ. Pearson
Analyze →Correlate →Bivariate
Οι 2 μεταβλητές μεταφέρονται στη λίστα «Variables».
Επιλέγεται ο σ.σ. Pearson και το «Two-tailed significance».
Από την επιλογή «Options» μπορούμε να βρούμε τον μέσο και
την τυπική απόκλιση κάθε μεταβλητής καθώς και τον αριθμό
παρατηρήσεων, αυτό γίνεται με την επιλογή «Means and
standard deviations»
Από τον πρώτο πίνακα έχουμε ότι το μέσο ποσοστό της
έκπτωσης είναι 20,9% και ο μέσος όρος των προϊόντων που
αγοράστηκαν αυθόρμητα είναι 5,2. Στον δεύτερο πίνακα
εμφανίζεται ο σ.σ. Pearson που είναι 0,982 δηλ. έχουμε μια
πολύ ισχυρή θετική συσχέτιση μεταξύ του ποσοστού της
έκπτωσης και του αριθμού των αυθόρμητων αγορών. Δηλαδή,
καθώς αυξάνεται το ποσοστό της έκπτωσης, αυξάνεται ο
αριθμός των προϊόντων που αγοράζονται αυθόρμητα.
Pearson για 3 μεταβλητές
ΑΣΚΗΣΗ 9
Ας υποθέσουμε ότι στα δεδομένα της Άσκησης 8 υπάρχει και
τρίτη μεταβλητή (τιμή προϊόντος = price)
Α/Α
Έκπτωση (%)
Αυθόρμητες αγορές
Τιμή
1
16
4
30
2
29
6
27
3
36
9
20
4
43
10
18
5
20
5
25
6
32
7
22
7
20
5
35
8
3
1
60
9
4
2
50
10
6
3
40
Για την ανάλυση, τα γνωστά όπως και παραπάνω. Στο output
εμφανίζονται 2 πίνακες, ο πρώτος με τις μέσες τιμές και τις
τυπικές αποκλίσεις και ο δεύτερος με 6 συσχετίσεις ανά 2 ίδιες
(3 μεταβλητές, συσχετίσεις ανά 2).
 Συντελεστής Pearson: discount – unplanned 0,982 (βλ.
παραπάνω).
 Συντελεστής Pearson: discount – price -0,9 δηλ. ισχυρή
αρνητική συσχέτιση, που σημαίνει ότι όσο αυξάνεται η
τιμή των προϊόντων, μειώνεται το ποσοστό της έκπτωσης.
 Συντελεστής Pearson: unplanned – price -0,906 δηλ.
ισχυρή αρνητική συσχέτιση, που σημαίνει ότι όσο
αυξάνεται η τιμή των προϊόντων, μειώνονται οι μη
προγραμματισμένες αγορές.
ΣΥΝΤΕΛΕΣΤΗΣ ΜΕΡΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ
(Partial Correlation Coefficient)
Όπως είδαμε στο προηγούμενο παράδειγμα, ο σ.σ. Pearson
αδυνατεί να απομονώσει τη σχέση της τιμής των προϊόντων στη
συσχέτιση της έκπτωσης με τις αυθόρμητες αγορές.
Ο συντελεστής μερικής συσχέτισης δείχνει την ένταση και την
κατεύθυνση της σχέσης μεταξύ δύο ή περισσοτέρων
μεταβλητών απομονώνοντας την αλληλοσυσχέτιση των
εξεταζόμενων μεταβλητών με μια τρίτη μεταβλητή. Δηλαδή, με
την μερική συσχέτιση καθορίζεται ο βαθμός συσχέτισης που θα
ίσχυε μεταξύ των 2 μεταβλητών αν καθεμιά από αυτές δεν
συσχετιζόταν με την τρίτη μεταβλητή. Έτσι:
Analyze →Correlate →Partial
Οι μεταβλητές «discount» και «unplanned» εισάγονται στη
λίστα «Variables» ενώ η μεταβλητή «price» μεταφέρεται στο
πλαίσιο «Controlling for».
Ο σ.μ.σ. μπορεί να υπολογιστεί και για περισσότερες από 2
μεταβλητές, χρησιμοποιώντας ως μεταβλητές ελέγχου μία, δύο
ή και περισσότερες μεταβλητές.
ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ Kendall’s Tau b
Ο συντελεστής αυτός χρησιμοποιείται στην περίπτωση που οι 2
μεταβλητές είναι ordinal (π.χ. κατάταξη 5 διαφορετικών
μορφών διδασκαλίας πάνω στο ίδιο αντικείμενο από φοιτητές
ανάλογα με τη στάση δύο επιβλεπόντων καθηγητών απέναντι σ’
αυτές).
Ο συντελεστής αυτός στηρίζεται στην απόσταση μεταξύ των
ζευγών των παρατηρήσεων που έχουν την ίδια κατεύθυνση και
των ζευγών των παρατηρήσεων που έχουν αντίθετη
κατεύθυνση. Αν τα ζεύγη προς την ίδια κατεύθυνση υπερέχουν
αυτών της αντίθετης κατεύθυνσης τότε ο Kendall tau έχει θετικό
πρόσημο. Οι τιμές που παίρνει είναι από -1 έως +1.
ΑΣΚΗΣΗ 10
Δύο οινολόγοι κλήθηκαν να κατατάξουν 10 μάρκες κρασιών
από το 1 ως το 10 (1=τους αρέσει λιγότερο, 10= τους αρέσει
περισσότερο).
ΜΑΡΚΕΣ
ΟΙΝΟΛΟΓΟΣ 1
ΟΙΝΟΛΟΓΟΣ 2
Α
1
1
Β
2
3
Γ
3
2
Δ
4
4
Ε
5
6
ΣΤ
6
8
Ζ
7
5
Η
8
7
Θ
9
10
Ι
10
9
Έτσι, λοιπόν:
Analyze →Correlate →Bivariate
Οι 2 μεταβλητές «spec_1» και «spec_2» μεταφέρονται στη
λίστα «Variables». Επιλέγεται ο σ.σ. Kendall’s tau-b και το
«Two-tailed significance».
Στο output βλέπουμε ότι η συσχέτιση της προτίμησης μαρκών
κρασιών των δύο οινολόγων βρέθηκε να είναι θετικά ισχυρή
(0,778).
ΣΥΝΤΕΛΕΣΤΗΣ ΣΥΣΧΕΤΙΣΗΣ Phi
(Phi Coefficient)
Ο συντελεστής συσχέτισης Phi (φ) χρησιμοποιείται στην
περίπτωση που οι 2 εξεταζόμενες μεταβλητές είναι διχοτομικές
(φύλο – στάση ως προς το φαινόμενο της έκτρωσης).
Ο συντελεστής φ εξετάζει την ένταση (όχι την κατεύθυνση) της
συσχέτισης μεταξύ των 2 μεταβλητών.
ΑΣΚΗΣΗ 11
Είκοσι καταναλωτές ρωτήθηκαν σε ποιο από τα 2 παντοπωλεία
της γειτονιάς τους συνηθίζουν να ψωνίζουν (από το
παντοπωλείο Α ή από το παντοπωλείο Β) και ποια από 2
γνωστές μάρκες γάλακτος προτιμούν (μάρκα Χ ή μάρκα Ψ).
Παντοπωλείο
Μάρκα γάλακτος
Α
Χ
Β
Ψ
Β
Ψ
Β
Χ
Α
Ψ
Α
Χ
Β
Ψ
Α
Χ
Β
Χ
Α
Χ
Α
Χ
Α
Ψ
Β
Ψ
Α
Χ
Α
Χ
Β
Ψ
Α
Ψ
Α
Χ
Β
Ψ
Β
Ψ
Για τον υπολογισμό του Phi ακολουθείται η εξής διαδικασία:
Analyze →Descriptive Statistics →Crosstabs
Η μεταβλητή «shop» μεταφέρεται στο πλαίσιο «Rows» και η
μεταβλητή «milk» μεταφέρεται στο πλαίσιο «Columns». Μετά
από την επιλογή «Statistics» επιλέγεται το «Phi and Cramer’s
V». Για να εμφανιστούν και τα ποσοστά των διασταυρώσεων
μεταξύ των 2 μεταβλητών, από το πλαίσιο «Cells» επιλέγουμε
το «Total».
Έτσι λοιπόν στο Output φαίνεται ότι 8 καταναλωτές που
προτιμούν το παντοπωλείο Α αγοράζουν τη μάρκα γάλακτος Χ
(40%) ενώ 3 από τους 11 συνολικά καταναλωτές που προτιμούν
το παντοπωλείο Α αγοράζουν τη μάρκα γάλακτος Ψ (15%).
Αντίθετα 2 από τους 9 συνολικά καταναλωτές που προτιμούν το
παντοπωλείο Β αγοράζουν το γάλα Χ (10%) και 7 από αυτούς
το γάλα Ψ (35%).
Ο επόμενος πίνακας δίνει τον συντελεστή Phi. Η συσχέτιση
μεταξύ της επιλογής του παντοπωλείου και της επιλογής
γάλακτος είναι μέση.
ΑΝΑΛΥΣΗ ΑΠΛΗΣ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ
Στην απλή γραμμική παλινδρόμηση υπάρχει μια εξαρτημένη
μεταβλητή (dependent) που συχνά αποκαλείται και μεταβλητή
response και μια ανεξάρτητη μεταβλητή (independent) που
συχνά αποκαλείται και μεταβλητή explanatory.
Η εξαρτημένη μεταβλητή μπορεί να είναι ordinal ή scale. Η
ανεξάρτητη μπορεί να είναι επίσης ordinal ή scale.
Η συνάρτηση της απλής γραμμικής παλινδρόμησης έχει τη
μορφή:
Y = α + β∙X
Όπου
Y = εξαρτημένη μεταβλητή
X= ανεξάρτητη μεταβλητή
α = σταθερά του μοντέλου
β = συντελεστής παλινδρόμησης
Ο συντελεστής παλινδρόμησης β αντιπροσωπεύει το μέγεθος
της μεταβολής της εξαρτημένης μεταβλητής όταν η ανεξάρτητη
μεταβλητή μεταβληθεί κατά μία μονάδα (π.χ. αν η βαθμολογία
ενός φοιτητή αυξηθεί κατά 1 μονάδα στα μαθηματικά τότε η
βαθμολογία του στη στατιστική μεταβάλλεται κατά β). Η
σταθερά α δείχνει την τιμή της εξαρτημένης μεταβλητής όταν
η ανεξάρτητη μεταβλητή γίνει 0 (δηλ. αν κάποιος πάρει 0 στα
μαθηματικά τότε ο βαθμός του στη στατιστική θα είναι α).
ΑΣΚΗΣΗ 13
Για τους σκοπούς μιας έρευνας καταγράφηκαν το μέσο μηνιαίο
ποσό (σε ευρώ) που δαπανούν 8 καταναλωτές για ρουχισμό
καθώς και η ηλικία των συμμετεχόντων στην έρευνα.
Ζητούμενο είναι η πρόβλεψη του χρηματικού ποσού που
δαπανάται για ρουχισμό λαμβάνοντας υπόψη την ηλικία του
καταναλωτή.
clothes
age
45
34
60
25
100
19
40
39
30
40
80
22
55
29
50
30
Θα βρούμε μια εξίσωση της μορφής:
(Ποσό για ρούχα) = α + β∙(ηλικία)
Ακολουθείται η διαδικασία:
Analyze →Regression→Linear
Ακολούθως η μεταβλητή «clothes» μεταφέρεται στο πεδίο
Dependent και η μεταβλητή «age» στο Independent.
Πατώντας το Statistics επιλέγονται στην ανάλυση τα εξής:
Estimates, Model fit, Descriptives.
Έτσι ο πίνακας
Descriptive Statistics
Mean
Std. Deviation
N
clothes
57,50
22,678
8
age
29,75
7,630
8
δίνει τις μέσες τιμές και τις τυπικές αποκλίσεις για τις 2
μεταβλητές. Ο επόμενος πίνακας εμφανίζει το δείκτη
συσχέτισης Pearson:
Correlations
clothes
Pearson Correlation
Sig. (1-tailed)
clothes
1,000
-,941
age
-,941
1,000
clothes
.
age
N
age
,000
,000 .
clothes
8
8
age
8
8
Ο πίνακας
Model Summary
Model
R
R Square
,941a
1
,886
Adjusted R
Std. Error of the
Square
Estimate
,867
8,274
a. Predictors: (Constant), age
δίνει τον συντελεστή συσχέτισης R2 = 0.886 που δείχνει το
ποσοστό της διακύμανσης της εξαρτημένης μεταβλητής που
εξηγείται από την ανεξάρτητη μεταβλητή. Το Adjusted R
Square (που είναι πάντα μικρότερο του R) απομονώνει τους
τυχαίους παράγοντες και επικεντρώνεται μονάχα στους
παράγοντες διακύμανσης της ανεξάρτητης μεταβλητής. Έτσι,
συμπεραίνεται ότι το 86,7% της διακύμανσης της μεταβλητής
«clothes» εξηγείται από τη μεταβλητή «age».
Τέλος, ο πίνακας
Coefficientsa
Standardized
Unstandardized Coefficients
Model
1
B
(Constant)
Std. Error
140,727
12,540
-2,798
,410
age
a. Dependent Variable: clothes
Coefficients
Beta
t
-,941
Sig.
11,222
,000
-6,825
,000
δίνει τη σταθερά α = 140,727 και το β = -2,798 για τη
δημιουργία της πρόβλεψης στην εξίσωση παλινδρόμησης.
(Ποσό για ρούχα) =140,727 – 2,798 ∙(ηλικία)
Ο πιο πάνω τύπος σημαίνει ότι «αν αυξηθεί η ηλικία ενός
καταναλωτή κατά 1 έτος, τότε το χρηματικό ποσό που δαπανά για
ρούχα μειώνεται κατά 2,798 ευρώ».