εργαστηριακες σημειωσεις στατιστικης

Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ
ΔΡ. ΙΩΑΝΝΗΣ Σ. ΤΡΙΑΝΤΑΦΥΛΛΟΥ
ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ 2012-2013
1
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
1. ΕΙΣΑΓΩ ΓΗ ΣΤΟ SPSS – ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ ........................................................ 4 1.1. Καταγραφή δεδομένων και επιλογή κατάλληλων ρυθμίσεων των
μεταβλητών................................................................................................................... 4 1.2. Διαχωρισμός αρχείου βάση ενός ποιοτικού χαρακτηριστικού ......................... 6 1.3. Διαγραφή περιπτώσεων από το σύνολο των δεδομένων.................................... 7 1.4. Ταξινόμηση δεδομένων βάση κάποιου ποσοτικού χαρακτηριστικού .............. 8 1.5. Υπολογισμός μίας νέας μεταβλητής με τη βοήθεια κάποιας ήδη υπάρχουσας9 2. ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ......................................................................................... 11 2.1. Μέση Τιμή, Διακύμανση, Τυπική Απόκλιση & Συντελεστής
Μεταβλητότητας ........................................................................................................ 12 2.2. Πίνακας Συχνοτήτων και Ραβδόγραμμα (Bar Chart) ..................................... 13 2.3. Διάμεσος, Επικρατούσα Τιμή, Τεταρτημόρια & Ποστημόρια ....................... 14 2.4. Ιστόγραμμα .......................................................................................................... 15 2.5. Θηκόγραμμα (Box Plot) ...................................................................................... 16 2.6. Κυκλικό Διάγραμμα (Pie Chart). ...................................................................... 16 2.7. Κύρτωση και Ασυμμετρία ................................................................................. 17 2.8. Διαχείριση / Μετασχηματισμοί Δεδομένων (Εντολές Select Cases, Compute
Variable & Recode Variable).................................................................................... 19 2.9. Περιγραφικά Στατιστικά με χρήση της εντολής «Explore» ........................... 20 3. ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ......................................................................... 23 3.1. Έλεγχος Κανονικότητας Kolmogorov-Smirnov & Έλεγχος t του Student για
ένα δείγμα ................................................................................................................... 23 3.2. Έλεχγος t για Ανεξάρτητα Δείγματα ................................................................. 24 3.3. Έλεγχος Ανεξαρτησίας χ2 του Pearson ............................................................. 27 4. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ........................................................................... 29 4.1. Διάγραμμα Διασποράς (Scatterplot).................................................................. 29 4.2. Προσαρμογή Ευθείας Γραμμικής Παλινδρόμησης ......................................... 30 2
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
4.3. Έλεγχος Κανονικότητας και Ανεξαρτησίας Σφαλμάτων ................................ 30 4.4. Έλεγχοι Υποθέσεων για τις Τιμές των Παραμέτρων της Γραμμικής
Παλινδρόμησης .......................................................................................................... 31 4.5. Σημειακή Εκτίμηση ............................................................................................ 31 4.6. Εφαρμογές / Παρουσίαση Αποτελεσμάτων Γραμμικής Παλινδρόμησης ...... 32 5. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ................................................................. 35 6. ΠΙΝΑΚΕΣ ΣΥΝΑΦΕΙΑΣ – ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ................................................. 45 3
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
1.
ΕΙΣΑΓΩ ΓΗ ΣΤΟ SPSS – ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ
1.1. Καταγραφή δεδομένων και επιλογή κατάλληλων ρυθμίσεων των
μεταβλητών
Η βασική οθόνη του στατιστικού πακέτου SPSS έχει την ακόλουθη μορφή:
Στον παραπάνω πίνακα, γίνεται η καταγραφή των δεδομένων που επιθυμούμε να
αναλυθούν. Κάθε στήλη του πίνακα αποτελεί και ένα διαφορετικό χαρακτηριστικό
(δηλαδή μία διαφορετική μεταβλητή (variable)), ενώ κάθε οριζόντια γραμμή
αντιπροσωπεύει ένα διαφορετικό άτομο (ή παρατήρηση) του δείγματος που έχουμε
στη διάθεση μας. Προκειμένου να διαμορφώσουμε κατάλληλα τις ρυθμίσεις που
αφορούν την κάθε μεταβλητή (δηλαδή το κάθε διαφορετικό χαρακτηριστικό),
επιλέγουμε το Variable View (βρίσκεται στην κάτω αριστερή γωνία της οθόνης) και
εμφανίζεται μία άλλη οθόνη, όπως φαίνεται παρακάτω:
4
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Οι ρυθμίσεις που πρέπει να διαμορφωθούν για κάθε μία μεταβλητή χωριστά, είναι οι
εξής:
 Name: εδώ δίνεται η ονομασία της κάθε μεταβλητής
 Type: εδώ δηλώνεται το είδος της πληροφορίας που θα εισαχθεί σε κάθε
μεταβλητή (δηλαδή σε κάθε στήλη του πίνακα δεδομένων). Για παράδειγμα,
αν η πληροφορία είναι ποσοτική, τότε ο κατάλληλος τύπος μεταβλητής που
πρέπει να επιλεγεί είναι το Numeric, ενώ αν πρόκειται να εισάγουμε στη
συγκεκριμένη στήλη λέξεις (γράμματα), τότε θα επιλέξουμε τον τύπο String.
 Width: εδώ προσδιορίζεται το μέγιστο πλήθος ψηφίων (αν πρόκειται για
αριθμό) ή γραμμάτων (αν πρόκειται για λέξη) που θα επιτρέπεται να εισαχθεί
στη συγκεκριμένη στήλη
 Decimals: εδώ δηλώνεται ο αριθμός δεκαδικών ψηφίων που θέλουμε να
εμφανίζονται στα αριθμητικά δεδομένα της κάθε στήλης (προφανώς αν
πρόκειται για πληροφορία τύπου String, τότε η συγκεκριμένη επιλογή γίνεται
αυτόματα 0.
 Measure: εδώ δηλώνεται το αν το χαρακτηριστικό που μελετάμε είναι
ποσοτική μεταβλητή (Scale), ονομαστική ποιοτική μεταβλητή (Nominal) ή
διατάξιμη ποιοτική μεταβλητή (Ordinal).
5
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Αφού γίνουν οι κατάλληλες ρυθμίσεις στο Variable View, επιστρέφουμε στην
αρχική οθόνη (επιλέγοντας το Data View), ώστε να εισάγουμε τα δεδομένα.
Για καλύτερη κατανόηση, ας θεωρήσουμε ένα παράδειγμα στο οποίο το
αντικείμενο μελέτης είναι η ταχύτητα επεξεργασίας μίας σειράς 10 ηλεκτρονικών
υπολογιστών (εκ των οποίων οι πρώτοι 7 χρησιμοποιούν τον επεξεργαστή Α, ενώ οι
υπόλοιποι τον επεξεργαστή Β). Η ποσοτική μεταβλητή (Scale) που θα
χρησιμοποιηθεί για την καταγραφή των ταχυτήτων επεξεργασίας ονομάζεται SPEED
και μετριέται σε μονάδες GHz με ένα δεκαδικό ψηφίο, ενώ η ποιοτική μεταβλητή
(Nominal) που θα χρησιμοποιηθεί για την καταγραφή του επεξεργαστή που
χρησιμοποιεί ο κάθε υπολογιστής ονομάζεται PROCESSOR και είναι τύπου String.
Ρυθμίζοντας κατάλληλα τις επιλογές στο Variable View, στη συνέχεια καταγράφουμε
τις παρατηρειθείσες ταχύτητες των 10 υπολογιστών καθώς και το είδος επεξεργαστή
που χρησιμοποιούν στον πίνακα Data View, όπως φαίνεται ακολούθως:
1.2. Διαχωρισμός αρχείου βάση ενός ποιοτικού χαρακτηριστικού
Σε περίπτωση που ενδιαφερόμαστε να αναλύσουμε ξεχωριστά τα δεδομένα που
αφορούν τους υπολογιστές που χρησιμοποιούν τον επεξεργαστή Α και τον
επεξεργαστή Β, τότε ακολουθώντας τη διαδικασία Data / Split File, επιλέγουμε τη
6
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
μεταβλητή PROCESSOR ως μεταβλητή ομαδοποίησης (grouping variable), όπως
φαίνεται και παρακάτω:
1.3. Διαγραφή περιπτώσεων από το σύνολο των δεδομένων
Σε περίπτωση που επιθυμούμε να διαγράψουμε προσωρινά μία ή περισσότερες
περιπτώσεις (παρατηρήσεις) από τον πίνακα των δεδομένων, τότε ακολουθώντας τη
διαδικασία Data / Select Cases, προσδιορίζουμε τη συνθήκη που θέλουμε να ισχύει
ότι μία παρατήρηση να παραμένει ενεργή στο δείγμα. Σε διαφορετική περίπτωση,
δηλαδή σε περίπτωση που μία ή περισσότερες παρατηρήσεις δεν ικανοποιούν τη
συνθήκη που εμείς θα δηλώσουμε, τότε εκείνη (ή εκείνες) η παρατήρηση διαγράφεται
προσωρινά από το δείγμα και δεν λαμβάνεται υπόψιν στη συνέχεια της ανάλυσης. Για
παράδειγμα αν επιθυμούμε να αναλύσουμε μόνο εκείνα τα δεδομένα που αφορούν
ηλεκτρονικούς υπολογιστές οι οποίοι παρουσιάζουν ταχύτητες που υπερβαίνουν τα 2
GHz, τότε ακολουθώντας τη διαδικασία Data / Select Cases, επιλέγουμε το πλήκτρο
If Condition is satisfied και διατυπώνουμε τη συνθήκη: SPEED > 2, όπως φαίνεται
στην ακόλουθη οθόνη:
7
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
1.4. Ταξινόμηση δεδομένων βάση κάποιου ποσοτικού χαρακτηριστικού
Σε περίπτωση που επιθυμούμε να τοποθετήσουμε σε αύξουσα ή φθίνουσα σειρά τα
δεδομένα βάση κάποιας συγκεκριμένης μέτρησης (ποσοτικής μεταβλητής), τότε
ακολουθούμε τη διαδικασία Data / Sort Cases. Για παράδειγμα, αν θέλουμε να
τοποθετήσουμε σε αύξουσα σειρά τους 10 υπολογιστές βάση της ταχύτητας
επεξεργασίας που παρουσιάζουν, τότε ακολουθώντας τη διαδικασία Data / Sort
Cases, επιλέγουμε τη μεταβλητή SPEED να πάρει τη θέση κάτω από την έκφραση
Sort By, ενώ ταυτόχρονα επιλέγουμε ως Sort Order (Τρόπος ταξινόμησης) το
Ascending, δεδομένου ότι επιθυμούμε να ταξινομήσουμε τα δεδομένα σε αύξουσα
σειρά. Η παρακάτω οθόνη δείχνει τις προαναφερθείσες επιλογές:
8
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
1.5. Υπολογισμός μίας νέας μεταβλητής με τη βοήθεια κάποιας ήδη υπάρχουσας
Σε
περίπτωση
που
επιθυμούμε
να
δημιουργήσουμε
μία
νέα
μεταβλητή,
χρησιμοποιώντας κάποια ήδη υπάρχουσα, τότε ακολουθούμε τη διαδικασία
Transform / Compute Variable. Για παράδειγμα, αν θέλουμε να μετατρέψουμε τις
ταχύτητες επεξεργασίας σε διαφορετικές μονάδες μέτρησης (από GHz σε MHz), τότε
ακολουθώντας τη διαδικασία Transform / Compute Variable, αρχικά δηλώνουμε το
όνομα της νέας μεταβλητής κάτω από την έκφραση Target Variable, στη συνέχεια
κάτω από την έκφραση Numeric Expression διατυπώνουμε τη σχέση βάση της οποίας
θα υπολογιστεί η νέα μεταβλητή, όπως φαίνεται ακολούθως:
9
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Αξίζει να σημειωθεί ότι, κατά τη διαδικασία υπολογισμού μίας νέας μεταβλητής
(Transform
/
Compute
Variable),
υπάρχει
δυνατότητα
χρήσης
πληθώρας
μαθηματικών και στατιστικών συναρτήσεων για τον κατάλληλο μετασχηματισμό των
δεδομένων.
10
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
2.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Στις εξετάσεις του μαθήματος της Στατιστικής του τμήματος Πληροφορικής του
Πανεπιστημίου Πειραιώς (κατά τη χειμερινή εξεταστική περίοδο) προσήλθαν
συνολικά 100 φοιτητές και φοιτήτριες. Ο εξεταστής βαθμολόγησε τα γραπτά
χρησιμοποιώντας την κλίμακα 0-30 (0: λευκή κόλλα, 30: άριστα) και τα
αποτελέσματα δίνονται στους ακόλουθους πίνακες.
ΦΟΙΤΗΤΕΣ
2ο έτος
11
16
6
23
8
0
0
0
11
0
0
0
3ο έτος
12
9
0
0
16
3
11
2
4
6
8
0
4ο έτος
13
16
18
0
16
1
29
0
12
13
0
14
5ο έτος
23
12
8
23
21
10
14
11
6ο έτος
0
9ο έτος
13
10ο έτος
0
ΦΟΙΤΗΤΡΙΕΣ
2ο έτος
15
14
8
25
0
24
4
18
16
23
16
16
3ο έτος
13
19
2
5
8
18
17
22
1
4
0
13
4ο έτος
20
8
15
13
13
13
3
5ο έτος
1
11
14
8
11
8
11
7
11
12
9
6ο έτος
15
16
12
6
16
9
12
7ο έτος
14
9
14
9ο έτος
22
Εισάγουμε τα παραπάνω δεδομένα στο SPSS.
11
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
2.1. Μέση Τιμή, Διακύμανση, Τυπική Απόκλιση & Συντελεστής
Μεταβλητότητας
Η μέση τιμή, η τυπική απόκλιση, η μεγαλύτερη και η μικρότερη τιμή των παραπάνω
βαθμολογιών, ακολουθώντας τη διαδικασία:
Analyze/Descriptive Statistics/Descriptives: grade
Έτσι προκύπτει ο ακόλουθος πίνακας:
Descriptive Statistics
N
grade
100
Valid N (listwise)
100
Minimum
0
Maximum
29
Mean
10,37
Std. Deviation
7,282
Παρατηρούμε ότι η μέση τιμή είναι ίση με 10.37. Αυτό πρακτικά σημαίνει ότι η
κεντρική τάση των φοιτητών και των φοιτητριών που συμμετείχαν στις εξετάσεις
είναι λάβουν βαθμό γύρω στο 10.37. Πρόσθετα, η ελάχιστη και μέγιστη βαθμολογία
είναι 0 και 29 αντίστοιχα, ενώ η τυπική απόκλιση του δείγματος των 100 γραπτών
ισούται με 7.282. Η τυπική απόκλιση εκφράζει το βαθμό διασποράς των
βαθμολογιών, δηλαδή περιγράφει το αν το δείγμα των βαθμολογιών αποτελείται από
παρατηρήσεις που έχουν κοντινές ή μακρινές αποστάσεις μεταξύ τους. Ωστόσο, δεν
υπάρχει κάποιο απόλυτο κριτήριο που να διαχωρίζει πότε ένα δείγμα θεωρείται ότι
παρουσιάζει ομοιογένεια ή όχι. Για το λόγο αυτό, χρειάζεται να ορίσουμε μία
ποσότητα που να έχει τη δυνατότητα να χαρακτηρίζει το εκάστοτε δείγμα ως
ομοιογενές ή ετερογενές. Η ποσότητα αυτή ονομάζεται συντελεστής μεταβλητότητας
και υπολογίζεται ως ακολούθως:
CV 
s
,
x
όπου s είναι η τυπική απόκλιση και x η μέση τιμή του δείγματος. Για το
συγκεκριμένο παράδειγμα, έχουμε τα εξής:
CV 
7.282
 0.70 .
10.37
Δεδομένου ότι CV  0.70  0.10 , το δείγμα των βαθμολογιών κρίνεται ετερογενές,
δηλαδή οι βαθμολογίες δεν είναι κοντινές (παρουσιάζουν μεγάλο βαθμό
μεταβλητότητας).
12
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
2.2. Πίνακας Συχνοτήτων και Ραβδόγραμμα (Bar Chart)
O πίνακας συχνοτήτων και το αντίστοιχο ραβδόγραμμα (bar-chart) δίνονται
ακολουθώντας τη διαδικασία:
Analyze/Descriptive Statistics/Frequencies: grade
Grade
Valid
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
29
Total
Frequency
16
4
2
2
3
1
3
1
8
4
1
7
6
8
6
3
9
1
3
1
1
1
2
4
1
1
1
100
Percent
16,0
4,0
2,0
2,0
3,0
1,0
3,0
1,0
8,0
4,0
1,0
7,0
6,0
8,0
6,0
3,0
9,0
1,0
3,0
1,0
1,0
1,0
2,0
4,0
1,0
1,0
1,0
100,0
Valid
Percent
16,0
4,0
2,0
2,0
3,0
1,0
3,0
1,0
8,0
4,0
1,0
7,0
6,0
8,0
6,0
3,0
9,0
1,0
3,0
1,0
1,0
1,0
2,0
4,0
1,0
1,0
1,0
100,0
Cumulative
Percent
16,0
20,0
22,0
24,0
27,0
28,0
31,0
32,0
40,0
44,0
45,0
52,0
58,0
66,0
72,0
75,0
84,0
85,0
88,0
89,0
90,0
91,0
93,0
97,0
98,0
99,0
100,0
Παρατηρούμε ότι το ποσοστό των φοιτητών/φοιτητριών που έχουν βαθμολογηθεί
πάνω από τη βάση είναι ίσο με (100-72)%=28%.
Το ζητούμενο ραβδόγραμμα δίνεται ακολούθως
13
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
20
15
C
o
u
n
10
t
5
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 29
grade
2.3. Διάμεσος, Επικρατούσα Τιμή, Τεταρτημόρια & Ποστημόρια
Η διάμεσος, τα τεταρτημόρια, το 30% ποσοστημόριο και η επικρατούσα τιμή των
βαθμολογιών υπολογίζονται ακολουθώντας τη διαδικασία:
Analyze/Descriptive Statistics/Frequencies: grade
και επιλέγοντας στο Statistics τα ακόλουθα: Median, Mode, Quartiles, Percentile
30%
Έτσι προκύπτει ο επόμενος πίνακας:
Statistics
grade
N
Median
Mode
Percentiles
Valid
Missing
25
30
50
75
14
100
0
11,00
0
4,00
6,00
11,00
15,75
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Παρατηρούμε ότι η διάμεσος (median) είναι ίση με 11 (αυτό πρακτικά σημαίνει ότι
50 άτομα έχουν βαθμολογηθεί μέχρι 11 και 50 άτομα πάνω από 11), η επικρατούσα
τιμή (mode) των παρατηρήσεων είναι ίση με 0 (αυτό πρακτικά σημαίνει ότι η
«δημοφιλέστερη» βαθμολογία είναι το 0), το πρώτο τεταρτημόριο (Percentile 25%)
είναι ίσο με 4 (αυτό πρακτικά σημαίνει ότι 25 άτομα έχουν βαθμολογηθεί μέχρι 4 και
τα υπόλοιπα άτομα πάνω από 4), το τρίτο τεταρτημόριο (Percentile 75%) είναι ίσο με
15.75, ενώ το ποσοστημόριο 30% (Percentile 30%) ισούται με 6.
2.4. Ιστόγραμμα
Το ιστόγραμμα (histogram) συχνοτήτων των βαθμολογιών. δίνεται ακολουθώντας τη
διαδικασία:
Graphs/Legacy Dialogs/Histogram: grade
25
20
15
10
5
Mean = 10,37
Std. Dev. = 7,282
N = 100
0
0
5
10
15
20
25
30
grade
Παρατηρούμε ότι η βαθμολογία μηδέν παρουσιάζει τη μεγαλύτερη συχνότητα, ενώ
βαθμολογίες από 8 έως 18, παρουσιάζουν σχετικά υψηλές συχνότητες, σε αντίθεση
με τις βαθμολογίες άνω του 20.
15
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
2.5. Θηκόγραμμα (Box Plot)
Το θηκόγραμμα (box-plot) των βαθμολογιών προκύπτει ακολουθώντας
Graphs/Legacy Dialogs/Boxplot: grade
(με επιλογή στο category axis τη μεταβλητή gender)
Έτσι προκύπτει το ακόλουθο θηκόγραμμα για τα δύο φύλα
30
25
20
15
10
5
0
0
1
gender
Παρατηρούμε ότι για τους φοιτητές (gender=0) οι βαθμολογίες έχουν μεγαλύτερη
διασπορά σε σχέση με τις βαθμολογίες των φοιτητριών (gender=1), καθώς όπως
φαίνεται και παραπάνω το 50% των γραπτών των φοιτητριών έχει συγκεντρωθεί σε
μια μικρή σχετικά περιοχή σε αντίθεση με το τι συμβαίνει με τα γραπτά των
φοιτητών.
2.6. Κυκλικό Διάγραμμα (Pie Chart).
To κυκλικό διάγραμμα (pie-chart) προκύπτει ακολουθώντας τη διαδικασία:
Graphs/Legacy Dialogs/Pie
επιλέγουμε τη μεταβλητή gender προκειμένου να διαχωριστούν τα τμήματα του
κυκλικού διαγράμματος (define slices by)
16
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
gender
0
1
47,0%
53 ,0%
Επομένως οι φοιτητές αντιπροσωπεύουν το 53% των εξεταζομένων και οι φοιτήτριες
το 47% των εξεταζομένων.
2.7. Κύρτωση και Ασυμμετρία
Για να εξετασθεί το δείγμα των βαθμολογιών ως προς το βαθμό κύρτωσης και
ασυμμετρίας που παρουσιάζει, ακολουθούμε τη διαδικασία:
Analyze/Descriptive Statistics/Frequencies
«κλικάρουμε» τις επιλογές Skewness και Kurtosis και τα αποτελέσματα δίνονται ως
ακολούθως:
Statistics
grade
N
Valid
100
Missing
0
Skewness
,150
Std. Error of Skewness
,241
Kurtosis
-,692
Std. Error of Kurtosis
,478
17
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Όπως φαίνεται από τον παραπάνω πίνακα, η ασυμμετρία (skewness) είναι ίση με
0,150. Προκειμένου να αξιολογήσουμε το δείγμα ως έντονα ασύμμετρο, θα πρέπει να
υπολογίσουμε το ακόλουθο πηλίκο:
Skewness
0,150

 0,62
std .error of Skewness 0,241
και να εξετάσουμε αν η τιμή που προέκυψε (δηλαδή ο αριθμός 0,62) είναι
μεγαλύτερος από το 2 ή όχι (οπότε αντίστοιχα θα χαρακτηρίσουμε το δείγμα ως
έντονα θετικά ασύμμετρο ή όχι). Στο παράδειγμα μας, δεδομένου ότι 0,62 < 2,
συμπεραίνουμε ότι το δείγμα των βαθμολογιών, αν και παρουσίασε μία θετική τιμή
του δείκτη ασυμμετρίας, ωστόσο ο βαθμός θετικής ασυμμετρίας του δεν αξιολογείται
ως έντονος. Αξίζει να σημειωθεί ότι η ασυμμετρία εξετάζει σε ποια μεριά ως προς τη
μέση του δείγματος, είναι κατανεμημένες οι περισσότερες παρατηρήσεις του. Πιο
συγκεκριμένα, αν σε ένα δείγμα οι περισσότερες παρατηρήσεις είναι μικρότερες από
τη δειγματική μέση τιμή, τότε λέμε ότι το δείγμα παρουσιάζει θετική ασυμμετρία,
ενώ σε αντίθετη περίπτωση αρνητική ασυμμετρία.
Σχετικά με το βαθμό κύρτωσης που παρουσιάζει το δείγμα, φαίνεται από τον
παραπάνω πίνακα ότι ο συντελεστής κύρτωσης είναι ίσος με -0,692. Γενικά, αν σε
ένα δείγμα ο βαθμός συγκέντρωσης των παρατηρήσεων γύρω από την κορυφή του
είναι μεγάλος, τότε λέμε ότι το δείγμα είναι λεπτόκυρτο (ή ισοδύναμα ο συντελεστής
κύρτωσης είναι αρνητικός), ενώ σε αντίθετη περίπτωση πλατύκυρτο (ή ισοδύναμα ο
συντελεστής κύρτωσης είναι θετικός). Στο παράδειγμα μας, ο συντελεστής κύρτωσης
είναι αρνητικός και ίσος με -0,692. Ωστόσο για να δούμε αν ο βαθμός κύρτωσης είναι
αμελητέος ή όχι, θα πρέπει να εξετάσουμε αν το διάστημα που κατασκευάζεται μέσω
του ακόλουθου τύπου:
(kurtosis  2  Std .error of Kurtosis, kurtosis  2  Std .error of Kurtosis )
περιλαμβάνει το μηδέν ή όχι. Σύμφωνα με τον παραπάνω πίνακα, έχουμε:
(0.692  2  0.478,  0.692  2  0.478)  (1.65 , 0.27) .
Δεδομένου ότι το παραπάνω διάστημα περιλαμβάνει το μηδέν, αυτό σημαίνει ότι ο
βαθμός κύρτωσης είναι αμελητέος (για να αξιολογούσαμε το βαθμό κύρτωσης ως
σημαντικό (έντονο), θα έπρεπε το παραπάνω διάστημα να μην περιελάμβανε το
μηδέν).
18
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
2.8. Διαχείριση / Μετασχηματισμοί Δεδομένων (Εντολές Select Cases, Compute
Variable & Recode Variable)
Για τα προηγούμενα δεδομένα
α) Να ορισθεί κατάλληλα μια νέα μεταβλητή, η οποία να εκφράζει τον τελικό βαθμό
κάθε φοιτητή / φοιτήτριας στην κλίμακα 0 έως 10. Στη συνέχεια, να δοθεί ο πίνακας
συχνοτήτων της νέας αυτής μεταβλητής. Πόσα γραπτά έχουν περάσει τη βάση με
βαθμό πέντε (5); Να υπολογισθεί η μέση τιμή της νέας μεταβλητής, εξαιρώντας τα
γραπτά που έχουν βαθμολογηθεί με μηδέν (0).
Απάντηση. Ακολουθώντας τη διαδικασία:
Transform/Compute Variable
μετασχηματίζουμε
τη
μεταβλητή
grade
σε
μια
νέα
μεταβλητή
fgrade
χρησιμοποιώντας την ακόλουθη αριθμητική έκφραση (numeric expression)
Trunc[grade/3+0.5].
Για τη νέα μεταβλητή fgrade, που εκφράζει τις βαθμολογίες σε κλίμακα 0 έως 10, ο
πίνακας συχνοτήτων είναι ο ακόλουθος
fgrade
Valid
,00
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
10,00
Total
Frequency
20
7
5
13
21
18
5
4
6
1
100
Percent
20,0
7,0
5,0
13,0
21,0
18,0
5,0
4,0
6,0
1,0
100,0
Valid Percent
20,0
7,0
5,0
13,0
21,0
18,0
5,0
4,0
6,0
1,0
100,0
Cumulative
Percent
20,0
27,0
32,0
45,0
66,0
84,0
89,0
93,0
99,0
100,0
Όπως φαίνεται από τον παραπάνω πίνακα, υπάρχουν 18 γραπτά που έχουν περάσει τη
βάση με βαθμό 5. Για να εξαιρέσουμε τις βαθμολογίες που είναι μηδενικές,
ακολουθούμε τη διαδικασία
Data/Select Cases
και στην επιλογή If condition is satisfied συμπληρώνουμε την έκφραση
fgrade>0.
19
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Στη συνέχεια, ακολουθώντας τη διαδικασία
Analyze/Descriptive Statistics/Descriptives: fgrade
υπολογίζουμε ότι η μέση βαθμολογία για τα μη μηδενικά γραπτά είναι ίση με 3.46.
β) Χρησιμοποιώντας τη μεταβλητή που εκφράζει το έτος φοίτησης (με τιμές
2,3,...,10) να ορισθεί κατάλληλα μια νέα μεταβλητή, η οποία θα δείχνει αν ο φοιτητής
/ φοιτήτρια βρίσκεται στο 2ο έτος, 3ο έτος, 4ο έτος ή επί πτυχίω (5ο έτος και άνω).
Ποιο είναι το ποσοστό των εξεταζόμενων φοιτητών που βρίσκονται στο 2ο έτος, 3ο
έτος, 4ο έτος ή επί πτυχίω; Να κατασκευαστεί το αντίστοιχο κυκλικό διάγραμμα.
Απάντηση. Με βάση τη μεταβλητή year δημιουργούμε μια νέα μεταβλητή fyear
ακολουθώντας τη διαδικασία:
Transform/Recode Into Different Variables.
Για τις τιμές 2,3,4 της μεταβλητής year η νέα μεταβλητή fyear θα λαμβάνει
αντίστοιχα τις τιμές 2,3,4. Αντίθετα, για όλες τις τιμές 5 και άνω της μεταβλητής year
η νέα μεταβλητή fyear θα λαμβάνει την τιμή 5.
Το κυκλικό διάγραμμα που
χρησιμοποιεί τη νέα μεταβλητή fyear δίνεται ακολούθως
fyear
2,00
3,00
4,00
5,00
24,0%
33,0%
24 ,0%
19 ,0%
2.9. Περιγραφικά Στατιστικά με χρήση της εντολής «Explore»
Για τα παραπάνω δεδομένα να υπολογισθεί η μέση τιμή και να δημιουργηθούν
ιστόγραμμα , θηκόγραμμα των βαθμών 0-10 ανά φύλο.
20
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Προκειμένου να υπολογίσουμε περιγραφικά μέτρα στατιστικής ή διαγράμματα για
κάθε φύλο χωριστά (και όχι για όλα τα γραπτά μαζί, όπως πράξαμε σε προηγούμενα
ερωτήματα) ακολουθούμε την ακόλουθη διαδικασία
Analyze/Descriptive Statistics/Explore.
Στη συνέχεια, επιλέγουμε ως εξαρτημένη μεταβλητή (στο πεδίο Dependent List) τη
μεταβλητή fgrade και ως παράγοντα διαχωρισμού των γραπτών (στο πεδίο Factor
List) τη μεταβλητή gender. Τελικά το ιστόγραμμα προκύπτει επιλέγοντας στα Plots
το Histogram
Histogram
for gender= 0
15
12
9
6
3
Mean = 2,9574
Std. Dev. =
2 68618
N
= 47
0
0,00
5,00
10,00
fgrade
Histogram
for gender= 1
12
10
8
y
c
n
e
u6
q
re
F
4
2
Mean = 3,9057
Std. Dev. = 2,14175
N = 53
0
0,00
5,00
fgrade
Το θηκόγραμμα δίνεται ακολουθώντας την ίδια διαδικασία, όπως φαίνεται παρακάτω:
21
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
10,00
8,00
6,00
4,00
2,00
0,00
0
1
gender
Αξίζει να σημειωθεί ότι η έντονη μαύρη γραμμή που φαίνεται στα δύο
θηκογράμματα, εκφράζει τη διάμεσο του κάθε φύλου, ενώ το κάτω και άνω φράγμα
(εκτός του κεντρικού παραλληλογράμμου) συμβολίζονται ως c1 ,c 2 αντιστοίχως και
υπολογίζονται ως εξής:
c1  P25  1,5  ( P75  P25 )  Q1  1,5  (Q3  Q1 ) ,
c2  P75  1,5  ( P75  P25 )  Q3  1,5  (Q3  Q1 )
22
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
3.
ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ
3.1. Έλεγχος Κανονικότητας Kolmogorov-Smirnov & Έλεγχος t του Student για
ένα δείγμα
Σε τυχαίο δείγμα 13 εργασιών που εκπονούνται από ηλεκτρονικούς υπολογιστές του
Πανεπιστημίου Πειραιώς, καταγράφεται ο χρόνος περαίωσης τους (σε λεπτά), όπως
φαίνεται στον ακόλουθο Πίνακα.
Εργασία
Χρόνος
1
2
3
4
5
6
7
8
9
10
11
12
13
2.2 3.1 4.4 1.4 0.7 5.5 3.1 1.4 5.4 9.3 3.8 2.1 0.6
Να εξετασθεί σε επίπεδο σημαντικότητας 5% αν ο μέσος χρόνος περαίωσης μίας
εργασίας σε ηλεκτρονικό υπολογιστή του Πανεπιστημίου Πειραιώς:
(i)
είναι ίσος ή διαφορετικός από 3 λεπτά,
(ii)
είναι ίσος ή υπερβαίνει τα 3 λεπτά.
(i) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση της
άσκησης είναι οι ακόλουθες:
H 0 :   0 έναντι H1 :   0 ,
όπου 0  3 και  είναι η άγνωστη πληθυσμιακή μέση τιμή των χρόνων περάτωσης
των εργασιών. Προκειμένου να εφαρμόσουμε παραμετρικό έλεγχο για τη μέση τιμή
του παραπάνω πληθυσμού, θα πρέπει πρώτα να εξετάσουμε αν τα δεδομένα που
διαθέτουμε
προσαρμόζονται
ικανοποιητικά
στην
Κανονική
κατανομή.
Ακολουθώντας τη διαδικασία Analyze/ Nonparametric tests / 1 Sample K-S,
λαμβάνουμε τον ακόλουθο πίνακα:
One-Sample Kolmogorov-Smirnov Test
N
Normal Parameters a,b
Most Extreme
Differences
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
TIME
13
3,308
2,4274
,149
,149
-,132
,539
,933
a. Test distribution is Normal.
b. Calculated from data.
Όπως φαίνεται από τον παραπάνω πίνακα, η τιμή p-value για τον έλεγχο της
κανονικότητας των δεδομένων είναι ίση με 0,933 > 0,05. Συνεπώς αποδεχόμαστε τη
Ακαδημαϊκό Έτος 2012-2013
23
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
μηδενική υπόθεση της καλής προσαρμογής των δεδομένων στην Κανονική κατανομή.
Στη συνέχεια, ακολουθώντας τη διαδικασία Analyze/compare means/one sample Ttest, κατασκευάζουμε τον ακόλουθο πίνακα
One-Sample Test
Test Value = 3
t
TIME
df
,457
12
Sig. (2-tailed)
,656
Mean
Difference
,3077
95% Confidence
Interval of the
Difference
Lower
Upper
-1,159
1,775
όπου παρατηρούμε ότι το p-value του παραπάνω ελέγχου για τη μέση τιμή των
χρόνων περάτωσης των εργασιών στο Πανεπιστήμιο Πειραιώς είναι ίσο με 0.656,
συνεπώς (σε επίπεδο σημαντικότητας 5%) δεν απορρίπτουμε τη μηδενική υπόθεση,
γεγονός που σημαίνει ότι οι εργασίες στους Η/Υ του Πανεπιστημίου Πειραιώς
απαιτούν κατά μέσο όρο 3 λεπτά προκειμένου να ολοκληρωθούν.
(ii) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση του
δεύτερου ερωτήματος της άσκησης είναι οι ακόλουθες:
H 0 :   3 έναντι H 1 :   3 .
Χρησιμοποιώντας τα αποτελέσματα του προηγούμενου ερωτήματος, παρατηρούμε
ότι η τιμή της στατιστικής συνάρτησης που χρησιμοποιήθηκε για τον παραπάνω
έλεγχο είναι ίση με 0,457. Αυτό σημαίνει ότι, δεδομένου ότι το πρόσημο της
συνάρτησης είναι θετικό και ταυτόχρονα η εναλλακτική υπόθεση του μονόπλευρου
ελέγχου που διεξάγουμε είναι η H 1 :   3 , η τιμή p-value του ζητούμενου ελέγχου
είναι ίση με το μισό του p-value το αντίστοιχου δίπλευρου ελέγχου που διεξήχθη στο
ερώτημα (i). Με άλλα λόγια, η τιμή p-value του ζητούμενου ελέγχου είναι ίση με
0.656/2 = 0.328, που σημαίνει ότι αποδεχόμαστε τη μηδενική υπόθεση. Συνεπώς
συμπεραίνουμε ότι (σε επίπεδο σημαντικότητας 5%) είναι ορθότερο να πούμε ότι ο
απαιτούμενος μέσος χρόνος περάτωσης μίας εργασίας σε έναν Η/Υ του
Πανεπιστήμιου Πειραιά είναι στατιστικά ίσος με 3 λεπτά (δηλαδή ότι δεν διαφέρει
σημαντικά από 3 λεπτά), παρά να διατυπώσουμε το συμπέρασμα ότι ο απαιτούμενος
μέσος χρόνος υπερβαίνει σε σημαντικό βαθμό τα 3 λεπτά.
3.2. Έλεχγος t για Ανεξάρτητα Δείγματα
24
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Προκειμένου να συγκριθεί η απόδοση δύο διαφορετικών τύπων επεξεργαστή
δεδομένων Α και Β που χρησιμοποιεί μία συγκεκριμένη εταιρία φορητών
ηλεκτρονικών υπολογιστών (Φ/Η/Υ), λαμβάνονται δύο τυχαία ανεξάρτητα δείγματα
μεγέθους 15 Φ/Η/Υ που χρησιμοποιούν τον επεξεργαστή Α και 11 Φ/Η/Υ που
χρησιμοποιούν τον επεξεργαστή Β. Για τα δύο δείγματα Φ/Η/Υ (με τον επεξεργαστή
Α και Β αντίστοιχα) έχουν καταγραφεί οι ταχύτητες επεξεργασίας δεδομένων (σε
GHz) όπως φαίνεται στον ακόλουθο πίνακα.
Δείγμα 1
2.15
2.22
2.31
1.90
2.11
2.70
1.87
1.91
1.99
2.04
2.08
Δείγμα 2
2.55
2.43
2.51
1.99
2.01
2.31
2.41
2.33
2.31
2.02
2.23
(i)
2.10
2.02
Να εξετασθεί σε επίπεδο σημαντικότητας 1% αν η μέση ταχύτητα
επεξεργασίας των δύο επεξεργαστών Α και Β είναι ίδια ή όχι.
(ii)
Να εξετασθεί σε επίπεδο σημαντικότητας 1% αν η μέση ταχύτητα
επεξεργασίας του επεξεργαστή Α υπερβαίνει την ταχύτητα επεξεργασίας
του επεξεργαστή Β.
(i) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση της
άσκησης είναι οι ακόλουθες:
H 0 :  A   B έναντι H1 :  A   B ,
όπου  A ,  B είναι οι πληθυσμιακές μέσες ταχύτητες επεξεργασίας δεδομένων των
Η/Υ με επεξεργαστή Α και Β αντίστοιχα. Τοποθετούμε τις ταχύτητες επεξεργασίας
και των δύο τύπων επεξεργαστή σε μία στήλη (μεταβλητή Samples) και σε μία
δεύτερη στήλη (μεταβλητή Type) τις τιμές 0 και 1 για τον επεξεργαστή Α και τον
επεξεργαστή Β αντίστοιχα. Προκειμένου να εφαρμόσουμε παραμετρικό έλεγχο για τη
σύγκριση των μέσων ταχυτήτων των δύο επεξεργαστών, θα πρέπει πρώτα να
εξετάσουμε αν τα δεδομένα που διαθέτουμε προσαρμόζονται ικανοποιητικά στην
Κανονική κατανομή. Ακολουθώντας τη διαδικασία Analyze/ Nonparametric tests / 1
Sample K-S, λαμβάνουμε τον ακόλουθο πίνακα:
25
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
2.22
1.90
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
One-Sample Kolmogorov-Smirnov Test
N
Normal Parameters a,b
Most Extreme
Differences
SAMPLES
26
2,1777
,22183
,120
,120
-,083
,611
,849
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
a. Test distribution is Normal.
b. Calculated from data.
Όπως φαίνεται από τον παραπάνω πίνακα, η τιμή p-value για τον έλεγχο της
κανονικότητας των δεδομένων είναι ίση με 0,849 > 0,05. Συνεπώς αποδεχόμαστε τη
μηδενική υπόθεση της καλής προσαρμογής των δεδομένων στην Κανονική κατανομή.
Στη
συνέχεια,
ακολουθούμε
τη
διαδικασία
Analyze/compare
means/independent samples T-test και κατασκευάζουμε τον ακόλουθο πίνακα:
Independent Samples Test
Levene's Test for
Equality of Variances
F
SAMPLES
Equal variances
assumed
Equal variances
not assumed
Sig.
,057
,813
t-test for Equality of Means
t
df
Sig. (2-tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
-2,202
24
,038
-,18048
,08198
-,34968
-,01129
-2,223
22,432
,037
-,18048
,08118
-,34866
-,01231
Από τον παραπάνω πίνακα, παρατηρούμε ότι p-value = 0.038, συνεπώς (σε επίπεδο
σημαντικότητας 5%) απορρίπτουμε τη μηδενική υπόθεση, που σημαίνει ότι οι μέσες
ταχύτητες επεξεργασίας των δύο επεξεργαστών διαφέρει στατιστικά σημαντικά.
Αξίζει να σημειωθεί ότι διαλέξαμε το p-value της 1ης οριζόντιας γραμμής του πίνακα,
καθώς ο έλεγχος ισότητας διακυμάνσεων (Levene’s test) βγάζει ως αποτέλεσμα ότι οι
διακυμάνσεις των δύο δειγμάτων από τους δύο επεξεργαστές είναι στατιστικά ίσες
(equal variances assumed).
(ii) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση του
δεύτερου ερωτήματος της άσκησης είναι οι ακόλουθες:
H 0 :  A   B έναντι H1 :  A   B ,
Χρησιμοποιώντας τα αποτελέσματα του προηγούμενου ερωτήματος, παρατηρούμε
ότι η τιμή της στατιστικής συνάρτησης που χρησιμοποιήθηκε για τον παραπάνω
έλεγχο είναι ίση με –2,202. Αυτό σημαίνει ότι, δεδομένου ότι το πρόσημο της
συνάρτησης είναι αρνητικό και ταυτόχρονα η εναλλακτική υπόθεση του
26
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
μονόπλευρου ελέγχου που διεξάγουμε είναι η H1 :  A   B , η τιμή p-value του
ζητούμενου ελέγχου είναι ίση με τη συμπληρωματική πιθανότητα από το μισό του pvalue του αντίστοιχου δίπλευρου ελέγχου που διεξήχθη στο ερώτημα (i). Με άλλα
λόγια, η τιμή p-value του ζητούμενου ελέγχου είναι ίση με (1-0.038)/2 = 0.481, που
σημαίνει ότι αποδεχόμαστε τη μηδενική υπόθεση. Συνεπώς συμπεραίνουμε ότι (σε
επίπεδο σημαντικότητας 5%) είναι ορθότερο να πούμε ότι οι μέσες ταχύτητες
επεξεργασίας των επεξεργαστών Α και Β είναι στατιστικά ίσος (δηλαδή ότι δεν
διαφέρουν σημαντικά), παρά να διατυπώσουμε το συμπέρασμα ότι η μέση ταχύτητα
επεξεργασίας του επεξεργαστή Α υπερβαίνει σε σημαντικό βαθμό τη μέση ταχύτητα
επεξεργασίας του επεξεργαστή Β.
3.3. Έλεγχος Ανεξαρτησίας χ2 του Pearson
Προκειμένου να ελεγχθεί η πιθανή εξάρτηση της εύρυθμης λειτουργίας ενός Η/Υ με
το επίπεδο θερμοκρασίας που αναπτύσσεται στο εσωτερικό του, έγινε σε 20 Η/Υ
καταγραφή τόσο του επιπέδου θερμοκρασίας του όσο και του αν η λειτουργία του
παρουσίασε προβλήματα. Πιο συγκεκριμένα, για κάθε έναν Η/Υ γνωρίζουμε τα εξής:
 αν η θερμοκρασία στο εσωτερικό του ανέβηκε πάνω από ένα ανώτατο όριο
(μεταβλητή Temp που για κάθε Η/Υ λαμβάνει την τιμή 0 αν η θερμοκρασία
στο εσωτερικό του δεν υπερέβη το ανώτατο όριο, και την τιμή 1 σε
διαφορετική περίπτωση)
 αν η λειτουργία του παρουσίασε δυσκολίες (μεταβλητή Status που για κάθε
Η/Υ λαμβάνει την τιμή 0 αν η λειτουργία του δεν παρουσίασε δυσκολίες, και
την τιμή 1 σε διαφορετική περίπτωση).
Να ελεγχθεί σε επίπεδο σημαντικότητας 5% αν η εύρυθμη λειτουργία ενός Η/Υ
επηρεάζεται ή όχι από το επίπεδο θερμοκρασίας που αναπτύσσεται στο εσωτερικό
του.
Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση της
άσκησης είναι οι ακόλουθες:
H 0 : Η εύρυθμη λειτουργία του Η/Υ είναι ανεξάρτητη από τη θερμοκρασία
έναντι
H1 : Η εύρυθμη λειτουργία του Η/Υ εξαρτάται από τη θερμοκρασία.
27
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Πρόκειται για έλεγχο ανεξαρτησίας δύο κατηγορικών μεταβλητών. Ακολουθώντας τη
διαδικασία Analyze / Descriptive Statistics / Crosstabs, λαμβάνουμε τους ακόλουθους
πίνακες:
TEMP * STATUS Crosstabulation
STATUS
0
TEMP
0
1
Total
Count
Expected Count
% within TEMP
% within STATUS
Count
Expected Count
% within TEMP
% within STATUS
Count
Expected Count
% within TEMP
% within STATUS
9
7,5
64,3%
64,3%
5
6,5
41,7%
35,7%
14
14,0
53,8%
100,0%
1
5
6,5
35,7%
41,7%
7
5,5
58,3%
58,3%
12
12,0
46,2%
100,0%
Total
14
14,0
100,0%
53,8%
12
12,0
100,0%
46,2%
26
26,0
100,0%
100,0%
Chi-Square Tests
Pearson Chi-Square
Continuity Correctiona
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases
Value
1,330b
,576
1,340
1,279
1
1
1
Asymp. Sig.
(2-sided)
,249
,448
,247
1
,258
df
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
,431
,224
26
a. Computed only for a 2x2 table
b. 0 cells (,0%) have expected count less than 5. The minimum expected count is
5,54.
Όπως φαίνεται από τον παραπάνω πίνακα, η τιμή p-value = 0.249, συνεπώς (σε
επίπεδο σημαντικότητας 5%) δεν απορρίπτουμε τη μηδενική υπόθεση, που σημαίνει
ότι η εύρυθμη λειτουργία ενός Η/Υ δεν εξαρτάται από το επίπεδο θερμοκρασίας που
αναπτύσσεται στο εσωτερικό του.
28
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
4.
ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ
Εταιρεία στατιστικών μελετών διεξήγαγε έρευνα για τη χρήση του κινητού
τηλεφώνου σε πληθυσμό 15 ατόμων. Συγκεκριμένα κατέγραψε το μηνιαίο χρόνο
ομιλίας του κάθε ατόμου στο κινητό τηλέφωνο (εξαρτημένη μεταβλητή Υ ), την
ηλικία του (ανεξάρτητη μεταβλητή Χ1), το ετήσιο οικογενειακό εισόδημα του
(ανεξάρτητη μεταβλητή Χ2) και τον αριθμό κλήσεων από το σταθερό του τηλέφωνο
(ανεξάρτητη μεταβλητή Χ3). Τα αποτελέσματα της έρευνας δίνονται στον ακόλουθο
πίνακα.
Χρόνος Υ
Ηλικία Χ1
Εισόδημα (σε Ευρώ) Χ2
Κλήσεις Χ3
1
80
38
16.400
0
2
25
60
16.000
5
3
67
40
17.000
4
4
190
19
25.000
17
5
30
55
17.200
2
6
39
42
16.950
9
7
24
58
13.000
6
8
121
21
20.000
16
9
89
31
18.000
8
10
99
24
19.500
10
11
12
68
19.000
3
12
230
17
20.100
12
13
170
25
21.200
15
14
205
18
26.000
13
15
10
71
22.000
1
15
15
15
15
i 1
i 1
i 1
i 1
Δίνονται :  Yi  1.391,  X i1  587,  X i 2  287.350,  X i 3  121.
4.1. Διάγραμμα Διασποράς (Scatterplot)
Να γίνει το διάγραμμα διασποράς (scatterplot) μεταξύ των (Χ1, Υ), (Χ2, Υ) και (Χ3, Υ).
Για κάθε ένα από τα διαγράμματα, να προσαρμοσθεί η ευθεία των ελαχίστων
τετραγώνων. Σχολιάστε τα αποτελέσματα.
29
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Ξεκινώντας τη μελέτη των δεδομένων μιας έρευνας, η γραφική απεικόνιση της
εξαρτημένης μεταβλητής Υ συναρτήσει των ερμηνευτικών, μας παρέχει μια πρώτη
ένδειξη για την καταλληλότητα τους. Ακολουθώντας τη διαδικασία Graphs/
Scatter/Dot / Simple και τοποθετώντας τη μεταβλητή Υ στον κατακόρυφο άξονα (Y
axis) και κάθε μία από τις μεταβλητές Χ1, Χ2, Χ3 διαδοχικά στον οριζόντιο άξονα (X
axis), κατασκευάζουμε τα ζητούμενα γραφήματα.
4.2. Προσαρμογή Ευθείας Γραμμικής Παλινδρόμησης
Να βρεθεί το καλύτερο γραμμικό μοντέλο (με βάση την αρχή ελαχίστων τετραγώνων)
για την πρόβλεψη του χρόνου ομιλίας στο κινητό τηλέφωνο, χρησιμοποιώντας κάθε μία
από τις ερμηνευτικές μεταβλητές Χ1, Χ2 και Χ3 χωριστά. Ποια από τις τρεις μεταβλητές
(Χ1, Χ2 ή Χ3) είναι καλύτερη; Μετονομάστε την σε Χ.
Ως καλύτερο γραμμικό μοντέλο κρίνεται εκείνο, στο οποίο ερμηνεύεται μεγαλύτερο
ποσοστό της συνολικής μεταβλητότητας. Ακολουθώντας τη διαδικασία Analyze/
Regression / Linear και επιλέγοντας τη μεταβλητή Υ ως εξαρτημένη (Dependent) και
κάθε μία από τις μεταβλητές Χ1, Χ2, Χ3 διαδοχικά ως ανεξάρτητη μεταβλητή του
μοντέλου (Independent), λαμβάνουμε τους συντελεστές προσδιορισμού των τριών
μοντέλων, με βάση τους οποίους καταλήγουμε στο καλύτερο μοντέλο.
4.3. Έλεγχος Κανονικότητας και Ανεξαρτησίας Σφαλμάτων
Να κατασκευάσετε κατάλληλα διαγράμματα, ώστε να διαπιστώσετε γραφικά αν
παραβιάζεται (i) η κανονικότητα των σφαλμάτων και
(ii) η ανεξαρτησία των
σφαλμάτων.
(i) Είναι γνωστό ότι μία από τις βασικές προϋποθέσεις του γραμμικού μοντέλου
παλινδρόμησης είναι τα σφάλματα να ακολουθούν την κανονική κατανομή. Για
να ελέγξουμε γραφικά τη συγκεκριμένη υπόθεση, υπολογίζουμε τα τυποποιημένα
σφάλματα (studentized residuals), ακολουθώντας τη διαδικασία Analyze/
Regression / Linear και στην επιλογή Save διαλέγουμε τα studentized residuals.
Στη συνέχεια ακολουθώντας τη διαδικασία Analyze/ Descriptive Statistics / P-P
Plot (Q-Q Plot) κατασκευάζουμε το P-P Plot(Q-Q Plot)
επιλέγοντας ως
μεταβλητή τη στήλη με τα studentized residuals και ως test distribution την
κανονική κατανομή (Normal). Επιπροσθέτως, ο έλεγχος κανονικότητας των
σφαλμάτων μπορεί να γίνει και με το στατιστικό τεστ Kolmogorov-Smirnov,
30
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
ακολουθώντας τη διαδικασία Analyze/ Nonparametric Tests/ 1-Sample K-S
χρησιμοποιώντας ως μεταβλητή (test variable) τη στήλη με τα studentized
residuals.
(ii) Για να εξετάσουμε αν παραβιάζεται
η ανεξαρτησία των σφαλμάτων
κατασκευάζουμε διαγράμματα διασποράς, ακολουθώντας τη διαδικασία Graphs/
Scatter/Dot / Simple και τοποθετώντας τη στήλη με τα studentized residuals στον
κατακόρυφο άξονα (Y axis) και κάθε μία από τις μεταβλητές Χ, Yˆ , i διαδοχικά
στον οριζόντιο άξονα (X axis), όπου Yˆ είναι η στήλη με τις προβλεπόμενες τιμές
της εξαρτημένης μεταβλητής Υ και i ο αύξοντας αριθμός των παρατηρήσεων.
4.4. Έλεγχοι Υποθέσεων για τις Τιμές των Παραμέτρων της Γραμμικής
Παλινδρόμησης
Να ελεγχθεί η ύπαρξη γραμμικής σχέσης ανάμεσα στην εξαρτημένη μεταβλητή Υ και την
ανεξάρτητη μεταβλητή Χ σε επίπεδο σημαντικότητας α=5%.
Ο έλεγχος για ύπαρξη γραμμικής σχέσης ανάμεσα στις μεταβλητές Χ, Υ ισοδυναμεί
με τον ακόλουθο στατιστικό έλεγχο
Η0: β1=0, Η1: β10.
Η απόρριψη ή αποδοχή της μηδενικής υπόθεσης θα βασιστεί στο p-value του
ελέγχου ή ισοδύναμα στην τιμή της στατιστικής συνάρτησης T ( x) 
ˆ1
s ( ˆ1 )
ή
ισοδύναμα στο διάστημα εμπιστοσύνης για την παράμετρο β1. Όλα τα παραπάνω
υπολογίζονται ακολουθώντας τη διαδικασία Analyze/Regression/Linear στον
πίνακα Coefficients.
4.5. Σημειακή Εκτίμηση
Πόσος μηνιαίος χρόνος ομιλίας Υ αναμένεται για ένα άτομο ηλικίας 45 ετών; (να γίνει
σημειακή εκτίμηση και να δοθεί το διάστημα εμπιστοσύνης με συντελεστή 99%).
Στο ερώτημα πρέπει να υπολογίσουμε τις προβλεπόμενες τιμές και το διάστημα
εμπιστοσύνης 99% μέσης πρόβλεψης για την εξαρτημένη μεταβλητή Υ που δίνει το
γραμμικό μοντέλο, ακολουθώντας τη διαδικασία Analyze/ Regression/Linear και
31
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
στην επιλογή Save διαλέγοντας τα unstandardized predicted values και Mean
prediction Intervals αντίστοιχα.
4.6. Εφαρμογές / Παρουσίαση Αποτελεσμάτων Γραμμικής Παλινδρόμησης
Για τα δεδομένα της ενότητας:
(α) Ποια είναι περίπου η ηλικία ενός ατόμου, το οποίο χρησιμοποιεί 15 λεπτά μηνιαίως
το κινητό του τηλέφωνο;
Για να δώσουμε τη συγκεκριμένη απάντηση, θα εφαρμόσουμε αντίστροφη
παλινδρόμηση. Το μοντέλο που έχουμε επιλέξει είναι το ακόλουθο
Y  ˆ 0  ˆ1  X
και θέτοντας Y  15 , λύνουμε ως προς τη μεταβλητή Χ.
(β) Να γίνουν οι παρακάτω έλεγχοι σε επίπεδο σημαντικότητας α=1%
Η0: β1=0, Η1: β1>0 , Η0: β1=0.1, Η1: β10.1.

Για τον έλεγχο Η0: β1=0, Η1: β1>0, στηριζόμενοι στον πίνακα Coefficients
(ο οποίος λαμβάνεται ακολουθώντας τη διαδικασία Analyze/Regression/
Linear), αποφασίζουμε για την απόρριψη ή την αποδοχή της μηδενική
υπόθεσης Η0 με βάση το p-value του μονόπλευρου ελέγχου ή τη στατιστική
συνάρτηση T ( x) 

ˆ1
s ( ˆ1 )
.
Για τον έλεγχο Η0: β1=0.1, Η1: β10.1, θέτω  1  1  0.1 , συνεπώς ο
ζητούμενος έλεγχος ισοδυναμεί με τον ακόλουθο
Η0:  1  0 , Η1:  1  0 .
Εφαρμόζουμε το γραμμικό μοντέλο Y  0.1  X   0  ˆ1  X (έχοντας προηγουμένως
δημιουργήσει τη μεταβλητή Y  0.1  X ) και παίρνουμε το p-value του παραπάνω
ελέγχου.
(γ) Σε ποιο σημείο Χ (μεταξύ των 15 δοθέντων) βρίσκουμε το χειρότερο διάστημα
εμπιστοσύνης για την απλή πρόβλεψη και σε ποιο σημείο Χ (μεταξύ των 15 δοθέντων)
32
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
βρίσκουμε το καλύτερο διάστημα εμπιστοσύνης για τη μέση πρόβλεψη; Να
αιτιολογήσετε τις απαντήσεις σας και να δώσετε τα συγκεκριμένα διαστήματα.
Μελετώντας τους τύπους που δίνουν τα διαστήματα εμπιστοσύνης για απλή και μέση
πρόβλεψη, παρατηρούμε ότι, όσο περισσότερο απέχει η τιμή της μεταβλητής Χ από
το μέσο όρο X , τόσο αυξάνεται το εύρος του διαστήματος, που μεταφράζεται σε
μείωση της ποιότητας (ακρίβειας) του. Συνεπώς το χειρότερο διάστημα για απλή
πρόβλεψη παρατηρείται στην τιμή Χ=71 (πιο μακρινή από X ), ενώ το καλύτερο για
μέση πρόβλεψη στο Χ=40 (πιο κοντινό στο X ) και τα λαμβάνουμε ακολουθώντας τη
διαδικασία Analyze/ Regression / Linear, όπου στην επιλογή Save διαλέγουμε τα
Mean (για τη μέση πρόβλεψη) και Individual (για την ατομική πρόβλεψη)
Prediction Intervals διαμορφώνοντας τον κατάλληλο συντελεστή εμπιστοσύνης.
(δ) Για τις μεταβλητές Χ, Υ που χρησιμοποιήθηκαν παραπάνω, εξετάστε ποιο από τα
επόμενα μη γραμμικά μοντέλα είναι το καλύτερο.
(i)
Y
1
,
 0   1  ln X  
(ii) Y   0   1   ,
X
(iii) Y   0   1  X  
Με βάση το μοντέλο που επιλέξατε, να δοθεί διάστημα εμπιστοσύνης 90% για το
μηνιαίο χρόνο ομιλίας για ένα άτομο ηλικίας 40 ετών.
Σε κάθε ένα από τα τρία μη γραμμικά μοντέλα, πραγματοποιούμε τους κατάλληλους
μετασχηματισμούς ώστε να καταλήξουμε σε γραμμικό μοντέλο (Ακολουθούμε τη
διαδικασία Transform/Compute και επιλέγοντας το όνομα της νέας μεταβλητής
(target variable) δηλώνουμε τον τρόπο υπολογισμού της (Numeric Expression)).
(i) Y  
1
, X   ln X
Y
(ii) Y   ln Y , X   X ,  0  ln  0 ,  1  ln  1
(iii) X   X
Εκτελώντας γραμμική παλινδρόμηση για κάθε ένα από τα τρία νέα γραμμικά μοντέλα
(Διαδικασία Analyze/Regression/Linear) συγκρίνουμε τις τιμές των συντελεστών
προσδιορισμού τους.
33
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Για το μοντέλο που κρίνεται ως καλύτερο για πρόβλεψη της εξαρτημένης μεταβλητής
Υ, υπολογίζουμε το διάστημα εμπιστοσύνης 90% για το μηνιαίο χρόνο ομιλίας για
ένα άτομο ηλικίας 40 ετών Analyze/Regression/Linear/Save/Individual Prediction
Interval 90%).
(ε) Για τα άτομα ηλικίας έως και 45 ετών, να υπολογισθεί το διάστημα εμπιστοσύνης
95% για τον αναμενόμενο χρόνο ομιλίας στο κινητό.
Για να μπορέσουμε να απαντήσουμε στο ερώτημα αυτό, θα πρέπει να απομονώσουμε
από το δείγμα που διαθέτουμε, τα άτομα με ηλικία έως 45 ετών. Για να το πετύχουμε
αυτό, ακολουθούμε τη διαδικασία Data/Select Cases/If Condition is satisfied και
πληκτρολογώντας το κουμπί If, δηλώνουμε τη συνθήκη με βάση την οποία θα γίνει η
επιλογή των παρατηρήσεων (cases) που θα παραμείνουν ενεργές στο δείγμα.
Συγκεκριμένα στο ερώτημα αυτό, εισάγουμε τη συνθήκη X  45 , οπότε διαγράφονται
από το δείγμα οι παρατηρήσεις στις οποίες η ηλικία X είναι μεγαλύτερη από 45, ή
ισοδύναμα παραμένουν στο δείγμα οι παρατηρήσεις με ηλικία έως και 45 ετών. Στη
συνέχεια για να υπολογίσουμε το διάστημα εμπιστοσύνης 95% μέσης πρόβλεψης για
την εξαρτημένη μεταβλητή Υ που δίνει το γραμμικό μοντέλο, ακολουθούμε τη
διαδικασία Analyze/ Regression/Linear και στην επιλογή Save διαλέγουμε τα Mean
prediction Intervals.
34
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
5.
ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ
Εταιρεία στατιστικών μελετών διεξήγαγε έρευνα για την κατανάλωση καυσίμου σε
20 αυτοκίνητα. Συγκεκριμένα κατέγραψε πόσα μίλια διανύει ένα αυτοκίνητο με την
κατανάλωση ενός λίτρου καυσίμου (εξαρτημένη μεταβλητή Υ), τον κυβισμό (σε
κυβικές ίντσες) της μηχανής του κάθε αυτοκινήτου (ανεξάρτητη μεταβλητή Χ1), την
ιπποδύναμη (ανεξάρτητη μεταβλητή Χ2), το βάρος του σε Lbs (ανεξάρτητη
μεταβλητή Χ3) και το χρόνο (σε δευτερόλεπτα) που χρειάζεται το αυτοκίνητο για να
αποκτήσει ταχύτητα ίση με 60 μίλια/ώρα (ανεξάρτητη μεταβλητή Χ4). Τα
αποτελέσματα της έρευνας δίνονται στον ακόλουθο πίνακα.
Δίνονται :
Υ
Χ1
Χ2
Χ3
Χ4
Χ5
1
18
307
130
3504
12
1
2
15
350
165
3693
11,5
0
3
18
318
150
3436
11
1
4
16
304
150
3433
12
1
5
17
302
140
3449
10,5
1
6
15
429
198
4341
10
1
7
14
454
220
4354
9
0
8
14
440
215
4312
8,5
1
9
14
455
225
4425
10
0
10
15
390
190
3850
8,5
0
11
15
383
170
3563
10
1
12
14
340
160
3609
8
1
13
25
110
87
2672
17,5
0
14
15
400
150
3761
9,5
1
15
14
455
225
3086
10
1
16
24
113
95
2372
15
0
17
22
198
95
2833
15,5
0
18
18
199
97
2774
15,5
1
19
21
200
85
2587
16
1
20
27
97
88
2130
14,5
0
20
Y
i
i 1
(α)
20
20
20
20
i 1
i 1
i 1
i 1
 351,  X i1  6244,  X i 2  3035,  X i 3  68184,  X i 4  234,5.
Να εξεταστούν όλα τα δυνατά γραμμικά μοντέλα που έχουν ως ερμηνευτικές
μεταβλητές κάποιες από τις X1, X2, X3, X4 και ως εξαρτημένη μεταβλητή την Y. Να
2
, iii) το MSEp .
βρεθεί το καλύτερο με βάση: i) το R2, ii) το Radj
35
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
(β) Να βρεθεί το καλύτερο μοντέλο με βάση τη διαδικασία Stepwise regression και
να περιγραφούν όλα τα ενδιάμεσα βήματα.
(γ)
Χρησιμοποιώντας τα κατάλληλα γραμμικά μοντέλα, i) να υπολογισθούν οι
συντελεστές προσδιορισμού RY21.4 , RY24.1 , RY21. , RY24. , ii) να δοθεί η ερμηνεία τους
(δ) Χρησιμοποιώντας το πλήρες μοντέλο, (i) να βρεθούν διαστήματα εμπιστοσύνης
95% για κάθε ένα από τα β0, β1, β2, β3, β4, (ii) να δοθεί από κοινού δ.ε. (τουλάχιστον)
95% για τα β1, β4 με τη μέθοδο Bonferroni
(ε)
Χρησιμοποιώντας το γραμμικό μοντέλο που αξιολογήθηκε ως το καλύτερο με
βάση το R2(adj), να γίνουν οι παρακάτω έλεγχοι σε επίπεδο σημαντικότητας α=1%
(i) Η0: β1=0 και β2=3, Η1: β10 ή β2 3, (ii) Η0: 3β1=β2 , Η1: 3β1β2.
(στ) Χρησιμοποιώντας το πλήρες μοντέλο, να βρεθούν διαστήματα εμπιστοσύνης
95% για τη μέση και ατομική πρόβλεψη του Υ, όταν Χ1=300, Χ2=150, Χ3=2400, Χ4=9.
(ζ)
Θεωρούμε τη δείκτρια μεταβλητή Χ5 που λαμβάνει την τιμή 1, αν το αυτοκίνητο
καταναλώνει βενζίνη και την τιμή 0, αν καταναλώνει πετρέλαιο. Χρησιμοποιώντας το
γραμμικό μοντέλο που αξιολογήθηκε ως το καλύτερο με βάση τη διαδικασία
Stepwise regression,
(i)
να βρεθεί δ.ε 95% για τον αναμενόμενο επιπρόσθετο αριθμό μιλίων Υ, που
που θα διανύσει ένα βενζινοκίνητο αυτοκίνητο με κυβισμό 300 ίντσες,
έναντι ενός πετρελαιοκίνητου με τον ίδιο κυβισμό,
(ii)
να εξετασθεί σε επίπεδο σημαντικότητας 1% αν ο αριθμός των μιλίων που
θα διανύσει ένα αυτοκίνητο επηρεάζεται από το αν είναι βενζινοκίνητο ή
πετρελαιοκίνητο.
(η)
Θεωρούμε ότι η δείκτρια Χ5 αλληλεπιδρά με τις ήδη υπάρχουσες μεταβλητές
του μοντέλου, το οποίο επιλέχτηκε από τη διαδικασία Stepwise regression. Να
εξετασθεί σε επίπεδο σημαντικότητας 5% αν ο αριθμός των μιλίων Υ που διανύει ένα
αυτοκίνητο (με κυβισμό 390 ίντσες) με την κατανάλωση ενός λίτρου καυσίμου
εξαρτάται από το αν το αυτοκίνητο καταναλώνει βενζίνη ή πετρέλαιο.
Απαντήσεις
(α)
(i) Υπολογίζουμε το συντελεστή προσδιορισμού R2 για όλα τα δυνατά μοντέλα.
Για να μειώσουμε το πλήθος των μοντέλων που θα μελετήσουμε, χρησιμοποιούμε τη
36
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
διορθωτική παρέμβαση t και προκύπτει ότι το βέλτιστο μοντέλο περιέχει τουλάχιστον
τη μεταβλητή Χ1.
R2
X1
0,885
X1X 2
0,899
X1X 3
0,885
X1X 4
0,887
X1X 2 X 3
0,900
X1X 2 X 4
0,904
X1X 3 X 4
0,887
X1X 2 X 3 X 4
0,904
Βέλτιστο μοντέλο με βάση το R2 είναι το ακόλουθο
Y   0  1  X 1   2  X 2   4  X 4 .
(ii)
Υπολογίζουμε το συντελεστή προσδιορισμού R2adj για όλα τα δυνατά
μοντέλα. Για να μειώσουμε το πλήθος των μοντέλων που θα μελετήσουμε,
χρησιμοποιούμε τη διορθωτική παρέμβαση t και προκύπτει ότι το
βέλτιστο περιέχει τουλάχιστον τη μεταβλητή Χ1.
2
Radj
X1
0,878
X1X 2
0,888
X1X 3
0,871
X1X 4
0,874
X1X 2 X 3
0,881
X1X 2 X 4
0,886
X1X 3 X 4
0,866
X1X 2 X 3 X 4
0,878
37
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Βέλτιστο μοντέλο με βάση το R2adj είναι το ακόλουθο
Y   0  1  X 1   2  X 2 .
(iii) Υπολογίζουμε το συντελεστή προσδιορισμού MSEP για όλα τα δυνατά μοντέλα.
Για να μειώσουμε το πλήθος των μοντέλων που θα μελετήσουμε, χρησιμοποιούμε τη
διορθωτική παρέμβαση t και προκύπτει ότι το βέλτιστο περιέχει τουλάχιστον τη
μεταβλητή Χ1.
MSEp
X1
2,031
X1X 2
1,874
X1X 3
2,145
X1X 4
2,103
X1X 2 X 3
1,984
X1X 2 X 4
1,907
X1X 3 X 4
2,232
X1X 2 X 3 X 4
2,031
Βέλτιστο μοντέλο με βάση το MSEp είναι το ακόλουθο
Y   0  1  X 1   2  X 2 .
Βήμα
(β)
1.
Προσαρμόζουμε
όλα
τα
απλά
γραμμικά
μοντέλα
Y   0   i  X i , i  1,2,3,4 , και υπολογίζουμε για κάθε ένα από αυτά, την ποσότητα
MSR( X i )
.
MSE ( X i )
Συγκεκριμένα παίρνουμε τα αποτελέσματα
F* 
*
F1 
*
MSR( X 1 )
MSR( X 2 )
*
 138,039  F1, 20 2 (0,05) , F2 
 47,888  F1, 20 2 (0,05)
MSE ( X 1 )
MSE ( X 2 )
F3 
MSR ( X 3 )
MSR ( X 4 )
*
 48,204  F1, 20 2 (0,05) , F1 
 51,16  F1, 20 2 (0,05)
MSE ( X 3 )
MSE ( X 4 )
Επιλέγουμε τη μεταβλητή που μεγιστοποιεί την παραπάνω ποσότητα, δηλαδή τη
μεταβλητή Χ1, οπότε και την εισάγουμε στο μοντέλο.
38
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Βήμα 2.
Ξεκινώντας με το μοντέλο Y   0  1  X 1 , προσαρμόζουμε όλα τα
γραμμικά μοντέλα Y   0  1  X 1   i  X i , i  2,3,4 και υπολογίζουμε για κάθε
ένα από αυτά, την ποσότητα
*
Fi ,1 
MSR ( X i / X 1 )
.
MSE ( X i / X 1 )
Παρατηρούμε ότι για καμιά μεταβλητή η παραπάνω ποσότητα δεν υπερβαίνει την
τιμή F1, 203 (0,05) , συνεπώς δεν μπορούμε να εισάγουμε στο μοντέλο άλλη
μεταβλητή, με αποτέλεσμα με τη διαδικασία Stepwise Regression να καταλήγουμε
στο συμπέρασμα ότι βέλτιστο μοντέλο είναι το εξής
Y   0  1  X 1 .
Η παραπάνω διαδικασία συνοψίζεται στον ακόλουθο πίνακα
Variables Entered/Removeda
Model
1
Variables
Entered
Variables
Removed
ENGINE
,
Method
Stepwise
(Criteria:
Probabilit
y-of-F-to-e
nter <=
,050,
Probabilit
y-of-F-to-r
emove >=
,100).
a. Dependent Variable: MPG
(γ)
RY21.4 
SSR ( X 1 / X 4 ) SSR ( X 1 , X 4 )  SSR ( X 4 ) 281,198  234,459


 0,566 .
SSE ( X 4 )
SSE ( X 4 )
82,491
Αυτό σημαίνει ότι το ποσοστό της μεταβλητότητας που ερμηνεύει επιπλέον η
μεταβλητή Χ1, δεδομένου ότι στο μοντέλο υπάρχει η μεταβλητή Χ4, είναι το 56,6%
της μεταβλητότητας που δεν έχει ερμηνευθεί από τη Χ4.
RY24.1 
SSR ( X 4 / X 1 ) SSR ( X 1 , X 4 )  SSR ( X 1 ) 281,198  280,388


 0,022
SSE ( X 1 )
SSE ( X 1 )
36,562
Αυτό σημαίνει ότι το ποσοστό της μεταβλητότητας που ερμηνεύει επιπλέον η
μεταβλητή Χ4, δεδομένου ότι στο μοντέλο υπάρχει η μεταβλητή Χ1, είναι το 2,2% της
μεταβλητότητας που δεν έχει ερμηνευθεί από τη Χ1.
39
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
RY21. 
SSR( X 1 ) SSR( X 1 ) 280,388


 0,8846 .
316,950
SSE
SST
Ο συντελεστής προσδιορισμού RY2.1 εκφράζει το ποσοστό της ανερμήνευτης
μεταβλητότητας που ερμηνεύει η μεταβλητή Χ1, δεδομένου ότι στο μοντέλο δεν
υπάρχει άλλη μεταβλητή. Στη συγκεκριμένη περίπτωση το ποσοστό αυτό είναι
88,46%.
RY24. 
SSR( X 4 ) SSR( X 4 ) 234,459


 0,74 .
316,950
SSE
SST
Ο συντελεστής προσδιορισμού RY24. εκφράζει το ποσοστό της ανερμήνευτης
μεταβλητότητας που ερμηνεύει η μεταβλητή Χ4, δεδομένου ότι στο μοντέλο δεν
υπάρχει άλλη μεταβλητή. Στη συγκεκριμένη περίπτωση το ποσοστό αυτό είναι 74%.
Οι εκτιμήσεις ˆ1 , ˆ 4 που λαμβάνουμε για τις παραμέτρους, προσαρμόζοντας τα
γραμμικά μοντέλα
Y   0  1  X 1   4  X 4 , Y   0  1  X 1 ,
Y  0  4  X 4
δίνονται αντίστοιχα στους ακόλουθους πίνακες
Coefficientsa
Model
1
(Constant)
ENGINE
ACCEL
Unstandardized
Coefficients
B
Std. Error
24,605
4,717
-2,85E-02
,006
,156
,252
Standardi
zed
Coefficien
ts
Beta
-,842
,111
t
5,216
-4,714
,620
Sig.
,000
,000
,543
a. Dependent Variable: MPG
Coefficientsa
Model
1
(Constant)
ENGINE
Unstandardized
Coefficients
B
Std. Error
27,476
,903
-3,18E-02
,003
Standardi
zed
Coefficien
ts
Beta
-,941
t
30,430
-11,749
Sig.
,000
,000
a. Dependent Variable: MPG
40
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Coefficientsa
Model
1
(Constant)
ACCEL
Unstandardized
Coefficients
B
Std. Error
3,345
2,043
1,212
,169
Standardi
zed
Coefficien
ts
Beta
,860
t
1,637
7,153
Sig.
,119
,000
a. Dependent Variable: MPG
Η εκτίμηση για την παράμετρο 1 που παίρνουμε από το πρώτο μοντέλο είναι
ˆ1  0,0285 , ενώ από το δεύτερο είναι ˆ1  0,0318 . Αντίστοιχα η εκτίμηση για
την παράμετρο  4 που παίρνουμε από το πρώτο μοντέλο είναι ˆ 4  0,156 , ενώ από
το τρίτο είναι ˆ 4  1,212 . Οι εκτιμήσεις αυτές διαφέρουν σημαντικά για την κάθε
παράμετρο χωριστά, διότι οι μεταβλητές Χ1, Χ4 είναι ισχυρά συσχετισμένες.
(δ) (i)
Τα διαστήματα εμπιστοσύνης 95% για κάθε μία από τις παράμετρους β0, β1,
β2, β3, β4 χωριστά, δίνονται στον ακόλουθο πίνακα
a
Coefficients
Standardi
zed
Unstandardized
Coefficien
Coefficients
ts
Model
B
Std. Error
Beta
1
(Constant)
23,106
5,390
ENGINE
-3,97E-02
,011
-1,173
HORSEPOW
3,356E-02
,021
,406
WEIGHT
-1,74E-04
,001
-,029
ACCEL
,199
,250
,141
t
4,287
-3,687
1,606
-,158
,794
95% Confidence Interval for B
Sig.
Lower Bound Upper Bound
,001
11,618
34,594
,002
-,063
-,017
,129
-,011
,078
,876
-,003
,002
,440
-,335
,732
a. Dependent Variable: MPG
(ii) Για να κατασκευάσουμε από κοινού δ.ε (τουλάχιστον) 95%
a  5%  για τις
παραμέτρους  1 ,  4 , χρειαζόμαστε διαστήματα εμπιστοσύνης για κάθε μία από
τις δύο παράμετρους με πιθανότητα σφάλματος
a
 2,5% . Συνεπώς τα 97,5%
2
δ.ε για τις παραμέτρους  1 ,  4 δίνονται ακολούθως
I 1  ( ˆ1  s ( ˆ1 )  t 20  5 ( 0,025 / 2 ), ˆ1  s ( ˆ1 )  t 20  5 ( 0,025 / 2 )) 
 (  3,97  10  2  0,011  2, 4 ,  3,97  10  2  0,011  2, 4 )  (  0,066 ,  0,012 )
41
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
I 4  ( ˆ 4  s ( ˆ 4 )  t 20  5 ( 0 , 025 / 2 ), ˆ 4  s ( ˆ 4 )  t 20  5 ( 0 , 025 / 2 )) 
 ( 0 ,199  0 , 25  2 , 4 , 0 ,199  0 , 25  2 , 4 )  (  0 , 41 , 0 , 81 ).
Άρα το από κοινού 95% δ.ε για τις δύο παράμετρους είναι το εξής
I 1  I 4  (  0 , 066 ,  0 . 012 )  (  0 , 41 , 0 ,81 ) .
(ε) Βέλτιστο μοντέλο με βάση το R2adj είναι το ακόλουθο
Y   0  1  X 1   2  X 2 .
Προσαρμόζοντας το παραπάνω μοντέλο, παίρνουμε τον ακόλουθο πίνακα
Coefficientsa
Model
1
Unstandardized
Coefficients
B
Std. Error
(Constant)
26,504
1,063
ENGINE
-4,40E-02
,008
HORSEPOW 3,154E-02
,020
Standardi
zed
Coefficien
ts
Beta
-1,302
,381
t
24,937
-5,403
1,583
Sig.
,000
,000
,132
a. Dependent Variable: MPG
Για τον παρακάτω έλεγχο σε ε.σ. 1%
Η0: β1=0 και β2=3, Η1: β10 ή β2 3,
εφαρμόζοντας κατάλληλο μετασχηματισμό  2  3   2 , προσαρμόζουμε το μοντέλο
Y   0  1  X 1  (  2  3)  X 2  Y  3  X 2   0   1  X 1   2  X 2
και παίρνουμε τους ακόλουθους πίνακες
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
436946,3
31,866
436978,2
df
2
17
19
Mean Square
218473,167
1,874
F
116551,1
Sig.
,000a
a. Predictors: (Constant), HORSEPOW, ENGINE
b. Dependent Variable: YY
42
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Coefficientsa
Model
1
(Constant)
ENGINE
HORSEPOW
Unstandardized
Coefficients
B
Std. Error
26,504
1,063
-4,40E-02
,008
-2,968
,020
Standardi
zed
Coefficien
ts
Beta
-,035
-,967
t
24,937
-5,403
-148,947
Sig.
,000
,000
,000
a. Dependent Variable: YY
SSR ( X 1 , X 2 ) 436946,3
2
2
F* 

 116551  6,11  F2,17 (0,01) άρα απορρίπτουμε τη
SSE ( X 1 , X 2 )
31,866
17
20  3
μηδενική υπόθεση Η0.
Για τον παρακάτω έλεγχο σε ε.σ. 1%
Η0: 3β1=β2 , Η1: 3β1β2,
εφαρμόζοντας κατάλληλο μετασχηματισμό 3 1   2   2 , προσαρμόζουμε το
μοντέλο
Y   0   1  ( X 1  3  X 2 )   2  ( X 2 ) ,
και απορρίπτουμε τη μηδενική υπόθεση (από τους αντίστοιχους πίνακες).
(στ) Το δ.ε 95% για μέση πρόβλεψη είναι το εξής (14.6 , 20.5 ), ενώ το αντίστοιχο
για ατομική πρόβλεψη δίνεται ακολούθως (13.37 , 21.83 ).
(ζ) (i) Προσαρμόζουμε το μοντέλο Y   0  1  X 1   5  X 5 και λαμβάνουμε τον
ακόλουθο πίνακα
a
Coefficients
Standardi
zed
Coefficien
Unstandardized
ts
Coefficients
Model
B
Std. Error
Beta
1
(Constant) 27,739
,864
ENGINE -3,04E-02
,003
-,900
X5
-1,155
,640
-,142
t
32,122
-11,424
-1,805
95% Confidence Interval for B
Sig.
Lower Bound Upper Bound
,000
25,917
29,561
,000
-,036
-,025
,089
-2,505
,195
a. Dependent Variable: MPG
43
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Για X 5  1 έχουμε E1 (Y )   0  1  X 1   5 .
Για X 5  0 έχουμε E 0 (Y )   0   1  X 1 .
Αφαιρώντας τις δύο σχέσεις κατά μέλη, λαμβάνουμε την ακόλουθη ισότητα
 5  E1 (Y )  E0 (Y ) ,
συνεπώς το ζητούμενο δ.ε ταυτίζεται με το δ.ε για την παράμετρο β5, το οποίο δίνεται
στον παραπάνω πίνακα και είναι το ακόλουθο
 2,505 , 0,195 .
(ii) Στο ερώτημα αυτό ζητείται ο ακόλουθος έλεγχος
Η0: β5=0 έναντι Η1: β50.
Από τον πίνακα του ερωτήματος (i), λαμβάνουμε ότι το p-value του συγκεκριμένου
ελέγχου είναι ίσο με 0,089, συνεπώς σε επίπεδο σημαντικότητας 1% δεν
απορρίπτουμε τη μηδενική υπόθεση και συμπεραίνουμε ότι ο αριθμός των μιλίων
που θα διανύσει ένα αυτοκίνητο δεν επηρεάζεται από το αν είναι βενζινοκίνητο ή
πετρελαιοκίνητο.
(η) Προσαρμόζουμε το μοντέλο Y   0  1  X 1   5  X 5   6  X 1  X 5 και
λαμβάνουμε τον ακόλουθο πίνακα
Coefficientsa
Standardi
zed
Unstandardized
Coefficien
Coefficients
ts
Model
B
Std. Error
Beta
1
(Constant)
28,818
,865
ENGINE -3,44E-02
,003
-1,018
X5
-5,166
1,683
-,636
INTERACT1,261E-02
,005
,564
t
33,308
-12,264
-3,071
2,527
Sig.
,000
,000
,007
,022
95% Confidence Interval for B
Lower Bound Upper Bound
26,984
30,652
-,040
-,028
-8,733
-1,599
,002
,023
a. Dependent Variable: MPG
Σε επίπεδο σημαντικότητας 5% η μεταβλητή Χ5 και η αλληλεπίδραση X 1  X 5
είναι στατιστικά σημαντικές, συνεπώς ο αριθμός των μιλίων Υ που διανύει ένα
αυτοκίνητο με την κατανάλωση ενός λίτρου καυσίμου εξαρτάται από το αν το
αυτοκίνητο καταναλώνει βενζίνη ή πετρέλαιο.
44
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
6.
Πέντε
ΠΙΝΑΚΕΣ ΣΥΝΑΦΕΙΑΣ – ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ
διαφορετικές
εταιρίες
κατασκευάζουν
δίσκους
αποθήκευσης
για
ηλεκτρονικούς υπολογιστές. Προκειμένου να διερευνηθεί το αν ο δίσκος
αποθήκευσης λειτουργεί σε ικανοποιητικό επίπεδο για χρονικό διάστημα πέραν της
εγγύησης ή όχι εξαρτάται από το ποια εταιρεία τον έχει παρασκευάσει, λαμβάνουμε
τυχαίο δείγμα 200 δίσκων αποθήκευσης που έχουν παρασκευασθεί από τις παραπάνω
πέντε εταιρίες και καταγράφεται για κάθε έναν από αυτούς το αν ο χρόνος
ικανοποιητικής λειτουργίας τους υπερβαίνει την εγγύηση του ή όχι. Τα αποτελέσματα
της έρευνας συνοψίζονται στον ακόλουθο πίνακα.
ΕΤΑΙΡΙΑ
ΥΠΕΡΒΑΙΝΕΙ
ΤΗΝ
ΕΓΓΥΗΣΗ
1
2
3
4
5
ΝΑΙ
33
24
18
11
19
ΟΧΙ
22
13
32
21
17
Να εξετασθεί σε επίπεδο σημαντικότητας 5% η ορθότητα του παραπάνω ισχυρισμού.
Ακολουθώντας τη διαδικασία Analyze / Data / Weight cases δηλώνουμε ότι οι
συνδυασμοί των επιπέδων των δύο παραγόντων «βαραίνουν» ανάλογα με τις
συχνότητες που αυτοί παρουσιάζουν. Στη συνέχεια ακολουθώντας τη διαδικασία
Analyze / Descriptive Statistics / Crosstabs καταλήγουμε στον ακόλουθο πίνακα:
Chi-Square Tests
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value
12,626a
12,797
3,569
4
4
Asymp. Sig.
(2-sided)
,013
,012
1
,059
df
210
a. 0 cells (,0%) have expected count less than 5. The
minimum expected count is 16,00.
45
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου
Τ.Ε.Ι. Πειραιά
Τμήμα Διοίκησης Επιχειρήσεων
Για το στατιστικό έλεγχο των ακόλουθων υποθέσεων
H 0 : Οι δύο παράγοντες είναι ανεξάρτητοι
vs
H 1 : Οι δύο παράγοντες είναι εξαρτημένοι
η τιμή p  value είναι ίση με 0.013, συνεπώς σε επίπεδο σημαντικότητας 5%
απορρίπτουμε τη μηδενική υπόθεση με αποτέλεσμα να συμπεράνουμε ότι το αν ο
δίσκος αποθήκευσης λειτουργεί σε ικανοποιητικό επίπεδο για χρονικό διάστημα
πέραν της εγγύησης ή όχι εξαρτάται από το ποια εταιρεία τον έχει παρασκευάσει.
46
Ακαδημαϊκό Έτος 2012-2013
Ιωάννης Σ. Τριανταφύλλου