Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΔΡ. ΙΩΑΝΝΗΣ Σ. ΤΡΙΑΝΤΑΦΥΛΛΟΥ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ 2012-2013 1 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 1. ΕΙΣΑΓΩ ΓΗ ΣΤΟ SPSS – ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ ........................................................ 4 1.1. Καταγραφή δεδομένων και επιλογή κατάλληλων ρυθμίσεων των μεταβλητών................................................................................................................... 4 1.2. Διαχωρισμός αρχείου βάση ενός ποιοτικού χαρακτηριστικού ......................... 6 1.3. Διαγραφή περιπτώσεων από το σύνολο των δεδομένων.................................... 7 1.4. Ταξινόμηση δεδομένων βάση κάποιου ποσοτικού χαρακτηριστικού .............. 8 1.5. Υπολογισμός μίας νέας μεταβλητής με τη βοήθεια κάποιας ήδη υπάρχουσας9 2. ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ......................................................................................... 11 2.1. Μέση Τιμή, Διακύμανση, Τυπική Απόκλιση & Συντελεστής Μεταβλητότητας ........................................................................................................ 12 2.2. Πίνακας Συχνοτήτων και Ραβδόγραμμα (Bar Chart) ..................................... 13 2.3. Διάμεσος, Επικρατούσα Τιμή, Τεταρτημόρια & Ποστημόρια ....................... 14 2.4. Ιστόγραμμα .......................................................................................................... 15 2.5. Θηκόγραμμα (Box Plot) ...................................................................................... 16 2.6. Κυκλικό Διάγραμμα (Pie Chart). ...................................................................... 16 2.7. Κύρτωση και Ασυμμετρία ................................................................................. 17 2.8. Διαχείριση / Μετασχηματισμοί Δεδομένων (Εντολές Select Cases, Compute Variable & Recode Variable).................................................................................... 19 2.9. Περιγραφικά Στατιστικά με χρήση της εντολής «Explore» ........................... 20 3. ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ......................................................................... 23 3.1. Έλεγχος Κανονικότητας Kolmogorov-Smirnov & Έλεγχος t του Student για ένα δείγμα ................................................................................................................... 23 3.2. Έλεχγος t για Ανεξάρτητα Δείγματα ................................................................. 24 3.3. Έλεγχος Ανεξαρτησίας χ2 του Pearson ............................................................. 27 4. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ........................................................................... 29 4.1. Διάγραμμα Διασποράς (Scatterplot).................................................................. 29 4.2. Προσαρμογή Ευθείας Γραμμικής Παλινδρόμησης ......................................... 30 2 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 4.3. Έλεγχος Κανονικότητας και Ανεξαρτησίας Σφαλμάτων ................................ 30 4.4. Έλεγχοι Υποθέσεων για τις Τιμές των Παραμέτρων της Γραμμικής Παλινδρόμησης .......................................................................................................... 31 4.5. Σημειακή Εκτίμηση ............................................................................................ 31 4.6. Εφαρμογές / Παρουσίαση Αποτελεσμάτων Γραμμικής Παλινδρόμησης ...... 32 5. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ................................................................. 35 6. ΠΙΝΑΚΕΣ ΣΥΝΑΦΕΙΑΣ – ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ................................................. 45 3 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 1. ΕΙΣΑΓΩ ΓΗ ΣΤΟ SPSS – ΒΑΣΙΚΕΣ ΛΕΙΤΟΥΡΓΙΕΣ 1.1. Καταγραφή δεδομένων και επιλογή κατάλληλων ρυθμίσεων των μεταβλητών Η βασική οθόνη του στατιστικού πακέτου SPSS έχει την ακόλουθη μορφή: Στον παραπάνω πίνακα, γίνεται η καταγραφή των δεδομένων που επιθυμούμε να αναλυθούν. Κάθε στήλη του πίνακα αποτελεί και ένα διαφορετικό χαρακτηριστικό (δηλαδή μία διαφορετική μεταβλητή (variable)), ενώ κάθε οριζόντια γραμμή αντιπροσωπεύει ένα διαφορετικό άτομο (ή παρατήρηση) του δείγματος που έχουμε στη διάθεση μας. Προκειμένου να διαμορφώσουμε κατάλληλα τις ρυθμίσεις που αφορούν την κάθε μεταβλητή (δηλαδή το κάθε διαφορετικό χαρακτηριστικό), επιλέγουμε το Variable View (βρίσκεται στην κάτω αριστερή γωνία της οθόνης) και εμφανίζεται μία άλλη οθόνη, όπως φαίνεται παρακάτω: 4 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Οι ρυθμίσεις που πρέπει να διαμορφωθούν για κάθε μία μεταβλητή χωριστά, είναι οι εξής: Name: εδώ δίνεται η ονομασία της κάθε μεταβλητής Type: εδώ δηλώνεται το είδος της πληροφορίας που θα εισαχθεί σε κάθε μεταβλητή (δηλαδή σε κάθε στήλη του πίνακα δεδομένων). Για παράδειγμα, αν η πληροφορία είναι ποσοτική, τότε ο κατάλληλος τύπος μεταβλητής που πρέπει να επιλεγεί είναι το Numeric, ενώ αν πρόκειται να εισάγουμε στη συγκεκριμένη στήλη λέξεις (γράμματα), τότε θα επιλέξουμε τον τύπο String. Width: εδώ προσδιορίζεται το μέγιστο πλήθος ψηφίων (αν πρόκειται για αριθμό) ή γραμμάτων (αν πρόκειται για λέξη) που θα επιτρέπεται να εισαχθεί στη συγκεκριμένη στήλη Decimals: εδώ δηλώνεται ο αριθμός δεκαδικών ψηφίων που θέλουμε να εμφανίζονται στα αριθμητικά δεδομένα της κάθε στήλης (προφανώς αν πρόκειται για πληροφορία τύπου String, τότε η συγκεκριμένη επιλογή γίνεται αυτόματα 0. Measure: εδώ δηλώνεται το αν το χαρακτηριστικό που μελετάμε είναι ποσοτική μεταβλητή (Scale), ονομαστική ποιοτική μεταβλητή (Nominal) ή διατάξιμη ποιοτική μεταβλητή (Ordinal). 5 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Αφού γίνουν οι κατάλληλες ρυθμίσεις στο Variable View, επιστρέφουμε στην αρχική οθόνη (επιλέγοντας το Data View), ώστε να εισάγουμε τα δεδομένα. Για καλύτερη κατανόηση, ας θεωρήσουμε ένα παράδειγμα στο οποίο το αντικείμενο μελέτης είναι η ταχύτητα επεξεργασίας μίας σειράς 10 ηλεκτρονικών υπολογιστών (εκ των οποίων οι πρώτοι 7 χρησιμοποιούν τον επεξεργαστή Α, ενώ οι υπόλοιποι τον επεξεργαστή Β). Η ποσοτική μεταβλητή (Scale) που θα χρησιμοποιηθεί για την καταγραφή των ταχυτήτων επεξεργασίας ονομάζεται SPEED και μετριέται σε μονάδες GHz με ένα δεκαδικό ψηφίο, ενώ η ποιοτική μεταβλητή (Nominal) που θα χρησιμοποιηθεί για την καταγραφή του επεξεργαστή που χρησιμοποιεί ο κάθε υπολογιστής ονομάζεται PROCESSOR και είναι τύπου String. Ρυθμίζοντας κατάλληλα τις επιλογές στο Variable View, στη συνέχεια καταγράφουμε τις παρατηρειθείσες ταχύτητες των 10 υπολογιστών καθώς και το είδος επεξεργαστή που χρησιμοποιούν στον πίνακα Data View, όπως φαίνεται ακολούθως: 1.2. Διαχωρισμός αρχείου βάση ενός ποιοτικού χαρακτηριστικού Σε περίπτωση που ενδιαφερόμαστε να αναλύσουμε ξεχωριστά τα δεδομένα που αφορούν τους υπολογιστές που χρησιμοποιούν τον επεξεργαστή Α και τον επεξεργαστή Β, τότε ακολουθώντας τη διαδικασία Data / Split File, επιλέγουμε τη 6 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων μεταβλητή PROCESSOR ως μεταβλητή ομαδοποίησης (grouping variable), όπως φαίνεται και παρακάτω: 1.3. Διαγραφή περιπτώσεων από το σύνολο των δεδομένων Σε περίπτωση που επιθυμούμε να διαγράψουμε προσωρινά μία ή περισσότερες περιπτώσεις (παρατηρήσεις) από τον πίνακα των δεδομένων, τότε ακολουθώντας τη διαδικασία Data / Select Cases, προσδιορίζουμε τη συνθήκη που θέλουμε να ισχύει ότι μία παρατήρηση να παραμένει ενεργή στο δείγμα. Σε διαφορετική περίπτωση, δηλαδή σε περίπτωση που μία ή περισσότερες παρατηρήσεις δεν ικανοποιούν τη συνθήκη που εμείς θα δηλώσουμε, τότε εκείνη (ή εκείνες) η παρατήρηση διαγράφεται προσωρινά από το δείγμα και δεν λαμβάνεται υπόψιν στη συνέχεια της ανάλυσης. Για παράδειγμα αν επιθυμούμε να αναλύσουμε μόνο εκείνα τα δεδομένα που αφορούν ηλεκτρονικούς υπολογιστές οι οποίοι παρουσιάζουν ταχύτητες που υπερβαίνουν τα 2 GHz, τότε ακολουθώντας τη διαδικασία Data / Select Cases, επιλέγουμε το πλήκτρο If Condition is satisfied και διατυπώνουμε τη συνθήκη: SPEED > 2, όπως φαίνεται στην ακόλουθη οθόνη: 7 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 1.4. Ταξινόμηση δεδομένων βάση κάποιου ποσοτικού χαρακτηριστικού Σε περίπτωση που επιθυμούμε να τοποθετήσουμε σε αύξουσα ή φθίνουσα σειρά τα δεδομένα βάση κάποιας συγκεκριμένης μέτρησης (ποσοτικής μεταβλητής), τότε ακολουθούμε τη διαδικασία Data / Sort Cases. Για παράδειγμα, αν θέλουμε να τοποθετήσουμε σε αύξουσα σειρά τους 10 υπολογιστές βάση της ταχύτητας επεξεργασίας που παρουσιάζουν, τότε ακολουθώντας τη διαδικασία Data / Sort Cases, επιλέγουμε τη μεταβλητή SPEED να πάρει τη θέση κάτω από την έκφραση Sort By, ενώ ταυτόχρονα επιλέγουμε ως Sort Order (Τρόπος ταξινόμησης) το Ascending, δεδομένου ότι επιθυμούμε να ταξινομήσουμε τα δεδομένα σε αύξουσα σειρά. Η παρακάτω οθόνη δείχνει τις προαναφερθείσες επιλογές: 8 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 1.5. Υπολογισμός μίας νέας μεταβλητής με τη βοήθεια κάποιας ήδη υπάρχουσας Σε περίπτωση που επιθυμούμε να δημιουργήσουμε μία νέα μεταβλητή, χρησιμοποιώντας κάποια ήδη υπάρχουσα, τότε ακολουθούμε τη διαδικασία Transform / Compute Variable. Για παράδειγμα, αν θέλουμε να μετατρέψουμε τις ταχύτητες επεξεργασίας σε διαφορετικές μονάδες μέτρησης (από GHz σε MHz), τότε ακολουθώντας τη διαδικασία Transform / Compute Variable, αρχικά δηλώνουμε το όνομα της νέας μεταβλητής κάτω από την έκφραση Target Variable, στη συνέχεια κάτω από την έκφραση Numeric Expression διατυπώνουμε τη σχέση βάση της οποίας θα υπολογιστεί η νέα μεταβλητή, όπως φαίνεται ακολούθως: 9 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Αξίζει να σημειωθεί ότι, κατά τη διαδικασία υπολογισμού μίας νέας μεταβλητής (Transform / Compute Variable), υπάρχει δυνατότητα χρήσης πληθώρας μαθηματικών και στατιστικών συναρτήσεων για τον κατάλληλο μετασχηματισμό των δεδομένων. 10 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 2. ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Στις εξετάσεις του μαθήματος της Στατιστικής του τμήματος Πληροφορικής του Πανεπιστημίου Πειραιώς (κατά τη χειμερινή εξεταστική περίοδο) προσήλθαν συνολικά 100 φοιτητές και φοιτήτριες. Ο εξεταστής βαθμολόγησε τα γραπτά χρησιμοποιώντας την κλίμακα 0-30 (0: λευκή κόλλα, 30: άριστα) και τα αποτελέσματα δίνονται στους ακόλουθους πίνακες. ΦΟΙΤΗΤΕΣ 2ο έτος 11 16 6 23 8 0 0 0 11 0 0 0 3ο έτος 12 9 0 0 16 3 11 2 4 6 8 0 4ο έτος 13 16 18 0 16 1 29 0 12 13 0 14 5ο έτος 23 12 8 23 21 10 14 11 6ο έτος 0 9ο έτος 13 10ο έτος 0 ΦΟΙΤΗΤΡΙΕΣ 2ο έτος 15 14 8 25 0 24 4 18 16 23 16 16 3ο έτος 13 19 2 5 8 18 17 22 1 4 0 13 4ο έτος 20 8 15 13 13 13 3 5ο έτος 1 11 14 8 11 8 11 7 11 12 9 6ο έτος 15 16 12 6 16 9 12 7ο έτος 14 9 14 9ο έτος 22 Εισάγουμε τα παραπάνω δεδομένα στο SPSS. 11 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 2.1. Μέση Τιμή, Διακύμανση, Τυπική Απόκλιση & Συντελεστής Μεταβλητότητας Η μέση τιμή, η τυπική απόκλιση, η μεγαλύτερη και η μικρότερη τιμή των παραπάνω βαθμολογιών, ακολουθώντας τη διαδικασία: Analyze/Descriptive Statistics/Descriptives: grade Έτσι προκύπτει ο ακόλουθος πίνακας: Descriptive Statistics N grade 100 Valid N (listwise) 100 Minimum 0 Maximum 29 Mean 10,37 Std. Deviation 7,282 Παρατηρούμε ότι η μέση τιμή είναι ίση με 10.37. Αυτό πρακτικά σημαίνει ότι η κεντρική τάση των φοιτητών και των φοιτητριών που συμμετείχαν στις εξετάσεις είναι λάβουν βαθμό γύρω στο 10.37. Πρόσθετα, η ελάχιστη και μέγιστη βαθμολογία είναι 0 και 29 αντίστοιχα, ενώ η τυπική απόκλιση του δείγματος των 100 γραπτών ισούται με 7.282. Η τυπική απόκλιση εκφράζει το βαθμό διασποράς των βαθμολογιών, δηλαδή περιγράφει το αν το δείγμα των βαθμολογιών αποτελείται από παρατηρήσεις που έχουν κοντινές ή μακρινές αποστάσεις μεταξύ τους. Ωστόσο, δεν υπάρχει κάποιο απόλυτο κριτήριο που να διαχωρίζει πότε ένα δείγμα θεωρείται ότι παρουσιάζει ομοιογένεια ή όχι. Για το λόγο αυτό, χρειάζεται να ορίσουμε μία ποσότητα που να έχει τη δυνατότητα να χαρακτηρίζει το εκάστοτε δείγμα ως ομοιογενές ή ετερογενές. Η ποσότητα αυτή ονομάζεται συντελεστής μεταβλητότητας και υπολογίζεται ως ακολούθως: CV s , x όπου s είναι η τυπική απόκλιση και x η μέση τιμή του δείγματος. Για το συγκεκριμένο παράδειγμα, έχουμε τα εξής: CV 7.282 0.70 . 10.37 Δεδομένου ότι CV 0.70 0.10 , το δείγμα των βαθμολογιών κρίνεται ετερογενές, δηλαδή οι βαθμολογίες δεν είναι κοντινές (παρουσιάζουν μεγάλο βαθμό μεταβλητότητας). 12 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 2.2. Πίνακας Συχνοτήτων και Ραβδόγραμμα (Bar Chart) O πίνακας συχνοτήτων και το αντίστοιχο ραβδόγραμμα (bar-chart) δίνονται ακολουθώντας τη διαδικασία: Analyze/Descriptive Statistics/Frequencies: grade Grade Valid 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 29 Total Frequency 16 4 2 2 3 1 3 1 8 4 1 7 6 8 6 3 9 1 3 1 1 1 2 4 1 1 1 100 Percent 16,0 4,0 2,0 2,0 3,0 1,0 3,0 1,0 8,0 4,0 1,0 7,0 6,0 8,0 6,0 3,0 9,0 1,0 3,0 1,0 1,0 1,0 2,0 4,0 1,0 1,0 1,0 100,0 Valid Percent 16,0 4,0 2,0 2,0 3,0 1,0 3,0 1,0 8,0 4,0 1,0 7,0 6,0 8,0 6,0 3,0 9,0 1,0 3,0 1,0 1,0 1,0 2,0 4,0 1,0 1,0 1,0 100,0 Cumulative Percent 16,0 20,0 22,0 24,0 27,0 28,0 31,0 32,0 40,0 44,0 45,0 52,0 58,0 66,0 72,0 75,0 84,0 85,0 88,0 89,0 90,0 91,0 93,0 97,0 98,0 99,0 100,0 Παρατηρούμε ότι το ποσοστό των φοιτητών/φοιτητριών που έχουν βαθμολογηθεί πάνω από τη βάση είναι ίσο με (100-72)%=28%. Το ζητούμενο ραβδόγραμμα δίνεται ακολούθως 13 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 20 15 C o u n 10 t 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 29 grade 2.3. Διάμεσος, Επικρατούσα Τιμή, Τεταρτημόρια & Ποστημόρια Η διάμεσος, τα τεταρτημόρια, το 30% ποσοστημόριο και η επικρατούσα τιμή των βαθμολογιών υπολογίζονται ακολουθώντας τη διαδικασία: Analyze/Descriptive Statistics/Frequencies: grade και επιλέγοντας στο Statistics τα ακόλουθα: Median, Mode, Quartiles, Percentile 30% Έτσι προκύπτει ο επόμενος πίνακας: Statistics grade N Median Mode Percentiles Valid Missing 25 30 50 75 14 100 0 11,00 0 4,00 6,00 11,00 15,75 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Παρατηρούμε ότι η διάμεσος (median) είναι ίση με 11 (αυτό πρακτικά σημαίνει ότι 50 άτομα έχουν βαθμολογηθεί μέχρι 11 και 50 άτομα πάνω από 11), η επικρατούσα τιμή (mode) των παρατηρήσεων είναι ίση με 0 (αυτό πρακτικά σημαίνει ότι η «δημοφιλέστερη» βαθμολογία είναι το 0), το πρώτο τεταρτημόριο (Percentile 25%) είναι ίσο με 4 (αυτό πρακτικά σημαίνει ότι 25 άτομα έχουν βαθμολογηθεί μέχρι 4 και τα υπόλοιπα άτομα πάνω από 4), το τρίτο τεταρτημόριο (Percentile 75%) είναι ίσο με 15.75, ενώ το ποσοστημόριο 30% (Percentile 30%) ισούται με 6. 2.4. Ιστόγραμμα Το ιστόγραμμα (histogram) συχνοτήτων των βαθμολογιών. δίνεται ακολουθώντας τη διαδικασία: Graphs/Legacy Dialogs/Histogram: grade 25 20 15 10 5 Mean = 10,37 Std. Dev. = 7,282 N = 100 0 0 5 10 15 20 25 30 grade Παρατηρούμε ότι η βαθμολογία μηδέν παρουσιάζει τη μεγαλύτερη συχνότητα, ενώ βαθμολογίες από 8 έως 18, παρουσιάζουν σχετικά υψηλές συχνότητες, σε αντίθεση με τις βαθμολογίες άνω του 20. 15 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 2.5. Θηκόγραμμα (Box Plot) Το θηκόγραμμα (box-plot) των βαθμολογιών προκύπτει ακολουθώντας Graphs/Legacy Dialogs/Boxplot: grade (με επιλογή στο category axis τη μεταβλητή gender) Έτσι προκύπτει το ακόλουθο θηκόγραμμα για τα δύο φύλα 30 25 20 15 10 5 0 0 1 gender Παρατηρούμε ότι για τους φοιτητές (gender=0) οι βαθμολογίες έχουν μεγαλύτερη διασπορά σε σχέση με τις βαθμολογίες των φοιτητριών (gender=1), καθώς όπως φαίνεται και παραπάνω το 50% των γραπτών των φοιτητριών έχει συγκεντρωθεί σε μια μικρή σχετικά περιοχή σε αντίθεση με το τι συμβαίνει με τα γραπτά των φοιτητών. 2.6. Κυκλικό Διάγραμμα (Pie Chart). To κυκλικό διάγραμμα (pie-chart) προκύπτει ακολουθώντας τη διαδικασία: Graphs/Legacy Dialogs/Pie επιλέγουμε τη μεταβλητή gender προκειμένου να διαχωριστούν τα τμήματα του κυκλικού διαγράμματος (define slices by) 16 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων gender 0 1 47,0% 53 ,0% Επομένως οι φοιτητές αντιπροσωπεύουν το 53% των εξεταζομένων και οι φοιτήτριες το 47% των εξεταζομένων. 2.7. Κύρτωση και Ασυμμετρία Για να εξετασθεί το δείγμα των βαθμολογιών ως προς το βαθμό κύρτωσης και ασυμμετρίας που παρουσιάζει, ακολουθούμε τη διαδικασία: Analyze/Descriptive Statistics/Frequencies «κλικάρουμε» τις επιλογές Skewness και Kurtosis και τα αποτελέσματα δίνονται ως ακολούθως: Statistics grade N Valid 100 Missing 0 Skewness ,150 Std. Error of Skewness ,241 Kurtosis -,692 Std. Error of Kurtosis ,478 17 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Όπως φαίνεται από τον παραπάνω πίνακα, η ασυμμετρία (skewness) είναι ίση με 0,150. Προκειμένου να αξιολογήσουμε το δείγμα ως έντονα ασύμμετρο, θα πρέπει να υπολογίσουμε το ακόλουθο πηλίκο: Skewness 0,150 0,62 std .error of Skewness 0,241 και να εξετάσουμε αν η τιμή που προέκυψε (δηλαδή ο αριθμός 0,62) είναι μεγαλύτερος από το 2 ή όχι (οπότε αντίστοιχα θα χαρακτηρίσουμε το δείγμα ως έντονα θετικά ασύμμετρο ή όχι). Στο παράδειγμα μας, δεδομένου ότι 0,62 < 2, συμπεραίνουμε ότι το δείγμα των βαθμολογιών, αν και παρουσίασε μία θετική τιμή του δείκτη ασυμμετρίας, ωστόσο ο βαθμός θετικής ασυμμετρίας του δεν αξιολογείται ως έντονος. Αξίζει να σημειωθεί ότι η ασυμμετρία εξετάζει σε ποια μεριά ως προς τη μέση του δείγματος, είναι κατανεμημένες οι περισσότερες παρατηρήσεις του. Πιο συγκεκριμένα, αν σε ένα δείγμα οι περισσότερες παρατηρήσεις είναι μικρότερες από τη δειγματική μέση τιμή, τότε λέμε ότι το δείγμα παρουσιάζει θετική ασυμμετρία, ενώ σε αντίθετη περίπτωση αρνητική ασυμμετρία. Σχετικά με το βαθμό κύρτωσης που παρουσιάζει το δείγμα, φαίνεται από τον παραπάνω πίνακα ότι ο συντελεστής κύρτωσης είναι ίσος με -0,692. Γενικά, αν σε ένα δείγμα ο βαθμός συγκέντρωσης των παρατηρήσεων γύρω από την κορυφή του είναι μεγάλος, τότε λέμε ότι το δείγμα είναι λεπτόκυρτο (ή ισοδύναμα ο συντελεστής κύρτωσης είναι αρνητικός), ενώ σε αντίθετη περίπτωση πλατύκυρτο (ή ισοδύναμα ο συντελεστής κύρτωσης είναι θετικός). Στο παράδειγμα μας, ο συντελεστής κύρτωσης είναι αρνητικός και ίσος με -0,692. Ωστόσο για να δούμε αν ο βαθμός κύρτωσης είναι αμελητέος ή όχι, θα πρέπει να εξετάσουμε αν το διάστημα που κατασκευάζεται μέσω του ακόλουθου τύπου: (kurtosis 2 Std .error of Kurtosis, kurtosis 2 Std .error of Kurtosis ) περιλαμβάνει το μηδέν ή όχι. Σύμφωνα με τον παραπάνω πίνακα, έχουμε: (0.692 2 0.478, 0.692 2 0.478) (1.65 , 0.27) . Δεδομένου ότι το παραπάνω διάστημα περιλαμβάνει το μηδέν, αυτό σημαίνει ότι ο βαθμός κύρτωσης είναι αμελητέος (για να αξιολογούσαμε το βαθμό κύρτωσης ως σημαντικό (έντονο), θα έπρεπε το παραπάνω διάστημα να μην περιελάμβανε το μηδέν). 18 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 2.8. Διαχείριση / Μετασχηματισμοί Δεδομένων (Εντολές Select Cases, Compute Variable & Recode Variable) Για τα προηγούμενα δεδομένα α) Να ορισθεί κατάλληλα μια νέα μεταβλητή, η οποία να εκφράζει τον τελικό βαθμό κάθε φοιτητή / φοιτήτριας στην κλίμακα 0 έως 10. Στη συνέχεια, να δοθεί ο πίνακας συχνοτήτων της νέας αυτής μεταβλητής. Πόσα γραπτά έχουν περάσει τη βάση με βαθμό πέντε (5); Να υπολογισθεί η μέση τιμή της νέας μεταβλητής, εξαιρώντας τα γραπτά που έχουν βαθμολογηθεί με μηδέν (0). Απάντηση. Ακολουθώντας τη διαδικασία: Transform/Compute Variable μετασχηματίζουμε τη μεταβλητή grade σε μια νέα μεταβλητή fgrade χρησιμοποιώντας την ακόλουθη αριθμητική έκφραση (numeric expression) Trunc[grade/3+0.5]. Για τη νέα μεταβλητή fgrade, που εκφράζει τις βαθμολογίες σε κλίμακα 0 έως 10, ο πίνακας συχνοτήτων είναι ο ακόλουθος fgrade Valid ,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 10,00 Total Frequency 20 7 5 13 21 18 5 4 6 1 100 Percent 20,0 7,0 5,0 13,0 21,0 18,0 5,0 4,0 6,0 1,0 100,0 Valid Percent 20,0 7,0 5,0 13,0 21,0 18,0 5,0 4,0 6,0 1,0 100,0 Cumulative Percent 20,0 27,0 32,0 45,0 66,0 84,0 89,0 93,0 99,0 100,0 Όπως φαίνεται από τον παραπάνω πίνακα, υπάρχουν 18 γραπτά που έχουν περάσει τη βάση με βαθμό 5. Για να εξαιρέσουμε τις βαθμολογίες που είναι μηδενικές, ακολουθούμε τη διαδικασία Data/Select Cases και στην επιλογή If condition is satisfied συμπληρώνουμε την έκφραση fgrade>0. 19 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Στη συνέχεια, ακολουθώντας τη διαδικασία Analyze/Descriptive Statistics/Descriptives: fgrade υπολογίζουμε ότι η μέση βαθμολογία για τα μη μηδενικά γραπτά είναι ίση με 3.46. β) Χρησιμοποιώντας τη μεταβλητή που εκφράζει το έτος φοίτησης (με τιμές 2,3,...,10) να ορισθεί κατάλληλα μια νέα μεταβλητή, η οποία θα δείχνει αν ο φοιτητής / φοιτήτρια βρίσκεται στο 2ο έτος, 3ο έτος, 4ο έτος ή επί πτυχίω (5ο έτος και άνω). Ποιο είναι το ποσοστό των εξεταζόμενων φοιτητών που βρίσκονται στο 2ο έτος, 3ο έτος, 4ο έτος ή επί πτυχίω; Να κατασκευαστεί το αντίστοιχο κυκλικό διάγραμμα. Απάντηση. Με βάση τη μεταβλητή year δημιουργούμε μια νέα μεταβλητή fyear ακολουθώντας τη διαδικασία: Transform/Recode Into Different Variables. Για τις τιμές 2,3,4 της μεταβλητής year η νέα μεταβλητή fyear θα λαμβάνει αντίστοιχα τις τιμές 2,3,4. Αντίθετα, για όλες τις τιμές 5 και άνω της μεταβλητής year η νέα μεταβλητή fyear θα λαμβάνει την τιμή 5. Το κυκλικό διάγραμμα που χρησιμοποιεί τη νέα μεταβλητή fyear δίνεται ακολούθως fyear 2,00 3,00 4,00 5,00 24,0% 33,0% 24 ,0% 19 ,0% 2.9. Περιγραφικά Στατιστικά με χρήση της εντολής «Explore» Για τα παραπάνω δεδομένα να υπολογισθεί η μέση τιμή και να δημιουργηθούν ιστόγραμμα , θηκόγραμμα των βαθμών 0-10 ανά φύλο. 20 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Προκειμένου να υπολογίσουμε περιγραφικά μέτρα στατιστικής ή διαγράμματα για κάθε φύλο χωριστά (και όχι για όλα τα γραπτά μαζί, όπως πράξαμε σε προηγούμενα ερωτήματα) ακολουθούμε την ακόλουθη διαδικασία Analyze/Descriptive Statistics/Explore. Στη συνέχεια, επιλέγουμε ως εξαρτημένη μεταβλητή (στο πεδίο Dependent List) τη μεταβλητή fgrade και ως παράγοντα διαχωρισμού των γραπτών (στο πεδίο Factor List) τη μεταβλητή gender. Τελικά το ιστόγραμμα προκύπτει επιλέγοντας στα Plots το Histogram Histogram for gender= 0 15 12 9 6 3 Mean = 2,9574 Std. Dev. = 2 68618 N = 47 0 0,00 5,00 10,00 fgrade Histogram for gender= 1 12 10 8 y c n e u6 q re F 4 2 Mean = 3,9057 Std. Dev. = 2,14175 N = 53 0 0,00 5,00 fgrade Το θηκόγραμμα δίνεται ακολουθώντας την ίδια διαδικασία, όπως φαίνεται παρακάτω: 21 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 10,00 8,00 6,00 4,00 2,00 0,00 0 1 gender Αξίζει να σημειωθεί ότι η έντονη μαύρη γραμμή που φαίνεται στα δύο θηκογράμματα, εκφράζει τη διάμεσο του κάθε φύλου, ενώ το κάτω και άνω φράγμα (εκτός του κεντρικού παραλληλογράμμου) συμβολίζονται ως c1 ,c 2 αντιστοίχως και υπολογίζονται ως εξής: c1 P25 1,5 ( P75 P25 ) Q1 1,5 (Q3 Q1 ) , c2 P75 1,5 ( P75 P25 ) Q3 1,5 (Q3 Q1 ) 22 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 3. ΣΤΑΤΙΣΤΙΚΟΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ 3.1. Έλεγχος Κανονικότητας Kolmogorov-Smirnov & Έλεγχος t του Student για ένα δείγμα Σε τυχαίο δείγμα 13 εργασιών που εκπονούνται από ηλεκτρονικούς υπολογιστές του Πανεπιστημίου Πειραιώς, καταγράφεται ο χρόνος περαίωσης τους (σε λεπτά), όπως φαίνεται στον ακόλουθο Πίνακα. Εργασία Χρόνος 1 2 3 4 5 6 7 8 9 10 11 12 13 2.2 3.1 4.4 1.4 0.7 5.5 3.1 1.4 5.4 9.3 3.8 2.1 0.6 Να εξετασθεί σε επίπεδο σημαντικότητας 5% αν ο μέσος χρόνος περαίωσης μίας εργασίας σε ηλεκτρονικό υπολογιστή του Πανεπιστημίου Πειραιώς: (i) είναι ίσος ή διαφορετικός από 3 λεπτά, (ii) είναι ίσος ή υπερβαίνει τα 3 λεπτά. (i) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση της άσκησης είναι οι ακόλουθες: H 0 : 0 έναντι H1 : 0 , όπου 0 3 και είναι η άγνωστη πληθυσμιακή μέση τιμή των χρόνων περάτωσης των εργασιών. Προκειμένου να εφαρμόσουμε παραμετρικό έλεγχο για τη μέση τιμή του παραπάνω πληθυσμού, θα πρέπει πρώτα να εξετάσουμε αν τα δεδομένα που διαθέτουμε προσαρμόζονται ικανοποιητικά στην Κανονική κατανομή. Ακολουθώντας τη διαδικασία Analyze/ Nonparametric tests / 1 Sample K-S, λαμβάνουμε τον ακόλουθο πίνακα: One-Sample Kolmogorov-Smirnov Test N Normal Parameters a,b Most Extreme Differences Mean Std. Deviation Absolute Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) TIME 13 3,308 2,4274 ,149 ,149 -,132 ,539 ,933 a. Test distribution is Normal. b. Calculated from data. Όπως φαίνεται από τον παραπάνω πίνακα, η τιμή p-value για τον έλεγχο της κανονικότητας των δεδομένων είναι ίση με 0,933 > 0,05. Συνεπώς αποδεχόμαστε τη Ακαδημαϊκό Έτος 2012-2013 23 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων μηδενική υπόθεση της καλής προσαρμογής των δεδομένων στην Κανονική κατανομή. Στη συνέχεια, ακολουθώντας τη διαδικασία Analyze/compare means/one sample Ttest, κατασκευάζουμε τον ακόλουθο πίνακα One-Sample Test Test Value = 3 t TIME df ,457 12 Sig. (2-tailed) ,656 Mean Difference ,3077 95% Confidence Interval of the Difference Lower Upper -1,159 1,775 όπου παρατηρούμε ότι το p-value του παραπάνω ελέγχου για τη μέση τιμή των χρόνων περάτωσης των εργασιών στο Πανεπιστήμιο Πειραιώς είναι ίσο με 0.656, συνεπώς (σε επίπεδο σημαντικότητας 5%) δεν απορρίπτουμε τη μηδενική υπόθεση, γεγονός που σημαίνει ότι οι εργασίες στους Η/Υ του Πανεπιστημίου Πειραιώς απαιτούν κατά μέσο όρο 3 λεπτά προκειμένου να ολοκληρωθούν. (ii) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση του δεύτερου ερωτήματος της άσκησης είναι οι ακόλουθες: H 0 : 3 έναντι H 1 : 3 . Χρησιμοποιώντας τα αποτελέσματα του προηγούμενου ερωτήματος, παρατηρούμε ότι η τιμή της στατιστικής συνάρτησης που χρησιμοποιήθηκε για τον παραπάνω έλεγχο είναι ίση με 0,457. Αυτό σημαίνει ότι, δεδομένου ότι το πρόσημο της συνάρτησης είναι θετικό και ταυτόχρονα η εναλλακτική υπόθεση του μονόπλευρου ελέγχου που διεξάγουμε είναι η H 1 : 3 , η τιμή p-value του ζητούμενου ελέγχου είναι ίση με το μισό του p-value το αντίστοιχου δίπλευρου ελέγχου που διεξήχθη στο ερώτημα (i). Με άλλα λόγια, η τιμή p-value του ζητούμενου ελέγχου είναι ίση με 0.656/2 = 0.328, που σημαίνει ότι αποδεχόμαστε τη μηδενική υπόθεση. Συνεπώς συμπεραίνουμε ότι (σε επίπεδο σημαντικότητας 5%) είναι ορθότερο να πούμε ότι ο απαιτούμενος μέσος χρόνος περάτωσης μίας εργασίας σε έναν Η/Υ του Πανεπιστήμιου Πειραιά είναι στατιστικά ίσος με 3 λεπτά (δηλαδή ότι δεν διαφέρει σημαντικά από 3 λεπτά), παρά να διατυπώσουμε το συμπέρασμα ότι ο απαιτούμενος μέσος χρόνος υπερβαίνει σε σημαντικό βαθμό τα 3 λεπτά. 3.2. Έλεχγος t για Ανεξάρτητα Δείγματα 24 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Προκειμένου να συγκριθεί η απόδοση δύο διαφορετικών τύπων επεξεργαστή δεδομένων Α και Β που χρησιμοποιεί μία συγκεκριμένη εταιρία φορητών ηλεκτρονικών υπολογιστών (Φ/Η/Υ), λαμβάνονται δύο τυχαία ανεξάρτητα δείγματα μεγέθους 15 Φ/Η/Υ που χρησιμοποιούν τον επεξεργαστή Α και 11 Φ/Η/Υ που χρησιμοποιούν τον επεξεργαστή Β. Για τα δύο δείγματα Φ/Η/Υ (με τον επεξεργαστή Α και Β αντίστοιχα) έχουν καταγραφεί οι ταχύτητες επεξεργασίας δεδομένων (σε GHz) όπως φαίνεται στον ακόλουθο πίνακα. Δείγμα 1 2.15 2.22 2.31 1.90 2.11 2.70 1.87 1.91 1.99 2.04 2.08 Δείγμα 2 2.55 2.43 2.51 1.99 2.01 2.31 2.41 2.33 2.31 2.02 2.23 (i) 2.10 2.02 Να εξετασθεί σε επίπεδο σημαντικότητας 1% αν η μέση ταχύτητα επεξεργασίας των δύο επεξεργαστών Α και Β είναι ίδια ή όχι. (ii) Να εξετασθεί σε επίπεδο σημαντικότητας 1% αν η μέση ταχύτητα επεξεργασίας του επεξεργαστή Α υπερβαίνει την ταχύτητα επεξεργασίας του επεξεργαστή Β. (i) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση της άσκησης είναι οι ακόλουθες: H 0 : A B έναντι H1 : A B , όπου A , B είναι οι πληθυσμιακές μέσες ταχύτητες επεξεργασίας δεδομένων των Η/Υ με επεξεργαστή Α και Β αντίστοιχα. Τοποθετούμε τις ταχύτητες επεξεργασίας και των δύο τύπων επεξεργαστή σε μία στήλη (μεταβλητή Samples) και σε μία δεύτερη στήλη (μεταβλητή Type) τις τιμές 0 και 1 για τον επεξεργαστή Α και τον επεξεργαστή Β αντίστοιχα. Προκειμένου να εφαρμόσουμε παραμετρικό έλεγχο για τη σύγκριση των μέσων ταχυτήτων των δύο επεξεργαστών, θα πρέπει πρώτα να εξετάσουμε αν τα δεδομένα που διαθέτουμε προσαρμόζονται ικανοποιητικά στην Κανονική κατανομή. Ακολουθώντας τη διαδικασία Analyze/ Nonparametric tests / 1 Sample K-S, λαμβάνουμε τον ακόλουθο πίνακα: 25 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου 2.22 1.90 Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων One-Sample Kolmogorov-Smirnov Test N Normal Parameters a,b Most Extreme Differences SAMPLES 26 2,1777 ,22183 ,120 ,120 -,083 ,611 ,849 Mean Std. Deviation Absolute Positive Negative Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Calculated from data. Όπως φαίνεται από τον παραπάνω πίνακα, η τιμή p-value για τον έλεγχο της κανονικότητας των δεδομένων είναι ίση με 0,849 > 0,05. Συνεπώς αποδεχόμαστε τη μηδενική υπόθεση της καλής προσαρμογής των δεδομένων στην Κανονική κατανομή. Στη συνέχεια, ακολουθούμε τη διαδικασία Analyze/compare means/independent samples T-test και κατασκευάζουμε τον ακόλουθο πίνακα: Independent Samples Test Levene's Test for Equality of Variances F SAMPLES Equal variances assumed Equal variances not assumed Sig. ,057 ,813 t-test for Equality of Means t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper -2,202 24 ,038 -,18048 ,08198 -,34968 -,01129 -2,223 22,432 ,037 -,18048 ,08118 -,34866 -,01231 Από τον παραπάνω πίνακα, παρατηρούμε ότι p-value = 0.038, συνεπώς (σε επίπεδο σημαντικότητας 5%) απορρίπτουμε τη μηδενική υπόθεση, που σημαίνει ότι οι μέσες ταχύτητες επεξεργασίας των δύο επεξεργαστών διαφέρει στατιστικά σημαντικά. Αξίζει να σημειωθεί ότι διαλέξαμε το p-value της 1ης οριζόντιας γραμμής του πίνακα, καθώς ο έλεγχος ισότητας διακυμάνσεων (Levene’s test) βγάζει ως αποτέλεσμα ότι οι διακυμάνσεις των δύο δειγμάτων από τους δύο επεξεργαστές είναι στατιστικά ίσες (equal variances assumed). (ii) Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση του δεύτερου ερωτήματος της άσκησης είναι οι ακόλουθες: H 0 : A B έναντι H1 : A B , Χρησιμοποιώντας τα αποτελέσματα του προηγούμενου ερωτήματος, παρατηρούμε ότι η τιμή της στατιστικής συνάρτησης που χρησιμοποιήθηκε για τον παραπάνω έλεγχο είναι ίση με –2,202. Αυτό σημαίνει ότι, δεδομένου ότι το πρόσημο της συνάρτησης είναι αρνητικό και ταυτόχρονα η εναλλακτική υπόθεση του 26 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων μονόπλευρου ελέγχου που διεξάγουμε είναι η H1 : A B , η τιμή p-value του ζητούμενου ελέγχου είναι ίση με τη συμπληρωματική πιθανότητα από το μισό του pvalue του αντίστοιχου δίπλευρου ελέγχου που διεξήχθη στο ερώτημα (i). Με άλλα λόγια, η τιμή p-value του ζητούμενου ελέγχου είναι ίση με (1-0.038)/2 = 0.481, που σημαίνει ότι αποδεχόμαστε τη μηδενική υπόθεση. Συνεπώς συμπεραίνουμε ότι (σε επίπεδο σημαντικότητας 5%) είναι ορθότερο να πούμε ότι οι μέσες ταχύτητες επεξεργασίας των επεξεργαστών Α και Β είναι στατιστικά ίσος (δηλαδή ότι δεν διαφέρουν σημαντικά), παρά να διατυπώσουμε το συμπέρασμα ότι η μέση ταχύτητα επεξεργασίας του επεξεργαστή Α υπερβαίνει σε σημαντικό βαθμό τη μέση ταχύτητα επεξεργασίας του επεξεργαστή Β. 3.3. Έλεγχος Ανεξαρτησίας χ2 του Pearson Προκειμένου να ελεγχθεί η πιθανή εξάρτηση της εύρυθμης λειτουργίας ενός Η/Υ με το επίπεδο θερμοκρασίας που αναπτύσσεται στο εσωτερικό του, έγινε σε 20 Η/Υ καταγραφή τόσο του επιπέδου θερμοκρασίας του όσο και του αν η λειτουργία του παρουσίασε προβλήματα. Πιο συγκεκριμένα, για κάθε έναν Η/Υ γνωρίζουμε τα εξής: αν η θερμοκρασία στο εσωτερικό του ανέβηκε πάνω από ένα ανώτατο όριο (μεταβλητή Temp που για κάθε Η/Υ λαμβάνει την τιμή 0 αν η θερμοκρασία στο εσωτερικό του δεν υπερέβη το ανώτατο όριο, και την τιμή 1 σε διαφορετική περίπτωση) αν η λειτουργία του παρουσίασε δυσκολίες (μεταβλητή Status που για κάθε Η/Υ λαμβάνει την τιμή 0 αν η λειτουργία του δεν παρουσίασε δυσκολίες, και την τιμή 1 σε διαφορετική περίπτωση). Να ελεγχθεί σε επίπεδο σημαντικότητας 5% αν η εύρυθμη λειτουργία ενός Η/Υ επηρεάζεται ή όχι από το επίπεδο θερμοκρασίας που αναπτύσσεται στο εσωτερικό του. Οι δύο υποθέσεις που έρχονται σε αντιπαράθεση σύμφωνα με την εκφώνηση της άσκησης είναι οι ακόλουθες: H 0 : Η εύρυθμη λειτουργία του Η/Υ είναι ανεξάρτητη από τη θερμοκρασία έναντι H1 : Η εύρυθμη λειτουργία του Η/Υ εξαρτάται από τη θερμοκρασία. 27 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Πρόκειται για έλεγχο ανεξαρτησίας δύο κατηγορικών μεταβλητών. Ακολουθώντας τη διαδικασία Analyze / Descriptive Statistics / Crosstabs, λαμβάνουμε τους ακόλουθους πίνακες: TEMP * STATUS Crosstabulation STATUS 0 TEMP 0 1 Total Count Expected Count % within TEMP % within STATUS Count Expected Count % within TEMP % within STATUS Count Expected Count % within TEMP % within STATUS 9 7,5 64,3% 64,3% 5 6,5 41,7% 35,7% 14 14,0 53,8% 100,0% 1 5 6,5 35,7% 41,7% 7 5,5 58,3% 58,3% 12 12,0 46,2% 100,0% Total 14 14,0 100,0% 53,8% 12 12,0 100,0% 46,2% 26 26,0 100,0% 100,0% Chi-Square Tests Pearson Chi-Square Continuity Correctiona Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Value 1,330b ,576 1,340 1,279 1 1 1 Asymp. Sig. (2-sided) ,249 ,448 ,247 1 ,258 df Exact Sig. (2-sided) Exact Sig. (1-sided) ,431 ,224 26 a. Computed only for a 2x2 table b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 5,54. Όπως φαίνεται από τον παραπάνω πίνακα, η τιμή p-value = 0.249, συνεπώς (σε επίπεδο σημαντικότητας 5%) δεν απορρίπτουμε τη μηδενική υπόθεση, που σημαίνει ότι η εύρυθμη λειτουργία ενός Η/Υ δεν εξαρτάται από το επίπεδο θερμοκρασίας που αναπτύσσεται στο εσωτερικό του. 28 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 4. ΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Εταιρεία στατιστικών μελετών διεξήγαγε έρευνα για τη χρήση του κινητού τηλεφώνου σε πληθυσμό 15 ατόμων. Συγκεκριμένα κατέγραψε το μηνιαίο χρόνο ομιλίας του κάθε ατόμου στο κινητό τηλέφωνο (εξαρτημένη μεταβλητή Υ ), την ηλικία του (ανεξάρτητη μεταβλητή Χ1), το ετήσιο οικογενειακό εισόδημα του (ανεξάρτητη μεταβλητή Χ2) και τον αριθμό κλήσεων από το σταθερό του τηλέφωνο (ανεξάρτητη μεταβλητή Χ3). Τα αποτελέσματα της έρευνας δίνονται στον ακόλουθο πίνακα. Χρόνος Υ Ηλικία Χ1 Εισόδημα (σε Ευρώ) Χ2 Κλήσεις Χ3 1 80 38 16.400 0 2 25 60 16.000 5 3 67 40 17.000 4 4 190 19 25.000 17 5 30 55 17.200 2 6 39 42 16.950 9 7 24 58 13.000 6 8 121 21 20.000 16 9 89 31 18.000 8 10 99 24 19.500 10 11 12 68 19.000 3 12 230 17 20.100 12 13 170 25 21.200 15 14 205 18 26.000 13 15 10 71 22.000 1 15 15 15 15 i 1 i 1 i 1 i 1 Δίνονται : Yi 1.391, X i1 587, X i 2 287.350, X i 3 121. 4.1. Διάγραμμα Διασποράς (Scatterplot) Να γίνει το διάγραμμα διασποράς (scatterplot) μεταξύ των (Χ1, Υ), (Χ2, Υ) και (Χ3, Υ). Για κάθε ένα από τα διαγράμματα, να προσαρμοσθεί η ευθεία των ελαχίστων τετραγώνων. Σχολιάστε τα αποτελέσματα. 29 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Ξεκινώντας τη μελέτη των δεδομένων μιας έρευνας, η γραφική απεικόνιση της εξαρτημένης μεταβλητής Υ συναρτήσει των ερμηνευτικών, μας παρέχει μια πρώτη ένδειξη για την καταλληλότητα τους. Ακολουθώντας τη διαδικασία Graphs/ Scatter/Dot / Simple και τοποθετώντας τη μεταβλητή Υ στον κατακόρυφο άξονα (Y axis) και κάθε μία από τις μεταβλητές Χ1, Χ2, Χ3 διαδοχικά στον οριζόντιο άξονα (X axis), κατασκευάζουμε τα ζητούμενα γραφήματα. 4.2. Προσαρμογή Ευθείας Γραμμικής Παλινδρόμησης Να βρεθεί το καλύτερο γραμμικό μοντέλο (με βάση την αρχή ελαχίστων τετραγώνων) για την πρόβλεψη του χρόνου ομιλίας στο κινητό τηλέφωνο, χρησιμοποιώντας κάθε μία από τις ερμηνευτικές μεταβλητές Χ1, Χ2 και Χ3 χωριστά. Ποια από τις τρεις μεταβλητές (Χ1, Χ2 ή Χ3) είναι καλύτερη; Μετονομάστε την σε Χ. Ως καλύτερο γραμμικό μοντέλο κρίνεται εκείνο, στο οποίο ερμηνεύεται μεγαλύτερο ποσοστό της συνολικής μεταβλητότητας. Ακολουθώντας τη διαδικασία Analyze/ Regression / Linear και επιλέγοντας τη μεταβλητή Υ ως εξαρτημένη (Dependent) και κάθε μία από τις μεταβλητές Χ1, Χ2, Χ3 διαδοχικά ως ανεξάρτητη μεταβλητή του μοντέλου (Independent), λαμβάνουμε τους συντελεστές προσδιορισμού των τριών μοντέλων, με βάση τους οποίους καταλήγουμε στο καλύτερο μοντέλο. 4.3. Έλεγχος Κανονικότητας και Ανεξαρτησίας Σφαλμάτων Να κατασκευάσετε κατάλληλα διαγράμματα, ώστε να διαπιστώσετε γραφικά αν παραβιάζεται (i) η κανονικότητα των σφαλμάτων και (ii) η ανεξαρτησία των σφαλμάτων. (i) Είναι γνωστό ότι μία από τις βασικές προϋποθέσεις του γραμμικού μοντέλου παλινδρόμησης είναι τα σφάλματα να ακολουθούν την κανονική κατανομή. Για να ελέγξουμε γραφικά τη συγκεκριμένη υπόθεση, υπολογίζουμε τα τυποποιημένα σφάλματα (studentized residuals), ακολουθώντας τη διαδικασία Analyze/ Regression / Linear και στην επιλογή Save διαλέγουμε τα studentized residuals. Στη συνέχεια ακολουθώντας τη διαδικασία Analyze/ Descriptive Statistics / P-P Plot (Q-Q Plot) κατασκευάζουμε το P-P Plot(Q-Q Plot) επιλέγοντας ως μεταβλητή τη στήλη με τα studentized residuals και ως test distribution την κανονική κατανομή (Normal). Επιπροσθέτως, ο έλεγχος κανονικότητας των σφαλμάτων μπορεί να γίνει και με το στατιστικό τεστ Kolmogorov-Smirnov, 30 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων ακολουθώντας τη διαδικασία Analyze/ Nonparametric Tests/ 1-Sample K-S χρησιμοποιώντας ως μεταβλητή (test variable) τη στήλη με τα studentized residuals. (ii) Για να εξετάσουμε αν παραβιάζεται η ανεξαρτησία των σφαλμάτων κατασκευάζουμε διαγράμματα διασποράς, ακολουθώντας τη διαδικασία Graphs/ Scatter/Dot / Simple και τοποθετώντας τη στήλη με τα studentized residuals στον κατακόρυφο άξονα (Y axis) και κάθε μία από τις μεταβλητές Χ, Yˆ , i διαδοχικά στον οριζόντιο άξονα (X axis), όπου Yˆ είναι η στήλη με τις προβλεπόμενες τιμές της εξαρτημένης μεταβλητής Υ και i ο αύξοντας αριθμός των παρατηρήσεων. 4.4. Έλεγχοι Υποθέσεων για τις Τιμές των Παραμέτρων της Γραμμικής Παλινδρόμησης Να ελεγχθεί η ύπαρξη γραμμικής σχέσης ανάμεσα στην εξαρτημένη μεταβλητή Υ και την ανεξάρτητη μεταβλητή Χ σε επίπεδο σημαντικότητας α=5%. Ο έλεγχος για ύπαρξη γραμμικής σχέσης ανάμεσα στις μεταβλητές Χ, Υ ισοδυναμεί με τον ακόλουθο στατιστικό έλεγχο Η0: β1=0, Η1: β10. Η απόρριψη ή αποδοχή της μηδενικής υπόθεσης θα βασιστεί στο p-value του ελέγχου ή ισοδύναμα στην τιμή της στατιστικής συνάρτησης T ( x) ˆ1 s ( ˆ1 ) ή ισοδύναμα στο διάστημα εμπιστοσύνης για την παράμετρο β1. Όλα τα παραπάνω υπολογίζονται ακολουθώντας τη διαδικασία Analyze/Regression/Linear στον πίνακα Coefficients. 4.5. Σημειακή Εκτίμηση Πόσος μηνιαίος χρόνος ομιλίας Υ αναμένεται για ένα άτομο ηλικίας 45 ετών; (να γίνει σημειακή εκτίμηση και να δοθεί το διάστημα εμπιστοσύνης με συντελεστή 99%). Στο ερώτημα πρέπει να υπολογίσουμε τις προβλεπόμενες τιμές και το διάστημα εμπιστοσύνης 99% μέσης πρόβλεψης για την εξαρτημένη μεταβλητή Υ που δίνει το γραμμικό μοντέλο, ακολουθώντας τη διαδικασία Analyze/ Regression/Linear και 31 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων στην επιλογή Save διαλέγοντας τα unstandardized predicted values και Mean prediction Intervals αντίστοιχα. 4.6. Εφαρμογές / Παρουσίαση Αποτελεσμάτων Γραμμικής Παλινδρόμησης Για τα δεδομένα της ενότητας: (α) Ποια είναι περίπου η ηλικία ενός ατόμου, το οποίο χρησιμοποιεί 15 λεπτά μηνιαίως το κινητό του τηλέφωνο; Για να δώσουμε τη συγκεκριμένη απάντηση, θα εφαρμόσουμε αντίστροφη παλινδρόμηση. Το μοντέλο που έχουμε επιλέξει είναι το ακόλουθο Y ˆ 0 ˆ1 X και θέτοντας Y 15 , λύνουμε ως προς τη μεταβλητή Χ. (β) Να γίνουν οι παρακάτω έλεγχοι σε επίπεδο σημαντικότητας α=1% Η0: β1=0, Η1: β1>0 , Η0: β1=0.1, Η1: β10.1. Για τον έλεγχο Η0: β1=0, Η1: β1>0, στηριζόμενοι στον πίνακα Coefficients (ο οποίος λαμβάνεται ακολουθώντας τη διαδικασία Analyze/Regression/ Linear), αποφασίζουμε για την απόρριψη ή την αποδοχή της μηδενική υπόθεσης Η0 με βάση το p-value του μονόπλευρου ελέγχου ή τη στατιστική συνάρτηση T ( x) ˆ1 s ( ˆ1 ) . Για τον έλεγχο Η0: β1=0.1, Η1: β10.1, θέτω 1 1 0.1 , συνεπώς ο ζητούμενος έλεγχος ισοδυναμεί με τον ακόλουθο Η0: 1 0 , Η1: 1 0 . Εφαρμόζουμε το γραμμικό μοντέλο Y 0.1 X 0 ˆ1 X (έχοντας προηγουμένως δημιουργήσει τη μεταβλητή Y 0.1 X ) και παίρνουμε το p-value του παραπάνω ελέγχου. (γ) Σε ποιο σημείο Χ (μεταξύ των 15 δοθέντων) βρίσκουμε το χειρότερο διάστημα εμπιστοσύνης για την απλή πρόβλεψη και σε ποιο σημείο Χ (μεταξύ των 15 δοθέντων) 32 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων βρίσκουμε το καλύτερο διάστημα εμπιστοσύνης για τη μέση πρόβλεψη; Να αιτιολογήσετε τις απαντήσεις σας και να δώσετε τα συγκεκριμένα διαστήματα. Μελετώντας τους τύπους που δίνουν τα διαστήματα εμπιστοσύνης για απλή και μέση πρόβλεψη, παρατηρούμε ότι, όσο περισσότερο απέχει η τιμή της μεταβλητής Χ από το μέσο όρο X , τόσο αυξάνεται το εύρος του διαστήματος, που μεταφράζεται σε μείωση της ποιότητας (ακρίβειας) του. Συνεπώς το χειρότερο διάστημα για απλή πρόβλεψη παρατηρείται στην τιμή Χ=71 (πιο μακρινή από X ), ενώ το καλύτερο για μέση πρόβλεψη στο Χ=40 (πιο κοντινό στο X ) και τα λαμβάνουμε ακολουθώντας τη διαδικασία Analyze/ Regression / Linear, όπου στην επιλογή Save διαλέγουμε τα Mean (για τη μέση πρόβλεψη) και Individual (για την ατομική πρόβλεψη) Prediction Intervals διαμορφώνοντας τον κατάλληλο συντελεστή εμπιστοσύνης. (δ) Για τις μεταβλητές Χ, Υ που χρησιμοποιήθηκαν παραπάνω, εξετάστε ποιο από τα επόμενα μη γραμμικά μοντέλα είναι το καλύτερο. (i) Y 1 , 0 1 ln X (ii) Y 0 1 , X (iii) Y 0 1 X Με βάση το μοντέλο που επιλέξατε, να δοθεί διάστημα εμπιστοσύνης 90% για το μηνιαίο χρόνο ομιλίας για ένα άτομο ηλικίας 40 ετών. Σε κάθε ένα από τα τρία μη γραμμικά μοντέλα, πραγματοποιούμε τους κατάλληλους μετασχηματισμούς ώστε να καταλήξουμε σε γραμμικό μοντέλο (Ακολουθούμε τη διαδικασία Transform/Compute και επιλέγοντας το όνομα της νέας μεταβλητής (target variable) δηλώνουμε τον τρόπο υπολογισμού της (Numeric Expression)). (i) Y 1 , X ln X Y (ii) Y ln Y , X X , 0 ln 0 , 1 ln 1 (iii) X X Εκτελώντας γραμμική παλινδρόμηση για κάθε ένα από τα τρία νέα γραμμικά μοντέλα (Διαδικασία Analyze/Regression/Linear) συγκρίνουμε τις τιμές των συντελεστών προσδιορισμού τους. 33 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Για το μοντέλο που κρίνεται ως καλύτερο για πρόβλεψη της εξαρτημένης μεταβλητής Υ, υπολογίζουμε το διάστημα εμπιστοσύνης 90% για το μηνιαίο χρόνο ομιλίας για ένα άτομο ηλικίας 40 ετών Analyze/Regression/Linear/Save/Individual Prediction Interval 90%). (ε) Για τα άτομα ηλικίας έως και 45 ετών, να υπολογισθεί το διάστημα εμπιστοσύνης 95% για τον αναμενόμενο χρόνο ομιλίας στο κινητό. Για να μπορέσουμε να απαντήσουμε στο ερώτημα αυτό, θα πρέπει να απομονώσουμε από το δείγμα που διαθέτουμε, τα άτομα με ηλικία έως 45 ετών. Για να το πετύχουμε αυτό, ακολουθούμε τη διαδικασία Data/Select Cases/If Condition is satisfied και πληκτρολογώντας το κουμπί If, δηλώνουμε τη συνθήκη με βάση την οποία θα γίνει η επιλογή των παρατηρήσεων (cases) που θα παραμείνουν ενεργές στο δείγμα. Συγκεκριμένα στο ερώτημα αυτό, εισάγουμε τη συνθήκη X 45 , οπότε διαγράφονται από το δείγμα οι παρατηρήσεις στις οποίες η ηλικία X είναι μεγαλύτερη από 45, ή ισοδύναμα παραμένουν στο δείγμα οι παρατηρήσεις με ηλικία έως και 45 ετών. Στη συνέχεια για να υπολογίσουμε το διάστημα εμπιστοσύνης 95% μέσης πρόβλεψης για την εξαρτημένη μεταβλητή Υ που δίνει το γραμμικό μοντέλο, ακολουθούμε τη διαδικασία Analyze/ Regression/Linear και στην επιλογή Save διαλέγουμε τα Mean prediction Intervals. 34 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 5. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ Εταιρεία στατιστικών μελετών διεξήγαγε έρευνα για την κατανάλωση καυσίμου σε 20 αυτοκίνητα. Συγκεκριμένα κατέγραψε πόσα μίλια διανύει ένα αυτοκίνητο με την κατανάλωση ενός λίτρου καυσίμου (εξαρτημένη μεταβλητή Υ), τον κυβισμό (σε κυβικές ίντσες) της μηχανής του κάθε αυτοκινήτου (ανεξάρτητη μεταβλητή Χ1), την ιπποδύναμη (ανεξάρτητη μεταβλητή Χ2), το βάρος του σε Lbs (ανεξάρτητη μεταβλητή Χ3) και το χρόνο (σε δευτερόλεπτα) που χρειάζεται το αυτοκίνητο για να αποκτήσει ταχύτητα ίση με 60 μίλια/ώρα (ανεξάρτητη μεταβλητή Χ4). Τα αποτελέσματα της έρευνας δίνονται στον ακόλουθο πίνακα. Δίνονται : Υ Χ1 Χ2 Χ3 Χ4 Χ5 1 18 307 130 3504 12 1 2 15 350 165 3693 11,5 0 3 18 318 150 3436 11 1 4 16 304 150 3433 12 1 5 17 302 140 3449 10,5 1 6 15 429 198 4341 10 1 7 14 454 220 4354 9 0 8 14 440 215 4312 8,5 1 9 14 455 225 4425 10 0 10 15 390 190 3850 8,5 0 11 15 383 170 3563 10 1 12 14 340 160 3609 8 1 13 25 110 87 2672 17,5 0 14 15 400 150 3761 9,5 1 15 14 455 225 3086 10 1 16 24 113 95 2372 15 0 17 22 198 95 2833 15,5 0 18 18 199 97 2774 15,5 1 19 21 200 85 2587 16 1 20 27 97 88 2130 14,5 0 20 Y i i 1 (α) 20 20 20 20 i 1 i 1 i 1 i 1 351, X i1 6244, X i 2 3035, X i 3 68184, X i 4 234,5. Να εξεταστούν όλα τα δυνατά γραμμικά μοντέλα που έχουν ως ερμηνευτικές μεταβλητές κάποιες από τις X1, X2, X3, X4 και ως εξαρτημένη μεταβλητή την Y. Να 2 , iii) το MSEp . βρεθεί το καλύτερο με βάση: i) το R2, ii) το Radj 35 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων (β) Να βρεθεί το καλύτερο μοντέλο με βάση τη διαδικασία Stepwise regression και να περιγραφούν όλα τα ενδιάμεσα βήματα. (γ) Χρησιμοποιώντας τα κατάλληλα γραμμικά μοντέλα, i) να υπολογισθούν οι συντελεστές προσδιορισμού RY21.4 , RY24.1 , RY21. , RY24. , ii) να δοθεί η ερμηνεία τους (δ) Χρησιμοποιώντας το πλήρες μοντέλο, (i) να βρεθούν διαστήματα εμπιστοσύνης 95% για κάθε ένα από τα β0, β1, β2, β3, β4, (ii) να δοθεί από κοινού δ.ε. (τουλάχιστον) 95% για τα β1, β4 με τη μέθοδο Bonferroni (ε) Χρησιμοποιώντας το γραμμικό μοντέλο που αξιολογήθηκε ως το καλύτερο με βάση το R2(adj), να γίνουν οι παρακάτω έλεγχοι σε επίπεδο σημαντικότητας α=1% (i) Η0: β1=0 και β2=3, Η1: β10 ή β2 3, (ii) Η0: 3β1=β2 , Η1: 3β1β2. (στ) Χρησιμοποιώντας το πλήρες μοντέλο, να βρεθούν διαστήματα εμπιστοσύνης 95% για τη μέση και ατομική πρόβλεψη του Υ, όταν Χ1=300, Χ2=150, Χ3=2400, Χ4=9. (ζ) Θεωρούμε τη δείκτρια μεταβλητή Χ5 που λαμβάνει την τιμή 1, αν το αυτοκίνητο καταναλώνει βενζίνη και την τιμή 0, αν καταναλώνει πετρέλαιο. Χρησιμοποιώντας το γραμμικό μοντέλο που αξιολογήθηκε ως το καλύτερο με βάση τη διαδικασία Stepwise regression, (i) να βρεθεί δ.ε 95% για τον αναμενόμενο επιπρόσθετο αριθμό μιλίων Υ, που που θα διανύσει ένα βενζινοκίνητο αυτοκίνητο με κυβισμό 300 ίντσες, έναντι ενός πετρελαιοκίνητου με τον ίδιο κυβισμό, (ii) να εξετασθεί σε επίπεδο σημαντικότητας 1% αν ο αριθμός των μιλίων που θα διανύσει ένα αυτοκίνητο επηρεάζεται από το αν είναι βενζινοκίνητο ή πετρελαιοκίνητο. (η) Θεωρούμε ότι η δείκτρια Χ5 αλληλεπιδρά με τις ήδη υπάρχουσες μεταβλητές του μοντέλου, το οποίο επιλέχτηκε από τη διαδικασία Stepwise regression. Να εξετασθεί σε επίπεδο σημαντικότητας 5% αν ο αριθμός των μιλίων Υ που διανύει ένα αυτοκίνητο (με κυβισμό 390 ίντσες) με την κατανάλωση ενός λίτρου καυσίμου εξαρτάται από το αν το αυτοκίνητο καταναλώνει βενζίνη ή πετρέλαιο. Απαντήσεις (α) (i) Υπολογίζουμε το συντελεστή προσδιορισμού R2 για όλα τα δυνατά μοντέλα. Για να μειώσουμε το πλήθος των μοντέλων που θα μελετήσουμε, χρησιμοποιούμε τη 36 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων διορθωτική παρέμβαση t και προκύπτει ότι το βέλτιστο μοντέλο περιέχει τουλάχιστον τη μεταβλητή Χ1. R2 X1 0,885 X1X 2 0,899 X1X 3 0,885 X1X 4 0,887 X1X 2 X 3 0,900 X1X 2 X 4 0,904 X1X 3 X 4 0,887 X1X 2 X 3 X 4 0,904 Βέλτιστο μοντέλο με βάση το R2 είναι το ακόλουθο Y 0 1 X 1 2 X 2 4 X 4 . (ii) Υπολογίζουμε το συντελεστή προσδιορισμού R2adj για όλα τα δυνατά μοντέλα. Για να μειώσουμε το πλήθος των μοντέλων που θα μελετήσουμε, χρησιμοποιούμε τη διορθωτική παρέμβαση t και προκύπτει ότι το βέλτιστο περιέχει τουλάχιστον τη μεταβλητή Χ1. 2 Radj X1 0,878 X1X 2 0,888 X1X 3 0,871 X1X 4 0,874 X1X 2 X 3 0,881 X1X 2 X 4 0,886 X1X 3 X 4 0,866 X1X 2 X 3 X 4 0,878 37 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Βέλτιστο μοντέλο με βάση το R2adj είναι το ακόλουθο Y 0 1 X 1 2 X 2 . (iii) Υπολογίζουμε το συντελεστή προσδιορισμού MSEP για όλα τα δυνατά μοντέλα. Για να μειώσουμε το πλήθος των μοντέλων που θα μελετήσουμε, χρησιμοποιούμε τη διορθωτική παρέμβαση t και προκύπτει ότι το βέλτιστο περιέχει τουλάχιστον τη μεταβλητή Χ1. MSEp X1 2,031 X1X 2 1,874 X1X 3 2,145 X1X 4 2,103 X1X 2 X 3 1,984 X1X 2 X 4 1,907 X1X 3 X 4 2,232 X1X 2 X 3 X 4 2,031 Βέλτιστο μοντέλο με βάση το MSEp είναι το ακόλουθο Y 0 1 X 1 2 X 2 . Βήμα (β) 1. Προσαρμόζουμε όλα τα απλά γραμμικά μοντέλα Y 0 i X i , i 1,2,3,4 , και υπολογίζουμε για κάθε ένα από αυτά, την ποσότητα MSR( X i ) . MSE ( X i ) Συγκεκριμένα παίρνουμε τα αποτελέσματα F* * F1 * MSR( X 1 ) MSR( X 2 ) * 138,039 F1, 20 2 (0,05) , F2 47,888 F1, 20 2 (0,05) MSE ( X 1 ) MSE ( X 2 ) F3 MSR ( X 3 ) MSR ( X 4 ) * 48,204 F1, 20 2 (0,05) , F1 51,16 F1, 20 2 (0,05) MSE ( X 3 ) MSE ( X 4 ) Επιλέγουμε τη μεταβλητή που μεγιστοποιεί την παραπάνω ποσότητα, δηλαδή τη μεταβλητή Χ1, οπότε και την εισάγουμε στο μοντέλο. 38 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Βήμα 2. Ξεκινώντας με το μοντέλο Y 0 1 X 1 , προσαρμόζουμε όλα τα γραμμικά μοντέλα Y 0 1 X 1 i X i , i 2,3,4 και υπολογίζουμε για κάθε ένα από αυτά, την ποσότητα * Fi ,1 MSR ( X i / X 1 ) . MSE ( X i / X 1 ) Παρατηρούμε ότι για καμιά μεταβλητή η παραπάνω ποσότητα δεν υπερβαίνει την τιμή F1, 203 (0,05) , συνεπώς δεν μπορούμε να εισάγουμε στο μοντέλο άλλη μεταβλητή, με αποτέλεσμα με τη διαδικασία Stepwise Regression να καταλήγουμε στο συμπέρασμα ότι βέλτιστο μοντέλο είναι το εξής Y 0 1 X 1 . Η παραπάνω διαδικασία συνοψίζεται στον ακόλουθο πίνακα Variables Entered/Removeda Model 1 Variables Entered Variables Removed ENGINE , Method Stepwise (Criteria: Probabilit y-of-F-to-e nter <= ,050, Probabilit y-of-F-to-r emove >= ,100). a. Dependent Variable: MPG (γ) RY21.4 SSR ( X 1 / X 4 ) SSR ( X 1 , X 4 ) SSR ( X 4 ) 281,198 234,459 0,566 . SSE ( X 4 ) SSE ( X 4 ) 82,491 Αυτό σημαίνει ότι το ποσοστό της μεταβλητότητας που ερμηνεύει επιπλέον η μεταβλητή Χ1, δεδομένου ότι στο μοντέλο υπάρχει η μεταβλητή Χ4, είναι το 56,6% της μεταβλητότητας που δεν έχει ερμηνευθεί από τη Χ4. RY24.1 SSR ( X 4 / X 1 ) SSR ( X 1 , X 4 ) SSR ( X 1 ) 281,198 280,388 0,022 SSE ( X 1 ) SSE ( X 1 ) 36,562 Αυτό σημαίνει ότι το ποσοστό της μεταβλητότητας που ερμηνεύει επιπλέον η μεταβλητή Χ4, δεδομένου ότι στο μοντέλο υπάρχει η μεταβλητή Χ1, είναι το 2,2% της μεταβλητότητας που δεν έχει ερμηνευθεί από τη Χ1. 39 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων RY21. SSR( X 1 ) SSR( X 1 ) 280,388 0,8846 . 316,950 SSE SST Ο συντελεστής προσδιορισμού RY2.1 εκφράζει το ποσοστό της ανερμήνευτης μεταβλητότητας που ερμηνεύει η μεταβλητή Χ1, δεδομένου ότι στο μοντέλο δεν υπάρχει άλλη μεταβλητή. Στη συγκεκριμένη περίπτωση το ποσοστό αυτό είναι 88,46%. RY24. SSR( X 4 ) SSR( X 4 ) 234,459 0,74 . 316,950 SSE SST Ο συντελεστής προσδιορισμού RY24. εκφράζει το ποσοστό της ανερμήνευτης μεταβλητότητας που ερμηνεύει η μεταβλητή Χ4, δεδομένου ότι στο μοντέλο δεν υπάρχει άλλη μεταβλητή. Στη συγκεκριμένη περίπτωση το ποσοστό αυτό είναι 74%. Οι εκτιμήσεις ˆ1 , ˆ 4 που λαμβάνουμε για τις παραμέτρους, προσαρμόζοντας τα γραμμικά μοντέλα Y 0 1 X 1 4 X 4 , Y 0 1 X 1 , Y 0 4 X 4 δίνονται αντίστοιχα στους ακόλουθους πίνακες Coefficientsa Model 1 (Constant) ENGINE ACCEL Unstandardized Coefficients B Std. Error 24,605 4,717 -2,85E-02 ,006 ,156 ,252 Standardi zed Coefficien ts Beta -,842 ,111 t 5,216 -4,714 ,620 Sig. ,000 ,000 ,543 a. Dependent Variable: MPG Coefficientsa Model 1 (Constant) ENGINE Unstandardized Coefficients B Std. Error 27,476 ,903 -3,18E-02 ,003 Standardi zed Coefficien ts Beta -,941 t 30,430 -11,749 Sig. ,000 ,000 a. Dependent Variable: MPG 40 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Coefficientsa Model 1 (Constant) ACCEL Unstandardized Coefficients B Std. Error 3,345 2,043 1,212 ,169 Standardi zed Coefficien ts Beta ,860 t 1,637 7,153 Sig. ,119 ,000 a. Dependent Variable: MPG Η εκτίμηση για την παράμετρο 1 που παίρνουμε από το πρώτο μοντέλο είναι ˆ1 0,0285 , ενώ από το δεύτερο είναι ˆ1 0,0318 . Αντίστοιχα η εκτίμηση για την παράμετρο 4 που παίρνουμε από το πρώτο μοντέλο είναι ˆ 4 0,156 , ενώ από το τρίτο είναι ˆ 4 1,212 . Οι εκτιμήσεις αυτές διαφέρουν σημαντικά για την κάθε παράμετρο χωριστά, διότι οι μεταβλητές Χ1, Χ4 είναι ισχυρά συσχετισμένες. (δ) (i) Τα διαστήματα εμπιστοσύνης 95% για κάθε μία από τις παράμετρους β0, β1, β2, β3, β4 χωριστά, δίνονται στον ακόλουθο πίνακα a Coefficients Standardi zed Unstandardized Coefficien Coefficients ts Model B Std. Error Beta 1 (Constant) 23,106 5,390 ENGINE -3,97E-02 ,011 -1,173 HORSEPOW 3,356E-02 ,021 ,406 WEIGHT -1,74E-04 ,001 -,029 ACCEL ,199 ,250 ,141 t 4,287 -3,687 1,606 -,158 ,794 95% Confidence Interval for B Sig. Lower Bound Upper Bound ,001 11,618 34,594 ,002 -,063 -,017 ,129 -,011 ,078 ,876 -,003 ,002 ,440 -,335 ,732 a. Dependent Variable: MPG (ii) Για να κατασκευάσουμε από κοινού δ.ε (τουλάχιστον) 95% a 5% για τις παραμέτρους 1 , 4 , χρειαζόμαστε διαστήματα εμπιστοσύνης για κάθε μία από τις δύο παράμετρους με πιθανότητα σφάλματος a 2,5% . Συνεπώς τα 97,5% 2 δ.ε για τις παραμέτρους 1 , 4 δίνονται ακολούθως I 1 ( ˆ1 s ( ˆ1 ) t 20 5 ( 0,025 / 2 ), ˆ1 s ( ˆ1 ) t 20 5 ( 0,025 / 2 )) ( 3,97 10 2 0,011 2, 4 , 3,97 10 2 0,011 2, 4 ) ( 0,066 , 0,012 ) 41 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων I 4 ( ˆ 4 s ( ˆ 4 ) t 20 5 ( 0 , 025 / 2 ), ˆ 4 s ( ˆ 4 ) t 20 5 ( 0 , 025 / 2 )) ( 0 ,199 0 , 25 2 , 4 , 0 ,199 0 , 25 2 , 4 ) ( 0 , 41 , 0 , 81 ). Άρα το από κοινού 95% δ.ε για τις δύο παράμετρους είναι το εξής I 1 I 4 ( 0 , 066 , 0 . 012 ) ( 0 , 41 , 0 ,81 ) . (ε) Βέλτιστο μοντέλο με βάση το R2adj είναι το ακόλουθο Y 0 1 X 1 2 X 2 . Προσαρμόζοντας το παραπάνω μοντέλο, παίρνουμε τον ακόλουθο πίνακα Coefficientsa Model 1 Unstandardized Coefficients B Std. Error (Constant) 26,504 1,063 ENGINE -4,40E-02 ,008 HORSEPOW 3,154E-02 ,020 Standardi zed Coefficien ts Beta -1,302 ,381 t 24,937 -5,403 1,583 Sig. ,000 ,000 ,132 a. Dependent Variable: MPG Για τον παρακάτω έλεγχο σε ε.σ. 1% Η0: β1=0 και β2=3, Η1: β10 ή β2 3, εφαρμόζοντας κατάλληλο μετασχηματισμό 2 3 2 , προσαρμόζουμε το μοντέλο Y 0 1 X 1 ( 2 3) X 2 Y 3 X 2 0 1 X 1 2 X 2 και παίρνουμε τους ακόλουθους πίνακες ANOVAb Model 1 Regression Residual Total Sum of Squares 436946,3 31,866 436978,2 df 2 17 19 Mean Square 218473,167 1,874 F 116551,1 Sig. ,000a a. Predictors: (Constant), HORSEPOW, ENGINE b. Dependent Variable: YY 42 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Coefficientsa Model 1 (Constant) ENGINE HORSEPOW Unstandardized Coefficients B Std. Error 26,504 1,063 -4,40E-02 ,008 -2,968 ,020 Standardi zed Coefficien ts Beta -,035 -,967 t 24,937 -5,403 -148,947 Sig. ,000 ,000 ,000 a. Dependent Variable: YY SSR ( X 1 , X 2 ) 436946,3 2 2 F* 116551 6,11 F2,17 (0,01) άρα απορρίπτουμε τη SSE ( X 1 , X 2 ) 31,866 17 20 3 μηδενική υπόθεση Η0. Για τον παρακάτω έλεγχο σε ε.σ. 1% Η0: 3β1=β2 , Η1: 3β1β2, εφαρμόζοντας κατάλληλο μετασχηματισμό 3 1 2 2 , προσαρμόζουμε το μοντέλο Y 0 1 ( X 1 3 X 2 ) 2 ( X 2 ) , και απορρίπτουμε τη μηδενική υπόθεση (από τους αντίστοιχους πίνακες). (στ) Το δ.ε 95% για μέση πρόβλεψη είναι το εξής (14.6 , 20.5 ), ενώ το αντίστοιχο για ατομική πρόβλεψη δίνεται ακολούθως (13.37 , 21.83 ). (ζ) (i) Προσαρμόζουμε το μοντέλο Y 0 1 X 1 5 X 5 και λαμβάνουμε τον ακόλουθο πίνακα a Coefficients Standardi zed Coefficien Unstandardized ts Coefficients Model B Std. Error Beta 1 (Constant) 27,739 ,864 ENGINE -3,04E-02 ,003 -,900 X5 -1,155 ,640 -,142 t 32,122 -11,424 -1,805 95% Confidence Interval for B Sig. Lower Bound Upper Bound ,000 25,917 29,561 ,000 -,036 -,025 ,089 -2,505 ,195 a. Dependent Variable: MPG 43 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Για X 5 1 έχουμε E1 (Y ) 0 1 X 1 5 . Για X 5 0 έχουμε E 0 (Y ) 0 1 X 1 . Αφαιρώντας τις δύο σχέσεις κατά μέλη, λαμβάνουμε την ακόλουθη ισότητα 5 E1 (Y ) E0 (Y ) , συνεπώς το ζητούμενο δ.ε ταυτίζεται με το δ.ε για την παράμετρο β5, το οποίο δίνεται στον παραπάνω πίνακα και είναι το ακόλουθο 2,505 , 0,195 . (ii) Στο ερώτημα αυτό ζητείται ο ακόλουθος έλεγχος Η0: β5=0 έναντι Η1: β50. Από τον πίνακα του ερωτήματος (i), λαμβάνουμε ότι το p-value του συγκεκριμένου ελέγχου είναι ίσο με 0,089, συνεπώς σε επίπεδο σημαντικότητας 1% δεν απορρίπτουμε τη μηδενική υπόθεση και συμπεραίνουμε ότι ο αριθμός των μιλίων που θα διανύσει ένα αυτοκίνητο δεν επηρεάζεται από το αν είναι βενζινοκίνητο ή πετρελαιοκίνητο. (η) Προσαρμόζουμε το μοντέλο Y 0 1 X 1 5 X 5 6 X 1 X 5 και λαμβάνουμε τον ακόλουθο πίνακα Coefficientsa Standardi zed Unstandardized Coefficien Coefficients ts Model B Std. Error Beta 1 (Constant) 28,818 ,865 ENGINE -3,44E-02 ,003 -1,018 X5 -5,166 1,683 -,636 INTERACT1,261E-02 ,005 ,564 t 33,308 -12,264 -3,071 2,527 Sig. ,000 ,000 ,007 ,022 95% Confidence Interval for B Lower Bound Upper Bound 26,984 30,652 -,040 -,028 -8,733 -1,599 ,002 ,023 a. Dependent Variable: MPG Σε επίπεδο σημαντικότητας 5% η μεταβλητή Χ5 και η αλληλεπίδραση X 1 X 5 είναι στατιστικά σημαντικές, συνεπώς ο αριθμός των μιλίων Υ που διανύει ένα αυτοκίνητο με την κατανάλωση ενός λίτρου καυσίμου εξαρτάται από το αν το αυτοκίνητο καταναλώνει βενζίνη ή πετρέλαιο. 44 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων 6. Πέντε ΠΙΝΑΚΕΣ ΣΥΝΑΦΕΙΑΣ – ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ διαφορετικές εταιρίες κατασκευάζουν δίσκους αποθήκευσης για ηλεκτρονικούς υπολογιστές. Προκειμένου να διερευνηθεί το αν ο δίσκος αποθήκευσης λειτουργεί σε ικανοποιητικό επίπεδο για χρονικό διάστημα πέραν της εγγύησης ή όχι εξαρτάται από το ποια εταιρεία τον έχει παρασκευάσει, λαμβάνουμε τυχαίο δείγμα 200 δίσκων αποθήκευσης που έχουν παρασκευασθεί από τις παραπάνω πέντε εταιρίες και καταγράφεται για κάθε έναν από αυτούς το αν ο χρόνος ικανοποιητικής λειτουργίας τους υπερβαίνει την εγγύηση του ή όχι. Τα αποτελέσματα της έρευνας συνοψίζονται στον ακόλουθο πίνακα. ΕΤΑΙΡΙΑ ΥΠΕΡΒΑΙΝΕΙ ΤΗΝ ΕΓΓΥΗΣΗ 1 2 3 4 5 ΝΑΙ 33 24 18 11 19 ΟΧΙ 22 13 32 21 17 Να εξετασθεί σε επίπεδο σημαντικότητας 5% η ορθότητα του παραπάνω ισχυρισμού. Ακολουθώντας τη διαδικασία Analyze / Data / Weight cases δηλώνουμε ότι οι συνδυασμοί των επιπέδων των δύο παραγόντων «βαραίνουν» ανάλογα με τις συχνότητες που αυτοί παρουσιάζουν. Στη συνέχεια ακολουθώντας τη διαδικασία Analyze / Descriptive Statistics / Crosstabs καταλήγουμε στον ακόλουθο πίνακα: Chi-Square Tests Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Value 12,626a 12,797 3,569 4 4 Asymp. Sig. (2-sided) ,013 ,012 1 ,059 df 210 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 16,00. 45 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου Τ.Ε.Ι. Πειραιά Τμήμα Διοίκησης Επιχειρήσεων Για το στατιστικό έλεγχο των ακόλουθων υποθέσεων H 0 : Οι δύο παράγοντες είναι ανεξάρτητοι vs H 1 : Οι δύο παράγοντες είναι εξαρτημένοι η τιμή p value είναι ίση με 0.013, συνεπώς σε επίπεδο σημαντικότητας 5% απορρίπτουμε τη μηδενική υπόθεση με αποτέλεσμα να συμπεράνουμε ότι το αν ο δίσκος αποθήκευσης λειτουργεί σε ικανοποιητικό επίπεδο για χρονικό διάστημα πέραν της εγγύησης ή όχι εξαρτάται από το ποια εταιρεία τον έχει παρασκευάσει. 46 Ακαδημαϊκό Έτος 2012-2013 Ιωάννης Σ. Τριανταφύλλου
© Copyright 2024 Paperzz