Εργασία - Stavros VAKEROUDIS

ΜΑΣ 452 - ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ ΙΙ
ΕΡΓΑΣΙΑ ΣΤΗΝ
R ΄Η ΣΤΗΝ SPSS
Διδάσκων: Σταύρος Βακερούδης
ΗΜΕΡΟΜΗΝΙΑ ΠΑΡΑΔΟΣΗΣ: 11 ΦΕΒΡΟΥΑΡΙΟΥ 2015
Οδηγίες:
• Η κάθε Ομάδα θα αποτελείται από 3 ή 4 άτομα (ένα από τα οποία θα ορίζεται ως αρχηγός). Οι ομάδες
και οι αρχηγοί θα πρέπει να δηλωθούν το ΑΡΓΟΤΕΡΟ μέχρι τις 2 ΦΕΒΡΟΥΑΡΙΟΥ 2015
είτε δηλώνοντας τα ονόματα στον διδάσκοντα είτε στέλνοντάς του ηλεκτρονικό μήνυμα στη διεύθυνση
[email protected].
Σε κάθε ομάδα αντιστοιχεί ένας αριθμός σύμφωνα με τα τρία τελευταία ψηφία του αριθμού φοιτητικής
ταυτότητας του αρχηγού (π.χ. στην ομάδα με αρχηγό με ΑΦΤ 996892 αντιστοιχεί το 892). Αυτός ο
αριθμός καθορίζει τα δεδομένα που θα χρησιμοποιήσει η ομάδα. Αν η ομάδα χρησιμοποιήσει λάθος
δεδομένα η εργασία της δε θα αξιολογηθεί.
Η κάθε ομάδα θα χρησιμοποιήσει ένα υποσύνολο 100 εγγραφών με αρχή την
εγγραφή που αντιστοιχεί στα τρία τελευταία ψηφία του ΑΦΤ του αρχηγού π.χ.
για ΑΦΤ 996892, τα δεδομένα που θα πρέπει να χρησιμοποιήσει η ομάδα είναι
για τις γραμμές από 892 ως και 991 (απλά μαρκάρετε και διαγράψετε τις άλλες
γραμμές στο αρχείο). Το αρχείο των δεδομένων ονομάζεται Data και θα το
βρείτε στην ιστοσελίδα https://svakeroudis.wordpress.com/) στο σύνδεσμο του
μαθήματος.
• Η εργασία θα πρέπει:
(i) Να είναι ομαδική. Η συνεργασία μεταξύ ομάδων όπως και η αντιγραφή απαγορεύονται.
(ii) Στην αρχή να αναφέρεται το όνομα και ο ΑΦΤ του αρχηγού και να ακολουθούν τα ονόματα των
μελών της ομάδας.
(iii) Να περιέχει τις απαντήσεις και λύσεις με σχόλια, όπως ζητούνται και με τη σειρά που ζητούνται.
(iv) Τα γραφήματα και οι πίνακες αποτελεσμάτων από την R ή την SPSS να παρουσιάζονται με τη
σειρά που ζητούνται και σε κατάλληλα σημεία μέσα στο κείμενο της εργασίας.
(v) Το κάθε γράφημα από την R ή την SPSS θα πρέπει να έχει στον τίτλο τον ΑΦΤ του αρχηγού
και ο κάθε πίνακας από την R ή την SPSS θα πρέπει να έχει στην επικεφαλίδα τον ΑΦΤ του
αρχηγού.
(vi) Η εργασία θα πρέπει να είναι γραμμένη στον υπολογιστή σε πρόγραμμα επεξεργασίας κειμένου,
όπως Word, LaTeX κτλ.
• Για να αξιολογηθεί η εργασία ο αρχηγός θα πρέπει να στείλει με ηλεκτρονικό ταχυδρομείο το αρχείο της
εργασίας ως συνημμένο στη διεύθυνση [email protected] ή να την παραδώσει τυπωμένη
το ΑΡΓΟΤΕΡΟ μέχρι τις 11 ΦΕΒΡΟΥΑΡΙΟΥ 2014. Σε περίπτωση που η εργασία σταλεί
ηλεκτρονικά, το όνομα του αρχείου θα πρέπει να είναι stat<ΑΦΤ>.doc, όπου το <ΑΦΤ> θα πρέπει
να αντικατασταθεί με τον αριθμό ΑΦΤ (χωρίς τις ανισότητες), και doc δηλώνει ότι είναι γραμμένο σε
Word (αλλιώς με κάποιο άλλο κωδικό μορφής αρχείου, π.χ. docx, pdf, ps). Για παράδειγμα για ομάδα
με αρχηγό με ΑΦΤ 996892 το αρχείο σε Ωορδ θα πρέπει να έχει το όνομα στατ996892.δος.
1
Εργασία (15 μονάδες):
Περιγραφή προβλήματος:
Πιστεύεται πως η έκλυση καυσαερίων αυξάνει με την παλαιότητα του οχήματος. Μελετήσαμε ένα μεγάλο
δείγμα από επιβατικά αυτοκίνητα και καταγράψαμε την ηλικία τους και την έκλυση υδρογονανθράκων (hydrocarbon, HC) το έτος 2009. Οι μετρήσεις επαναλήφθηκαν στα ίδια αυτοκίνητα 2 έτη αργότερα. Θέλουμε
με βάση αυτό το δείγμα να διερευνήσουμε αν πράγματι η έκλυση του καυσαερίου Η῝ εξαρτάται από την ηλικία
του αυτοκινήτου και κατά πόσο η μέση έκλυση Η῝ μεταβλήθηκε από το 2009 στο 2011. Επίσης θέλουμε να
διερευνήσουμε αν αυτή η αλλαγή στην έκλυση HC από το 2009 στο 2011 είναι ίδια για αυτοκίνητα χωρισμένα
σε τρεις ηλικιακές κατηγορίες (σχετικά νέα, μέσης παλαιότητας και μεγάλης παλαιότητας). Τα δεδομένα
δίνονται στο αρχείο Data.xls.
Υπάρχουν 4 μετρήσεις (στήλες) για 1100 αυτοκίνητα (γραμμές). Οι μετρήσεις αναφέρονται στα παρακάτω
μεγέθη:
•
age2009
: η ηλικία του αυτοκινήτου το 2009.
•
HC2009
: η έκλυση
•
age2011
: η ηλικία του αυτοκινήτου το 2011 (οι τιμές στη στήλη
•
HC2011
: η έκλυση
HC
HC
(σε
ppm)
του αυτοκινήτου το 2009.
age2009
αυξημένες κατά 2).
του αυτοκινήτου το 2011.
Χρησιμοποιώντας τα δεδομένα που αντιστοιχούν στην ομάδα σας (όπως περιγράφηκε παραπάνω), να απαντήσετε στα παρακάτω ερωτήματα.
Μέρος Α:
Πρώτα θα διερευνήσετε αν η έκλυση HC ενός αυτοκινήτου εξαρτάται από την ηλικία του αυτοκινήτου. Αυτό
θα γίνει για τα δεδομένα του 2009 και του 2011 ξεχωριστά.
(i) Σχεδιάστε το διάγραμμα διασποράς της έκλυσης HC ως προς την ηλικία του αυτοκινήτου για το
2009. Υπολογίστε το συντελεστή συσχέτισης μεταξύ έκλυσης HC και ηλικίας αυτοκινήτου. Με
βάση το διάγραμμα διασποράς και το συντελεστή συσχέτισης, σχολιάστε αν φαίνεται να υπάρχει
συσχέτιση μεταξύ της έκλυσης HC με την ηλικία του αυτοκινήτου για το 2009.
(ii) Υπολογίστε το μοντέλο γραμμικής παλινδρόμησης με τη μέθοδο ελαχίστων τετραγώνων για τη
γραμμική εξάρτηση της έκλυσης HC από την ηλικία του αυτοκινήτου για το 2009.
(iii) Αν είναι δυνατόν, με το μοντέλο γραμμικής παλινδρόμησης, κάνετε πρόβλεψη της έκλυσης
αυτοκινήτου ηλικίας 10, 15 και 25 ετών.
HC
ενός
(iv) Επαναλάβετε τα ερωτήματα (i)-(iii) για το έτος 2011. Σχολιάστε κατά πόσο αλλάζει η συσχέτιση
μεταξύ ηλικίας αυτοκινήτου και έκλυσης HC καθώς και το μοντέλο γραμμικής παλινδρόμησης. Είναι
οι προβλέψεις στο ερώτημα (iii) ίδιες για τα έτη 2009 και 2011;
Μέρος Β:
Σε αυτό το μέρος θα διερευνήσετε αν η έκλυση HC ενός αυτοκινήτου έχει αλλάξει από το 2009 στο 2011.
Η διερεύνηση αυτή θα γίνει πρώτα ξεχωριστά σε τρία μέρη που θα διαχωρίσετε το κάθε δείγμα (για το έτος
2009 και 2011 ξεχωριστά) που αντιστοιχούν στις ηλικιακές κατηγορίες αυτοκινήτου: α) κάτω των 9 ετών,
β) από 9 ως 12 ετών και γ) από 12 ετών και άνω. Στη συνέχεια η διερεύνηση θα γίνει σε όλο το δείγμα σας
για το έτος 2009 και το 2011.
(i) Για το δείγμα έκλυσης HC του 2009 και 2011 στην πρώτη ηλικιακή κατηγορία αυτοκινήτου,
υπολογίστε τα μέτρα κεντρικής τάσης (μέση τιμή και διάμεσο) και μεταβλητότητας (διασπορά, τυπική
απόκλιση, εύρος δεδομένων, πρώτο και τρίτο τεταρτημόριο). Σχηματίστε τα δύο θηκογράμματα
(box plot) μαζί σε ένα σχήμα. Με βάση τα θηκογράμματα και τα συνοπτικά μέτρα σχολιάστε την
κατανομή της έκλυσης HC το 2009 και 2011 στην πρώτη ηλικιακή κατηγορία αυτοκινήτου, καθώς και
αν διαφέρουν οι δύο κατανομές ως προς το κέντρο και τη μεταβλητότητα τους.
(ii) Με βάση τα δύο δείγματα για το έτος 2009 και 2011 για την πρώτη ηλικιακή κατηγορία αυτοκινήτου
διερευνείστε αν διαφέρει η μέση έκλυση HC. Θεωρείστε ότι η τυπική απόκλιση της έκλυσης HC
2
για το έτος 2009 και 2011 δε διαφέρει σημαντικά αλλά είναι άγνωστη. Σύμφωνα με τις παραπάνω
προϋποθέσεις υπολογίστε το κατάλληλο 95% δ.ε. για να εκτιμήσετε αν η μέση έκλυση HC για
την πρώτη ηλικιακή κατηγορία αυτοκινήτου έχει αλλάξει από το έτος 2009 στο έτος 2011. Αν έχει
αλλάξει εκτιμείστε επίσης πόση είναι αυτή η διαφορά. Ποια p-τιμή σας δίνει ο αντίστοιχος έλεγχος
υπόθεσης;
(iii) Επαναλάβετε τα ερωτήματα (i) και (ii) για τις άλλες δύο ηλικιακές κατηγορίες αυτοκινήτου. Συγκρίνετε και σχολιάστε τα συμπεράσματα σας για τις τρεις ηλικιακές κατηγορίες αυτοκινήτου.
Φαίνεται να υπάρχουν διαφορές στη μέση έκλυση HC το 2009 και 2011 στις τρεις ηλικιακές κατηγορίες
αυτοκινήτου; Συμφωνούν ενδεχομένως αυτές οι διαφορές στις τρεις ηλικιακές κατηγορίες αυτοκινήτου;
(iv) Επαναλάβετε τα ερωτήματα (i) και (ii) για τα συνολικά δείγματα 100 εγγραφών της έκλυσης Η῝
το 2009 και 2011 (από όλες τις ηλικιακές κατηγορίες αυτοκινήτου). Συγκρίνετε και σχολιάστε
τα συμπεράσματα σας από το συνολικό δείγμα με τα αποτελέσματα για τις τρεις ηλικιακές κατηγορίες.
Φαίνεται να υπάρχουν οι ίδιες διαφορές στη μέση έκλυση HC το 2009 και 2011 είτε εξετάζοντας την
στο συνολικό δείγμα ή στα δείγματα των τριών ηλικιακών κατηγοριών;
3