ΚΕΦΑΛΑΙΟ Α Α.1. ΕΙΣΑΓΩΓΗ Μάιος του 1981 στη Γαλλία. Όλες οι ∆ηµοσκοπήσεις που έχουν γίνει για να προβλεφθεί το αποτέλεσµα των Προεδρικών εκλογών, δείχνουν πως το εκλογικό σώµα είναι µοιρασµένο ανάµεσα στους δύο υποψηφίους, τον συντηρητικό Valery Giscard D'Estaing και τον Σοσιαλιστή Francois Mitterand. Η εκλογική βραδιά προβλέπεται δύσκολη. Στις ειδήσεις των 6 (µ.µ.) του 1ου Κρατικού καναλιού της Γαλλικής τηλεόρασης και ενώ οι κάλπες κλείνουν για τους ψηφοφόρους στις 8 µ.µ., ο παρουσιαστής δηλώνει: Η εταιρεία Sofres, που έχει αναλάβει τη Στατιστική ανάλυση για το Κανάλι µας, µε έρευνα που έκανε έξω από κάποια εκλογικά τµήµατα, προσεκτικά επιλεγµένα από την εταιρεία, έχει καταλήξει στην πρόβλεψή της! Εποµένως εµείς ξέρουµε το όνοµα του εποµένου Προέδρου της ∆ηµοκρατίας, δεν µπορούµε όµως να σας τον ανακοινώσουµε πριν από το κλείσιµο και της τελευταίας κάλπης! Στο δελτίο των 8 θα σας ανακοινώσουµε το όνοµά του. Πράγµατι στο δελτίο των 8, λίγα δευτερόλεπτα µετά το κλείσιµο των εκλογικών κέντρων, η Γαλλική τηλεόραση ανακοινώνει την πρόβλεψή της: Πρόεδρος εκλέγεται ο Francois Mitterand µε ποσοστό 50.5 % !!! Περίπου µια ώρα αργότερα και ενώ ελάχιστα επίσηµα αποτελέσµατα έχουν φθάσει στο Υπουργείο, ο Valery Giscard D'Estaing µε επίσηµη δήλωσή του συγχαίρει τον αντίπαλό του, για την εκλογή του, βασιζόµενος στην πρόβλεψη της εταιρείας. Το τελικό αποτέλεσµα ήταν πολύ κοντά στην πρόβλεψη... 2 Το πιο πάνω γεγονός δεν είναι παρά ένα µικρό παράδειγµα των "θαυµάτων" που µπορούν να επιτευχθούν από την Επιστήµη της Στατιστικής, σαν προϊόν της συνεργασίας της µε άλλες Επιστήµες όπως η Πληροφορική, η Αριθµητική Ανάλυση, η Κοινωνιολογία, η Ιατρική κ.λ.π.. Η Ιστορία της Στατιστικής όµως ξεκινά από την Αρχαιότητα, σαν καταγραφή πληθυσµών. Μια τέτοια απογραφή ήταν απαραίτητη στους ηγεµόνες των εθνών έτσι ώστε να είναι δυνατή η διοίκηση των πληθυσµών τους, αλλά και η αφαίµαξή τους από τις φορολογικές και τις στρατολογικές υπηρεσίες. Βέβαια, η Στατιστική χρησιµοποιείτο και χρησιµοποιείται, συνειδητά ή ασυνείδητα, απ’όλους µας, κάθε φορά που προσπαθούµε να προβλέψουµε κάποιο γεγονός, βασιζόµενοι στην προηγούµενη εµπειρία µας. Για παράδειγµα προσπαθούµε να προβλέψουµε την αλλαγή του καιρού, από τα τρέχοντα µετεωρολογικά φαινόµενα, ή από τη συµπεριφορά των πουλιών και των εντόµων, ή από τις ενοχλήσεις ενός παλαιού τραύµατος κ.ο.κ.. Για πάρα πολλά χρόνια η Στατιστική είχε απογραφικό χαρακτήρα, ή χαρακτήρα συστηµατοποίησης και συνοπτικής παρουσίασης πληροφοριών. Από τα µέσα όµως του 18ου αιώνα εξελίσσεται σε Επιστήµη, µε τη δηµιουργία Θεωρίας, η οποία προσπαθεί, πέρα από την καταγραφή και συστηµατοποίηση πληροφοριών, να κατανοήσει και να ερµηνεύσει Φυσικά, Βιολογικά, Κοινωνικά ή Οικονοµικά φαινόµενα, χρησιµοποιώντας την Επαγωγική και την Αναγωγική µέθοδο. Πρόκειται για τις µεθόδους συναγωγής συµπερασµάτων από το µερικό στο γενικό και από το γενικό στο µερικό, οι οποίες βέβαια χρησιµοποιούνται από τον καθένα µας καθηµερινά. Έτσι για παράδειγµα όταν το αυτοκίνητο που αγοράσαµε εµφανίζει πολλά και σηµαντικά ελαττώµατα, πιστεύουµε πως τα αυτοκίνητα της εν λόγω εταιρείας είναι εν γένει προβληµατικά (από το µερικό στο γενικό). Από την άλλη, µε βάση την αντίληψη που κυριαρχεί, σύµφωνα µε την οποία τα αυτοκίνητα της τάδε εταιρείας είναι αξιόπιστα, πιστεύουµε πως και το δικό µας αυτοκίνητο (της ίδιας εταιρείας) δεν πρόκειται να µας αφήσει στο δρόµο (από το γενικό στο µερικό). 3 Ταυτόχρονα η ανάπτυξη της θεωρίας των Πιθανοτήτων έδωσε µια σηµαντική ώθηση στη Στατιστική, που γνώρισε µια σηµαντική άνθιση κατά το 19ο αιώνα, για να λάβει τις διαστάσεις της Επιστήµης-κλειδί για όλες τις άλλες Επιστήµες, Θετικές και Θεωρητικές. Σήµερα πλέον δεν νοούνται σπουδές σε τριτοβάθµιο Ίδρυµα που να µην περιλαµβάνουν και την εκτεταµένη µελέτη της Στατιστικής, τουλάχιστον στην εφαρµοσµένη της µορφή. Το βιβλίο αυτό ξεκίνησε αρχικά να γράφεται για να υποστηρίξει τα µαθήµατα της Στατιστικής Ι και ΙΙ των Ι.Ε.Κ., µε τη µορφή σηµειώσεων, και να διαπραγµατεύεται κατά βάση τα αντικείµενα του αναλυτικού τους προγράµµατος. Στη συνέχεια όµως θελήσαµε να εξελιχθεί σε βιβλίο Στατιστικής, που απευθύνεται σ’αυτούς που χρειάζονται τη Στατιστική σαν εργαλείο, χωρίς όµως να έχουν τις Μαθηµατικές γνώσεις που απαιτούνται για µια πληρέστερη προσέγγιση µ’αυτήν. Έτσι λοιπόν θα µπορούσε ο τίτλος του συγγράµµατος αυτού να είναι: «Μαθαίνοντας Στατιστική». Η λογική αυτή µας επέτρεψε να ξεπεράσουµε σε ένα βαθµό την απόλυτη Μαθηµατική τεκµηρίωση, επιµένοντας ιδιαίτερα στο να γίνονται κατανοητές οι βασικές έννοιες που διαπραγµατευόµαστε, µε τη βοήθεια απλών πρακτικών παραδειγµάτων. Στα πλαίσια του πρώτου τεύχους θα κάνουµε µια πρώτη γνωριµία µε το απογραφικό τµήµα της Στατιστικής, µε εκείνο δηλαδή το τµήµα που καταγράφει, συστηµατοποιεί και συνοψίζει πληροφορίες και δεδοµένα. Αξίζει τέλος να τονισθεί πως οι Μαθηµατικές γνώσεις που απαιτούνται για την παρακολούθηση του µαθήµατος αυτού είναι ελάχιστες. Θα µπορούσαµε µάλιστα να πούµε πως οι γνώσεις των Μαθηµατικών του Γυµνασίου είναι κατά βάση αρκετές. Θεσσαλονίκη 1996 4 Α.2. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΗΣ ΣΤΑΤΙΣΤΙΚΗΣ A.2.1. Πληθυσµός και τυχαίες µεταβλητές. Συχνά εξετάζουµε τα στοιχεία ενός συνόλου ως προς µία ιδιότητά τους και ζητούµε να προσδιορίσουµε το βαθµό στον οποίο ισχύει, ή δεν ισχύει η εν λόγω ιδιότητα σε κάθε ένα απ' αυτά. Για παράδειγµα µας ενδιαφέρει: (i) το ύψος των ατόµων ενός συνόλου, (ii) η πολιτική προτίµηση των ψηφοφόρων µιας εκλογικής περιφέρειας, (iii) ο τελικός βαθµός που πέτυχαν σ' ένα µάθηµα οι σπουδαστές ενός τµήµατος, (iv) η χάρις και η καλαισθησία µε την οποία διακόσµησε το σπίτι του, καθένας από τους φίλους µας, (v) το αν υγιαίνει ή ασθενεί το κάθε άτοµο µίας πληθυσµιακής οµάδας, (vi) το ποσοστό ευστοχίας σε προσπάθειες των δύο πόντων του κάθε παίκτη µπάσκετ της Α1 κατηγορίας, (vii) το χρώµα των µαλλιών ή των µατιών µιας οµάδας ανθρώπων, (iix) το αν είναι ελαττωµατικό ή όχι το κάθε αυτοκίνητο µιας εταιρείας, κ.λ.π. Παρατηρήσεις: 1η) Στα παραπάνω παραδείγµατα παρατηρούµε πως υπάρχουν ιδιότητες, οι οποίες: α) που µπορούν να καταµετρηθούν και που συχνά αποκαλούνται καταµετρήσιµες (όπως το ύψος, το ποσοστό ευστοχίας κλπ.), β) που έχουν µόνο δύο δυνατές εκδοχές (υγιής-ασθενής), γ) άλλες που δίνονται µόνο µε ποιοτικούς χαρακτηρισµούς (π.χ. χρώµα οφθαλµών), δ) ενώ τέλος υπάρχουν και κάποιες που περιγράφονται µε ποιοτικούς χαρακτηρισµούς, αλλά µε τρόπο υποκειµενικό (οµορφιά, χάρις, καλαισθησία κ.λ.π.). 5 2η) Όλες οι παραπάνω ιδιότητες αναφέρονται στα στοιχεία ενός συνόλου, το οποίο ονοµάζεται σύνολο αναφοράς ή πιο συχνά πληθυσµός. Αξίζει όµως εδώ να παρατηρήσουµε πως συχνά η διατύπωση της χαρακτηριστικής ιδιότητας για την οποία ενδιαφερόµαστε καθορίζει και το γενικό αυτό σύνολο. Ένας πολιτευτής της Α' εκλογικής περιφέρειας της Θεσσαλονίκης, για παράδειγµα, ενδιαφέρεται για τις πολιτικές προτιµήσεις των ψηφοφόρων της περιφέρειας αυτής και όχι για το σύνολο των Ελλήνων ψηφοφόρων. Εάν µάλιστα ενδιαφέρεται πρώτιστα για τη δική του εκλογή, τότε ο πληθυσµός στον οποίο αναφέρεται είναι το σύνολο των ψηφοφόρων της παράταξής του, µια και απ'αυτούς θα σταυροδοτηθεί. Εποµένως αυτοί αποτελούν το σύνολο αναφοράς του. Όµοια εάν κάποιος επιχειρηµατίας ενδιαφέρεται να διαφηµισθεί από την τελεόραση στο κοινό της Θεσσαλονίκης, τότε θα διαλέξει το τηλεοπτικό κανάλι µε τη µεγαλύτερη θεαµατικότητα στο κοινό της Θεσσαλονίκης, αδιαφορώντας για το ποσοστό της θεαµατικότητάς του πανελλήνια. 3η) Είναι φανερό πως στο ίδιο γενικό σύνολο (πληθυσµό) είναι δυνατό να µας ενδιαφέρουν περισσότερες από µία χαρακτηριστικές ιδιότητες. Για παράδειγµα, σε ένα σύνολο ατόµων µπορούµε να µελετήσουµε ταυτόχρονα: το βάρος, το ύψος, το χρώµα των µαλλιών, το δείκτη ευφυίας κ.λ.π. του κάθε ατόµου του πληθυσµού. 4η) Στη συνέχεια και εφ'όσον δεν γίνεται ιδιαίτερη αναφορά, θα αναφερόµαστε σε καταµετρήσιµες τυχαίες µεταβλητές. Ορισµός A.1. Μία χαρακτηριστική ιδιότητα της οποίας τα ποσοτικά ή τα ποιοτικά χαρακτηριστικά µεταβάλλονται από στοιχείο σε στοιχείο ενός γενικού συνόλου λέγεται τυχαία µεταβλητή. Το γενικό σύνολο στο οποίο µας ενδιαφέρει η µελέτη των χαρακτηριστικών µιας τυχαίας µεταβλητής το αποκαλούµε πληθυσµό. Παράδειγµα: Μία τυχαία µεταβλητή συµβολίζεται συνήθως µε κεφαλαία γράµµατα, συνοδευόµενα από ένα δείκτη: Χi, Yj κ.λ.π. 6 Έτσι µε το Xi συµβολίζεται η τιµή που παίρνει η τυχαία µεταβλητή Χ στο i-οστό άτοµο του πληθυσµού. Εάν υποθέσουµε λοιπόν πως επιλέγουµε σαν τυχαία µεταβλητή το ύψος του κάθε ατόµου ενός πληθυσµού, γράφοντας πως: Χ12 = 173 cm, δηλώνουµε πως το ύψος του δωδεκάτου ατόµου είναι 1.73 m. A.2.2. Έρευνα απογραφής και έρευνα δειγµατοληψίας. Με τον όρο απογραφή καθορίζουµε την καταγραφή των τιµών µιας τυχαίας µεταβλητής σ'όλα τα στοιχεία (άτοµα) ενός πληθυσµού. Η απογραφή είναι ο ασφαλέστερος τρόπος για να µάθουµε µε ακρίβεια την συµπεριφορά του πληθυσµού, ως προς τη συγκεκριµένη τυχαία µεταβλητή. Όµως παρουσιάζει µία σειρά από µειονεκτήµατα, όπως το ότι: i) είναι δαπανηρή και χρονοβόρα διαδικασία, ιδιαίτερα στην περίπτωση που ο πληθυσµός της Στατιστικής έρευνας είναι µεγάλος. ii) απαιτεί την ύπαρξη ενός µεγάλου επιτελείου συνεργατών, µε αποτέλεσµα ένα µέρος της ακρίβειάς της να "δαπανάται" στα διάφορα λάθη που µοιραία θα συµβούν σε µια τόσο εκτεταµένη διαδικασία. Θυµίζουµε πως σε Εθνικό επίπεδο έχουµε την απογραφή πληθυσµού κάθε 10 χρόνια και την απογραφή των πολιτικών προτιµήσεων των ενήλικων πολιτών κάθε 4 χρόνια, συνήθως, µε τη µορφή των Βουλευτικών Εκλογών. Αποφασίζουµε λοιπόν να µην διεξάγουµε µια έρευνα απογραφής όταν: i) δεν υπάρχουν τα απαιτούµενα χρονικά µας περιθώρια, ii) δεν υπάρχουν οι αναγκαίοι οικονοµικοί πόροι, iii) δεν υπάρχουν τα απαραίτητα τεχνικά δεδοµένα (συνεργεία κ.λ.π.), iv) δεν είναι απαραίτητη η µεγάλη ακρίβεια των αποτελεσµάτων. Ας υποθέσουµε τώρα πως δεν έχουµε τις τεχνικές και οικονοµικές δυνατότητες για την πραγµατοποίηση µιας απογραφικής έρευνας, ενώ συνεχίζουµε να θέλουµε να ξέρουµε τη συµπεριφορά της τυχ. µεταβλητής στα άτοµα ενός πληθυσµού. Τότε αποφασίζουµε να µελετήσουµε την συµπεριφορά της τυχαίας µεταβλητής που µας ενδιαφέρει, σε ένα τµήµα του πληθυσµού, το οποίο ονοµάζουµε δείγµα. Στη συνέχεια, βασιζόµενοι στα αποτελέσµατα που 7 πετύχαµε κατά τη µελέτη του δείγµατος, προσπαθούµε να εκτιµήσουµε την συµπεριφορά της τυχαίας µεταβλητής σ' ολόκληρο τον πληθυσµό. Προσπαθούµε δηλαδή, προβάλλοντας τα αποτελέσµατα του επιλεγµένου δείγµατος πάνω στον πληθυσµό, να γενικεύσουµε τα συµπεράσµατα. Ορισµός Α.2. Κάθε υποσύνολο του πληθυσµού µίας Στατιστικής µελέτης, λέγεται δείγµα. Η διαδικασία επιλογής των στοιχείων ενός δείγµατος ονοµάζεται δειγµατοληψία, ενώ οι µέθοδοι µε τις οποίες επιλέγονται τα στοιχεία ενός δείγµατος λέγονται µέθοδοι δειγµατοληψίας. Το πρόβληµα όµως της αναγωγής στο γενικό (πληθυσµό) από το µερικό (δείγµα), δεν είναι καθόλου απλό. Αντίθετα, αποτελεί ένα από τα κυριότερα προβλήµατα µε τα οποία ασχολείται η Στατιστική. Με κάποιες όψεις του θέµατος αυτού, θα ασχοληθούµε σε επόµενα κεφάλαια. Ακόµη ένα σηµαντικό και σύνθετο πρόβληµα είναι κι'αυτό που αφορά στις µεθόδους της δειγµατοληψίας. Στις επόµενες παραγράφους θα θίξουµε τηλεγραφικά το πρόβληµα αυτό. Ο αναγνώστης βέβαια που θα θελήσει κάποια στιγµή να ασχοληθεί σοβαρά µε τη Στατιστική θα πρέπει να συµβουλευτεί κάποια από τα πολλά βιβλία που διαπραγµατεύονται τις µεθόδους δειγµατοληψίας, τους τρόπους τυχαιοποίησης, διαστρωµάτωσης του πληθυσµού, την κατάστρωση ερωτηµατολογίων κ.λ.π.. Α.2.3. Καθορισµός του πληθυσµού και της δειγµατικής µονάδας. Όπως αναφέρθηκε στην αρχή του 1ου κεφαλαίου, ένα από τα κεντρικά προβλήµατα στην διερεύνηση της συµπεριφοράς µιας τυχαίας µεταβλητής στα άτοµα ενός πληθυσµού, είναι ο σωστός καθορισµός αυτού ακριβώς του πληθυσµού. Οι πρακτικές δυσκολίες του προβλήµατος αυτού είναι πολύ µεγάλες. Για παράδειγµα θα αναφερθούµε στον κύριο Χ, που είναι υποψήφιος ∆ήµαρχος Θεσσαλονίκης. Ενδιαφέρεται για την καταµέτρηση της πολιτικής του επιρροής στους ψηφοφόρους της πόλης του. Είναι όµως δύσκολο να βρεί έναν ολοκληρωµένο και ενηµερωµένο κατάλογό τους. 8 Πολλές φορές επίσης είναι ιδιαίτερα δύσκολο να καθορίσουµε, ακόµη και θεωρητικά, τον πληθυσµό της έρευνάς µας. Σαν παράδειγµα µπορούµε να αναφέρουµε την έρευνα που έκανε στα τέλη της δεκαετίας του '80 το Υπουργείο Παιδείας σε κάποια Τ.Ε.Ι., προκειµένου να διαπιστώσει την γενική απόδοση των σπουδαστών, αλλά και να συγκρίνει τις επιδόσεις των σπουδαστών που προέρχονται από τα Τεχνικά Λύκεια (χωρίς να περάσουν την διαδικασία των εισαγωγικών), µ'αυτή των αποφοίτων των Γενικών Λυκείων. Ο προσδιορισµός του πληθυσµού για την έρευνα αυτή µπορεί να γίνει κατά πολλούς τρόπους. Αρχικά θα πρέπει να αποφασίσουµε για το εάν η εν λόγω έρευνα θα περιλάβει όλους τους σπουδαστές, ανεξάρτητα από το εξάµηνο στο οποίο βρίσκονται, ή εάν ο πληθυσµός της θα περιέχει τους σπουδαστές που επέτυχαν στα Τ.Ε.Ι. ένα συγκεκριµένο σχολικό έτος (π.χ. το έτος 1986-87). Αλλά και στην περίπτωση που αποφασίσουµε να "παρακολουθήσουµε" την πορεία των σπουδαστών ενός σπουδαστικού έτους, έχουµε επίσης πολλούς τρόπους να ορίσουµε τον πληθυσµό της έρευνάς µας. Ας αναφέρουµε µερικούς: i) Να θεωρήσουµε πως ανήκουν στον πληθυσµό όλοι οι σπουδαστές που είχαν δικαίωµα εγγραφής, ανεξάρτητα από το εάν γράφτηκαν ή, ακόµη περισσότερο, από το εάν φοίτησαν κανονικά, µηδενίζοντάς τους σε όσες εξετάσεις δεν προσήλθαν. ii) Να συµπεριλάβουµε στην έρευνά µας µόνο τους σπουδαστές που συνέχισαν να ανανεώνουν κανονικά την εγγραφή τους µέχρι την ηµέρα της έρευνας, εκτός βέβαια κι' εάν αποφοίτησαν παίρνοντας το πτυχίο τους. iii) Να συµπεριλάβουµε στον πληθυσµό µόνον όσους συµµετέχουν κανονικά στις προόδους και στις τελικές εξετάσεις (και όσους βέβαια πήραν πτυχίο). Είναι προφανές πως τα τελικά συµπεράσµατα επηρεάζονται σηµαντικά από τον τρόπο ορισµού του πληθυσµού της έρευνας. Για το λόγο αυτό η τελική επιλογή πρέπει να γίνει µε ιδιαίτερη προσοχή. Παράλληλα κατά τη διατύπωση των τελικών συµπερασµάτων θα πρέπει να "αποδεικνύεται" η ορθότητα της επιλογής που έκανε ο ερευνητής σχετικά µε την ορισµό του πληθυσµού. Συχνά, µάλιστα, σε Στατιστικές έρευνες αναφέρονται και κάποια αποτελέσµατα µε διαφορετικούς πληθυσµούς, έτσι ώστε να µπορεί ο αναγνώστης να εξάγει τα συµπεράσµατά του, ειδικά όσον αφορά στην αµεροληψία της Στατιστικής Έρευνας. 9 Ας υποθέσουµε τώρα πως έχουµε κάνει την επιλογή του πληθυσµού. Έχουµε δηλαδή ορίσει το γενικό σύνολο της έρευνάς µας. Τα στοιχεία αυτού του συνόλου τα ονοµάζουµε δειγµατικές µονάδες και αποτελούν το βασικό λιθαράκι της Στατιστικής µας. Ορισµός Α.3. Τα στοιχεία του πληθυσµού, τα µικρότερα δηλαδή κοµµάτια που αποτελούν τον πληθυσµό, τα ονοµάζουµε δειγµατικές µονάδες. Βέβαια σε αρκετές Στατιστικές έρευνες οι δειγµατικές µονάδες δεν είναι απλά στοιχεία, αλλά σύνολα στοιχείων. Εάν για παράδειγµα ερευνούµε την αναλογία αυτοκινήτων ανά οικογένεια, τότε η δειγµατική µονάδα είναι η οικογένεια. Θα πρέπει όµως στην περίπτωση αυτή να αποφευχθεί η επικάλυψη ανάµεσα στις διάφορες δειγµατικές µονάδες. ∆εν θα πρέπει δηλαδή να ανήκει το ίδιο άτοµο σε δύο διαφορετικές οικογένειες. Α.2.4. Mέθοδοι δειγµατοληψίας. Το πρόβληµα που αντιµετωπίζει η κάθε µέθοδος δειγµατοληψίας είναι η εκλογή ενός δείγµατος µ-στοιχείων από έναν πληθυσµό ν-στοιχείων. Οι διάφορες µέθοδοι δειγµατοληψίας, οι διαφορετικοί τρόποι δηλαδή µε τους οποίους µπορούµε να εκλέξουµε ένα δείγµα µ- στοιχείων, από τα ν του πληθυσµού, στηρίζονται στις αντίστοιχες µεθόδους της Συνδυαστικής Ανάλυσης. Έτσι ξεχωρίζουµε τη δειγµατοληψία µε επανάθεση και τη δειγµατοληψία χωρίς επανάθεση. Μάλιστα, η δειγµατοληψία χωρίς επανάθεση χωρίζεται σε δύο νέες κατηγορίες: α) σ'αυτήν όπου µας ενδιαφέρει η σειρά µε την οποία εκλέγονται τα στοιχεία του δείγµατος, και β) σ'αυτήν όπου η σειρά εκλογής δεν µας ενδιαφέρει. Πρόκειται για µεθόδους που έχουν σαν σηµείο εκκίνησης τις έννοιες της Συνδυαστικής Ανάλυσης, τους Συνδυασµούς, τις ∆ιατάξεις και τις επαναληπτικές ∆ιατάξεις, οι οποίες αναφέρονται στο κεφάλαιο των Πιθανοτήτων. 10 ∆ειγµατοληψία ∆ειγµατοληψία µε επανάθεση ∆ειγµατοληψία χωρίς επανάθεση Εκλογή των στοιχείων του δείγµατος µε σειρά Εκλογή των στοιχείων του δείγµατος χωρίς σειρά Στη συνέχεια των σηµειώσεων αυτών, για να διευκολύνουµε τον αναγνώστη, θα συµβολίζεται, όπου αυτό είναι δυνατό, µε το ν το πλήθος των στοιχείων του πληθυσµού και µε το µ το πλήθος των στοιχείων ενός δείγµατος. α) ∆ειγµατοληψία µε επανάθεση. Κατά τη δειγµατοληψία µε επανάθεση επιλέγουµε ένα στοιχείο του πληθυσµού, το καταγράφουµε και το επανατοποθετούµε στον πληθυσµό. Έτσι είναι δυνατό να επανεκλέξουµε στο δείγµα δύο ή και περισσότερες φορές το ίδιο στοιχείο. Ο τρόπος αυτός δειγµατοληψίας συνδέεται άµεσα µε τις επαναληπτικές διατάξεις (κεφάλαιο Πιθανοτήτων). Εδώ θα δεχθούµε πως το πλήθος των διαφορετικών δειγµάτων των µ στοιχείων, τα οποία δηµιουργούνται κατά την περίπτωση αυτή από έναν πληθυσµό ν στοιχείων, δίνεται από τη σχέση (τύπος των επαναληπτικών ∆ιατάξεων των ν στοιχείων ανά µ): Πλήθος δειγµάτων = νµ (= ε∆νµ) Η πρώτη επαφή µε την έννοια της δειγµατοληψίας αυτής, συχνά ξενίζει τον αναγνώστη, ο οποίος θεωρεί πως η εξέταση του ίδιου στοιχείου του πληθυσµού (της ίδιας δειγµατικής µονάδας) για περισσότερες από µία φορές είναι περιττή. Όµως πρόκειται για µία ιδιαίτερα χρήσιµη µέθοδο δειγµατοληψίας, µια και παρουσιάζει ευκολίες στη Μαθηµατική της συστηµατοποίηση, αλλά και ευκολία στην υλοποίησή της. Έτσι λοιπόν εργάζονται πολλές διαφηµιστικές εταιρείες, που χρησιµοποιούν τον τηλεφωνικό κατάλογο κατά τρόπο εντελώς τυχαί- 11 ο, µε αποτέλεσµα να υπάρχει η πιθανότητα να τηλεφωνήσουν στο ίδιο άτοµο περισσότερες από µια φορές. Βέβαια το πλήθος των συνδροµητών είναι τέτοιο, που η περίπτωση διπλού τηλεφωνήµατος στο ίδιο άτοµο είναι αρκετά απίθανη. β) ∆ειγµατοληψία χωρίς επανάθεση. Κατά τη δειγµατοληψία χωρίς επανάθεση επιλέγουµε ένα δείγµα στο οποίο δεν είναι δυνατό να εµφανιστεί δύο φορές το ίδιο στοιχείο του πληθυσµού. Το ερώτηµα που τίθεται τώρα είναι εάν θα ληφθεί υπ'όψη η σειρά µε την οποία εκλέγονται στο δείγµα τα µ στοιχεία του, ή εάν θα αγνοηθεί. Για το λόγο αυτό διακρίνουµε τις παρακάτω δύο υποπεριπτώσεις: (i) ∆ειγµατοληψία ένα προς ένα χωρίς επανάθεση. Πρόκειται για τη δειγµατοληψία κατά την οποία ενδιαφερόµαστε για τη σειρά µε την οποία θα επιλεγούν τα µ στοιχεία του δείγµατος (βέβαια δεν είναι δυνατό να εµφανισθεί στο δείγµα δύο φορές το ίδιο στοιχείο, µια και µιλάµε για δειγµατοληψία χωρίς επανάθεση). Ο τρόπος αυτός δειγµατοληψίας συνδέεται άµεσα µε τις διατάξεις. Θα δεχθούµε και πάλι πως το πλήθος των διαφορετικών δειγµάτων των µ στοιχείων, τα οποία δηµιουργούνται κατά την περίπτωση αυτή από έναν πληθυσµό ν στοιχείων, δίνεται από τη σχέση (που είναι γνωστή σαν τύπος των ∆ιατάξεων των ν στοιχείων ανά µ): Πλήθος δειγµάτων = ν! = ν( ν - 1)(ν - 2)...(ν - µ + 1) = ∆ µν (ν - µ)! (1) (ii) ∆ειγµατοληψία χωρίς σειρά επιλογής των στοιχείων του δείγµατος. Πρόκειται για τη δειγµατοληψία κατά την οποία δεν ενδιαφερόµαστε για τη σειρά µε την οποία θα επιλεγούν τα µ στοιχεία του δείγµατος. 1 Το σύµβολο (!) στα Μαθηµατικά ονοµάζεται παραγοντικό, µπορεί να ακολουθεί έναν Φυσικό αριθµό και συµβολίζει τον παρακάτω πολλαπλό πολλαπλασιασµό: ν! = 1*2*3*...*(ν-1)*ν οπότε έχουµε: 5! = 1*2*3*4*5 = 120 , ενώ ορίζουµε «αυθαίρετα» 0!=1. 12 Για άλλη µια φορά θα δεχθούµε πως το πλήθος των διαφορετικών δειγµάτων των µ στοιχείων, που δηµιουργούνται στην περίπτωση αυτή, από έναν πληθυσµό ν στοιχείων, δίνεται από τον τύπο των συνδυασµών των ν στοιχείων ανά µ: Πλήθος δειγµάτων = ν! µ! (ν - µ)! ν µ = = C ν µ Α.2.5. Παράδειγµα: Θέλουµε να υπολογίσουµε το πλήθος L των δειγµάτων των 4 στοιχείων που δηµιουργούνται από έναν πληθυσµό 10 στοιχείων, όταν: (i) δεν µας ενδιαφέρει η σειρά εκλογής του δείγµατος, (ii) µας ενδιαφέρει η σειρά εκλογής και (iii) η δειγµατοληψία γίνεται µε επανάθεση. i) το πλήθος L δίνεται από τον τύπο των συνδυασµών: 10 10 L = C104 = = = 4 = 4 10! 2 * 3 * 4 * 5 * 6 * 7 * 8 * 9 * 10 = 4!(10 − 4 )! ( 2 * 3 * 4 )( 2 * 3 * 4 * 5 * 6) 7 * 8 * 9 * 10 = 210 2 * 3* 4 ii) το πλήθος L δίνεται από τον τύπο των διατάξεων: L = ∆104 = 10! 10! 2 * 3 * 4 * 5 * 6 * 7 * 8 * 9 * 10 = = = 7*8*9*10 = 5040 (10 − 4 )! 6! 2 * 3* 4 *5* 6 iii) το πλήθος L δίνεται από τον τύπο των επαναληπτικών διατάξεων: L = ε∆104 = 104 = 10000 13 Παρατήρηση: Οι περισσότεροι σύγχρονοι υπολογιστές τσέπης (κοµπιουτεράκια) υπολογίζουν το ν!, µέχρι κάποιες τιµές του ν (συνήθως µέχρι το ν=69). Μάλιστα κάποια απ'αυτά υπολογίζουν κατ'ευθείαν τους Συνδυασµούς και τις ∆ιατάξεις. Τα πλήκτρα που συµβολίζουν τις πράξεις αυτές είναι τα: nCr ... για τους Συνδυασµούς των n στοιχείων ανά r και nPr ... για τις ∆ιατάξεις των n στοιχείων ανά r A.2.6. Οργάνωση της δειγµατοληψίας. (i) Τυχαία απλή δειγµατοληψία. Ένας πολύ σηµαντικός παράγοντας στη δειγµατοληψία είναι η εκλογή των στοιχείων του δείγµατος κατά τρόπο τυχαίο, έτσι ώστε όλα τα στοιχεία του πληθυσµού νά’χουν την ίδια πιθανότητα(2) επιλογής τους στο δείγµα. Συχνά επιδιώκεται να απαλοιφθεί, όσο είναι δυνατό, η επίδραση των απόψεων του ερευνητή, στην επιλογή του δείγµατος. Τότε επιχειρείται η εκλογή των στοιχείων του δείγµατος µε τρόπο εντελώς τυχαίο. Η δειγµατοληψία αυτή λέγεται τυχαία. Η τυχαία δειγµατοληψία επιτυγχάνεται µε τη βοήθεια των πινάκων τυχαίων αριθµών. Πολύ συχνά όµως χρησιµοποιούµε τις συναρτήσεις παραγωγής τυχαίων αριθµών που υπάρχουν σ'όλες τις γλώσσες προγραµµατισµού Ηλεκτρ.Υπολογιστών. Οι συναρτήσεις αυτές παράγουν ψευδοτυχαίους αριθµούς, οι οποίοι όµως επαρκούν για την κάλυψη των συνηθισµένων προβληµάτων της Στατιστικής. Όµως και σε πολλούς από τους υπολογιστές τσέπης υπάρχει ενσωµατωµένη µία συνάρτηση ψευδοτυχαίων αριθµών (random-function), που συµβολίζεται συνήθως µε τα αρχικά RND#. Η συνάρτηση αυτή δίνει τριψήφιους δεκαδικούς αριθµούς από το 0.000 έως το 0.999. 2 Ο όρος «Πιθανότητα» χρησιµοποιείται εδώ µε την καθηµερινή του σηµασία. 14 (ii) Μή τυχαία δειγµατοληψία. Συχνά η δειγµατοληψία καθοδηγείται, εν µέρει ή εξ ολοκλήρου, από τον ερευνητή, ο οποίος αποφασίζει για το ποια άτοµα του πληθυσµού θα συµπεριληφθούν στο δείγµα. Μία Στατιστική έρευνα που στηρίζεται σε µη τυχαία δειγµατοληψία δεν µπορεί να διεκδικεί δάφνες αµεροληψίας. Συχνά όµως, εφ'όσον ο ερευνητής έχει καλή γνώση του προβλήµατος που αντιµετωπίζει, και έχει τη διάθεση να παραµείνει αντικειµενικός, τότε η µη τυχαία δειγµατοληψία µπορεί να δώσει ακριβέστερα αποτελέσµατα από την τυχαία. (iii) ∆ειγµατοληψία κατά στρώµατα. Κατά την έρευνα της συµπεριφοράς µιας τυχαίας µεταβλητής στα στοιχεία ενός πληθυσµού, είναι πολύ συχνός ο χωρισµός του πληθυσµού σε στρώµατα. Η διαίρεση αυτή του πληθυσµού γίνεται µε βάση την πεποίθεσή του ερευνητή πως η συµπεριφορά της τυχαίας µεταβλητής στα άτοµα του κάθε στρώµατος (στο εσωτερικό του κάθε στρώµατος) είναι ιδιαίτερα οµογενής. Η οµοιογενής συµπεριφορά µιας τυχ. µεταβλητής στο εσωτερικό των στρωµάτων ενός πληθυσµού, είναι ένα σηµαντικότατο ζήτηµα και αξίζει να το εξετάσουµε µε τη βοήθεια κάποιων παραδειγµάτων. 1ο) Ερευνώντας την αξιοπιστία των αυτοκινήτων κάποιων µεγάλων εργοστασίων, θα πρέπει να χωρίσουµε τον συνολικό στόλο των αυτοκινήτων σε στρώµατα ανάλογα µε το ύψος της τιµής αγοράς τους. Βέβαια, συχνότερος είναι ο διαχωρισµός τους στις γνωστές κατηγορίες: µίνι, σούπερ-µίνι, µεσαία, µεγάλα, πολυτελή και σπόρ. Προφανώς θεωρούµε πως η συχνότητα αλλά και σηµαντικότητα των εµφανιζόµενων βλαβών εξαρτάται ιδιαίτερα από την κατηγορία κάθε αυτοκινήτου. Οµως, η εµπειρία δείχνει πως σωστότερος είναι ο διαχωρισµός σε στρώµατα µε βάση µόνον την τιµή, µια και στην ίδια κατηγορία (π.χ. στα µεσαία) συναντά κανείς και φθηνά και ακριβά αυτοκίνητα. 2ο) Συχνά, στις πολιτικές ∆ηµοσκοπήσεις ο πληθυσµός χωρίζεται σε στρώµατα, µε βάση το είδος της εργασίας των ατόµων του πληθυσµού και την οικονοµική τους άνεση. Αυτός ο διαχωρισµός δεν υπονοεί πως τα εργατικά στρώµατα ψηφίζουν αποκλειστικά την Αριστερά, ενώ το στρώµα των οικονοµικά προνοµιούχων αποκλειστικά την ∆εξιά(3). Απλώς αποδέχεται πως το ποσο3 Ας µας συγχωρεθεί η χρήση των αδόκιµων όρων ∆εξιά και Αριστερά, στο πρόχειρο αυτό παράδειγµα. 15 στό της Αριστεράς στις διάφορες εργατικές συνοικίες είναι αρκετά παραπλήσιο, και ποιοτικά διαφορετικό µε το αντίστοιχο ποσοστό στα πλούσια προάστια... 3ο) Η µελέτη του ύψους των ενηλίκων µιας πόλης, προφανώς στηρίζεται στη διάκριση δύο βασικών στρωµάτων, των γυναικών και των ανδρών. 4ο) Ερευνώντας το πρόβληµα της κοινωνικής προέλευσης των παιδιών, που πέτυχαν στις Πανελλήνιες εξετάσεις για την τριτοβάθµια εκπαίδευση, διαπιστώνουµε πως ο διαχωρισµός τους σε στρώµατα µε βάση την οικονοµική επιφάνεια των γονέων τους, δεν είναι ο καλύτερος δυνατός. Αντίθετα, ορθότερος φαίνεται ο διαχωρισµός τους σε στρώµατα µε βάση το µορφωτικό επίπεδο των γονέων, µια και παρατηρήθηκε πως το κοινωνικό στρώµα, του οποίου τα παιδιά έχουν τη µεγαλύτερη επιτυχία στις εξετάσεις, είναι αυτό των διανοουµένων. Ο χωρισµός του πληθυσµού µιας Στατιστικής µελέτης σε στρώµατα είναι σχεδόν υποχρεωτικός στις περισσότερες περιπτώσεις, εάν θέλουµε τα αποτελέσµατα µιας δειγµατοληπτικής έρευνας να’ναι αξιόπιστα. Προϋποθέτει όµως µια σηµαντική προεργασία και την καλή γνώση του προβλήµατος που µας απασχολεί. Τέλος πρέπει να προσέξουµε µια και τα στρώµατα που θα δηµιουργήσουµε πρέπει: α) να µην αλληλεπικαλύπτονται, β) η ένωσή τους να δίνει τον σύνολο του πληθυσµού. Κατά το διαχωρισµό, φροντίζουµε να σχηµατίσουµε στρώµατα όσο το δυνατό πιο οµογενή ως προς την τυχαία µεταβλητή που εξετάζουµε. Στη συνέχεια εκλέγουµε ένα µέρος του δείγµατος από το κάθε στρώµα, προσπαθώντας να διατηρήσουµε την αναλογία: Πλήθος των στοιχείων στο δείγµα προερχοµένων από το i-οστό στρώµα Πλήθος των στοιχείων του i-οστού στρώµατος = Συνολικό πλήθος των στοιχείων του δείγµατος Πλήθος των στοιχείων του πληθυσµού µε στόχο δηλαδή να διατηρείται η αναλογία των στρωµάτων του πληθυσµού και στο εσωτερικό του δείγµατος. 16 Εφ'όσον επιλέγουµε το τµήµα του δείγµατος που αντιστοιχεί στο κάθε στρώµα κατά τυχαίο τρόπο, αποκαλούµε τη δειγµατοληψία αυτή: τυχαία δειγµατοληψία κατά στρώµατα. Παρατήρηση: Ένα παράδειγµα που φανερώνει την αξία του διαχωρισµού του πληθυσµού σε στρώµατα είναι αυτό των πολιτικών δηµοσκοπήσεων, της καταµέτρησης δηλαδή της επιρροής ή της εκλογικής δύναµης των πολιτικών κοµµάτων. Στην περίπτωση αυτή χωρίζουµε τον πληθυσµό σε στρώµατα, ανάλογα µε το ύψος και τη φύση των εισοδηµάτων του κάθε ατόµου. Ο διαχωρισµός αυτός θεωρεί πως η εκλογική συµπεριφορά των διάφορων κοινωνικοοικονοµικών τάξεων της κοινωνίας µας, παρουσιάζει µια σχετική οµοιογένεια. Επειδή ένας τέτοιος διαχωρισµός είναι δύσκολος, συχνά τον ανάγουµε σε γεωγραφικό, θεωρώντας κάποιες περιοχές σαν κατ' εξοχήν εργατικές, κάποιες άλλες σαν αγροτικές, µικροαστικές, µεσοαστικές, µεγαλοαστικές κ.λ.π. Παράδειγµα: Εάν επιχειρήσουµε µία δηµοσκόπηση στην πόλη της Θεσσαλονίκης, για τις προτιµήσεις των ψηφοφόρων της ως προς τους υποψηφίους ∆ηµάρχους, υποθέτοντας πως το σύνολο των ψηφοφόρων της Θεσσαλονίκης αποτελείται από: 15 % εργοστασιακούς εργάτες, 30 % εργατοϋπαλλήλους σε ιδιωτικές επιχειρήσεις, 15 % εµπόρους και βιοτέχνες, 30 % δηµοσίους υπαλλήλους και 10 % ανέργους, τότε θα προσπαθήσουµε να καταλήξουµε σ'ένα δείγµα στο οποίο τα παραπάνω στρώµατα να αντιπροσωπεύονται όσο το δυνατόν αναλογικότερα. Υποθέτοντας ότι θα χρησιµοποιήσουµε ένα δείγµα 800 ατόµων, θα αναζητήσουµε (πάντα µε τρόπο τυχαίο στο εσωτερικό του κάθε στρώµατος): 800*0.15 = 120 εργάτες, 800*0.3 = 240 εργατοϋπαλλήλους, 800*0.15 = 120 εµοροβιοτέχνες, 800*0.3 = 240 δηµοσίους υπαλλήλους 800*0.1 = 80 ανέργους. σύνολο: 800 άτοµα. 17 A.2.7. Το ερωτηµατολόγιο. Μέχρι τώρα συζητήσαµε για τα δεδοµένα που συλλέγουµε και που αφορούν στη συµπεριφορά µιας τυχαίας µεταβλητής στο εσωτερικό ενός πληθυσµού. Στην παράγραφο αυτή θα εξετάσουµε έναν ιδιαίτερα συνηθισµένο τρόπο συλλογής των πληροφοριών αυτών, το ερωτηµατολόγιο. Με τον όρο ερωτηµατολόγιο εννοούµε µια σειρά ερωτήσεων που αφορούν σε ένα ή περισσότερα θέµατα, οι οποίες συντάσσονται από έναν ερευνητή. Σ'αυτές απαντά µια οµάδα ατόµων που παίρνουν µέρος στην έρευνα, τα οποία είτε συγκροτούν ένα δείγµα παρµένο από τον πληθυσµό στον οποίον αναφέρεται η έρευνα, είτε αποτελούν το σύνολο του πληθυσµού (ολική απογραφή). Οι απαντήσεις µπορεί να είναι γραπτές (οπότε υπάρχει και το κείµενο του ερωτηµατολογίου που δίνεται ή αποστέλλεται στον ερωτώµενο), ή προφορικές σε προφορικές ερωτήσεις, οπότε η όλη διαδικασία παίρνει τη µορφή συνέντευξης. Συντάσσοντας ένα ερωτηµατολόγιο. Το αντικείµενο της έρευνας πρέπει να είναι συγκεκριµένο και καλά ορισµένο, ενώ ο συντάκτης-ερευνητής θα πρέπει να'χει µια σφαιρική άποψη του αντικειµένου, έτσι ώστε να µην συντάξει ένα ερωτηµατολόγιο πλαδαρό και ανερµάτιστο. Ταυτόχρονα ο ερευνητής πρέπει να έχει ιεραρχήσει τις διάφορες όψεις του προβλήµατος και να ασχοληθεί µε τις σηµαντικότερες απ'αυτές. Φανταστείτε τί εντύπωση θα σχηµατίσετε για ένα ερωτηµατολόγιο που ασχολείται µε ζητήµατα επουσιώδη, λησµονώντας τις βασικές πτυχές του προβλήµατος. Το στυλ και το ύφος θα πρέπει νά'ναι τέτοιο ώστε να δηµιουργεί ευχάριστη ατµόσφαιρα, να κεντρίζει το ενδιαφέρον και να µην κουράζει τον ερωτώµενο. Έτσι ο αριθµός των ερωτήσεων καθώς και ο χρόνος που απαιτείται για την απάντησή τους δεν πρέπει να'ναι υπερβολικός. Τέλος δεν πρέπει οι ερωτήσεις να υποβάλλουν έµµεσα την απάντηση στον ερωτώµενο, ούτε βέβαια να προσπαθούν να του περάσουν κάποιες απόψεις, µια και ο στόχος του ερωτηµατολογίου είναι η διερεύνηση των απόψεων που επικρατούν στον πληθυσµό κι'όχι η µεταβολή αυτών των απόψεων. 18 Γραπτό ερωτηµατολόγιο. Η µορφή αυτή είναι η µοναδική δυνατή όταν δεν υπάρχει η δυνατότητα προσωπικής επαφής µε όλα τα άτοµα που παίρνουν µέρος στην έρευνα ή όταν δεν έχουµε το απαραίτητο ειδικευµένο προσωπικό που θα διενεργήσει τις συνεντεύξεις. Οι ερωτήσεις λοιπόν ενός γραπτού ερωτηµατολογίου πρέπει νά'ναι σαφείς και να µη χρειάζονται διευκρινήσεις, οι οποίες άλλωστε δεν µπορούν να δοθούν. Επίσης θα πρέπει να οδηγούν σε Λακωνικές απαντήσεις. Το πλεονέκτηµα του γραπτού ερωτηµατολογίου που αποστέλλεται µε το Ταχυδροµείο είναι πως µπορούµε τελικά να επικοινωνήσουµε µε πολλά άτοµα, χωρίς να διαθέτουµε ένα πολυάριθµο επιτελείο. Επίσης είναι ενδεδειγµένο στην περίπτωση που η έρευνα διαπραγµατεύεται κάποια θέµατα "λεπτά", για τα οποία είναι δύσκολο κάποιος να µιλήσει ανοικτά σε έναν άγνωστο. Για το λόγο αυτό, ερωτηµατολόγια που αφορούν σε τέτοιου είδους θέµατα δεν ζητούν τα στοιχεία ταυτότητας των ερωτώµενων. Για παράδειγµα οι έρευνες που γίνονται ανάµεσα σε σπουδαστές-µαθητές γύρω από θέµατα της εκπαιδευτικής διαδικασίας, όπως η αξιολόγηση των διδακτικών ικανοτήτων των εκπαιδευτικών ή η επισήµανση κάποιων προβληµάτων, γίνονται σχεδόν πάντα ανώνυµα (και συχνά µε κεφαλαία γράµµατα), για ευνόητους λόγους. Ίσως το σηµαντικότερο µειονέκτηµα του γραπτού ερωτηµατολογίου είναι ο αναγκαστικά συνοπτικός χαρακτήρας των απαντήσεων. Υπάρχει βέβαια και η αβεβαιότητα σχετικά µε το ποιος απαντά. Τέλος δεν µπορούµε νά'χουµε καµία άποψη για το βαθµό ειλικρίνειας αλλά και για το ενδιαφέρον που επέδειξε ο ερωτώµενος, κάτι που θα µπορούσε ίσως να διακρίνει ένα έµπειρο µάτι κατά την προσωπική επαφή. Προφορικό ερωτηµατολόγιο. Η επαφή, κακά τα ψέµατα, για ένα έµπειρο ερωτώντα είναι ιδιαίτερα σηµαντική. Υπάρχει η δυνατότητα παροχής εξηγήσεων καθώς και η διατύπωση από τον ερωτώµενο απόψεων µε τρόπο αναλυτικό. Η εµπειρία δείχνει πως τα ερωτηµατολόγια που συντάσσονται από άτοµα που δεν έχουν µεγάλη εµπειρία στη σύνταξη ερωτηµατολογίων, ή από άτοµα που δεν γνωρίζουν σε βάθος το θέµα που διαπραγµατεύεται η έρευνα, έχουν αρ- 19 κετά προβλήµατα, ατέλειες και σηµαντικές παραλείψεις. Συχνά λοιπόν τέτοια προβλήµατα και ατέλειες γίνονται φανερές από τις πρώτες συνεντεύξεις, οπότε υπάρχει και η δυνατότητα διορθωτικών κινήσεων. Για τους λόγους αυτούς, όποτε είναι δυνατή η χρήση του προφορικού ερωτηµατολογίου, προτιµάται. Είδη ερωτήσεων. Μπορούµε να χωρίσουµε τις ερωτήσεις, ως προς την ουσία τους, σε δύο βασικές κατηγορίες: i) Στην πρώτη, ανήκουν οι ερωτήσεις που ζητούν την αναφορά ενός γεγονότος (όπως ηλικία, φύλο, διεύθυνση, γραµµατικές γνώσεις κλπ). ii) Στη δεύτερη έχουµε τις ερωτήσεις που απαιτούν την έκφραση µιας άποψης-γνώµης από τον ερωτώµενο. Είδη ερωτήσεων µε βάση το είδος της απάντησης i) Ερωτήσεις µε προεπιλεγµένες απαντήσεις. Πρόκειται για ερωτήσεις στις οποίες ο ερωτώµενος πρέπει να επιλέξει ανάµεσα σε δύο ή περισσότερες δοσµένες απαντήσεις. Παραδείγµατα: 1η) Έχετε αυτοκίνητο; ΝΑΙ - ΟΧΙ 2η) Ποιο είναι το βασικότερο πρόβληµα της πόλης µας; Τα σκουπίδια, το κυκλοφοριακό, το περιβάλλον, κλπ (υπογραµµίστε την επιλογή σας) 20 Συχνά η απάντηση δίνεται υπό τη µορφή µιας κλίµακας µε αρκετά βήµατα. Μάλιστα, τα αποτελέσµατα ερευνών που γίνονται µε τέτοιες ερωτήσεις θεωρούνται ιδιαίτερα αξιόπιστα. Παραδείγµατα: 1η) Βαθµολογείστε (0-10) τον απερχόµενο ∆ήµαρχο. ___ 2η) ∆ιαβάζετε Λογοτεχνικά βιβλία; Καθηµερινά, συχνά, σπάνια, ένα το χρόνο, καθόλου. (υπογραµµίστε) ii) Ελεύθερες ερωτήσεις. Στον ερωτώµενο δίνεται η δυνατότητα να απαντήσει µε µια ή περισσότερες φράσεις. Στα γραπτά ερωτηµατολόγια δίνεται ο χώρος δύο έως πέντε γραµµών. Κυρίως πρόκειται για ερωτήσεις άποψης. Παραδείγµατα: 1η) Ποιοι ήταν κατά τη γνώµη σας οι λόγοι της αποτυχίας της Εθνικής ποδοσφαίρου στο Mοndial των ΗΠΑ; _______________________________________________________________ _______________________________________________________________ 2η) Τί είναι για σας ο έρωτας; ______________________________________________________________ _______________________________________________________________ Παρατήρηση: Να σηµειώσουµε επ' ευκαιρία πως ερωτήσεις τόσο γενικές όσο η 2η από τις προηγούµενες, καλό είναι να αποφεύγονται. Πολύ περισσότερο όταν πρόκειται για ένα θέµα που ίσως το νοιώθουµε πολύ έντονα σε συναισθηµατικό επίπεδο, αλλά πολύ δύσκολα µπορούµε να το εκφράσουµε µε όρους λογικούς. 21 iii) Μεικτές ερωτήσεις. Στις ερωτήσεις αυτές, ενώ υπάρχουν προεπιλεγµένες απαντήσεις, ταυτόχρονα δίνεται η δυνατότητα και στον ερωτώµενο να διατυπώσει µια δική του (διαφορετική από τις προτεινόµενες) απάντηση. Μάλιστα είναι δυνατό να συνυπάρχουν όλες οι προηγούµενες µέθοδοι. Έτσι λοιπόν το 1ο από τα προηγούµενα παραδείγµατα µπορεί να πάρει τη µορφή: Ποιοί ήταν κατά τη γνώµη σας οι λόγοι της αποτυχίας της Εθνικής οµάδας ποδοσφαίρου στο Mοndial των ΗΠΑ; (Υπογραµµίστε) (α) Το χαµηλό επίπεδο του Ελληνικού ποδοσφαίρου. ΝΑΙ / ΙΣΩΣ / ΟΧΙ (β) Οι επιλογές του προπονητή. ΝΑΙ / ΙΣΩΣ / ΟΧΙ (γ) Η πληµµελής προετοιµασία. ΝΑΙ / ΙΣΩΣ / ΟΧΙ (δ) Η απειρία τέτοιων αγώνων. ΝΑΙ / ΙΣΩΣ / ΟΧΙ (ε) Η ατυχία. ΝΑΙ / ΙΣΩΣ / ΟΧΙ (στ) Άλλοι: ____________________________________________________ _______________________________________________________________ Υπέρ και κατά. i) Για τις προεπιλεγµένες. Οι ερωτήσεις αυτού του τύπου έχουν αρκετά µειονεκτήµατα, ειδικά στα γραπτά ερωτηµατολόγια. Πρώτα-πρώτα δεν είναι φανερό εάν ο ερωτώµενος κατανόησε το ερώτηµα. Επίσης δεν µπορούµε να διακρίνουµε τις απαντήσεις που δόθηκαν µε τρόπο αβασάνιστο. Βασικό πλεονέκτηµα των ερωτήσεων αυτών είναι η ευκολία ταξινόµησης των απαντήσεων. Ένα ακόµη πλεονέκτηµα των ερωτήσεων µε προεπιλεγµένες απαντήσεις (στο γραπτό ερωτηµατολόγιο) είναι πως δεν αναγκάζουν τον ερωτώµενο να γράψει ένα "πρωτότυπο" κείµενο, πράγµα µε το οποίο µπορεί να µην είναι εξοικειωµένος. Τέλος, µε την καταγραφή των δυνατών απαντήσεων, ο ερευνητής κάνει µια συστηµατοποίηση των απόψεων που επικρατούν, πράγµα που διευκολύνει τον ερωτώµενο. 22 ii) Για τις ελεύθερες. Συνήθως τα προτερήµατα των ερωτήσεων προεπιλεγµένων απαντήσεων αποτελούν τα βασικά µειονεκτήµατα των ελευθέρων και αντίστροφα! Βασικό πλεονέκτηµα των ερωτήσεων αυτών είναι η δυνατότητα καταγραφής µιας ολοκληρωµένης άποψης για το θέµα, Ταυτόχρονα επιτρέπουν στον ερωτώντα να σχηµατίσει µια άποψη για το βαθµό επεξεργασίας και γνώσης του θέµατος από τον ερωτώµενο. ∆ίνουν ακόµη τη δυνατότητα να αντιληφθούµε το ότι η ερώτηση δεν έγινε κατανοητή. Τέλος δεν είναι λίγες οι φορές που οι απαντήσεις σε ελεύθερες ερωτήσεις εκπλήσσουν τον ερευνητή µε την ευρηµατικότητά τους, την πρωτοτυπία τους, αλλά και µε την ιδιαίτερη οπτική των υπό συζήτηση θεµάτων από κάποιους ερωτώµενους... Το µεγαλύτερο µειονέκτηµα των ελεύθερων ερωτήσεων είναι ίσως η δυσκολία ταξινόµησης των απαντήσεων από τον ερευνητή, µια και οι απαντήσεις καλύπτουν ένα τεράστιο φάσµα ως προς το ύφος, τις ιδέες, τον προβληµατισµό, τη συστηµατικότητα κ.λ.π. Τέλος, να σηµειώσουµε πως οι ελεύθερες ερωτήσεις πρέπει να αποφεύγονται όταν διατυπώνονται σε άτοµα χαµηλού µορφωτικού επιπέδου, τα οποία, ενώ έχουν µια ιδιαίτερα σηµαντική κοινωνική µόρφωση και σαφείς απόψεις, δεν είναι εξοικειωµένοι µε το γράψιµο. A.2.8. Ασκήσεις: 1) Πόσα δείγµατα των 4 ατόµων δηµιουργούνται από 12 άτοµα, όταν: (i) δεν µας ενδιαφέρει η σειρά εµφάνισης των ατόµων στο δείγµα, (ii) µας ενδιαφέρει η σειρά εµφάνισης των ατόµων στο δείγµα, (iii) διενεργούµε δειγµατοληψία µε επανάθεση. 2) Σε µία ιπποδροµία ξεκινούν 15 άλογα και προσπαθούµε να µαντέψουµε τη νικήτρια δυάδα. Πόσες διαφορετικές τέτοιες δυάδες µπορούν να δηµιουργηθούν; 3) Κάνουµε αντιντόπιγκ κοντρόλ στους 16 ποδοσφαιριστές µιας οµάδας, που αποτελείται από δύο τερµατοφύλακες, 6 αµυντικούς, 5 κεντρώους και 3 επιθετικούς. Απ'αυτούς οι 11 είναι βασικοί και οι 5 αναπληρωµατικοί. Επιλέγουµε τέσσερις απ'αυτούς για τον έλεγχο, χωρίς να ενδιαφερόµαστε για τη σειρά επιλογής της τετράδας. Να βρεθεί το πλήθος των δυνατών δειγµάτων όταν: i) Επιλέγουµε χωρίς επιλογή κατά στρώµατα. 23 ii) Επιλέγουµε κατά στρώµατα, που θα τα καθορίσετε εσείς, εξηγώντας το γιατί. Υπόδειξη: Εάν υποθέσουµε πως στην επιλογή κατά στρώµατα, καταλήξουµε σε δύο στρώµατα και εάν τα διαφορετικά δείγµατα από κάθε στρώµα είναι κ και λ, τότε ο συνολικός αριθµός δειγµάτων θα δίνεται από το γινόµενο κ*λ. 4) Συντάξτε ένα ερωτηµατολόγιο για: i) µια σφυγµοµέτρηση για τις ∆ηµοτικές εκλογές σε µία πόλη. ii) να διερευνήσετε την άποψη που έχουν οι πολίτες µιας πόλης για την ιδιωτική εκπαίδευση (∆ηµοτικά-Γυµνάσια-Λύκεια-Φροντιστήρια). iii) να διερευνήσετε την άποψη που έχουν οι Έλληνες καταναλωτές για για το αυτοκίνητό τους. iv) να διερευνήσετε την άποψη που έχουν οι πολίτες µιας µεγάλης πόλης για τη ∆ηµοκρατία στην καθηµερινότητα και για τα µέτρα που πρέπει να παρθούν για περισσότερη και ουσιαστικότερη ∆ηµοκρατία. v) να διερευνήσετε την άποψη που έχουν οι πολίτες της Θεσσαλονίκης για το µάθηµα της σεξουαλικής διαπαιδαγώγησης και για τις προγαµιαίες σχέσεις. vi) να διερευνήσετε την άποψη που έχουν οι σπουδαστές ενός σχολείου για την ∆ιδακτική διαδικασία, κάνοντας και µια εκτίµηση για την προσφορά, τα πλεονεκτήµατα, τα µειονεκτήµατα κάθε καθηγητή και τα σηµεία που θά'πρεπε να διορθωθούν. 24 ΚΕΦΑΛΑΙΟ Β Β.1. ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ ∆Ε∆ΟΜΕΝΩΝ. Μετά την συλλογή των πληροφοριών που ονοµάσαµε Στατιστικά δεδοµένα, προκύπτει το πρόβληµα της ταξινόµησής τους, έτσι ώστε να πάψουν να αποτελούν σκόρπια δεδοµένα και να πάρουν µια µορφή ευκολονόητη και παρουσιάσιµη. Στη συνέχεια θα γνωρίσουµε τρόπους συνοπτικής παρουσίασής τους, µε τη βοήθεια πινάκων και γραφικών παραστάσεων. Βέβαια δεν θα πρέπει να ξεχνάµε το χρυσό κανόνα της Μηχανικής που ισχύει και στην περίπτωση αυτή: Όσο συνοπτικότερη είναι η παρουσίαση των δεδοµένων, τόσο πιο γρήγορα κι εύκολα µπορούµε να την µελετήσουµε, αλλά και τόσο µειώνεται και ο βαθµός της παρεχόµενης πληροφορίας, τόσο δηλαδή χάνουµε σε λεπτοµέρεια. Β.1.1. Μία πρώτη κατάταξη των στατιστικών στοιχείων, κλάσεις, συχνότητες κλάσεων, Στατιστικοί πίνακες. Στη µελέτη της συµπεριφοράς µιας τυχαίας µεταβλητής στο εσωτερικό ενός πληθυσµού, το βασικό στατιστικό δεδοµένο είναι η τιµή της τυχαίας µεταβλητής στο τυχόν στοιχείο του πληθυσµού ή του δείγµατος. Στη συνέχεια και εφ'όσον δεν αναφέρεται κάτι αντίθετο, το σύνολο στο οποίο θα αναφερόµαστε θα θεωρείται πληθυσµός. Η καθ'αυτό Στατιστική επεξεργασία των δεδοµένων ξεκινάει µετά την καταγραφή των τιµών της τυχαίας µεταβλητής στα άτοµα του πληθυσµού. Πρώτη δουλειά είναι η ταξινόµηση των τιµών αυτών και η προσπάθεια για µια πιο συστηµατοποιηµένη εµφάνισή τους, µια και η αταξινόµητη εµφάνιση των τιµών δεν βοηθάει ιδιαίτερα στην εξαγωγή συµπερασµάτων. Παράδειγµα Β.1.: Μετρούµε το ύψος 30 σπουδαστριών και 30 σπουδαστών. Τα αποτελέσµατα, ακριβώς µε τη σειρά καταµέτρησής τους, περιέχονται στους παρακάτω πίνακες: 25 Πίνακας Β.1: ύψη 30 σπουδαστριών (οι τιµές σε cm) 164 155 164 175 160 158 165 166 163 156 177 160 173 168 160 170 159 166 169 162 157 157 178 159 170 Πίνακας Β.2: ύψη 30 σπουδαστών (οι τιµές σε cm) 165 161 159 162 161 175 182 182 176 184 170 195 182 192 180 176 172 178 177 175 177 169 185 179 182 180 172 188 190 183 194 185 179 187 181 Παρατηρούµε πως οι δύο πίνακες, παρά το ότι έχουν όλες τις πληροφορίες για το ύψος των 60 σπουδαστών, δεν βοηθούν τον αναγνώστη να έχει, σε σύντοµο σχετικά χρονικό διάστηµα, µιαν άποψη για το θέµα. Η πρώτη συστηµατοποίηση των δεδοµένων είναι η διάταξή τους κατ'αύξουσα τιµή της τυχαίας µεταβλητής, εφ'όσον πρόκειται για αριθµητικά δεδοµένα. Συχνά όµως είναι δυνατό να βρούµε κάποια διάταξη (ποιοτική) και για τα µη αριθµητικά δεδοµένα (από το πολύ όµορφο έως το πολύ άσχηµο, όταν για παράδειγµα αξιολογούµε την καλαισθησία του αµαξώµατος ενός αυτοκινήτου). Στη συνέχεια, όπως ήδη αναφέρθηκε, θα αναφερόµαστε σε καταµετρήσιµες τυχαίες µεταβλητές. Παράδειγµα Β.1. (συνέχεια...): Οι παρακάτω πίνακες περιέχουν τις προηγούµενες τιµές κατ' αύξουσα αριθµητική σειρά: Πίνακας Β.3: ύψη 30 σπουδαστριών κατ'αύξουσα σειρά (cm) 155 159 161 165 170 156 159 162 165 170 157 160 162 166 173 157 160 163 166 175 158 160 164 168 177 159 161 164 169 178 Πίνακας Β.4: ύψη 30 σπουδαστών κατ'αύξουσα σειρά (cm) 169 176 179 182 187 170 176 180 182 188 172 177 180 183 190 172 177 181 184 192 175 178 182 185 194 175 179 182 185 195 26 Οι νέοι αυτοί πίνακες, αν και συνεχίζουν να είναι "δυσανάγνωστοι", εν τούτοις µας επιτρέπουν σε µικρό χρονικό διάστηµα να φθάσουµε στο συµπέρασµα πως οι µεν σπουδάστριες έχουν κατά βάση ύψος που κυµαίνεται από τα 160 έως τα 170 cm, ενώ η αντίστοιχη περιοχή για το ύψος των αγοριών είναι από 175 έως 185 cm. Όταν όµως έχουµε να κάνουµε µε ένα µεγάλο αριθµό δεδοµένων, ακόµη και η κατάταξή τους δεν είναι ιδιαίτερα διαφωτιστική. Τότε χρειαζόµαστε µία συνοπτικότερη παρουσίαση τους. Ορισµός Β.1. Τις αριθµητικές τιµές που παίρνει µια τυχαία µεταβλητή στο εσωτερικό ενός πληθυσµού µπορούµε να τις παρουσιάσουµε κατά τρόπο συνοπτικότερο και συστηµατικότερο, µε την ενσωµάτωση σε κατηγορίες, όλων των δεδοµένων που έχουν παραπλήσιες τιµές. Τις κατηγορίες αυτές τις ονοµάζουµε κλάσεις ή τάξεις ή κατηγορίες. Η κάθε κλάση έχει και ένα όνοµα που δηλώνει, µε τρόπο ποσοτικό ή ποιοτικό, την φύση των στοιχείων (ως προς την τυχαία µεταβλητή) που ανήκουν σ'αυτήν. Όταν έχουµε τυχαίες µεταβλητές που παίρνουν αριθµητικές τιµές, επιλέγουµε σαν όνοµα της κάθε κλάσης το µέσον των δύο τιµών που καθορίζουν το πάνω και το κάτω όριο (σύνορο) της κλάσης (δηλαδή το ηµιάθροισµά τους). Έτσι καταλήγουµε στον ορισµό: Ορισµός Β.2. Εάν σε κάποια κλάση ανήκουν όλα τα στοιχεία του πληθυσµού, στα οποία η τιµή της τυχαίας µεταβλητής παίρνει τιµές που ανήκουν στο διάστηµα [α,β), τότε οι τιµές α και β λέγονται όρια της εν λόγω κλάσης, ενώ το όνοµά της είναι ο αριθµός: λ = (α+β)/2. 27 Συµβολισµός: Ο τρόπος µε τον οποίο συµβολίζουµε τις κλάσεις µιας τυχαίας µεταβλητής στο εσωτερικό ενός πληθυσµού είναι παρόµοιος µε τον τρόπο συµβολισµού των µεµονωµένων τιµών. Γράφουµε λοιπόν: Χi, i=1,2,...,κ όπου κ είναι το πλήθος των κλάσεων. Με βάση το συµβολισµό αυτό η τρίτη (κατ' αύξουσα σειρά) κλάση έχει το όνοµα: Χ3. Ορισµός Β.3. Ο αριθµός ε = β-α καλείται εύρος της κλάσης. Συνήθως κατά την κατανοµή των δεδοµένων σε κλάσεις, το εύρος τους διατηρείται σταθερό. Γίνεται φανερό πως για δεδοµένο πληθυσµό ισχύουν τα παρακάτω: i) Όσο µικρότερος είναι ο αριθµός των κλάσεων στις οποίες κατανέµονται τα δεδοµένα, τόσο πιο ευκολοκατανόητη είναι η παρουσίαση των δεδοµένων, µια και το µάτι αναγκάζεται να "τρέξει" σε λιγότερα αριθµητικά δεδοµένα. ii) Όσο µικρότερος είναι ο αριθµός των κλάσεων, τόσο το εύρος τους θα είναι µεγαλύτερο, πράγµα που σηµαίνει πως όλο και πιο αποµακρυσµένες τιµές θα θεωρούνται ότι ταυτίζονται. Άρα µικρός αριθµός των κλάσεων σηµαίνει πιο χονδρική προσέγγιση. Ο αριθµός των κλάσεων κ, καθορίζεται σε τελική ανάλυση από το πλήθος ν των στοιχείων του πληθυσµού (υποθέτοντας πως για όλα έχουµε την τιµή της τυχαίας µεταβλητής). Η παρακάτω εµπειρική σχέση, που δίνει το κ σαν συνάρτηση του ν, µπορεί να χρησιµοποιηθεί σαν µία υπόδειξη για τον ενδεικνυόµενο αριθµό των κλάσεων (ο λογάριθµος είναι δεκαδικός): κ = 1 + 3.3*Log(ν) Ορισµός Β.4. Το πλήθος των στοιχείων που ανήκουν σε µία κλάση, ονοµάζεται συχνότητα της εν λόγω κλάσης. Τη συχνότητα της κλάσης Χi τη συµβολίζουµε µε το fi. 28 Βασική ιδιότητα: Εύκολα διαπιστώνουµε πως το άθροισµα των συχνοτήτων όλων (των κ) κλάσεων είναι ίσο µε το πλήθος (ν) των στοιχείων του πληθυσµού. κ f 1 + f 2 + f 3 + ... + f κ = ∑ f j = ν j= 1 Με τη συχνότητα µιας κλάσης έχουµε άποψη για το απόλυτο µέγεθός της. Όχι όµως και για το σχετικό, το οποίο συχνά είναι πιο σηµαντικό. Έτσι εάν κάποιος µας πει πως σε κάποιον πληθυσµό υπάρχουν 7 άτοµα µε ύψος από 195 έως 200 cm, δεν θα µπορούµε να πούµε αν ο εν λόγω αριθµός είναι φυσιολογικός, υπερβολικά µεγάλος ή µικρός. Αν λοιπόν πρόκειται για πληθυσµό 300 ατόµων, θα θεωρήσουµε τη συχνότητα της κλάσης φυσιολογική. Αν, αντίθετα, ο πληθυσµός περιλαµβάνει 15 άτοµα, τότε θα αρχίσουµε να αναρωτιόµαστε µήπως πέσαµε σε οµάδα µπάσκετ! Για το λόγο αυτό εκτός από τη συχνότητα µιας κλάσης θέλουµε να γνωρίζουµε και τη σχέση ανάµεσα σ'αυτήν και στο πλήθος των στοιχείων του πληθυσµού. Ορισµός Β.5. Ο λόγος της συχνότητας µιας κλάσης προς το πλήθος των στοιχείων του πληθυσµού λέγεται σχετική συχνότητα της κλάσης και συχνά συµβολίζεται µε το Pi (από το σύµβολο της πιθανότητας, όπως θα δούµε αργότερα). Η σχετική συχνότητα πολλαπλασιασµένη επί το εκατό δίνει την επί τοις εκατό σχετική συχνότητα. Άρα ισχύουν οι σχέσεις: Pi = fi ν ή Pi (%) = 100f i ν Συχνά, παρατηρώντας ένα πίνακα κλάσεων, γεννιέται η ανάγκη να µπορούµε να εκτιµήσουµε αµέσως το πλήθος των ατόµων του πληθυσµού για τα οποία η τυχαία µεταβλητή παίρνει τιµές µικρότερες από κάποια δεδοµένη τιµή. Την ανάγκη αυτή έρχεται να καλύψει η έννοια που περιγράφεται από τον επόµενο ορισµό: Ορισµός Β.6. Το άθροισµα των συχνοτήτων όλων των κλάσεων που προηγούνται µιας κλάσης, στο οποίο συµπεριλαµβάνεται και η συχνότητα της τρέχουσας κλάσης, καλείται αθροιστική συχνότητα της κλάσης. Ο λόγος της αθροιστικής συχνό- 29 τητας µιας κλάσης προς το πλήθος των στοιχείων του πληθυσµού λέγεται σχετική αθροιστική συχνότητα της κλάσης. Η αθροιστική συχνότητα της κλάσης Xj συµβολίζεται µε το Fi. Παράδειγµα Β.1. (συνέχεια 2η...): Αφού κατατάξουµε τα ύψη των 60 ατόµων σε κλάσεις, θα δηµιουργήσουµε δύο πίνακες στους οποίους θα παρουσιάζονται όλα τα στοιχεία που ορίσαµε µόλις. Αρχικά θα αποφασίσουµε το πλήθος των κλάσεων. Με δεδοµένο ότι το ν είναι ίσο µε 30 σε κάθε µια από τις δύο περιπτώσεις, έχουµε για το κ από τον εµπειρικό τύπο που δώσαµε: κ = 1 + 3.3*Log(ν) = = 1 + 3.3*Log(30) = = 5.87 Παρατηρούµε ταυτόχρονα και το εύρος στο οποίο εξαπλώνονται οι µετρήσεις (155-178 για τα κορίτσια και 169-195 για τα αγόρια), θέλοντας να δηµιουργήσουµε κλάσεις µε ακέραιο εύρος και µάλιστα, αν αυτό είναι εύκολο, µε εύρος 5 ή 10 (στρόγγυλη τιµή). ∆ιαλέγουµε εποµένως κ=6 και στις δύο περιπτώσεις, έτσι ώστε το εύρος των κλάσεων νά'ναι ίσο µε 5 cm. Προκύπτουν λοιπόν οι παρακάτω Στατιστικοί πίνακες: α/α Κλάση Xi 1 2 3 4 5 6 155 160 165 170 175 180 Όρια κλάσης Συχν. fi Σχετική συχν. Pi Σχετική συχν.(%) Αθροιστ. συχν. Fi Σχετική αθρ.συχ. Σχετ.αθρ. συχν.(%) 152.5-157.5 157.5-162.5 162.5-167.5 167.5-172.5 172.5-177.5 177.5-182.5 4 11 7 4 3 1 .1333 .3667 .2333 .1333 .1000 .0333 13.33 36.67 23.33 13.33 10.00 3.33 4 15 22 26 29 30 .1333 .5000 .7333 .8667 .9667 1.0000 13,33 50,00 73,33 86,67 96,67 100,00 30 1,0000 100,00 Σύνολο Πίνακας Β.5: Ύψη 30 σπουδαστριών, σε 6 κλάσεις (cm). 30 α/α Κλάση Xi 1 2 3 4 5 6 170 175 180 185 190 195 Όρια κλάσης Συχν. fi Σχετική συχν. Pi Σχετική συχν.(%) Αθροιστ. συχν. Fi Σχετική αθρ.συχ. Σχετ.αθρ. συχν.(%) 167.5-172.5 172.5-177.5 177.5-182.5 182,5-187,5 187,5-192,5 192,5-197,5 4 6 10 5 3 2 .1333 .2000 .3333 .1667 .1000 .0667 13.33 20.00 33.33 16.67 10.00 6.67 4 10 20 25 28 30 .1333 .3333 .6667 .8333 .9333 1.0000 13.33 33.33 66.67 83.33 93.33 100,00 30 1,0000 100,00 Σύνολο Πίνακας Β.6: Ύψη 30 σπουδαστών, σε 6 κλάσεις (cm). Παρατηρώντας τους πιο πάνω πίνακες µπορούµε να καταλήξουµε σχετικά εύκολα σε αρκετά συµπεράσµατα: 1ο) Για παράδειγµα, από την κολώνα των συχνοτήτων, διαπιστώνουµε πως τα περισσότερα κορίτσια του πληθυσµού µας έχουν ύψος γύρω στα 160 cm (ποσοστό 36.7%), ενώ το 33.3% των αγοριών έχουν ύψος γύρω στα 180 cm. 2ο) Ταυτόχρονα, από την κολώνα της αθροιστικής συχνότητας, διαπιστώνουµε πως το 66.7% των αγοριών έχουν ύψος µικρότερο ή ίσο των 180 cm, ενώ το 50% των κοριτσιών έχουν ύψος µικρότερο ή ίσο των 160 cm. 3ο) Επίσης, µε τη βοήθεια της αθροιστικής συχνότητας µπορούµε να υπολογίσουµε και το πλήθος των ατόµων που έχουν µεγαλύτερο ύψος από µια δοσµένη τιµή. Για παράδειγµα, εάν θέλουµε το πλήθος των αγοριών που έχουν ύψος µεγαλύτερο των 180 εκατοστών δεν έχουµε παρά να αφαιρέσουµε την αθροιστική συχνότητα του 180 από το συνολικό πλήθος (ν, εδώ ν=30). Τότε έχουµε: L = Πλήθος αγοριών µε ύψος µεγαλύτερο των Χκ = Χ3 = 180 cm Οπότε: L = ν-Fκ = 30-F3 = 30-20 = 10 31 Β.1.2. Γραφικές παραστάσεις. Για ακόµη καλύτερη και γρηγορότερη κατανόηση της κατανοµής των τιµών της τυχαίας µεταβλητής στα στοιχεία του πληθυσµού, χρησιµοποιούµε τις γραφικές παραστάσεις που συνδέουν την κλάση (στον "οριζόντιο" άξονα) µε την συχνότητα ή τη σχετική συχνότητα (στον κατακόρυφο" άξονα). Οι γραφικές αυτές παραστάσεις (βλ. στο παράδειγµα που ακολουθεί) λέγονται ιστογράµµατα. Μια άλλη γραφική παράσταση, ιδιαίτερα χρήσιµη, είναι αυτή που συνδέει την κλάση µε την αθροιστική της συχνότητα. Παράδειγµα B.1: (συνέχεια 3η...) Στα δύο επόµενα ιστογράµµατα εµφανίζεται η συχνότητα fi σαν συνάρτηση της κλάσης Χi. Τα ιστογράµµατα θα ήταν ακριβώς ίδια, εάν στον κατακόρυφο άξονα εµφανιζόταν η σχετική συχνότητα. Απλά θα άλλαζαν οι µονάδες του άξονα, και στη θέση για παράδειγµα του 8 θα υπήρχε το 0,2667 (=8/30). Το ίδιο ακριβώς συµβαίνει και στο 3ο και το 4ο σχεδιάγραµµα για την αθροιστική συχνότητα και τη σχετική αθροιστική συχνότητα. Αξίζει να παρατηρήσουµε τις διαφορές που υπάρχουν ανάµεσα στα σχεδιαγράµµατα των κοριτσιών και των αγοριών. Τέλος διαπιστώνουµε για µία ακόµη φορά πως µια εικόνα αξίζει όσο χίλιες λέξεις. 12 8 fi 4 0 155 160 165 170 175 Xi 180 185 190 195 32 12 8 fi 4 0 155 160 165 170 175 180 185 190 195 Xi Σχήµα Β.1: Γραφική παράσταση της συχνότητας για το ύψος των 30 κοριτσιών (επάνω) και των 30 αγοριών (κάτω) 40 30 Fi 20 10 0 150 155 160 165 170 175 180 185 190 195 Xi 40 30 Fi 20 10 0 150 155 160 165 170 175 180 185 190 195 Xi Σχήµα Β.2: Γραφική παράσταση της αθροιστικής συχνότητας, των 30 κοριτσιών (άνω) και των 30 αγοριών (κάτω). 33 Παρατηρήσεις: 1η) Το ιστόγραµµα του σχ.Β.1 και η γραφική παράσταση του σχ.Β.2 είναι κλασσικές µορφές για τέτοιου είδους προβλήµατα. 2η) Όταν ο αριθµός των δεδοµένων είναι ιδιαίτερα µεγάλος και επιλεγεί ένας µεγάλος αριθµός κλάσεων, οι παραπάνω γραφικές παραστάσεις παύουν να θυµίζουν σκαλίτσα που ανεβοκατεβαίνει και πλησιάζουν σε µια "λεία" καµπύλη, σαν κι'αυτή που εµφανίζεται στο επόµενο σχεδιάγραµµα. 1,5 1 fi 0,5 0 1 2 3 4 5 6 7 8 Xi Σχ.Β.3. Η καµπύλη κατανοµής των συχνοτήτων των κλάσεων Xi . 3η) Στη επόµενη γραφική παράσταση της σχετικής συχνότητας, εάν θεωρήσουµε σαν µονάδα στον άξονα των χ το εύρος ε της κάθε κλάσης (έχουµε επιλέξει κλάσεις του ίδιου πλάτους), τότε το εµβαδόν που περικλείεται από την καµπύλη της σχετ. συχνότητας και τον άξονα των χ ισούται µε τη µονάδα. 0,4 0,3 Pi 0,2 0,1 0 X(1) X(2) X(3) X(4) X(5) X(6) X(7) 34 Πράγµατι το εν λόγω εµβαδόν, δίνεται από το άθροισµα των εµβαδών που αντιστοιχούν σε κάθε κλάση, που είναι ένα ορθογώνιο µε βάση τη µονάδα και ύψος τη σχετ.συχνότητα Pi, της κλάσης. Άρα: Εολ = Ε1 + Ε2 +...+ Ε7 = P1 + P2 +...+ P7 = = f1/v + f2/v +...+f7/v = v/v = 1 4η) Οι συναρτήσεις που απεικονίζονται στις γραφικές παραστάσεις του σχήµατος Β.1, ονοµάζονται και συναρτήσεις κατανοµής της συχνότητας. Όταν µάλιστα έχουν την µορφή του Σχ.Β.1 ονοµάζονται µονοκόρυφες κατανοµές συχνότητας. Σαν παράδειγµα δίκορφης κατανοµής συχνότητας αναφέρουµε το σχεδιάγραµµα της συχνότητας που προκύπτει εάν πάρουµε σαν ενιαίο πληθυσµό και τα αγόρια και τα κορίτσια. Τότε η γραφική παράσταση είναι η παρακάτω, από την οποία µάλιστα πιστεύουµε πως γίνεται φανερός ο λόγος αυτών των ονοµασιών (µονό-δί-τρίκορφη κ.λ.π.). 12 8 fi 4 0 155 160 165 170 175 180 185 190 195 Xi Σχ.Β.4: Η κατανοµή των συχνοτήτων των υψών 60 νέων, 30 αγοριών και 30 κοριτσιών (δίκορφη). Βέβαια οι συχνότητες που απεικονίζονται στο προηγούµενο σχήµα, είναι το άθροισµα των συχνοτήτων των αντίστοιχων κλάσεων σε κορίτσια και αγόρια, οι οποίες δίνονται από τον επόµενο πίνακα: Xi 155 160 fi 4 11 165 170 175 180 185 190 195 7 8 9 11 5 3 2 35 Παράδειγµα Β.2. Τα ιστογράµµατα είναι ιδιαίτερα δηµοφιλή και στις παρουσιάσεις των σφυγµοµετρήσεων και των εκλογικών αποτελεσµάτων από τα µέσα µαζικής ενηµέρωσης, µια και δίνουν µε τρόπο παραστατικό το µέγεθος των διαφορών ανάµεσα στις διάφορες κατηγορίες. Στον επόµενο πίνακα εµφανίζονται τα αποτελέσµατα των ∆ηµοτικών Εκλογών του 1994, στο ∆ήµο της Θεσσαλονίκης. Βέβαια ο πίνακας αυτός είναι µια πληρέστατη καταγραφή του αποτελέσµατος. Όµως πρόκειται για µία µορφή, µάλλον δύσπεπτη... Συνδυασµοί Κοσµόπουλος Ακριτίδης Γιαννούσης Νέστωρ Τζιώλας Παπαποστόλου Εγγεγραµµένοι Έγκυρα Άκυρα - Λευκά Αποχή Κων. Νικ. Αθαν. Στυλ. Ιωάν. Νικ. Έλαβαν Ποσοστό (%) Ποσοστό µε Λευκά και Άκυρα 83 356 51 482 8 924 8 433 3 965 3 186 53,31 32,31 5,60 5,29 2,49 2,00 47,52 29,35 5,09 4,81 2,26 1,82 223 841 159 346 16 071 48 424 71,19 7,18 21,63 9,16 Πίνακας Β.7. Θεσσαλονίκη: ∆ηµοτικές του 1994. Το ιστόγραµµα των ίδιων αποτελεσµάτων, των ∆ηµοτικών εκλογών του Οκτωβρίου 1994 για το ∆ήµο Θεσσαλονίκης, θα λέγαµε πως είναι γλαφυρότερο, παρ’όλον ότι η πληροφορία που προσφέρει είναι αισθητά µικρότερη. 36 60 40 % 20 0 1os 2os 3os 4os 5os 6os 1os 2os 3os 4os 5os 6os Κοσµόπουλος - Ακριτίδης - Γιαννούσης - Νέστωρ - Τζιώλας - Παπαποστόλου Σχ.Β.5. Ιστόγραµµα των αποτελεσµάτων του ∆ήµου Θεσσαλονίκης στις ∆ηµοτικές Εκλογές του Οκτωβρίου 1994. Ένας ακόµη τρόπος παρουσίασης είναι µε τη µορφή τοµέων ενός κύκλου των οποίων το εµβαδόν είναι ίσο µε το ποσοστό της αντίστοιχης κατηγορίας. Είναι βέβαια προφανές πως το συνολικό εµβαδόν του κύκλου είναι ίσο µε το 100%. Στο διάγραµµα που ακολουθεί επανερχόµαστε στα αποτελέσµατα των ∆ηµοτικών εκλογών, όπου παρατηρούνται µε διαφορετικό τρόπο τα ίδια ακριβώς αποτελέσµατα. 3os 4os 5os 6os 2os 1os 1os 2os 3os 4os 5os 6os Κοσµόπουλος - Ακριτίδης - Γιαννούσης - Νέστωρ - Τζιώλας - Παπαποστόλου Σχ.Β.5. Τα αποτελέσµατα του ∆ήµου Θεσσαλονίκης στις ∆ηµοτικές Εκλογές του Οκτωβρίου 1994, µε τη βοήθεια κυκλικών τοµέων. 37 Παράδειγµα Β.3. Πολλές φορές θέλουµε να συγκρίνουµε δύο ή περισσότερες σειρές αποτελεσµάτων. Για παράδειγµα, θέλουµε να µελετήσουµε τα εκλογικά αποτελέσµατα των τελευταίων τριών εκλογικών αναµετρήσεων, τα οποία εµφανίζονται στον επόµενο πίνακα. Κοµµατικοί Σχηµατισµοί ΠΑ.ΣΟ.Κ. Νέα ∆ηµοκρατία Κ.Κ.Ε. Συνασπισµός ∆Η.Κ.ΚΙ. Πολιτική Άνοιξη Λοιπά κόµµατα 1996 1993 1990 (%) Έδρες (%) (%) 41,51 38,13 5,60 5,11 4,43 2,94 2,28 162 108 11 10 9 0 0 46,88 39,29 4,53 2,94 4,87 1,49 38,62 46,88 ενιαίος ΣΥΝ 10,28 4,22 Πίνακας Β.8. Αποτελέσµατα των Ελληνικών Βουλευτικών Εκλογών του 1996, του 1993 και του 1990. Τα αποτελέσµατα των τριών ψηφοφοριών, σε ποσοστά (%), εµφανίζονται στο επόµενο ραβδόγραµµα. 60 40 1996 1993 % 1990 20 0 1o 1o ΠΑ.ΣΟ.Κ. 2o 2o Ν.∆ 3o 3o Κ.Κ.Ε. 4o 4o ΣΥΝ 5o 6o 5o ∆Η.Κ.ΚΙ. 6o Π.Ανοιξη Σχ.Β.6. Ραβδόγραµµα µε τα αποτελέσµατα των Βουλευτικών εκλογών το 1996, το 1993 και το 1990. 38 Στις τελευταίες δύο εκλογικές αναµετρήσεις έγινε πολύς λόγος για το εκλογικό σύστηµα, το οποίο σύµφωνα µε τα λεγόµενα «έκλεβε έδρες από το δεύτερο κόµµα για να τις δώσει στα µικρότερα». Στον επόµενο πίνακα έχουµε το εκλογικό ποσοστό του κάθε κόµµατος και το ποσοστό των εδρών που τελικά κατέλαβε, ενώ τα ίδια δεδοµένα εµφανίζονται και στο ραβδόγραµµα. Κοµµατικοί Σχηµατισµοί Ψήφοι % Πλήθος % 41,51 38,13 5,60 5,11 4,43 2,94 162 108 11 10 9 0 54,00 36,00 3,67 3,33 3,00 0,00 ΠΑ.ΣΟ.Κ. Νέα ∆ηµοκρατία Κ.Κ.Ε. Συνασπισµός ∆Η.Κ.ΚΙ. Πολιτική Άνοιξη Έδρες 60 A (%) 40 E (%) % 20 0 1o 1o ΠΑ.ΣΟ.Κ. 2o 2o Ν.∆ 3o 3o Κ.Κ.Ε. 4o 4o ΣΥΝ 5o 6o 5o ∆Η.Κ.ΚΙ. 6o Π.Ανοιξη Πίνακας Β.9. και Σχ.Β.7: Το ποσοστό των ψήφων και το ποσοστό των εδρών που κατέλαβαν τα κόµµατα στις Βουλευτικές εκλογές του 1996. Α(%): το ποσοστό των ψήφων, Ε (%): το ποσοστό των εδρών. Παρατηρώντας τα πιο πάνω δεδοµένα, διαπιστώνουµε πως η σωστή έκφραση που περιγράφει τον εκλογικό νόµο θα ήταν ότι: «Κλέβει το 30% περίπου των εδρών των µικρών κοµµάτων (εφ’όσον υπερβούν το όριο του 3%) και ένα µικρό κοµµάτι του δεύτερου (περίπου 5%), για να τα δώσει στο πρώτο». 39 Β.2. ΠΑΡΑΜΕΤΡΟΙ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ. Οι παράµετροι κεντρικής τάσης εκφράζουν την προσπάθεια για συνοπτικότερη παρουσίαση των στατιστικών δεδοµένων. Πρόκειται για παραµέτρους που προσπαθούν να περιγράψουν τη συµπεριφορά ενός πληθυσµού ως προς µια τυχαία µεταβλητή, µε ένα µόνο αριθµό. Στην παράγραφο αυτή θα αναφερθούµε στον τύπο (επικρατούσα τιµή), στη διάµεσο, στα τεταρτηµόρια (δεκατηµόρια κλπ.) και στη µέση τιµή (µέσος όρος ή αριθµητικός µέσος), η οποία είναι και η πιο σηµαντική. Τέλος θα αναφερθούµε στον Γεωµετρικό µέσο και τη χρησιµότητά του. Β.2.1. Τύπος ή επικρατούσα τιµή. Έστω οι ν-τιµές µιας τυχαίας µεταβλητής Xi, i=1,2,...,ν. Στα περισ- σότερα βιβλία της Στατιστικής αναφέρεται σαν τύπος ή επικρατούσα τιµή των τιµών Xi, η τιµή που εµφανίζεται περισσότερες φορές. Εδώ θα θεωρήσουµε πως ο ορισµός αυτός έχει τελικά πολύ µικρή χρησιµότητα και θα ορίσουµε την έννοια της επικρατούσας τιµής, στην περίπτωση που τα δεδοµένα δίνονται σε κλάσεις Xi, i=1,2,..,κ (όπου κ, το πλήθος των κλάσεων). Ορισµός Β.6. Όταν οι τιµές µιας τυχ.µεταβλητής δίνονται κατά κλάσεις, η κλάση µε τη µεγαλύτερη συχνότητα ονοµάζεται τύπος ή επικρατούσα τιµή. Στη συνέχεια θα συµβολίζουµε τον τύπο µε το Τ. Παρατηρήσεις: 1η) Στο παράδειγµα Β.1., στην περίπτωση του πρώτου πίνακα (κορίτσια), ο τύπος είναι η κλάση Χ2=160 cm, µε συχνότητα f2=11. Αντίθετα στην περίπτωση του δεύτερου πίνακα (αγόρια), Τ=X3=180 cm, µε συχνότητα f3=10. 2η) Ο τύπος δίνει εποµένως τη κλάση (ή τις κλάσεις) στην οποία η συχνότητα παίρνει τη µέγιστή της τιµή. Τη κλάση αυτή την ονοµάζουµε συχνά και κορυφή. Είναι πιθανό ο τύπος κάποιου πληθυσµού να µην είναι µοναδικός. 40 Προφανώς αυτό συµβαίνει όταν δύο ή περισσότερες κλάσεις έχουν την ίδια συχνότητα, η οποία είναι και η µέγιστη. Ένα τέτοιο παράδειγµα αντιµετωπίσαµε στην 4η παρατήρηση του παραδείγµατος Β.1., όταν πήραµε ταυτόχρονα τα 30 κορίτσια και τα 30 αγόρια, για να δηµιουργήσουµε ένα µεικτό πληθυσµό 60 ατόµων. Τότε είχαµε σαν τύπους τις κλάσεις: X2 = 160 cm και X6 = 180 cm, µε την ίδια συχνότητα f2=f6=11. Σε παρόµοιες περιπτώσεις µιλάµε, όπως είπαµε, για δικόρυφη (τρικόρυφη κ.λ.π.) κατανοµή της συχνότητας της τυχαίας µεταβλητής. 3η) Είναι δυνατόν ο τύπος να υπολογισθεί ακριβέστερα. Τότε η επικρατούσα τιµή διαφέρει από το όνοµα της κλάσης µε τη µεγαλύτερη συχνότητα, καθώς είναι λίγο µεγαλύτερη ή µικρότερη απ'αυτό (το όνοµα της κλάσης). Στη µεταβολή αυτή λαµβάνονται υπ'όψη οι συχνότητες της προηγούµενης και της επόµενης κλάσης από την "πλειοψηφούσα" κλάση. Να τονίσουµε όµως πως ποτέ η ακριβής τιµή του τύπου δεν ξεπερνά τα όρια της πλειοψηφούσας κλάσης. Ακριβής υπολογισµός του τύπου Τ. Τελικά η µεταβολή της τιµής του τύπου Τ σε σχέση µε το όνοµα της πλειοψηφούσας κλάσης, είναι ευθέως ανάλογη του λόγου των συχνοτήτων της προηγούµενης και της επόµενης κλάσης. 30 fi 15 0 X ( t- 1 ) X (t ) T X ( t+ 1 ) 41 Εάν λοιπόν έχουµε: i) "πλειοψηφούσα" κλάση την Χτ, ii) Ο1 και Ο2 το κάτω και το άνω όριο της κλάσης Χτ, iii) ε = Ο2-Ο1 το εύρος της κλάσης Χτ iv) fτ-1 και fτ+1 τις συχνότητες των κλάσεων Χτ-1 και Χτ+1 ορίζουµε σαν τύπο ή επικρατούσα τιµή της κατανοµής την τιµή: T = O1 + f Τ +1 ε f Τ −1 + f Τ + 1 Για να γίνει κατανοητός ο πιο πάνω τύπος αξίζει να σκεφθούµε την περίπτωση κατά την οποία οι συχνότητες ft-1 και ft+1 είναι ίσες. Τότε το κλάσµα ft+1 /(ft-1+ft+1) είναι ίσο µε 1/2, οπότε έχουµε τον τύπο Τ: Τ = Ο1 + ε/2 Όµως προσθέτοντας στο κάτω όριο της κλάσης το µισό του εύρους της, φθάνουµε ακριβώς στο µέσον της, το οποίο, όπως είπαµε όταν µιλήσαµε για κλάσεις, είναι το όνοµά της Χi. Επίσης επειδή το κλάσµα: fτ+1/(fτ-1 + fτ+1) είναι πάντα µεγαλύτερο του µηδέν και µικρότερο του 1, ο τύπος Τ δεν µπορεί παρά να βρίσκεται στο διάστηµα (Ο1 , Ο1+ε=Ο2), δηλαδή θα βρίσκεται µέσα στα όρια της «πλειοψηφούσας» κλάσης Χτ. Β.2.2. ∆ιάµεσος. Μια άλλη παράµετρος κεντρικής τάσης είναι η διάµεσος δ, η οποία ουσιαστικά ισούται µε τη µεσαία τιµή της τυχ. µεταβλητής Xi, όταν οι τιµές αυτές έχουν ταξινοµηθεί κατ' αύξουσα σειρά. Στον πλήρη ορισµό ξεχωρίζουµε τις περιπτώσεις όπου: τα δεδοµένα δίνονται αναλυτικά, Xi, i=1,2..,ν, τα δεδοµένα δίνονται σε κλασεις, Xi, i=1,2..,κ. 42 α) Τα δεδοµένα είναι δοσµένα αναλυτικά Ορισµός Β.7. Όταν τα δεδοµένα είναι δοσµένα αναλυτικά (ν τιµές που αντιστοιχούν στα ν άτοµα του πληθυσµού) και διατεταγµένα κατ'αύξουσα σειρά, τότε η διάµεσός τους (δ) είναι η µεσαία τιµή, εάν ο ν είναι περιττός, ή το ηµιάθροισµα των δύο µεσαίων, εάν το ν είναι άρτιος. Παράδειγµα: Εάν έχουµε έξι τιµές της τυχ. µεταβλητής Χi, τις: Χi = 7, 9, 10, 13, 14, 17 για i=1,2,..,6 τότε έχουµε δύο µεσαίες µετρήσεις, την Χ3 και την Χ4. Η διάµεσος δ δίνεται εποµένως από το ηµιάθροισµά τους: δ= Χ 3 + Χ 4 10 + 13 = = 11,5 2 2 Εύκολα θα παρατηρήσετε πως όταν το πλήθος ν των στοιχείων του πληθυσµού είναι περιττός αριθµός, τότε η σειρά ξ της µεσαίας µέτρησης δίνεται από τη σχέση: ξ = (ν+1)/2 οπότε η διάµεσος δ δίνεται από την ισότητα: δ = Χξ Αντίθετα, όταν ο ν είναι άρτιος, τότε η σειρά, ξ1 και ξ2, των δύο µεσαίων µετρήσεων δίνεται από τις σχέσεις: ξ1 = ν/2 και ξ2 = ξ1+1 οπότε η διάµεσος δ δίνεται από την ισότητα: δ= ξ1 + ξ 2 2 43 Παρατήρηση: Μπορούµε λοιπόν να πούµε πως η πραγµατική σειρά της διαµέσου είναι η ξ = (ν+1)/2. Το ξ µπορεί να είναι ακέραιος (όταν το ν είναι περιττό), ή δεκαδικός, µε δεκαδικό µέρος .5 (όταν το ν είναι άρτιο). Έτσι εάν το ξ=8.5, αυτό σηµαίνει πως τα δύο µεσαία στοιχεία των µετρήσεων είναι το Χ8 και Χ9. β) Τα δεδοµένα είναι κατανεµηµένα σε κλάσεις. Έστω ότι οι τιµές της τυχ.µεταβλητής Xi σε έναν πληθυσµό ν στοιχείων δίδονται κατά κ κλάσεις (i=1,..,κ). Παρ' όλον ότι δεν έχουµε αναλυτικά τις µετρήσεις, εν τούτοις ξέρουµε τη σειρά ξ της πραγµατικής διαµέσου [ξ=(ν+1)/2]. Σύµφωνα λοιπόν µε τα παραπάνω, είναι εύκολο, µε τη βοήθεια του πίνακα συχνοτήτων (ειδικά µε τη στήλη της αθροιστικής συχνότητας), να προσδιορίσουµε την κλάση µέσα στην οποία βρίσκεται η πραγµατική διάµεσος(4). Ορισµός Β.8. Όταν τα δεδοµένα είναι κατανεµηµένα σε κλάσεις, ονοµάζουµε διάµεσό τους την κλάση µέσα στην οποία βρίσκεται η πραγµατική διάµεσος. Ακριβής προσδιορισµός της διαµέσου: Όπως και στην περίπτωση του Τύπου, είναι δυνατή η ακριβέστερη έκφραση της διαµέσου, όταν τα ¦δεδοµένα δίνονται σε κλάσεις. Η ακριβής τιµή 4 Πρόκειται για την πρώτη κλάση της οποίας η αθροιστική συχνότητα είναι µεγαλύτερη από τον ξ. Έστω ότι έχουµε σ'έναν πίνακα τις αθροιστικές συχνότητες: F1=2 , F2=7 , F3=16 , F4=22 και F5=24 οι οποίες αντιστοιχούν στις συχνότητες: f1=2 f2=5 f3=9 f4=6 και f5=2 Εάν όλες οι κλάσεις είναι πέντε, τότε το πλήθος ν των στοιχείων του πληθυσµού είναι 24, οπότε το ξ=12.5. Η πρώτη κλάση της οποίας η αθροιστική συχνότητα είναι µεγαλύτερη του ξ είναι η τρίτη (Χ3, διότι η F3=16 είναι η πρώτη µεγαλύτερη αθρ. συχνότητα από το ξ), η οποία "φιλοξενεί" τη διάµεσο δ. 44 της διαµέσου εξαρτάται από τη σειρά που έχει η πραγµατική διάµεσος στο εσωτερικό της κλάσης στην οποία ανήκει. 0 ,3 fi 0 ,1 5 0 X (d -1 ) X (d ) X (d + 1 ) Εάν συµβολίσουµε µε: Χδ ξ Fδ-1 την κλάση που «φιλοξενεί» τη διάµεσο, την τιµή (ν+1)/2 (πραγµατική σειρά της διαµέσου), την αθροιστική συχνότητα της κλάσης Χδ-1 (πρόκειται για την αθροιστική συχνότητα της προηγούµενης κλάσης από την Χδ), fδ τη συχνότητα της κλάσης Χδ, Ο1 και Ο2 το κάτω και το άνω όριο της κλάσης Χδ, ορίζουµε σαν διάµεσο την τιµή: δ = Ο1 + ξ − Fδ −1 ε fδ Παρατηρήσεις: 1η) Αξίζει να παρατηρήσουµε πως ο αριθµητής του κλάσµατος του προηγούµενου τύπου ορίζει ακριβώς την σειρά της πραγµατικής διαµέσου στο εσωτερικό της κλάσης Χδ. Πράγµατι, αν ξαναγυρίσουµε στο παράδειγµα της προηγούµενης υποσηµείωσης έχουµε πως: F1=2, F2=7, F3=16, F4=22 και F5=24, ενώ το ξ=12.5, το Χδ είναι το Χ3 και το Fδ-1 είναι το F2. Στην περίπτωση αυτή ισχύει: ξ - Fδ-1 = 12.5 - 7 = 5.5 45 Ξαναρίχνοντας µια µατιά στα δεδοµένα θα διαπιστώσουµε εύκολα πως το στοιχείο µε σειρά 12.5 (η διάµεσος δηλαδή), βρίσκεται στην 5.5 σειρά ανάµεσα στα 9 στοιχεία της κλάσης Χ3. Όλα αυτά γίνονται φανερά στο επόµενο σχεδιάγραµµα των στοιχείων της κλάσης Χ3. δ ο ο ο 1 2 .... 5 6ο .... 9ο 8ο 9ο .... 12ο 13ο .... 17ο X2 X3 Σειρά στην Χ3 Σειρά στον πληθυσµό X4 Αλήθεια, γιατί η Χ3 έχει συχνότητα (f3) εννέα;(!?) 2η) Ο ακριβής υπολογισµός της διαµέσου είναι πολύ πιο σηµαντικός από τον ακριβή υπολογισµό της επικρατούσας τιµής. Για το λόγο αυτό χρησιµοποιείται σχεδόν πάντα. Παράδειγµα Β.1. (συνέχεια 4η...) Ξαναγυρίζοντας στο παράδειγµα Β.1. θα αναζητήσουµε τον τύπο Τ και τη διάµεσο δ των δεδοµένων που έχουµε για τα ύψη των 60 σπουδαστών, 30 κοριτσιών και 30 αγοριών. Για ευκολία θα ξαναγράψουµε τους πίνακες Β.3 και Β.4 που περιέχουν τα δεδοµένα ταξινοµηµένα κατ'αύξουσα σειρά, καθώς και τους τρεις πίνακες των συχνοτήτων (κορίτσια, αγόρια και όλοι µαζί). Κορίτσια 155 159 161 165 170 156 159 162 165 170 157 160 162 166 173 157 160 163 166 175 Αγόρια 158 160 164 168 177 159 161 164 169 178 169 176 179 182 187 170 176 180 182 188 172 177 180 183 190 172 177 181 184 192 175 178 182 185 194 175 179 182 185 195 46 Xi 155 160 165 170 175 180 185 190 195 Κορίτσια fi Fi 4 11 7 4 3 1 4 15 22 26 29 30 Αγόρια fi Fi fi Fi 4 6 10 5 3 2 4 11 7 8 9 11 5 3 2 4 15 22 30 39 50 55 58 60 4 10 20 25 28 30 Όλοι Πίνακας Β.10: Τα ύψη 30 σπουδαστριών και 30 σπουδαστών, καθώς και οι απλές και οι αθροιστικές τους συχνότητες. (επαναληπτικοί) (i) Eπικρατούσα τιµή. Ξεκινώντας από την επικρατούσα τιµή των αναλυτικών δεδοµένων βρίσκουµε πως στα κορίτσια έχουµε δύο τιµές µε συχνότητα 3, τα 159 και τα 160 cm. ενώ στα αγόρια επικρατεί η τιµή 182 µε συχνότητα 4. Η ίδια τιµή (182 cm) µε την ίδια συχνότητα (4) επικρατεί και στα µεικτά δεδοµένα. Στα δεδοµένα των πινάκων συχνότητας έχουµε σε πρώτη προσέγγιση: Για τα κορίτσια: Για τα αγόρια: Για το µεικτό πληθυσµό: Τ = 160 Τ = 180 Τ = 160 και 180 (δίκορφη) Θα υπολογίσουµε µε ακρίβεια µόνο τον τύπο των δεδοµένων των κοριτσιών, όπου: Χτ = Χ2 = 160 µε Ο1 = 157.5 και ε = 5, ενώ fτ-1 = f1 = 4 και fτ+1 = f3 = 7. T = O1 + f Τ +1 7 ε = 157.5 + 5 = 157.5 + 3.18 = 160.68 f Τ −1 + f Τ + 1 4+7 Όµοια υπολογίζουµε για τα αγόρια: Τ = 179.77 cm, ενώ για το µεικτό πληθυσµό έχουµε: Τ = 160.68 και 179.29 cm. Να υπολογισθούν...! 47 (ii) ∆ιάµεσος. Παρατηρούµε πως το πλήθος των αναλυτικών δεδοµένων είναι άρτιο (30 ή 60). Έχουµε εποµένως σαν διάµεσο το ηµιάθροισµα της 15ης (ξ1=ν/2) και της 16ης τιµής (ξ2=ξ1+1) για κορίτσια κι αγόρια και το ηµιάθροισµα της 30ης και 31ης τιµής στην περίπτωση του µεικτού πληθυσµού. Για τα κορίτσια: Για τα αγόρι: Για το µεικτό πληθυσµό: δ = (162+163)/2 = 162.5 δ = (180+181)/2 = 180.5 δ = (172+172)/2 = 172. Επιστρέφοντας στα δεδοµένα κατά κλάσεις έχουµε πως όταν το ν είναι ίσο µε 30, η ακριβής τάξη της διαµέσου είναι η: ξ = (ν+1)/2 = 31/2 = 15.5 Για τα δεδοµένα των κοριτσιών, η πρώτη κλάση της οποίας η αθροιστική συχνότητα είναι µεγαλύτερη του ξ (=15.5), είναι η τρίτη κλάση: Χ3 = 165, διότι F3=22 ≥ ξ=15,5, οπότε fδ = f3 = 7 και Fτ-1 = F2 = 15. δ = Ο1 + ξ − Fδ −1 15.5 − 15 ε = 162.5 + * 5 = 162.5 + 0.36 = 162.86 fδ 7 Όµοια υπολογίζουµε για τα αγόρια: δ = 180.25 cm και για το µεικτό πληθυσµό: δ = 172.78 cm. (Να υπολογισθούν!) Β.2.3. Τεταρτηµόρια. Υπολογίζοντας τη διάµεσο δ µιας σειράς Στατιστικών δεδοµένων, υπολογίζουµε ουσιαστικά την µέτρηση που χωρίζει το σύνολο των µετρήσεων σε δύο ισοπληθή τµήµατα. Με παρόµοιο τρόπο µπορούµε να εντοπίσουµε τις µετρήσεις εκείνες που χωρίζουν το σύνολο των µετρήσεων σε περισσότερα από δύο ισοπληθή µέλη. Συνήθως ζητούµε: 48 (i) τις τρεις µετρήσεις που χωρίζουν το σύνολο των µετρήσεων σε τέσσερα ίσα µέρη, οι οποίες (τρεις µετρήσεις) ονοµάζονται τεταρτηµόρια και συµβολίζονται µε τα Q1, Q2 και Q3. (ii) τις εννέα µετρήσεις που χωρίζουν το σύνολο των µετρήσεων σε δέκα ίσα µέρη, οι οποίες ονοµάζονται δεκατηµόρια. Συµβολισµός τους: D1, D2, D3, ... και D9. Ο τρόπος υπολογισµού τους είναι παρόµοιος µ'αυτόν για τον υπολογισµό της διαµέσου. Στη συνέχεια θα δώσουµε τη µέθοδο υπολογισµού των τεταρτηµορίων και θα ζητήσουµε σαν άσκηση να κάνετε το ίδιο για τα δεκατηµόρια. α) Τα δεδοµένα είναι δοσµένα αναλυτικά Εάν δεχθούµε πως τα αναλυτικά δεδοµένα Χi, i=1,2,..,ν έχουν διαταχθεί κατ'αύξουσα σειρά, τότε: η σειρά του πρώτου τεταρτηµορίου Q1 είναι: του δεύτερου Q2 : του τρίτου Q3 : ξ1 = (ν+1)/4, ξ2 = 2*ξ1 = (ν+1)/2, ξ3 = 3*ξ1 Παρατήρηση: Να παρατηρήσουµε πως το δεύτερο τεταρτηµόριο Q2 ταυτίζεται µε τη διάµεσο δ. Γι'αυτό όταν σ'ένα πρόβληµα, µας ζητούν να υπολογίσουµε τη διάµεσο και τα τεταρτηµόρια, υπολογίζουµε πρώτα τα Q1, Q2 και Q3, γράφοντας στη συνέχεια για τη διάµεσο: δ = Q2 Για τη σειρά των τριών τεταρτηµορίων (ξ1, ξ2 και ξ3), διακρίνουµε τρεις διαφορετικές περιπτώσεις: i) Ο ξ1 είναι ακέραιος. Τότε και οι υπόλοιποι τρεις είναι ακέραιοι, οπότε ο ορισµός των Q1, Q2 και Q3 είναι προφανής. 49 ii) Ο ξ1 είναι δεκαδικός µε δεκαδικό µέρος το .5. Τότε το ίδιο δεκαδικό µέρος (.5) θα έχει και ο ξ3, ενώ ο ξ2 είναι ακέραιος. Στην περίπτωση αυτή ο Q1 και o Q3 προκύπτουν σαν ηµιάθροισµα δύο διαδοχικών µετρήσεων. Εάν το ξ1=11.5, τότε έχουµε πως το: Q1 = X 11 + X 12 2 iii) Ο ξ1 είναι δεκαδικός µε δεκαδικό µέρος το .25 (ή .75). Τότε ο ξ2 έχει δεκαδικό µέρος το .5, ενώ ο ξ3 το .75 (ή αντίστοιχα το .25). Εδώ, ο Q2 προκύπτει σαν ηµιάθροισµα δύο µετρήσεων, ενώ τα Q1 και Q3 προκύπτουν σαν σύνθεση δύο µετρήσεων από τις οποίες η µία (η πιο µακρινή) συµµετέχει κατά 25%, και η άλλη (η πιο κοντινή) κατά 75%. Εάν για παράδειγµα το ξ1=11.75, τότε έχουµε για το Q1 τη σχέση: X + 3 X12 Q 1 = 11 4 β) Τα δεδοµένα είναι κατανεµηµένα σε κλάσεις. Αρχικά υπολογίζουµε τη σειρά των τριών τεταρτηµορίων ξ1, ξ2 και ξ3, µε τη µέθοδο της προηγουµένης παραγράφου. Στη συνέχεια υπολογίζουµε, όπως και στη διάµεσο, την κλάση (ΧQ) που φιλοξενεί το Q1. Ο τελικός υπολογισµός γίνεται ως εξής: Συµβολίζουµε µε: i) ΧQ την κλάση που περιέχει το στοιχείο µε σειρά ξ1, ii) FQ-1 την αθροιστική συχνότητα της κλάσης ΧQ-1 (πρόκειται για το άθροισµα των συχνοτήτων όλων των προηγουµένων κλάσεων της ΧQ), iii) fQ τη συχνότητα της κλάσης ΧQ, iv) Ο1 και Ο2 το κάτω και το άνω όριο της κλάσης ΧQ, v) ε το εύρος της κλάσης XQ (ε=O2-O1). Έχουµε τότε: Q1 = O1 + ξ 1 − FQ −1 fQ ε 50 Η ερµηνεία του προηγούµενου τύπου είναι ακριβώς όµοια µε την ερµηνεία του τύπου της διαµέσου. Ας µη ξεχνούµε πως οι έννοιες της διαµέσου, των τεταρτηµορίων ή των δεκατηµορίων είναι έννοιες παράλληλες. Άλλωστε, όπως τονίστηκε και στην προηγούµενη παρατήρηση, η διάµεσος ταυτίζεται µε το Q2. Όµοια υπολογίζονται και τα άλλα δύο τεταρτηµόρια Q2 και Q3. Eάν συµβολίσουµε µε ΧQ την κλάση που περιέχει το Q2 (που περιέχει δηλαδή το στοιχείο του οποίου η σειρά είναι το ξ2), τότε ισχύει ο τύπος: Q 2 = Ο1 + ξ 2 − FQ −1 fQ ε Όµοια και για το Q3: Q 3 = Ο1 + ξ 3 − FQ −1 fQ ε Παράδειγµα Β.1. (συνέχεια 5η...) Ξαναγυρίζοντας στο παράδειγµα Β.1., θα αναζητήσουµε τα τεταρτηµόρια των αναλυτικών δεδοµένων και των δεδοµένων που αναγράφονται στους πίνακες συχνοτήτων. Η σειρά του κάθε τεταρτηµορίου είναι ίση µε: ξ1 = (ν+1)/4 = 31/4 = 7.75 ξ2 = 2*ξ1 = 2*7.75 = 15.50 ξ3 = 3*ξ1 = 3*7.75 = 23.25 i) Για τα αναλυτικά δεδοµένα: Το Q1 (ξ1=7.75), υπολογίζεται από τα στοιχεία Χ7=159 και Χ8=159: Q1 = X 7 + 3 X 8 160 + 3 * 160 = = 160 4 4 51 Το Q2 (ξ2=15.5), υπολογίζεται από τα Χ15=162 και Χ16=163: Q2 = X 15 + X 16 162 + 163 = = 162.5 2 2 Τέλος το τρίτο τεταρτηµόριο Q3 (ξ3=23.25), υπολογίζεται από τα στοιχεία Χ23=168 και Χ24=169: Q3 = 3 X 23 + X 24 3 * 168 + 169 = = 168.25 4 4 ii) Για τα δεδοµένα που δίνονται σε κλάσεις, ισχύει και πάλι: ξ1=7.75, ξ2=15.50, ξ3=23.25 Για το Q1 (ξ1=7.75) έχουµε: FQ-1 = F1 = 4, fQ = f2 = 11, O1 = 157.5 και ε=5. Οπότε: ξ − F1 7.75 − 4 Q1 = O1 + 1 ε = 157.5 + * 5 = 159.2 f2 11 Για το Q2 (ξ2=15.5) έχουµε: FQ-1 = F2 = 15, fQ = f3 = 7, O1 = 162.5 και ε=5. Οπότε: ξ − F2 15.5 − 15 Q 2 = O1 + 2 ε = 162.5 + * 5 = 162.86 f3 7 Για το Q3 (ξ3=23.25) έχουµε: FQ-1 = F3 = 22, fQ = f4 = 4, O1 = 167.5 και ε=5. 52 Οπότε: Q 3 = O1 + ξ 3 − F3 23.25 − 22 ε = 167.5 + * 5 = 169.06 f4 4 Αφού παρατηρήσετε τις διαφορές που προκύπτουν ανάµεσα στα τεταρτηµόρια που υπολογίστηκαν από τα αναλυτικά δεδοµένα και από τα δεδοµένα σε κλάσεις, σαν άσκηση να υπολογίσετε τα τεταρτηµόρια που αντιστοιχούν στους άλλους δύο πίνακες, των αγοριών και το µεικτό. Είναι ίσως περιττό, µα θα επαναλάβουµε τον γενικό κανόνα που λέει πως οι παράµετροι που υπολογίζονται µε τη βοήθεια των αναλυτικών δεδοµένων είναι οι ακριβείς, ενώ αυτές που υπολογίζονται µέσω των κλάσεων είναι προσεγγιστικές. Β.2.4. Μέση τιµή ή µέσος όρος ή αριθµητικός µέσος. Ο αριθµητικός µέσος είναι η σηµαντικότερη παράµετρος κεντρικής τάσης. Ο τρόπος υπολογισµού της εξαρτάται από το εάν έχουµε τα δεδοµένα σε κλάσεις ή εάν έχουµε τις αναλυτικές τιµές της τυχαίας µεταβλητής στο κάθε άτοµο του πληθυσµού. α) Τα δεδοµένα δίνονται αναλυτικά Ορισµός Β.9. Έστω ότι τα δεδοµένα Xi είναι δοσµένα αναλυτικά (ν τιµές που αντιστοιχούν στα ν άτοµα του πληθυσµού): Χi, i=1,2,3,...,ν Ονοµάζουµε µέση τιµή ή µέσον όρο ή αριθµητικό µέσο των δεδοµένων Xi, το άθροισµά τους διαιρεµένο δια του πλήθους τους (ν). Γράφουµε δηλ.: µ=x= X1 + X 2 + X 3 + ... + X ν 1 ν = ∑Χj ν ν j= 1 όπου χρησιµοποιείται το µ όταν τα ν-δεδοµένα αποτελούν τον πληθυσµό, ενώ το x χρησιµοποιείται όταν οι τιµές Χj αποτελούν ένα δείγµα ν-στοιχείων. 53 β) Τα δεδοµένα είναι κατανεµηµένα σε κ κλάσεις: Ορισµός Β.10. Έστω ότι τα δεδοµένα είναι κατανεµηµένα σε κ κλάσεις: Xi, i=1,2,3,..,κ. Ονοµάζουµε µέση τιµή ή µέσον όρο ή αριθµητικό µέσο των δεδοµένων, το άθροισµα των γινοµένων της τιµής της κάθε κλάσης επί τη συχνότητά της (Xi*fi), διαιρεµένο δια του αθροίσµατος των συχνοτήτων (το οποίο είναι ίσο µε το ν). f1 X1 + f 2 X 2 + f 3 X 3 + ... + f κ X κ 1 κ µ=x= = ∑fjΧ j f1 + f 2 + f 3 + ... + f κ ν j=1 Παράδειγµα Β.1. (συνέχεια 6η...) Επιστρέφουµε για µια ακόµη φορά στο παράδειγµα Β.1, αναζητώντας τον αριθµητικό µέσο των υψών των 30 κοριτσιών. Για τα δεδοµένα των αγοριών καθώς και για τα µεικτά δεδοµένα, ο υπολογισµός ας γίνει από τον αναγνώστη. Έχουµε λοιπόν: Χi = 155, 156, 157, 157, ....... , 177, 178 για i=1,2,3,..30. οπότε ο µέσος όρος: 1 ν 155 + 156 + 157 + ... + 177 + 178 4919 µ = x = ∑Χj = = = 163.97 ν j=1 30 30 Εάν για τον υπολογισµό χρησιµοποιήσουµε τον πίνακα συχνοτήτων που παρατίθεται δίπλα, έχουµε: 54 1 6 µ=x= ∑ f jΧ j = 30 j=1 4 * 155 + 11 * 160 + 7 * 165 + 4 * 170 + 3 * 175 + 180 = 30 4920 = = 164 30 = Xi fi fi Xi 155 160 165 170 175 180 4 11 7 4 3 1 620 1720 1155 680 525 180 30 4920 Παρατηρήσεις: 1η) Να παρατηρήσουµε πως το άθροισµα: Χ1f1 + Χ2f2 + Χ3f3 +...+ Χκfκ είναι µια προσέγγιση του αθροίσµατος: Χ1+Χ2+Χ3+...+Χν, των µεµονωµένων τιµών, που συναντούµε στον προηγούµενο τύπο. Πράγµατι, το Χ1*f1 είναι το πολλαπλό άθροισµα Χ1+Χ1+Χ1+...+Χ1, f1 φορές. Ουσιαστικά λοιπόν µε το γινόµενο Χ1f1 θεωρούµε όλα τα δεδοµένα της πρώτης κλάσης ίσα µε την ονοµαστική τιµή της κλάσης. 2η) Να θυµίσουµε, για ακόµη µία φορά, πως το άθροισµα των συχνοτήτων είναι ίσο µε το πλήθος ν των στοιχείων του πληθυσµού: f1+f2+f3+...+fκ = ν 3η) Ο αριθµητικός µέσος κάποιων αριθµητικών δεδοµένων µπορεί να θεωρηθεί και σαν το "κέντρο βάρους" των δεδοµένων αυτών. Εάν για παράδειγµα έχουµε τις τιµές Χi = 1,3,4,6,6,10 για i=1,2,...,6, τότε ο µέσος όρος των µετρήσεων αυτών είναι: µ = (1+3+4+6+6+10)/6 = 5. 1 2 3 4 µέσος όρος 5 6 7 ή κέντρο Βάρους 8 9 10 55 Στη Μηχανική λένε πως το άθροισµα των ροπών όλων των δυνάµεων ως προς κέντρο το µ είναι µηδέν. Αυτό σηµαίνει πως εάν: i) θεωρούσαµε τον άξονα των αριθµών του προηγουµένου σχεδιαγράµµατος αβαρή, ii) "κρεµούσαµε" στον καθ'ένα από τους αριθµούς 1,3,4,6, 6,10 το ίδιο βάρος (από το 6 το διπλό), iii) στηρίζαµε τον άξονα στο σηµείο 5 (µέση τιµή) τότε η ράβδος αυτή (µε όλα τα βάρη) θα ισορροπούσε... 4η) Στο παράδειγµα του υπολογισµού της µέσης τιµής των υψών των 30 κοριτσιών, παρατηρούµε πως η διαφορά ανάµεσα στο αποτέλεσµα που δίνουν τα αναλυτικά δεδοµένα και σ' αυτό των δεδοµένων σε κλάσεις είναι πολύ µικρή. Να σηµειώσουµε λοιπόν πως η διαφορά αυτή µπορεί νά'ναι και µεγαλύτερη, αν και συνήθως τα δύο αποτελέσµατα είναι αρκετά κοντά. Βέβαια το ακριβές αποτέλεσµα είναι αυτό των αναλυτικών δεδοµένων. Με την ευκαιρία αυτή να ξαναθυµίσουµε πως η συνοπτική εµφάνιση βελτιώνει την ευκολία και την ταχύτητα κατανόησης των δεδοµένων, αλλά ταυτόχρονα µειώνει το ποσό της παρεχόµενης πληροφορίας. Β.2.5. Βασικές ιδιότητες του αριθµητικού µέσου (µ). 1. Πάντα υπάρχει ένα µέσος όρος των µετρήσεων. 2. Ισχύει η παρακάτω σχέση: ( X1 − µ) + ( X 2 − µ) + .... + ( X ν − µ) = 0 (5) 3. Άρα οι διαφορές (Χj-µ) είναι άλλοτε θετικές και άλλοτε αρνητικές, όµως το άθροισµά τους είναι µηδέν και αυτό αποτελεί την βασική ιδιότητα του µέσου όρου. 5 Πράγµατι ( X1 − µ) + ( X 2 − µ) + .... + ( X ν − µ) = X1 + X 2 + ... + X ν − νµ = =ν (X1 + X 2 + ... + X ν ) ν − νµ = νµ − νµ = 0 56 4. Εάν οι τιµές Χi έχουν µέσο όρο το µx και οι τιµές Yi = Xι +c (όπου c σταθερός αριθµός) έχουν µέσο όρο το µy, τότε µx = µy + c 5. Εάν οι τιµές Χi έχουν µέσο όρο το µx και οι τιµές Yi = cXι (όπου c σταθερός αριθµός) έχουν µέσο όρο το µy, τότε µx = cµy Β.2.6. Σύγκριση των τριών παραµέτρων κεντρικής τάσης. Στην παράγραφο αυτή θα θεωρήσουµε πως τα δεδοµένα είναι κατανεµηµένα σε κ κλάσεις (Χ1,Χ2,...,Χκ). Για την περιγραφή των δεδοµένων αυτών θα χρησιµοποιήσουµε την γραφική παράσταση της συχνότητας ανά κλάση. T D M M (α) D T (β) Σχ.Β.8: Ασύµµετρη κατανοµή της συχνότητας, µονοκόρυφη, µε την ουρά να εκτείνεται προς τα δεξιά (α) και προς τα αριστερά (β), Μ=µέσος όρος, D=διάµεσος και Τ=τύπος. Στο σχήµα Β.8 (α) και (β) η συχνότητα είναι κατανεµηµένη κατά τρόπο ασύµµετρο. Η καµπύλη (α) επεκτείνεται προς τα δεξιά, (οπότε συχνά λέγεται πως στρέφει την ουρά της προς τα δεξιά ή πως είναι ασύµµετρη προς τα δεξιά), ενώ η (β) είναι ασύµµετρη προς τα αριστερά (στρέφει την ουρά της προς τα αριστερά). Στις περιπτώσεις αυτές συχνά ισχύει η εµπειρική σχέση: (µ-Τ) = 3(µ-δ) 57 M = D (α) = T T M = D T (β) Σχ.Β.9: Συµµετρική κατανοµή της συχνότητας, µονοκόρυφη (α), και δίκορφη (β), Μ=µέσος όρος, D=διάµεσος και Τ=τύπος. Η συχνότητα που περιγράφεται στο σχ. Β.9 (α) είναι µονοκόρυφη και συµµετρική. Παρατηρούµε πως στην περίπτωση αυτή πως τύπος, διάµεσος και αριθµητικός µέσος ταυτίζονται µε την τιµή Χ που ορίζει ο άξονας συµµετρίας. Στο σχ.Β.9 (β) έχουµε µία δικόρυφη, µα και συµµετρική τυχ. µεταβλητή. Πρόκειται για µία από τις σπάνιες περιπτώσεις κατά τις οποίες ο τύπος (στην πραγµατικότητα οι δύο τύποι) περιγράφουν την συγκεκριµένη κατανοµή καλύτερα από τον µέσον όρο µ. Το συµπέρασµα που βγαίνει από τα παραπάνω συνοψίζεται στο ότι καµία από τις τρεις παραµέτρους κεντρικής τάσης, που αναφέρθηκαν εδώ δεν µπορούν να περιγράψουν πιστά την κάθε µορφή τυχ. µεταβλητής. Βέβαια έχουµε µια υπεροχή του µέσου όρου, όµως συχνά είναι χρήσιµο, µαζί µε τον αριθµητικό µέσο, να αναφέρεται και η διάµεσος, ενδεχόµενα και ο τύπος.
© Copyright 2024 Paperzz