σημειωσεις

ΑΤΕΙ ΗΡΑΚΛΕΙΟΥ
ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΑΣ ΓΕΩΠΟΝΙΑΣ
ΒΙΟΜΑΘΗΜΑΤΙΚΑ
ΣΗΜΕΙΩΣΕΙΣ ΕΡΓΑΣΤΗΡΙΟΥ
ΜΕΛΕΣΣΑΝΑΚΗ ΟΛΥΜΠΙΑ
ΖΑΜΠΑΛΟΥ ΣΟΦΙΑ
ΜΑΡΚΑΚΗΣ ΓΕΩΡΓΙΟΣ
ΗΡΑΚΛΕΙΟ 2006
Περιεχόμενα
1.
Εισαγωγή στο EXCEL
2
2.
Παρουσίαση Χαρακτηριστικών του Δείγματος
5
3.
Ποιοτικά Χαρακτηριστικά
8
ΑΣΚΗΣΕΙΣ
16
Ποσοτικά Χαρακτηριστικά
17
ΑΣΚΗΣΕΙΣ
23
Χαρακτηριστικά Θέσης και Μεταβλητότητας
ΑΣΚΗΣΕΙΣ
4.
5.
6.
7.
9.
34
Δ. Ε. για τη Μέση Τιμή (μ)
34
Δ. Ε. για την Πιθανότητα ή Ποσοστό
34
ΑΣΚΗΣΕΙΣ
39
Σύγκριση Μέσων Τιμών σε Ανεξάρτητα Δείγματα (t-test)
40
Δίπλευρος Έλεγχος
40
Μονόπλευρος Έλεγχος
41
ΑΣΚΗΣΕΙΣ
47
Σύγκριση Μέσων Τιμών σε Δείγματα ανά Ζεύγη (t-test)
49
Δίπλευρος Έλεγχος
49
Μονόπλευρος Έλεγχος
51
ΑΣΚΗΣΕΙΣ
56
Ανάλυση Διασποράς (ANOVA)
Παλινδρόμηση-Συσχέτιση
58
64
66
Παλινδρόμηση
66
Συντελεστής Συσχέτισης (R)
68
ΑΣΚΗΣΕΙΣ
75
Έλεγχοι x2-Ανεξαρτησίας
ΑΣΚΗΣΕΙΣ
10.
32
Διαστήματα Εμπιστοσύνης
ΑΣΚΗΣΕΙΣ
8.
25
ΠΙΝΑΚΕΣ
77
82
85
Πίνακας x2-κατανομής
85
Πίνακας t-κατανομής.
86
Πίνακας F-κατανομής
87
1
1. ΕΙΣΑΓΩΓΗ ΣΤΟ EXCEL
1.1. ΕΞΕΡΕΥΝΗΣΗ ΤΟΥ ΧΩΡΟΥ ΕΡΓΑΣΙΑΣ
Ένα αρχείο του Excel ονομάζεται βιβλίο εργασίας και αποτελείται από τα
φύλλα εργασίας.
Το κάθε φύλλο εργασίας αποτελείται από 65536 γραμμές και 256 στήλες.
Η αρίθμηση για τις γραμμές είναι 1,2,3,….,65536 ενώ η αρίθμηση για τις στήλες
είναι A, B,…Z, AA, AB,…AZ,…IA , IB ,…IZ,…IV.
Οι γραμμές και οι στήλες σχηματίζουν τα κελιά. Η διεύθυνση του κάθε κελιού
εξαρτάται από την αρίθμηση της στήλης και της γραμμής που βρίσκεται.
Για παράδειγμα, το κελί που βρίσκεται στη στήλη C και στη γραμμή 5 έχει
διεύθυνση (όνομα) C5. Το όνομα της διεύθυνσης των κελιών πρέπει να
γράφεται πάντα με λατινικούς χαρακτήρες.
Ένα φύλλο εργασίας από πάνω προς τα κάτω περιλαμβάνει:
•
Γραμμή τίτλων
•
Γραμμή μενού
•
Γραμμή εργαλείων - Βασική
•
Γραμμή εργαλείων – Μορφοποίηση
•
Γραμμή τύπων
•
Παράθυρο φύλλου εργασίας
•
Γραμμή κατάστασης
Η γραμμή τίτλων δείχνει το όνομα του προγράμματος, το ενεργό αρχείο του
βιβλίου εργασίας και τα κουμπιά του παράθυρου του προγράμματος με τη
βοήθεια
των
οποίων
μεγιστοποιούμε,
ελαχιστοποιούμε,
κλίνουμε
και
επαναφέρουμε το παράθυρο του προγράμματος.
Η γραμμή μενού περιέχει τα μενού των εντολών.
Οι γραμμές εργαλείων περιλαμβάνουν τις διάφορες λειτουργίες του Excel όπως
αποθήκευση, εκτύπωση και άλλες.
Η γραμμή τύπων χρησιμοποιείται για εισαγωγή και τροποποίηση δεδομένων
στα περιεχόμενα του ενεργού κελιού. Αριστερά της εμφανίζεται η διεύθυνση του
ενεργού κελιού. Ενεργό είναι το κελί που έχει επιλεχθεί. Η επιλογή διαφαίνεται
2
από το σκούρο πλαίσιο που το περικλείει. Όποια ενέργεια γίνεται θα επηρεάσει
το κελί αυτό.
Το παράθυρο φύλλου εργασίας περιλαμβάνει τα κελιά. Η μετακίνηση στο χώρο
αυτό γίνεται με το ποντίκι ή τα πλήκτρα Home, End, Page Up, Page Down, Ctrl
+ βελάκια.
Η γραμμή κατάστασης δείχνει το ενεργό φύλλο εργασίας και τα ενδεικτικά του
πληκτρολογίου.
Σε ένα κελί μπορούμε να γράψουμε:
1. Κείμενο (κυρίως τίτλους, περιγραφές ή επεξηγήσεις)
2. Αριθμούς
3. Μαθηματικούς Τύπους (που δίνουν στο πρόγραμμα οδηγίες να γίνουν
κάποιες πράξεις)
1.2. ΕΙΣΑΓΩΓΗ ΚΕΙΜΕΝΟΥ ΚΑΙ ΑΡΙΘΜΩΝ
Για να γράψουμε σε ένα κελί αρκεί αυτό να είναι ενεργό (μπορεί να γίνει ενεργό
με τη χρήση του ποντικιού). Αφού πληκτρολογηθούν τα δεδομένα πρέπει να
πατηθεί το πλήκτρο ENTER για να γίνει η καταχώρηση.
Στην περίπτωση που πρέπει να σβηστεί η καταχώρηση επιλέγεται το κελί και
έπειτα χρησιμοποιείται το πλήκτρο DELETE για σβήσιμο δεξιά από το δείκτη
του ποντικιού και με το πλήκτρο BACKSPACE για σβήσιμο αριστερά του
δείκτη.
Στην περίπτωση που πρέπει να αλλαχθούν κάποιες εισαχθείσες πληροφορίες
πατάμε διπλό κλικ πάνω στο κελί και διορθώνουμε την καταχώρηση ή με μονό
κλικ πάνω στην γραμμή των τύπων.
Εισάγοντας δεδομένα σε ένα κελί μπορεί να χρειαστεί αλλαγή πλάτους η οποία
γίνεται με τη χρήση του ποντικιού.
1.3. ΕΙΣΑΓΩΓΗ ΜΑΘΗΜΑΤΙΚΩΝ ΤΥΠΩΝ
Η εισαγωγή τύπων ξεκινάει πρώτα με την επιλογή του κελιού και έπειτα με
την πληκτρολόγηση του συμβόλου = (ίσον). Στη συνέχεια γράφουμε την
κατάλληλη μαθηματική έκφραση (συνάρτηση) ή δημιουργούμε τον τύπο που
θέλουμε.
3
Παρακάτω περιγράφονται τα σύμβολα, καθώς και η σειρά με την οποία γίνονται
οι πράξεις που χρησιμοποιούνται στο Excel.
^
Ύψωση σε δύναμη
*
Πολλαπλασιασμός
/
Διαίρεση
+
Πρόσθεση
-
Αφαίρεση
Η χρήση παρενθέσεων στην εισαγωγή τύπων σε συνδυασμό με την σειρά των
πράξεων είναι σημαντική, καθώς μπορεί να αλλάξει το αποτέλεσμα του τύπου
που έχουμε εισάγει.
Για παράδειγμα έστω ότι θέλουμε να υπολογίσουμε το παρακάτω μαθηματικό
αποτέλεσμα:
=2+8*5
(αποτέλεσμα 42)
=(2+8)*5
(αποτέλεσμα 50)
Χωρίς τη χρήση της παρένθεσης, πρώτα θα γίνει ο πολλαπλασιασμός και μετά
η πρόσθεση, ενώ με τη χρήση της παρένθεσης γίνεται πρώτα η πρόσθεση και
μετά η πράξη του πολλαπλασιασμού.
Για την εισαγωγή υπολογιστικών τύπων που αφορούν δεδομένα που έχουν ήδη
εισαχθεί, θα πρέπει, αντί για αριθμούς, να γράφεται η διεύθυνση του κελιού
που περιέχει τον αριθμό (π.χ. =C5^2, μας δίνει ως αποτέλεσμα το τετράγωνο
του αριθμού που βρίσκεται στη διεύθυνση C5).
1.4. ΣΥΝΑΡΤΗΣΕΙΣ
Όλες οι συναρτήσεις αρχίζουν με το σύμβολο = (ίσον), έπειτα αναγράφεται
το όνομα της συνάρτησης και ακολουθούν σε παρενθέσεις τα ορίσματα της
συνάρτησης, δηλαδή οι περιοχές-κελιά για τα οποία η συνάρτηση θα πάρει
τιμή.
Υπάρχουν δύο τρόποι εισαγωγής μιας συνάρτησης:
4
Ο ευκολότερος είναι να πληκτρολογηθεί το όνομα της συνάρτησης και των
ορισμάτων, και μετά πατάμε το Enter για την καταχώρηση.
Ο δεύτερος τρόπος είναι με τη χρήση της γραμμής μενού (Εισαγωγή,
Συνάρτηση
f(x),
Επιλογή
της
επιθυμητής
συνάρτησης)
και
τέλος
το
πλήκτροEnter.
Οι συνηθέστερες στατιστικές συναρτήσεις περιγράφονται στον παρακάτω
πίνακα.
Άθροισμα
=SUM(περιοχή)
Άθροισμα τετραγώνων των ορισμάτων
=SUMSQ(περιοχή)
Γινόμενο αριθμητικών περιοχών
=PRODUCT(περιοχή1;περιοχή2)
Άθροισμα γινομένων
=SUMPRODUCT(περιοχή1;περιοχή2)
Τετραγωνική ρίζα αριθμού
=SQRT(διεύθυνση)
Αριθμητικός μέσος
=AVERAGE(περιοχή)
Μέγιστη τιμή
=MAX(περιοχή)
Ελάχιστη τιμή
=MIN(περιοχή)
Διάμεσος
=MEDIAN(περιοχή)
Κορυφή
=MODE(περιοχή)
Τυπική Απόκλιση
=STDEV(περιοχή)
Διασπορά
=VAR(περιοχή)
Οι περιοχές καταγράφονται με τις διευθύνσεις των κελιών μέσα στα οποία
περιέχονται οι αριθμοί που μας ενδιαφέρουν, δηλαδή τα ορίσματα της
συνάρτησης.
Εάν για παράδειγμα, έχουμε εισάγει στο Excel 6 τιμές στα κελιά Α1, Α2, Α3,
Α4, Α5, Α6 και θέλουμε να προσδιορίσουμε τη μέση τιμή των αριθμών που
έχουν εισαχθεί στα κελιά αυτά, η εντολή που θα δοθεί θα είναι η ακόλουθη:
=AVERAGE(A1:A6)
Μετά την καταγραφή της εντολής πατάμε το πλήκτρο Enter για να καταχωρηθεί.
5
Με τον τρόπο αυτό ζητάμε από το πρόγραμμα να μας αποδώσει τη μέση τιμή
των αριθμών που βρίσκονται στην περιοχή που ορίζεται από το κελί Α1 έως
Α6.
1.5. ΓΡΑΦΗΜΑΤΑ
Για τη δημιουργία γραφημάτων στο Excel πρέπει να επιλεχθεί πρώτα η περιοχή
δεδομένων τα οποία έχουν εισαχθεί σε στήλες και γραμμές του φύλλου
εργασίας.
Στη συνέχεια, πηγαίνουμε στην γραμμή μενού και πατάμε εισαγωγή – γράφημα,
και τέλος επιλέγουμε τον επιθυμητό τύπο γραφήματος.
Συνοπτικά η διαδικασία εισαγωγής γραφημάτων είναι η ακόλουθη:
•
Επιλογή δεδομένων
•
Εισαγωγή – Γράφημα
•
Επιλογή τύπου γραφήματος
Πατώντας το ‘επόμενο’ κάθε φορά μπορούμε να χρησιμοποιήσουμε όλες τις
δυνατότητες μορφοποίησης του γραφήματος, να ορίσουμε αν η περιοχή
δεδομένων παρουσιάζεται κατά γραμμές ή κατά στήλες, να προσθέσουμε
τίτλους ή ετικέτες στους άξονες ή στο γράφημα.
Υπάρχει επίσης δυνατότητα να εμφανίσουμε υπόμνημα, γραμμές πλέγματος,
να επιλέξουμε την επιθυμητή θέση δημιουργίας του γραφήματος στο ίδιο ή σε
διαφορετικό φύλλο εργασίας.
1.6. ΑΝΤΙΓΡΑΦΗ & ΕΠΙΚΟΛΛΗΣΗ – ΑΠΟΘΗΚΕΥΣΗ - ΕΚΤΥΠΩΣΗ
Η αντιγραφή και επικόλληση είναι μια καθορισμένη διαδικασία, η ίδια σε όλα
τα προγράμματα των Windows.
Περιλαμβάνει τα παρακάτω βήματα:
•
Επιλογή των κελιών προς αντιγραφή
•
Αντιγραφή των κελιών
•
Επικόλληση των κελιών στον προορισμό
Η επιλογή ενός τμήματος του φύλλου εργασίας γίνεται είτε σύροντας το δείκτη
του ποντικιού στα κελιά που θέλουμε να επιλέξουμε, είτε με το πλήκτρο Shift
6
και τα βελάκια ταυτόχρονα. Εάν θέλουμε να επιλέξουμε διαφορετικές περιοχές
(μη συνεχόμενες) χρησιμοποιούμε το πλήκτρο Ctrl.
Οι εντολές Αντιγραφής και Επικόλλησης υπάρχουν στη γραμμή μενού (στην
επεξεργασία) ή παρουσιάζονται στην επιλεγμένη περιοχή με δεξί κλικ στο
ποντίκι.
Η περιοχή προορισμού μπορεί να είναι οποιαδήποτε στο ίδιο ή διαφορετικό
φύλλο εργασίας ή ακόμα και σε άλλο πρόγραμμα.
Η αποθήκευση ενός βιβλίου Excel, πρέπει να γίνεται συχνά κατά τη διάρκεια
και στο τέλος των εργασιών. Η διαδικασία της αποθήκευσης περιλαμβάνει τα
εξής βήματα:
•
Γραμμή μενού
•
Αρχείο
•
Αποθήκευση.
Τέλος με την επιλογή από την γραμμή μενού του Αρχείου υπάρχει η
δυνατότητα
εκτύπωσης.
Πρώτα
είναι
απαραίτητη
η
επιλογή
της
προεπισκόπησης εκτύπωσης για να ελεγχθεί ο τρόπος με τον οποίο θα γίνει η
εκτύπωση.
7
2. Παρουσίαση Χαρακτηριστικών του Δείγματος
Ποιοτικά (και διακριτά ποσοτικά)
Ποιοτικά είναι τα χαρακτηριστικά που δεν επιδέχονται αριθμητική μέτρηση αλλά
μόνο περιγραφή. Τα χαρακτηριστικά αυτά ονομάζονται και Κατηγορικά γιατί οι
τιμές που παίρνουν είναι κάποιες κατηγορίες πλήρως διακεκριμένες μεταξύ
τους. Ένα άτομο από τον πληθυσμό μπορεί να ανήκει μόνο σε μια κατηγορία.
Η
παρουσίαση
των
χαρακτηριστικών
αυτών
γίνεται
σε
πίνακες
που
απεικονίζουν τις διάφορες κατηγορίες της μεταβλητής και τις αντίστοιχες
συχνότητες (f i ) εμφάνισης των ατόμων σε αυτές.
Πίνακας συχνοτήτων ποιοτικών χαρακτηριστικών
ΚΑΤΗΓΟΡΙΕΣ
ΣΥΧΝΟΤΗΤΑ
ΣΧΕΤΙΚΗ ΣΥΧΝΟΤΗΤΑ (%)
Α1
f1
rf 1
Α2
f2
rf 2
.
.
.
.
.
.
Ακ
fκ
rf k
ΣΥΝΟΛΟ
n
100%
Ο πίνακας μπορεί να συμπληρωθεί και από τη σχετική συχνότητα
Σχετική Συχνότητα (rf i %):
Η σχετική συχνότητα υπολογίζεται από τον ακόλουθο τύπο και είναι το
ποσοστό των μελών του δείγματος που βρέθηκε στην κάθε κατηγορία.
rf i =
fi
⋅ 100
n
8
Γραφική Παράσταση
Η γραφική παράσταση των δεδομένων μπορεί να γίνει με ραβδόγραμμα,
κυκλικό διάγραμμα ή ποσοστιαίο ραβδόγραμμα.
Ραβδόγραμμα
Συχνότητα
Απλό Ραβδόγραμμα
800
700
600
500
400
300
200
100
0
Κατηγ. Α
Κατηγ. Β
Κατηγ. Γ
Κατηγ. Δ
Σύνθετο Ραβδόγραμμα
800
700
Συχνότητα
600
500
Κατηγ. Μ
Κατηγ. Ν
400
300
200
100
0
Κατηγ. Κατηγ. Κατηγ. Κατηγ.
Α
Β
Γ
Δ
9
Κυκλικό διάγραμμα (πίτα)
Κυκλικό Διάγραμμα
Κατηγ. Δ
11%
Κατηγ. Γ
20%
Κατηγ. Α
46%
Κατηγ. Α
Κατηγ. Β
Κατηγ. Γ
Κατηγ. Δ
Κατηγ. Β
23%
Ποσοστιαίο ραβδόγραμμα
ποσοστιαίο ραβδόγραμμα
100%
11
80%
20
60%
23
Γ
Β
40%
20%
Δ
46
Α
0%
1
κατηγορία
ΑΣΚΗΣΗ 1
Σε θερμοκήπιο που καλλιεργούνται 40 θάμνοι με καμέλιες (Camellia japonica)
παρατηρήθηκε το χρώμα του άνθους τους και προέκυψαν τα δεδομένα του
πίνακα. Να παρουσιάσετε τα δεδομένα με ένα πίνακα συχνοτήτων και σχετικών
συχνοτήτων. Να κατασκευάσετε ένα απλό ραβδόγραμμα συχνοτήτων και το
κυκλικό διάγραμμα.
κόκκινα
ροζ
λευκά
ροζ
κόκκινα
λευκά
κόκκινα
λευκά
μωβ
λευκά
ροζ
κόκκινα
μωβ
ροζ
λευκά
κόκκινα
μωβ
ροζ
κόκκινα
μωβ
ροζ
λευκά
λευκά
ροζ
ροζ
κόκκινα
λευκά
ροζ
λευκά
κόκκινα
μωβ
λευκά
μωβ
λευκά
ροζ
κόκκινα
λευκά
κόκκινα
ροζ
μωβ
10
Λύση
Αρχικά τα δεδομένα του πίνακα είναι δυνατόν να εισαχθούν σε μια στήλη (Α)
και να ταξινομηθούν σε κατηγορίες ώστε η καταμέτρηση της συχνότητας
εμφάνισης τους να γίνεται ευκολότερα. Η ταξινόμηση αυτή γίνεται αφού
επιλεχθεί η στήλη, και από τη βασική γραμμή του μενού επιλέξουμε τις εντολές
Δεδομένα Ταξινόμηση (Κατηγοριοποίηση) Αύξουσα
Τοποθετούμε την κάθε κατηγορία της μεταβλητής καθώς και την συχνότητα
εμφάνισης της (fi) σε κελιά πίνακα στο Excel. Ο πίνακας συμπληρώνεται με την
σχετική συχνότητα. Ο τύπος
rf i =
fi
⋅ 100
n
μεταφέρεται στο Excel όπως
φαίνεται στο κελί F2 της παρακάτω εικόνας.
Πατώντας το πλήκτρο Enter θα έχει εισαχθεί ο τύπος στο κελί και εμείς θα
βλέπουμε μόνο το αποτέλεσμα ενώ ο τύπος θα φαίνεται στην γραμμή τύπων.
Στην συνέχεια για να επαναληφθεί ο τύπος στα υπόλοιπα κελιά θα πρέπει να
σύρουμε τον δείκτη του ποντικιού προς τα κάτω. Η επανάληψη αυτή του τύπου
στα υπόλοιπα κελιά είναι δυνατό να γίνει ακόμη με την διαδικασία της
αντιγραφής και επικόλλησης.
Ο πίνακας συχνοτήτων μπορεί να συμπληρωθεί με δύο ακόμα στήλες που
περιλαμβάνουν
την
αθροιστική
συχνότητα
και
την
σχετική
αθροιστική
συχνότητα. Το παραπάνω έχει νόημα μόνο στην περίπτωση που μελετώνται
ποσοτικά χαρακτηριστικά ή ιεραρχικά ποιοτικά χαρακτηριστικά.
11
Μετά τον πίνακα συχνοτήτων πρέπει να κατασκευάσουμε τα γραφήματα που
ζητούνται στην άσκηση.
Η διαδικασία για την δημιουργία ενός γραφήματος γίνεται αφού επιλεχθούν οι
στήλες του πίνακα συχνοτήτων που μας ενδιαφέρουν. Για την περίπτωση που
θέλουμε να σχεδιάσουμε Ραβδόγραμμα συχνοτήτων επιλέγουμε την στήλη που
περιέχει την μεταβλητή μας (χρώμα άνθους) και την στήλη της συχνότητας ενώ
στην περίπτωση ραβδογράμματος σχετικής συχνότητας θα επιλεχθεί η στήλη
που περιέχει την μεταβλητή και η στήλη της σχετικής συχνότητας.
Έπειτα από την γραμμή μενού πατάμε Εισαγωγή και μετά Γράφημα. Για το
ραβδόγραμμα επιλέγουμε τύπο γραφήματος ‘στήλες’ ενώ για το κυκλικό
διάγραμμα ΄πίτα’ όπως φαίνεται στο παρακάτω φύλλο του Excel. Στο μενού
δευτερεύων τύπο γραφήματος υπάρχουν διάφορες δυνατότητες δημιουργίας
διαφορετικών τρόπων παρουσίασης ραβδογράμματος.
12
Πατώντας κάθε φορά στο Επόμενο ολοκληρώνεται η διαδικασία κατασκευής
ραβδογράμματος ή πίτας. Σε κάθε βήμα υπάρχουν ασφαλώς δυνατότητες
μορφοποίησης του γραφήματος όπως καταγραφή τίτλων αξόνων, αλλαγές
χρωμάτων
στο
φόντο
ή
στις
μπάρες,
δημιουργία
ή
αλλαγή
θέσης
υπομνημάτων, γραμμών πλέγματος και άλλα.
13
ΑΣΚΗΣΗ 2
Σε πειραματικό δενδρώνα φυτεύτηκαν τρία είδη καρποφόρων δέντρων,
Αμυγδαλιά (Prunus Amygdalus), Ροδιά (Punica Granatum), Κερασιά (Prunus
Cerasus)
σε
διαφορετικής
ποιότητας
εδάφη.
Δίνεται
ο
αριθμός
των
καρποφόρων δέντρων ανάλογα με το είδος του εδάφους σε συγκεντρωτικό
πίνακα διπλής εισόδου. Να κατασκευαστεί το σύνθετο και το ποσοστιαίο
ραβδόγραμμα που παρουσιάζουν τα παραπάνω δεδομένα.
Αμυγδαλιά
Ροδιά
Κερασιά
Υγρά
10
19
12
Ασβεστώδη
25
18
14
Όξινα
12
15
10
Αλκαλικά
17
12
11
14
Λύση
Για να γίνουν τα διαγράμματα πρέπει πρώτα να έχουν επιλεχθεί τα δεδομένα
προέλευσης του πίνακα και έπειτα με την εντολή εισαγωγή, γράφημα, να
επιλεχθεί
το
επιθυμητό,
ραβδογράμματος
ραβογράμματος
είναι
οι
το
οποίο
στήλες
και
στην
ο
περίπτωση
πρώτος
του
σύνθετου
δευτερεύων
τύπος
Η διαφορά με το απλό ραβδόγραμμα είναι ότι στο σύνθετο
ραβδόγραμμα παρουσιάζονται ταυτόχρονα δύο μεταβλητές (είδος εδάφους και
είδος καρποφόρου δέντρου).
Για την δημιουργία του ποσοστιαίου ραβδογράμματος ακολουθείται η ίδια
διαδικασία αλλά επιλέγεται ο τρίτος τύπος γραφήματος.
Τα διαγράμματα φαίνονται στο παραπάνω φύλλο του Excel.
15
ΑΣΚΗΣΕΙΣ
2.1.
Καταγράψαμε τον αριθμό των παιδιών σε 60 οικογένειες, και προέκυψαν
τα δεδομένα του πίνακα. Να παρουσιάσετε τα δεδομένα με ένα πίνακα
συχνοτήτων και σχετικών συχνοτήτων. Να συμπληρώσετε τον πίνακα με
τις αντίστοιχες αθροιστικές συχνότητες. Να κατασκευάσετε ένα απλό
ραβδόγραμμα με τις συχνότητες.
2.2.
2
2
2
2
3
2
2
2
3
1
0
0
1
2
2
4
2
1
1
1
0
1
1
1
3
3
2
2
2
1
1
1
0
0
0
0
4
5
1
1
2
2
2
2
2
4
2
3
3
0
3
2
2
2
1
1
1
1
1
4
Ο
παρακάτω
πίνακας
περιέχει
στοιχεία
από
την
κατανομή
της
καλλιέργειας ελαιοδέντρων και αμπελώνων στους νομούς της Κρήτης. Οι
αριθμοί αντιπροσωπεύουν καλλιεργημένα στρέμματα. Να παραστήσετε
τα δεδομένα του πίνακα με ένα σύνθετο ραβδόγραμμα.
ΕΙΔΟΣ ΚΑΛΛΙΕΡΓΕΙΑΣ
ΝΟΜΟΙ
Αμπέλια
Ελιές
Ηράκλειο
750
650
Λασίθι
320
400
Ρέθυμνο
480
600
Χανιά
500
350
16
Ποσοτικά συνεχή χαρακτηριστικά
Τα ποσοτικά χαρακτηριστικά μπορεί να είναι είτε διακριτά είτε συνεχή.
Διακριτά Χαρακτηριστικά
Διακριτά ή ασυνεχή λέγονται τα χαρακτηριστικά όταν οι δυνατές τιμές τους είναι
πεπερασμένες ή γενικότερα αριθμήσιμες. Ανάμεσα σε δύο τιμές της μεταβλητής
δεν υπάρχει καμιά άλλη.
Η παρουσίαση των χαρακτηριστικών γίνεται σε πίνακα συχνοτήτων όπως και
για τα ποιοτικά ο οποίος μπορεί να συμπληρωθεί με την Αθροιστική Συχνότητα
και τη Σχετική Αθροιστική Συχνότητα.
Αθροιστική Συχνότητα (F i )
Εκφράζει τον αριθμό των παρατηρήσεων μέχρι την τιμή που μας ενδιαφέρει.
Υπολογίζεται με πρόσθεση των απλών συχνοτήτων. F n =f 1 +f 2 +…+f n .
Σχετική Αθροιστική Συχνότητα
Εκφράζεται σε ποσοστό (%) rFi =
Fi
⋅ 100
n
Πίνακας συχνοτήτων και αθροιστικών συχνοτήτων
ΤΙΜΕΣ
ΣΥΧΝΟΤΗΤΑ
ΜΕΤΑΒΛΗΤΗΣ
(f i )
ΣΧΕΤΙΚΗ
ΑΘΡΟΙΣΤΙΚΗ
ΣΥΧΝΟΤΗΤΑ
ΣΥΧΝΟΤΗΤΑ
(rf i ) (%)
(F i )
ΣΧΕΤΙΚΗ
ΑΘΡΟΙΣΤΙΚΗ
ΣΥΧΝΟΤΗΤΑ (rF ι )
(%)
1
f1
rf 1
F1
rF 1
2
f2
rf 2
F2
rF 2
3
f3
rf 3
F3
rF 3
.
.
.
.
.
κ
fκ
rf κ
F κ =n
rF κ
ΣΥΝΟΛΟ
n
100%
17
Συνεχή Χαρακτηριστικά
Συνεχή λέγονται τα χαρακτηριστικά όταν οι δυνατές τιμές τους είναι άπειρες.
Δηλαδή όταν μια μεταβλητή μπορεί να πάρει μια οποιαδήποτε τιμή ανάμεσα σε
δύο τιμές της. Στην περίπτωση αυτή θα χρειαζόταν ένας τεράστιος πίνακας για
να παρουσιαστούν όλες οι δυνατές τιμές και για το λόγο αυτό προχωρούμε σε
ομαδοποίηση των παρατηρήσεων.
Ομαδοποίηση Παρατηρήσεων
Είναι η διαδικασία χωρισμού του συνόλου των μετρήσεων σε διαδοχικές
κλάσεις (διαδοχικά διαστήματα). Στη συνέχεια παρουσιάζονται σε πίνακα
συχνοτήτων με βάση το πόσες μετρήσεις βρίσκονται σε κάθε κλάση. Τα
διαστήματα αυτά θεωρούνται κλειστά από αριστερά και ανοικτά από δεξιά.
Για την ομαδοποίηση των παρατηρήσεων ακολουθούνται τα εξής βήματα:
¾ Βάζουμε τις παρατηρήσεις σε αύξουσα σειρά.
¾ Υπολογίζεται το Εύρος των μετρήσεων από τον τύπο
¾ Υπολογίζεται
ο
αριθμός
k = 1 + 3,22 ⋅ log 10 n
κλάσεων
από
R = x max − x min
τον
τύπο
του
Sturges
(n: το σύνολο των παρατηρήσεων). Σε πολλές
ασκήσεις δίνεται ο αριθμός των κλάσεων και δεν χρειάζεται υπολογισμός.
¾ Υπολογίζουμε το πλάτος (d) κάθε κλάσης ως εξής: d〉
Φτιάχνουμε
τον
πίνακα
συχνοτήτων
R
k
των
ομαδοποιημένων
παρατηρήσεων
18
Πίνακας συχνοτήτων και αθροιστικών συχνοτήτων σε ομαδοποιημένες
παρατηρήσεις
ΚΛΑΣΕΙΣ
ΣΥΧΝΟΤΗΤΑ
(f i )
ΣΧΕΤΙΚΗ
ΣΥΧΝΟΤΗΤΑ (rf i )
(%)
ΑΘΡΟΙΣΤΙΚΗ
ΣΧΕΤΙΚΗ ΑΘΡΟΙΣΤΙΚΗ
ΣΥΧΝΟΤΗΤΑ (F i )
ΣΥΧΝΟΤΗΤΑ (rF i ) (%)
Α ο -Α 1
f1
rf 1
F1
rF 1
Α 1 -Α 2
f2
rf 2
F2
rF 2
Α 2 -Α 3 .
f3
rf 3
F3
rF 3
.
.
.
.
.
.
.
.
.
.
Α κ-1 -Α κ
fκ
rf κ
F κ =n
rF κ
ΣΥΝΟΛΟ
n
100%
Γραφική Παράσταση
Ιστόγραμμα συχνοτήτων ή αθροιστικών συχνοτήτων
Η γραφική παρουσίαση ομαδοποιημένων παρατηρήσεων γίνεται με ιστόγραμμα
συχνοτήτων ή ιστόγραμμα αθροιστικών συχνοτήτων ως εξής:
¾ Χωρίζουμε τον άξονα των x σε κλάσεις (διαστήματα) σύμφωνα με τα
δεδομένα μας.
¾ Σε κάθε κλάση κατασκευάζουμε ορθογώνια παραλληλόγραμμα που η βάση
τους καλύπτει την κλάση και το ύψος τους εκφράζει τη συχνότητα.
ΙΣΤΟΓΡΑΜΜΑ ΣΥΧΝΟΤΗΤΩΝ
ΣΥΧΝΟΤΗΤΑ
20
15
10
5
0
5-8
8-11
11-14
14 -17
17-20
20-23
23-26
26-29
ΚΛΑΣΕΙΣ
19
ΙΣΤΟΓΡΑΜΜΑ ΑΘΡΟΙΣΤΙΚΩΝ ΣΥΧΝΟΤΗΤΩΝ
ΣΥΧΝΟΤΗΤΑ
80
60
40
20
0
5-8
8-11
11-14
14 -17
17-20
20-23
23-26
ΚΛΑΣΕΙΣ
ΑΣΚΗΣΗ 1
Μετρήθηκε το ύψος 30 κωνοφόρων του γένους Abies σε πλήρη ανάπτυξη. Τα
αποτελέσματα φαίνονται στον παρακάτω πίνακα. Οι αριθμοί εκφράζουν μέτρα.
15,1
15,4
15,9
16
16,3
17
17,8
17,9
18,2
18,5
19
19,3
20,2
21,5
22
22,5
22,7
23,4
23,5
24,1
24,8
24,8
25
25
25,2
25,4
25,7
26
26,2
26,6
Να ομαδοποιήσετε τα δεδομένα σε μια κατανομή συχνοτήτων με 6 ομάδες. Να
φτιάξετε τον πίνακα συχνοτήτων και να κατασκευάσετε το ιστόγραμμα
συχνοτήτων και αθροιστικών συχνοτήτων
Λύση
Για την ομαδοποίηση των παρατηρήσεων και την δημιουργία του πίνακα
συχνοτήτων πρέπει
πρώτα οι τιμές να εισαχθούν σε μια στήλη του φύλλου
εργασίας του Excel και να τοποθετηθούν σε αύξουσα σειρά.
Τα κελιά στα οποία τοποθετούνται οι τιμές είναι από το Α1 μέχρι Α30.
Η διαδικασία που ακολουθείται αναλυτικά είναι η παρακάτω
Βάζουμε τις παρατηρήσεις σε
Επιλογή
αύξουσα σειρά
μενούΔεδομένα
τιμώνβασική
γραμμή
ΤαξινόμησηΑύξουσα
Υπολογίζεται το εύρος των
Στο
κελί
C1
τοποθετώ
τον
τύπο
μετρήσεων
=Α30-Α1 (Από το κελί που περιέχει
R = xmax − xmin = 26.6 −15.1 = 11.5
την μεγαλύτερη τιμή του δείγματος
20
αφαιρώ το κελί με την μικρότερη τιμή)
Ο αριθμός των κλάσεων συνήθως
Στο κελί C2 τοποθετώ τον αριθμό
δίνεται στην άσκηση k = 6
των κλάσεων 6
Υπολογίζομε το πηλίκο
Στο
κελί
C3
τοποθετώ
τον
τύπο
=C1/C2
R / k = 1.92
Το πλάτος της κάθε κλάσης πρέπει να είναι μεγαλύτερο από το πηλίκο R / k
Στρογγυλοποιούμε πάντα προς τα πάνω. Το πλάτος μπορεί να γίνει 2 (d=2).
Για να δημιουργήσουμε τις κλάσεις πρέπει να ξεκινήσουμε με αριθμό μικρότερο
από την μικρότερη τιμή των μετρήσεων και να προσθέτουμε κάθε φορά το
πλάτος. Έτσι η πρώτη κλάση θα αρχίζει από το 15 και θα τελειώνει στο 17 η
δεύτερη θα αρχίζει από το 17 και θα τελειώνει στο 19. Με τον ίδιο τρόπο θα
δημιουργηθούν και οι επόμενες κλάσεις.
Έπειτα
φτιάχνουμε
τον
πίνακα
με
τις
συχνότητες
μετρώντας
πόσες
παρατηρήσεις βρίσκονται στην κάθε κλάση, δηλαδή στην πρώτη κλάση
υπάρχουν 5 αριθμοί χωρίς να μετράμε τον αριθμό 17 ο οποίος θα καταμετρηθεί
στην επόμενη κλάση.
Το ιστόγραμμα και πολύγωνο συχνοτήτων και αθροιστικών συχνοτήτων γίνεται
με την διαδικασία δημιουργίας γραφημάτων που έχει ήδη περιγραφεί (επιλογή
δεδομένων, εισαγωγή, γράφημα, πρωτεύων τύπος στήλες, δευτερεύων
τύπος η πρώτη εικόνα). Αφού τελειώσει η κατασκευή του διαγράμματος
πρέπει
να
κάνουμε
δεξί
κλικ
πάνω
στις
ράβδους
και
να
επιλέξουμε
‘Μορφοποίηση σειράς δεδομένων’ και έπειτα ‘Επιλογές’. Εκεί θα επιλέξουμε
μηδενικό ‘πλάτος ανοίγματος’ ώστε οι ράβδοι να μην έχουν αποστάσεις
μεταξύ τους.
21
22
ΑΣΚΗΣΕΙΣ
2.3.
Σε τυχαίο δείγμα 38 βροχοπτώσεων, μετρήσαμε το ύψος του νερού και
πήραμε τα αποτελέσματα του πίνακα (σε cm). Να ομαδοποιήσετε τα
δεδομένα σε μια κατανομή συχνοτήτων με 7 ομάδες. Επίσης να
κατασκευάσετε
το
ιστόγραμμα
και
το
πολύγωνο
των
αθροιστικών
συχνοτήτων.
0,03
0,03
0,04
0,06
0,07
0,07
0,08
0,09
0,15
0,16
0,17
0,18
0,21
0,22
0,25
0,25
0,26
0,28
0,28
0,31
0,35
0,44
0,45
0,45
0,48
0,52
0,52
0,53
0,54
0,54
0,55
0,55
0,56
0,58
0,59
0,60
0,60
0,62
23
2.4.
Να κατασκευάσετε
το ιστόγραμμα και το
πολύγωνο αθροιστικών
συχνοτήτων για τα παρακάτω δεδομένα χρησιμοποιώντας 7 κλάσεις.
18
24
20
9
21
15
14
10
28
38
40
25
21
20
12
11
46
24
16
19
21
23
25
33
39
41
42
20
28
26
33
20
10
19
20
47
2.5.
Να συμπληρώσετε τον παρακάτω πίνακα και να φτιάξετε ιστόγραμμα και
πολύγωνο συχνοτήτων και αθροιστικών συχνοτήτων.
xi
fi
10-20
2
20-30
4
Fі
rfі
10
6
20
12
30-40
40-50
5
50-60
2
60-70
1
rFі
17
60
25
20
Σύνολο
24
3. Χαρακτηριστικά θέσης και μεταβλητότητας
Μέτρα Θέσης
Μέση Τιμή ( x )
Η μέση τιμή δίνει πληροφορίες για τη θέση των δεδομένων στον άξονα των x
Υπολογίζεται από τον τύπο:
x=
∑ xi
n
=
x1 + x 2 + ... + x n
n
n είναι ο αριθμός των παρατηρήσεων
Για ομαδοποιημένες παρατηρήσεις, το άθροισμα των παρατηρήσεων (Σf i x i )
είναι το σύνολο των γινομένων των τιμών x επί τη συχνότητά τους f.
Διάμεσος (Δ)
Είναι η μεσαία παρατήρηση όταν οι παρατηρήσεις έχουν καταταχθεί σε
αύξουσα σειρά.
Αν ο αριθμός των παρατηρήσεων (n) είναι άρτιος (ζυγός) τότε η διάμεσος
υπολογίζεται από τον τύπο :
x ( n ) + x ( n +1 )
2
Δ= 2
2
Αν ο αριθμός των παρατηρήσεων (n) είναι περιττός (μονός) τότε η διάμεσος
υπολογίζεται από τον τύπο :
Δ = x n +1
2
Κορυφή (Μο)
Η κορυφή λέγεται και επικρατούσα τιμή και είναι η τιμή με τη μεγαλύτερη
συχνότητα.
25
Μέτρα μεταβλητότητας
Διασπορά (S 2 )
Δείχνει τη μέση μεταβλητότητα γύρω από τη μέση τιμή.
1 ⎛⎜
2
xi Υπολογίζεται από τον τύπο: S =
∑
n − 1⎜
⎝
2
(∑ x i )2 ⎞⎟
n
⎟
⎠
Για τον υπολογισμό της διασποράς ακολουθούμε τα βήματα:
¾ Βρίσκουμε το άθροισμα των τιμών Σx i (για ομαδοποιημένες παρατηρήσεις
είναι το άθροισμα των γινομένων Σf i x i ).
¾ Υψώνουμε
το
άθροισμα
στο
τετράγωνο
(Σx i ) 2
(για
ομαδοποιημένες
παρατηρήσεις είναι το άθροισμα των γινομένων στο τετράγωνο (Σf i x i ) 2 )
¾ Βρίσκουμε
το
άθροισμα
των
Σx 2
τετραγώνων
(για
ομαδοποιημένες
παρατηρήσεις είναι το άθροισμα των γινομένων των τιμών x 2 επί τη
συχνότητά τους f, δηλαδή Σf i x i 2 )
¾ Αντικαθιστούμε
στον
τύπο
2⎞
1 ⎛⎜
2 (∑ xi ) ⎟
S =
∑ xi - n ⎟
n − 1⎜
⎝
⎠
2
(για
(∑ f i xi )
1 ⎛⎜
2
−
S =
f
x
∑ i i
n −1⎜
n
⎝
2
ομαδοποιημένες παρατηρήσεις είναι:
2
⎞
⎟)
⎟
⎠
Τυπική Απόκλιση (S)
Είναι η τετραγωνική ρίζα της διασποράς και υπολογίζεται από τον τύπο:
S=
S2 =
(
)
⎛
∑ x i 2 ⎞⎟
1 ⎜
2
∑ xi ⎟
n − 1 ⎜⎜
n
⎟
⎠
⎝
26
Συντελεστής Μεταβλητότητας (CV)
Εκφράζεται σε ποσοστό και υπολογίζεται από τον τύπο:
CV(%) =
S
⋅ 100
x
ΑΣΚΗΣΗ 1
Σε διαφορετικές ποικιλίες καλλωπιστικών φυτών της οικογένειας Azalea
Japonica μετρήθηκε το ύψος με σκοπό την υψομετρική τους κατάταξη.
Μετρήθηκαν
25
θάμνοι
και
προέκυψαν
τα
παρακάτω
αποτελέσματα
εκφρασμένα σε μέτρα:
0,60
0,62
0,68
0,75
0,79
0,80
0,82
0,87
0,89
0,90
0,95
0,98
0,98
0,98
0,98
1,10
1,12
1,15
1,18
1,20
1,20
1,22
1,23
1,25
1,25
Να υπολογιστεί η μέση τιμή, η διάμεσος, η διασπορά και ο συντελεστής
μεταβλητότητας των μετρήσεων.
Λύση
Αρχικά οι τιμές γράφονται σε φύλλο του Excel στην στήλη Α και στα κελιά Α1
μέχρι Α25 και ταξινομούνται σε αύξουσα σειρά με τον τρόπο που ήδη
γνωρίζουμε. Στα κελιά D1,D2,D3,D4 και D5 τοποθετούμε τις εντολές με την
σειρά που είναι γραμμένες στον πίνακα που ακολουθεί:
ΜΕΤΡΑ
ΕΝΤΟΛΕΣ
ΑΠΟΤΕΛΕΣΜΑ
Κελί D1
Μέση τιμή
=AVERAGE(A1:A25)
0,98
Κελί D2
Διάμεσος
=MEDIAN(A1:A25)
0,98
27
Κελί D3
Κορυφή
0,98
=MODE(A1:A25)
Κελί D4
Διασπορά
0,04
=VAR(A1:A25)
Κελί D5
Τυπική
Απόκλιση
0,20
=STDEV(A1:A25)
Κελί D1
Συντελεστής
Μεταβλητότητας
20.88%
=D4*100/D1
Για τα μέτρα θέσης και μεταβλητότητας χρησιμοποιήσαμε έτοιμες συναρτήσεις
του προγράμματος, ενώ για τον συντελεστή μεταβλητότητας χρησιμοποιήσαμε
τον απλό τύπο
CV(%) =
S
⋅ 100
x
ΑΣΚΗΣΗ 2
Σε εργοστάσιο παραγωγής λιπασμάτων και φυτοφαρμάκων κατατάχθηκαν στον
παρακάτω πίνακα οι 42 εργαζόμενοι ανάλογα με τις εβδομαδιαίες ώρες
εργασίας τους.
Να υπολογίσετε: Μέση τιμή, Διάμεσο, Κορυφή, Διασπορά και Συντελεστή
μεταβλητότητας.
Ώρες εργασίας
(xi)
Εργαζόμενοι
(fi)
35
5
40
10
42
12
45
8
48
5
50
2
28
Λύση
Στην άσκηση αυτή οι τιμές της μεταβλητής (ώρες εργασίας) καθώς και η
συχνότητα εμφάνισης τους (εργαζόμενοι) είναι τοποθετημένες σε πίνακα.
Στην περίπτωση αυτή τα αποτελέσματα είναι ήδη ομαδοποιημένα και μας
δίνεται
η
συχνότητα.
Χρησιμοποιούμε
τους
τύπους
για
ομαδοποιημένα
δεδομένα. Η διαδικασία στο Excel γίνεται με την χρήση των τύπων και όχι
των
εντολών
του
προγράμματος
που
χρησιμοποιήθηκαν
στην
προηγούμενη άσκηση.
Γνωρίζουμε ότι n=42.
Πρέπει να προσδιορίσουμε το άθροισμα (Σfixi), το άθροισμα τετραγώνων
(Σfixi 2 ) και το τετράγωνο του αθροίσματος (Σfixi) 2 .
Εάν τοποθετήσουμε αρχικά τις δύο στήλες του πίνακα σε φύλλο εργασίας του
Excel (Α, Β) θα δημιουργήσουμε ακόμα άλλες δύο στήλες (C, D) που θα
υπολογίζουν το γινόμενο fixi και fixi 2 όπως φαίνεται στο φύλλο εργασίας που
ακολουθεί. Για να φτιάξουμε την στήλη C (fixi) θα πρέπει στο πρώτο κελί να
εισάγουμε την εντολή =Α2*Β2 και στην συνέχεια θα σύρουμε το ποντίκι προς
τα κάτω για την επανάληψη της. Στην στήλη D (fixi 2 ) η εντολή που θα
εισάγουμε είναι =B2*A2^2 όπως φαίνεται στο κελί D2 στην παρακάτω εικόνα.
Στο κελί F1 υπολογίζουμε το άθροισμα Σfixi, στο F2 το άθροισμα Σfixi 2 , και
(Σfixi) 2 . Στη συνέχεια φαίνεται η διαδικασία της
στο F3 το άθροισμα
ολοκλήρωσης ης άσκησης.
Μέση τιμή
Διάμεσος
x=
∑fx
i
n
i
=
f 1 x1 + f 2 x 2 + ... + f n x n
=42,36
n
Κελί F10
x ( n ) + x ( n +1 )
2
Δ= 2
=42
2
Κελί F11
αφού n=άρτιος,
Η τιμή που παρουσιάζεται με την
Κορυφή
=F1/42
Κελί F12
μεγαλύτερη συχνότητα στο δείγμα είναι το
42
29
2
(
f i xi )
2
1 ⎛⎜
∑
S =
∑ f i xi - n
n −1⎜
⎝
2
Διασπορά
Τυπική
S = S2 =
Απόκλιση
Συντελεστής
Μεταβλητότητας
CV(%) =
(
)
⎞
⎟ =16,09
⎟
⎠
Κελί F13
=1/41*(F2-(F3/42))
⎛
∑ f i xi 2 ⎞⎟ =4,01
1 ⎜
2
f
x
∑ i
⎟
i
n − 1 ⎜⎜
n
⎟
⎝
⎠
Κελί F14
S
⋅ 100 =9,47%
x
Κελί F15
=SQRT(F13)
=F14*100/F10
Για την εύρεση της κορυφής αρκεί να παρατηρήσουμε στην στήλη της
συχνότητας ποια τιμή εμφανίζεται περισσότερο και αυτή είναι η τιμή 42 γιατί
εμφανίζεται 12 φορές.
Για την
εύρεση της Διαμέσου βάση του τύπου για άρτιου πλήθους τιμών
(n=42) πρέπει να βρούμε το ημιάθροισμα των δύο μεσαίων παρατηρήσεων
δηλαδή της εικοστής πρώτης και της εικοστής δεύτερης παρατήρησης (x 21 , x 22 ).
Από την στήλη της αθροιστικής συχνότητας φαίνεται ότι οι παρατηρήσεις αυτές
αντιστοιχούν στην τιμή 42.
30
Ώρες εργασίας
Εργαζόμενοι
Αθροιστική
(xi)
(fi)
συχνότητα (Fi)
35
5
5
40
10
15
42
12
27
45
8
35
48
5
40
50
2
42
31
ΑΣΚΗΣΕΙΣ
3.1.
Η μελέτη που έγινε σε μια θερμοκηπιακή μονάδα παραγωγής τομάτας σε
δείγμα 15 φυτών έδειξε ότι οι ανάγκες του κάθε φυτού σε λίπασμα
(kg/εβδομάδα) είναι οι ακόλουθες. Να βρείτε α) τη μέση τιμή β) τη
διάμεσο και γ) την τυπική απόκλιση.
0,2
0,25
0,28
0,3
0,3
0,34
0,38
0,38
0,4
0,45
0,45
0,47
0,5
0,55
3.2.
Σε κάθε ένα από τα 96 αγροτεμάχια που μελετήθηκαν, μετρήθηκε ο
αριθμός ελαιόδεντρων που είχαν προσβληθεί από δάκο. Να υπολογίσετε
α) μέση τιμή β) διάμεσο γ)κορυφή δ) τυπική απόκλιση.
3.3.
Προσβεβλημένα Ελαιόδενδρα
Αγροτεμάχια
5
25
6
30
7
18
8
10
9
8
10
5
Σε 22 άνθη που φυτεύτηκαν σε συγκεκριμένες συνθήκες, μετρήθηκε ο
αριθμός των φύλλων που αναπτύχθηκαν μετά από μια εβδομάδα, και
είχαμε τα ακόλουθα αποτελέσματα. Αφού παρουσιάσετε τα αποτελέσματα
σε κάποιον πίνακα συχνοτήτων, να βρείτε τη μέση τιμή, τη διάμεσο και τη
διασπορά των μετρήσεων.
2
1
1
1
1
3
2
4
4
1
3
0
1
2
4
3
3
4
3
1
2
2
32
0,45
3.4.
Σε 24 φυτά που φυτεύτηκαν σε συγκεκριμένες συνθήκες, μετρήθηκε ο
αριθμός των ανθέων που είχαν αναπτυχθεί μετά από
πέντε μέρες, και
είχαμε τα παρακάτω αποτελέσματα. Να βρείτε τη διάμεσο και το
συντελεστή μεταβλητότητας.
4
3.5.
3
2
2
2
2
1
1
1
1
4
3
2
5
3
2
0
0
1
2
2
4
3
3
Για τα δεδομένα του παρακάτω πίνακα να υπολογίσετε την μέση τιμή,
την διάμεσο, την κορυφή, την τυπική απόκλιση και τον συντελεστή
μεταβλητότητας.
xi
fi
50
4
55
6
60
8
65
12
70
14
75
10
80
6
33
4. Διαστήματα Εμπιστοσύνης
α) για τη μέση τιμή και
β) για μια πιθανότητα (ποσοστό) σε ένα πληθυσμό
Δ. Ε. για τη Μέση Τιμή (μ)
Για τον υπολογισμό του Διαστήματος Εμπιστοσύνης για τη μέση τιμή πρέπει να
υπολογιστεί το τυπικό σφάλμα της μέσης τιμής από τον τύπο:
SE ( x ) =
S
n
Διάστημα Εμπιστοσύνης (Δ. Ε.) 95%
(x ± t 0,975 ⋅ SE ( x ) ) ή (x − t0,975 ⋅ SE( x ) , x + t0,975 ⋅ SE( x ) )
Διάστημα Εμπιστοσύνης (Δ. Ε.) 99%
(x ± t 0,995 ⋅ SE( x ) ) ή (x − t 0,995 ⋅ SE( x ) ,
x + t 0,995 ⋅ SE ( x )
)
Η τιμή του t 0,975 ή t 0,995 βρίσκεται από τον πίνακα της t-κατανομής για n-1
Βαθμούς Ελευθερίας.
)
Δ. Ε. για την Πιθανότητα ή Ποσοστό ( p )
Η πιθανότητα υπολογίζεται από τον τύπο:
) αριθμός επιτυχιών
p=
n
34
Το τυπικό σφάλμα υπολογίζεται από τον τύπο:
S
)
=
SE ( p ) =
n
)
)
p ⋅ (1 − p )
n
Διάστημα Εμπιστοσύνης (Δ. Ε.) 95%
( p) ± 1,96 ⋅ SE ( p) ) ) ή ( p) − 1,96 ⋅ SE( p) ) ,
)
p + 1 ,96 ⋅ SE ( p) )
)
Διάστημα Εμπιστοσύνης (Δ. Ε.) 99%
( p) ± 2,58 ⋅ SE ( p) ) ) ή ( p) − 2,58 ⋅ SE( p) ) ,
)
p + 2,58 ⋅ SE ( p) )
)
Οι αριθμοί 1,96 και 2,58 είναι σταθεροί και βρίσκονται από τον πίνακα της zκατανομής.
ΑΣΚΗΣΗ 1
Μετρήθηκε η ποσότητα του βακτηρίου Bacterium linens σε γραμμάρια που
χρειάζεται να προστεθεί σε αποστειρωμένο γάλα για την παρασκευή του τυριού
Munster. Πάρθηκαν 20 δείγματα. Τα αποτελέσματα φαίνονται στον παρακάτω
πίνακα. Να εκτιμήσετε την μέση τιμή με ένα 95% Διάστημα Εμπιστοσύνης.
0,5
0,7
0,9
1,0
1,2
1,2
1,5
1,7
1,8
2,1
2,3
2,2
3,4
3,6
4,0
4,0
4,5
4,8
4,9
5,0
Λύση
Οι τιμές τοποθετούνται σε φύλλο του Excel από το κελί Α1 μέχρι το κελί Α20.
Στο κελί Ε6 και Ε7 βρίσκονται τα αποτελέσματα για το μικρότερο και το
μεγαλύτερο όριο του Διαστήματος Εμπιστοσύνης.
35
Μέση τιμή
Τύπος
Αποτέλεσμα
Κελί D1
2,57
=AVERAGE(A1:A20)
Διασπορά
Κελί D2
2,40
=VAR(A1:A20)
Τυπική
Κελί D3
απόκλιση
=STDEV(A1:A20) ή =SQRT(D2)
Τυπικό
Κελί D4
σφάλμα
=D3/SQRT(20)
Κρίσιμο
Η τιμή t 0,975 προκύπτει από τον
σημείο της
πίνακα της t-κατανομής για
t-κατανομής
βαθμούς ελευθερίας n-1
1,55
0,35
Οι βαθμοί ελευθερίας είναι
19 και το t 0,975 είναι 2,09
(t 0,975 )
95% Δ.Ε
Κελί Ε6 (min)
=D1-(D5*D4)
(1.84 , 3.29)
Κελί Ε7(max)
=D1+(D5*D4)
Η λύση της άσκησης όπως φαίνεται στο παρακάτω φύλλο εργασίας του Excel
Το 95% Διάστημα Εμπιστοσύνης για την μέση τιμή του βακτηρίου στο
αποστειρωμένο γάλα είναι από 1,84 μέχρι 3,29 γραμμάρια.
36
ΑΣΚΗΣΗ 2
Σε έναν οπωρώνα φυτεμένο με αχλαδιές εντοπίστηκε μετασυλλεκτική ασθένεια
(Fusicladium pirinum). Μετρήθηκαν 300 αχλαδιές, από αυτές έχουν προσβληθεί
οι 120, να βρείτε το 99% Διάστημα Εμπιστοσύνης, του ποσοστού των ασθενών
δέντρων σε ολόκληρο τον οπωρώνα.
Λύση
Συνολικός αριθμός
Εντολές
Αποτέλεσμα
Κελί Β1
300
Κελί Β2
120
δέντρων
Αριθμός ασθενών
δέντρων
Ποσοστό ασθενών
)
Κελί Β3
δέντρων ( p )
=Β2/Β1
Τυπικό Σφάλμα
Κελί Β4
=SQRT((B3*1-B3))/B1)
0,40 (40%)
0,03
37
99% Δ.Ε
Κελί Β5(min)
=Β3-(2,58*Β4)
(0.33,0.47)
Κελί Β6(max)
ή από 33% μέχρι 47%
=Β3+(2,58*Β4)
Το αποτέλεσμα δηλώνει ότι το ποσοστό των ασθενών δέντρων σε ολόκληρο
τον αγρό (με Διάστημα Εμπιστοσύνης 99%) είναι από 33% έως 47%. Η άσκηση
όπως φαίνεται σε φύλλο του Excel:
38
ΑΣΚΗΣΕΙΣ
4.1.
Στις παρακάτω μετρήσεις να βρείτε το 99% Διάστημα Εμπιστοσύνης για
τη μέση τιμή.
5
4.2.
5,2
5,5
6
6,2
6,8
5,8
4,8
5,1
5
Σε ένα πείραμα μελετήθηκε η θνησιμότητα που προκαλεί η μόλυνση από
ένα παράσιτο σε κάποια στελέχη του δάκου. Σε μια διασταύρωση που
έδωσε 82 αβγά, τα 29 μόνο επέζησαν τελικά. Να υπολογίσετε το 95%
Διάστημα Εμπιστοσύνης για το ποσοστό των επιζώντων αβγών από τη
συγκεκριμένη διασταύρωση.
4.3.
Να βρείτε το 95% Διάστημα Εμπιστοσύνης για τη μέση τιμή για τις
παρακάτω μετρήσεις:
1,3 2,5
4.4.
2
2
2,1 2,9 3,6 2,7 2,8 2,5 2,6 2,8 1,5
1
3,8
Σε μια στατιστική ερώτηση που θέσαμε πήραμε απαντήσεις που
ανήκουν σε τρεις κατηγορίες με τα ακόλουθα αποτελέσματα. Να βρείτε το
τυπικό σφάλμα του ποσοστού των απαντήσεων της κατηγορίας Γ και στη
συνέχεια να εκτιμήσετε το ποσοστό αυτό σε 95% Διάστημα Εμπιστοσύνης.
ΚΑΤΗΓΟΡΙΑ
ΑΡΙΘΜΟΣ
ΑΠΑΝΤΗΣΕΩΝ
4.5.
Α
Β
Γ
1123
1987
1506
Σε ένα αγρό όπου 500 φυτά είναι υγιή και 41 έχουν κάποια ασθένεια,
βρείτε ένα 99% Δ. Ε. για την πραγματική αναλογία των ασθενών φυτών σε
ολόκληρο τον αγρό.
39
5. Σύγκριση μέσων τιμών σε ανεξάρτητα δείγματα
(t-test)
Η μέθοδος χρησιμοποιείται για τη σύγκριση των μέσων τιμών δύο ανεξάρτητων
και κανονικών πληθυσμών με μέσες τιμές μ 1 και μ 2 .(με την προϋπόθεση να
είναι ίσες οι διασπορές τους, σ 1 2 =σ 2 2 ) Τα δείγματα από κάθε πληθυσμό (x 1.1 ,
x 1.2 , ..., x 1.n1 και x 2.1 , x 2.2 , ..., x 2.n2 ) μπορεί να έχουν διαφορετικό μέγεθος (n 1 ≠n 2 )
ή το ίδιο μέγεθος (n 1 =n 2 ) και πρέπει να είναι επιλεγμένα ανεξάρτητα μεταξύ
τους.
Διακρίνουμε δύο περιπτώσεις: α) Δίπλευρος έλεγχος και β) Μονόπλευρος
έλεγχος, ανάλογα με τη μορφή της εναλλακτικής υπόθεσης.
Δίπλευρος Έλεγχος
¾ Ορισμός μηδενικής και εναλλακτικής υπόθεσης
Ηο: μ 1 =μ 2
Α: μ 1 ≠μ 2
¾ Επίπεδο σημαντικότητας
α=5%
2,5%
95%
2,5%
t0,975
¾ Υπολογισμός μέσων τιμών x1 και x 2 και διασπορών S 1 2 και S 2 2 .
¾ Σταθμισμένη
Sp
2
Διασπορά
2
( S p ).
Υπολογίζεται
από
τον
τύπο
S1 2 ( n1 − 1) + S 2 2 ( n2 − 1)
=
n1 + n2 − 2
40
¾ Τυπικό
Σφάλμα
SE ( x1 − x2 ) = S p ⋅
( SE( x1 − x2 ) ).
Υπολογίζεται
με
τον
τύπο
1
1
+
n1 n2
¾ Ελεγχοσυνάρτηση (t). Υπολογίζεται με τον τύπο
t=
x1 − x 2
SE ( x1 − x 2 )
¾ Συμπέρασμα
Συγκρίνουμε την απόλυτη τιμή της ελεγχοσυνάρτησης ( t ) με την τιμή t 0,975 από
τον πίνακα της t-κατανομής για Βαθμούς Ελευθερίας=n 1 +n 2 -2.
Εάν t > t 0,975 τότε απορρίπτεται η μηδενική υπόθεση (Ηο).
Εάν t < t 0,975 τότε δεν απορρίπτεται η μηδενική υπόθεση (Ηο).
Μονόπλευρος Έλεγχος
¾ Ορισμός μηδενικής και εναλλακτικής υπόθεσης
Ηο: μ 1 =μ 2
Α: μ 1 >μ 2
¾ Επίπεδο σημαντικότητας
α=5%
95%
5%
t0,95
¾ Υπολογισμός μέσων τιμών x1 και x 2 και διασπορών S 1 2 και S 2 2 .
41
¾ Σταθμισμένη
Sp
2
Διασπορά.
Υπολογίζεται
με
τον
τύπο
S1 2 ( n1 − 1) + S 2 2 ( n2 − 1)
=
n1 + n2 − 2
¾ Τυπικό Σφάλμα. Υπολγίζεται με τον τύπο
SE ( x1 − x2 ) = S p ⋅
¾ Ελεγχοσυνάρτηση (t). Υπολογίζεται με τον τύπο
t=
1
1
+
n1 n2
x1 − x 2
SE ( x1 − x 2 )
¾ Συμπέρασμα
Συγκρίνουμε την τιμή της ελεγχοσυνάρτησης t (όχι απόλυτη τιμή) με την τιμή
t 0,95 από τον πίνακα της t-κατανομής για Βαθμούς Ελευθερίας=n 1 +n 2 -2.
Εάν t>t 0,95 τότε απορρίπτεται η μηδενική υπόθεση (Ηο)
Εάν t<t 0,95 τότε δεν απορρίπτεται η μηδενική υπόθεση (Ηο)
ΑΣΚΗΣΗ 1
Σε βιοτεχνία παραγωγής παγωτού συγκρίθηκαν δύο τύποι παγωτών ως προς
την ποσοστιαία περιεκτικότητα τους σε λίπος γάλακτος ανά κιλό έτοιμου
προϊόντος. Πάρθηκαν 9 δείγματα από το παγωτό τύπου ‘κρέμας’ και 8 από το
παγωτό τύπου ‘καϊμάκι’. Τα αποτελέσματα δίνονται στον παρακάτω πίνακα:
Κρέμα
3,2
4,2
6,1
4,5
5,5
4,8
6,5
5,1
Καϊμάκι
5,2
6,2
6,0
5,5
7,7
8,1
6,5
5,9
6,1
Υπάρχει διαφορά στην ποσοστιαία περιεκτικότητα λίπους στους δύο τύπους
παγωτού; (Επίπεδο σημαντικότητας του ελέγχου είναι α=5%)
Λύση
Η ερώτηση μας κατευθύνει ποιο είδος ελέγχου θα πρέπει να ακολουθήσουμε.
Αφού ψάχνουμε να βρούμε απλά αν υπάρχει διαφορά ανάμεσα στα παγωτά ως
προς την περιεκτικότητα τους σε λίπος, ο έλεγχος θα είναι δίπλευρος.
Το μ 1 αναφέρεται στην μέση τιμή της περιεκτικότητας σε λίπος για το παγωτό
‘κρέμα’, ενώ το μ 2 αναφέρεται στην μέση τιμή για το παγωτό ΄καϊμάκι’.
42
Οι τιμές των δειγμάτων για το παγωτό ‘κρέμα’ και για το παγωτό ‘καϊμάκι’
τοποθετούνται στα κελιά Α2 έως Α10 και Β2 έως Β9 αντίστοιχα.
Έχουμε n1=9, και n2=8. Τα βήματα που θα ακολουθήσουμε για την λύση της
άσκησης δίνονται στον παρακάτω πίνακα.
Εντολές
Υποθέσεις
Αποτέλεσμα
Δίπλευρος έλεγχος
Μηδενική Ηο: μ 1 =μ 2
Εναλλακτική Α: μ 1 ≠μ 2
Μέση τιμή x 1
Κελί Η1
5,11
=AVERAGE(A2:A10)
Μέση τιμή x 2
Κελί Η1
6,39
=AVERAGE(Β2:Β9)
Διασπορά S 1 2
Κελί Η2
1,12
=VAR(A2:A10)
Διασπορά S 2 2
Κελί Η3
1,04
=VAR(Β2:Β9)
Σταθμισμένη
Κελί Η4
Διασπορά
Sp 2
Sp
=(H2*8+H3*7)/15
Κελί Η5
Τυπικό σφάλμα
SE(x 1- x 2 )
Κελί Η6
t=
=(H1-H2)/H5
Κρίσιμο σημείο της
t-
κατανομής (t 0,975 )
2
2
S (n − 1) + S 2 (n2 − 1)
=1,09
= 1 1
n1 + n2 − 2
SE ( x1 − x2 ) = S 2 p .(
=SQRT(H4*((1/9)+(1/8)))
Ελεγχοσυνάρτηση t
2
1
1
+ ) =0,51
n1 n 2
x1 − x2
SE( x1 − x2 )
=-2,52
Η τιμή t 0,975 προκύπτει
Οι βαθμοί ελευθερίας είναι 15
από τον πίνακα της t-
και το t 0,975 είναι 2,13
κατανομής για βαθμούς
ελευθερίας n 1 +n 2 -2
Το
τελευταίο
βήμα
της
άσκησης
είναι
η
σύγκριση
ανάμεσα
στην
ελεγχοσυνάρτηση t και στο κρίσιμο σημείο της κατανομής (t 0,975 ).
Για επίπεδο σημαντικότητας α=5% ισχύει ότι
43
Εάν t > t 0,975 τότε απορρίπτεται η μηδενική υπόθεση (Ηο).
Εάν t < t 0,975 τότε δεν απορρίπτεται η μηδενική υπόθεση (Ηο).
Στην περίπτωση μας το t = − 2,52 =2,52 είναι μεγαλύτερο από το t 0,975 =2,13
άρα απορρίπτεται η μηδενική υπόθεση και δεχόμαστε την εναλλακτική. Αυτό
σημαίνει ότι τα δύο παγωτά
διαφέρουν ως προς την περιεκτικότητα τους σε
λίπος γάλακτος.
Η λύση της άσκησης σε φύλλο του Excel:
ΑΣΚΗΣΗ 2
Σε δύο διαφορετικές παραθαλάσσιες περιοχές με κατώτατες
o
θερμοκρασίες
o
(0 C) και (-5 C) αντίστοιχα φυτεύτηκαν φυτά πικροδάφνης (Nerium Oleander).
Μετρήθηκε το ύψος δέκα διαφορετικών φυτών σε μέτρα από την κάθε περιοχή.
Υπάρχει ένδειξη ότι η βέλτιστη κατώτατη θερμοκρασία για το ύψος των φυτών
είναι 0 o C; ( Επίπεδο σημαντικότητας του ελέγχου είναι α=5%)
(0 o C)
2,8
4,1
3,4
3,5
2,9
2,5
3,8
3,9
4,0
2,7
(-5 o C)
3,0
2,9
3,2
3,6
2,5
3,1
4,0
2,9
4,1
2,8
Λύση
Στην άσκηση αυτή προσπαθούμε να αποδείξουμε ότι η κατώτατη θερμοκρασία
0 o C ευνοεί την ανάπτυξη του ύψους του φυτού περισσότερο από την
θερμοκρασία -5 o C άρα ο έλεγχος είναι μονόπλευρος.
44
Το μ 1 αναφέρεται στην μέση τιμή του ύψους ανάπτυξης για την πρώτη
θερμοκρασία (0 o C). Οι τιμές των δειγμάτων τοποθετούνται σε φύλλο του Excel
στα κελιά Α2 έως Α11.
Το μ 2 αναφέρεται στην μέση τιμή του ύψους των φυτών που αναπτύχθηκαν
στην δεύτερη θερμοκρασία (-5 o C) και οι τιμές των δειγμάτων τοποθετούνται στα
κελιά Β2 έως Β11.
Τα σημεία που είναι υπογεγραμμένα δείχνουν ουσιαστικά τις διαφορές μεταξύ
του μονόπλευρου και του δίπλευρου ελέγχου.
Υποθέσεις
Μονόπλευρος
Μηδενική Ηο: μ 1 =μ 2
Εναλλακτική Α: μ 1 >μ 2
Μέση τιμή x 1
Κελί Η1
=AVERAGE(A2:A11)
3,36
Μέση τιμή x 2
Κελί Η2
=AVERAGE(Β2:Β11)
3,21
Διασπορά S 1 2
Κελί Η3
=VAR(A2:A11)
0,35
Διασπορά S 2 2
Κελί Η4
=VAR(Β2:Β11)
0,28
Σταθμισμένη
Διασπορά Sp 2
Κελί Η5
=(9*H3+9*H4)/18
0,31
Κελί Η6
=SQRT(H5*(2/10))
0,25
Κελί Η7
=(H1-H2)/H6
0,6
Η τιμή t 0,95 προκύπτει από
τον πίνακα της t-κατανομής
για βαθμούς ελευθερίας
n 1 +n 2 -2
Οι βαθμοί ελευθερίας
είναι 18 και το t 0,95
είναι 1,73
Τυπικό σφάλμα¨
SE(x 1- x 2 )
Ελεγχοσυνάρτηση t
Κρίσιμο σημείο της
t-κατανομής (t 0,95 )
Η σύγκριση είναι διαφορετική στην περίπτωση του μονόπλευρου ελέγχου.
Για επίπεδο σημαντικότητας α=5% ισχύει ότι
Εάν t>t 0,95 τότε απορρίπτεται η μηδενική υπόθεση (Ηο).
Εάν t<t 0,95 τότε δεν απορρίπτεται η μηδενική υπόθεση (Ηο).
Στην άσκηση τα αποτελέσματα του ελέγχου δείχνουν ότι η ελεγχοσυνάρτηση
t=0,6 είναι μικρότερη από το κρίσιμο σημείο t 0,95 =1,73 άρα δεν απορρίπτεται η
45
Ηο. Αυτό σημαίνει ότι δεν αποδείξαμε ότι η κατώτατη θερμοκρασία 0 o C δεν
έδωσε ψηλότερα φυτά από την θερμοκρασία -5 o C.
Παρατήρηση:
Στο EXCEL, χρησιμοποιώντας την Ανάλυση Δεδομένων μπορούμε να κάνουμε
τον έλεγχο t, πολύ ευκολότερα με τον παρακάτω τρόπο:
Στο μενού Εργαλεία, επιλέγουμε Πρόσθετα και στη συνέχεια ενεργοποιούμε το
Πακέτο Εργαλείων Ανάλυσης.
Στο μενού Εργαλεία υπάρχει τότε η επιλογή Ανάλυση Δεδομένων.
Το t-test με ανεξάρτητα δείγματα βρίσκεται στην επιλογή Έλεγχος t δύο
δειγμάτων με υποτιθέμενες ίσες διασπορές. Ακολουθώντας τα βήματα,
βρίσκουμε την ελεγχοσυνάρτηση t .
46
ΑΣΚΗΣΕΙΣ
5.1.
Οριοθετήθηκαν 10 πειραματικά τεμάχια από δύο διαφορετικούς αγρούς.
Στον πρώτο αγρό δόθηκε το λίπασμα Α ενώ στον δεύτερο το λίπασμα Β.
Μετρήθηκε η παραγωγή ντομάτας (σε κιλά) σε κάθε πειραματικό τεμάχιο
και είχαμε τα αποτελέσματα που παρουσιάζονται στον πίνακα. Υπάρχει
διαφορά
στην
παραγωγή
ανάλογα
με
τον
τύπο
λιπάσματος;
Να
διατυπώσετε και να ελέγξετε την κατάλληλη στατιστική υπόθεση.
5.2.
Α
29
27
30
18
26
25
30
24
20
21
Β
41
32
30
25
27
38
31
22
36
29
Σε μια μελέτη, η ρίζα των φασολιών που φυτεύτηκαν σε νερό 6
0
C,
συγκρίθηκε με τη ρίζα αυτών που φυτεύτηκαν σε διάλυμα φρουκτόζης.
Πιστεύουμε ότι η μέση ρίζα αυτών που αναπτύσσονται στη φρουκτόζη
είναι μεγαλύτερη από αυτών που αναπτύσσονται στο νερό. Σε κάποιο
πείραμα που έγινε στο εργαστήριο είχαμε τα αποτελέσματα που
παρουσιάζονται στον ακόλουθο πίνακα. Ευσταθεί ο ισχυρισμός μας;
5.3.
Φρουκτόζη
Νερό
n 1 =25
n 2 =16
X 1 =9,66 mm
X 2 =9,08 mm
S 1 =0,25 mm
S 2 =0,34 mm
Σε 20 φυτά που φυτεύτηκαν σε ένα θερμοκήπιο μετρήθηκε το ύψος τους
μετά από 25 ημέρες και βρέθηκε να έχει μέση τιμή 4,8 και διασπορά 0,49.
Το πείραμα επαναλήφθηκε μετά από αρκετό καιρό, για το ίδιο χρονικό
διάστημα, αλλά σε 35 φυτά τα οποία έδωσαν για το ύψος μέση τιμή 4,1
και τυπική απόκλιση 0,6. Έχουμε λόγους να πιστεύουμε ότι το δεύτερο
πείραμα έδωσε, κατά μέσο όρο, μικρότερο ύψος από ότι το πρώτο;
47
5.4.
Σε δύο θερμοκήπια μετρήθηκε η παραγωγή ανθέων σε 8 διαφορετικά
φυτά έπειτα από προσθήκη των λιπασμάτων Α και Β. Υπάρχει διαφορά
στην παραγωγή ανθέων ανάλογα με τον τύπο λιπάσματος;
Α
9
8
9
7
10
11
8
7
Β
8
10
8
7
12
10
9
8
48
6. Σύγκριση μέσων τιμών σε δείγματα ανά ζεύγη
(t-test)
Η μέθοδος χρησιμοποιείται για τη σύγκριση των μέσων τιμών δύο ανεξάρτητων
και κανονικών πληθυσμών με μέσες τιμές μ 1 και μ 2 .(με την προϋπόθεση να
είναι ίσες οι διασπορές τους, σ 1 2 =σ 2 2 ). Τα δείγματα από κάθε πληθυσμό (x 1.1 ,
x 1.2 , ..., x 1.n και x 2.1 , x 2.2 , ..., x 2.n ) πρέπει να επιλεγούν έτσι ώστε να
δημιουργούνται ζεύγη παρατηρήσεων. Το μέγεθος του δείγματος στους δύο
πληθυσμούς είναι το ίδιο (n 1 =n 2 ) και θα συμβολίζεται με n. Τα ζεύγη των
παρατηρήσεων θα είναι x 1.1 - x 2.1 , x 1.2 -x 2.2 , …, x 1.n - x 2.n .
Στην σύγκριση ανά ζεύγη, διακρίνουμε επίσης δύο περιπτώσεις: α) Δίπλευρος
έλεγχος και β) Μονόπλευρος έλεγχος, ανάλογα με τη μορφή της εναλλακτικής
υπόθεσης.
Δίπλευρος Έλεγχος
¾ Ορισμός μηδενικής και εναλλακτικής υπόθεσης
Ηο: μ 1 =μ 2
Α: μ 1 ≠μ 2
¾ Επίπεδο σημαντικότητας
α=5%
2,5%
95%
2,5%
t0,975
¾ Υπολογισμός των διαφορών (D= x 1.i -x 2.i ) και της μέσης τιμής των διαφορών
⎛
∑ D ( x1.1 − x 2.1 ) + ( x1.2 − x 2.2 ) + ... + ( x1.n − x 2.n ) ⎞
=
⎟
⎜D=
n
n
⎠
⎝
και
49
¾ κατασκευή πίνακα δεδομένων.
¾ Υπολογισμός
SD
2
X 2.i
X 1.i -X 2.i =D i
Di2
x 1.1
x 2.1
x 1.1 -x 2.1 =D 1
D12
x1.2
x2.2
x 1 . 2 -x 2 . 2 =D 2
D22
.
.
.
.
.
.
.
.
x 1.n
x 2.n
x 1.n -x 2.n =D n
Dn2
ΣD i
ΣD i 2
της
Διασποράς
των
SD
διαφορών
2
από
τον
τύπο
(
∑ D )2 ⎞⎟
1 ⎛⎜
2
=
∑D −
n − 1 ⎜⎝
n ⎟⎠
¾ Υπολογισμός
SE
X 1.i
(D )
τυπικού
S
= D =
n
σφάλματος
από
τον
τύπο
SD2
n
¾ Υπολογισμός της ελεγχοσυνάρτησης (t) από τον τύπο
t=
D
SE (D )
¾ Σύγκριση
Καθορίζουμε το κρίσιμο σημείο t 0,975 από τον πίνακα της t-κατανομής για
Βαθμούς Ελευθερίας=n-1
Συγκρίνουμε την απόλυτη τιμή t
με το t 0,975
Αν η t > t 0,975 τότε απορρίπτεται η μηδενική υπόθεση Ηο.
Αν η t < t 0,975 τότε δεν απορρίπτεται η μηδενική υπόθεση Ηο.
50
Μονόπλευρος Έλεγχος
¾ Ορισμός μηδενικής και εναλλακτικής υπόθεσης
Ηο: μ 1 =μ 2
Α: μ 1 >μ 2 ή μ 1 <μ 2
¾ Επίπεδο σημαντικότητας
α=5%
95%
5%
t0,95
( )
¾ Υπολογισμός των διαφορών (D) και της μέσης τιμής D των διαφορών.
α)αν μ 1 >μ 2 τότε D=X 1 -X 2
β)αν μ 1 <μ 2 τότε D=X 2 -X 1
¾ Υπολογισμός της Διασποράς S D
2
¾ Υπολογισμός τυπικού σφάλματος
SE (D ) =
SD
n
=
SD2
n
¾ Υπολογισμός της ελεγχοσυνάρτησης (t)
¾ Σύγκριση
Καθορίζουμε το κρίσιμο σημείο t 0,95 από τον πίνακα της t-κατανομής για
Βαθμούς Ελευθερίας=n-1
Συγκρίνουμε την τιμή t (όχι απόλυτη τιμή) με το t 0,95
Αν t>t 0,95 τότε απορρίπτεται η μηδενική υπόθεση Ηο.
Αν t<t 0,95 τότε δεν απορρίπτεται η μηδενική υπόθεση Ηο.
51
ΑΣΚΗΣΗ 1
Σε αμπελώνα κυπελλοειδούς σχήματος μετρήθηκε η παραγωγή σε κιλά,
επιτραπέζιων σταφυλιών πριν την μόρφωση των πρέμνων σε γραμμικά και ένα
χρόνο μετά από αυτήν. Για την σύγκριση πάρθηκαν 12 πρέμνα του αμπελώνα.
Υπάρχει διαφορά στην παραγωγή ανάλογα με τον διαφορετικό σχηματισμό του
αμπελώνα;
Επίπεδο σημαντικότητας του ελέγχου α=5%
Κυπελλοειδές
(πρίν)
15,8
16,0
16,5
17,0
18,2
19,0
18,7
20,1
22,5
21,3
19,0
20,5
Γραμμικό
(μετά)
16,8
15,2
17,0
16,8
18,2
19,3
20,2
21,1
23,5
20,0
18,7
21,8
Λύση
Αφού εξετάζουμε την διαφορά ανάμεσα στην παραγωγή σταφυλιού στους δύο
σχηματισμούς πρέπει να χρησιμοποιήσουμε δίπλευρο έλεγχο.
Η μέση τιμή μ 1 αναφέρεται στο κυπελλοειδές σχήμα ενώ η μ 2 για το γραμμικό.
Αντίστοιχα οι μετρήσεις σε φύλλο του Excel βρίσκονται στα κελιά Α2 μέχρι Α13
και Β2 μέχρι Β13.
Η λύση της άσκησης ακολουθεί την παρακάτω διαδικασία:
Εντολές
Υποθέσεις
Αποτέλεσμα
Δίπλευρος Έλεγχος
Μηδενική Ηο: μ 1 =μ 2
Εναλλακτική Α: μ 1 ≠μ 2
Διαφορές ζευγών
μετρήσεων
(Di)
Κελί C2
=A2-B2
αντιγράφεται ο τύπος
έως το κελί C13
Μέση τιμή D
Κελί Η1
-0,3
=AVERAGE(C2:C13)
Διασπορά S D
2
Κελί Η2
0,76
=VAR(C2:C13)
52
Τυπικό
σφάλμα
Κελί Η3
SE (D )
Ελεγχοσυνάρτηση
=SQRT(Η2/12)
Κελί Η4
=Η1/Η3
SE (D ) =
t=
SD
n
2
=0,25
D
=-1,32
SE(D )
Κρίσιμο σημείο της
Η τιμή t 0,995 προκύπτει από
Οι
t-κατανομής (t 0,995 )
τον πίνακα της t-κατανομής
είναι 11 και το t 0,975 είναι
για βαθμούς ελευθερίας n-1
2.20
βαθμοί
ελευθερίας
Η σύγκριση γίνεται ανάμεσα στην απόλυτη τιμή της ελεγχοσυνάρτησης t και
στο κρίσιμο σημείο της t-κατανομής που στην άσκηση είναι το t 0,975
αφού το επίπεδο σημαντικότητας είναι α=5%.
Διαπιστώνουμε ότι t = − 1,32 =1,32 < t 0,975 =2,20. Αυτό σημαίνει ότι δεν έχουμε
ενδείξεις για να απορρίψουμε την Ηο άρα η διαφορετική μόρφωση των
πρέμνων δεν διαφοροποίησε την παραγωγή τουλάχιστον για τον πρώτο χρόνο.
Η άσκηση διαμορφωμένη σε φύλλο του Excel
ΑΣΚΗΣΗ 2
Μια καλλιεργούμενη έκταση σε επικλινή τοποθεσία χωρίστηκε σε οχτώ
τμήματα. Μετρήθηκε το pH του εδάφους πριν την προσθήκη ανθρακικού
53
ασβεστίου (CaCO 3 ) και μετά από αυτήν. Τα αποτελέσματα φαίνονται στον
πίνακα που ακολουθεί:
pH (πριν)
4,9
5,3
5,8
5,0
5,1
5,2
5,7
5,5
pH (μετά)
6,2
6,8
5,2
6,9
5,2
6,6
6,1
7,0
Υπάρχει ένδειξη ότι η προσθήκη του CaCO 3 αύξησε το pH του εδάφους;
Λύση
Ο έλεγχος είναι μονόπλευρος. Στην άσκηση θέλουμε να αποδείξουμε ότι η μέση
τιμή της δεύτερης μέτρησης του pH είναι μεγαλύτερη από εκείνη της πρώτης
άρα
η
διαφορά
θα
προκύψει
από
τον
τύπο:
D=X 2 -X 1. Οι
μετρήσεις
τοποθετούνται σε φύλλο του Excel στα κελιά Α2 μέχρι Α9 για το πρώτο δείγμα
και Β2 μέχρι Β9 για το δεύτερο.
Υποθέσεις
Μηδενική Ηο: μ 1 =μ 2
Εναλλακτική Α: μ 1 <μ 2
Διαφορές D
Κελί C2
=B2-A2
μεταφέρεται ο τύπος έως το κελί C9
Μέση τιμή D
Κελί Η1
0,94
=AVERAGE(C2:C9)
Διασπορά S D
2
Κελί Η2
0,75
=VAR(C2:C9)
Τυπικό
σφάλμα
Κελί Η3
SE (D )
Ελεγχοσυνάρτηση
0,31
=SQRT(Η2/8)
Κελί Η4
3,06
=Η1/Η3
Κρίσιμο σημείο της
Η τιμή t 0,995 προκύπτει από τον
Οι βαθμοί
t-κατανομής (t 0,95 ).
πίνακα της t-κατανομής για
ελευθερίας είναι 7
βαθμούς ελευθερίας n-1
και το t 0,95 είναι 1,90
για επίπεδο
σημαντικότητας
54
α=5%
Διαπιστώνουμε από τα αποτελέσματα ότι η ελεγχοσυνάρτηση t=3,06 είναι
μεγαλύτερη από το κρίσιμο σημείο t 0,95 =1,90 άρα απορρίπτεται η Ηο και
δεχόμαστε ότι το ανθρακικό ασβέστιο αύξησε το pH του εδάφους.
Παρατήρηση:
Στο EXCEL, χρησιμοποιώντας την Ανάλυση Δεδομένων μπορούμε να κάνουμε
τον έλεγχο t, πολύ ευκολότερα με τον παρακάτω τρόπο:
Στο μενού Εργαλεία, επιλέγουμε Πρόσθετα και στη συνέχεια ενεργοποιούμε το
Πακέτο Εργαλείων Ανάλυσης.
Στο μενού Εργαλεία υπάρχει τότε η επιλογή Ανάλυση Δεδομένων.
Το t-test με δείγματα ανά ζεύγη βρίσκεται στην επιλογή Έλεγχος t του μέσου
δύο
δειγμάτων
συσχετισμένων
ζευγών.
Ακολουθώντας
τα
βήματα,
βρίσκουμε την ελεγχοσυνάρτηση t .
55
ΑΣΚΗΣΕΙΣ
6.1.
Σε
8
διαφορετικές
περιοχές
της
Ελλάδας
έγινε
η
ακόλουθη
δειγματοληψία. τον Σεπτέμβριο του 1997 και τον Σεπτέμβριο του 1998
καταγράφηκε η μέση τιμή σε δραχμές, ενός είδους σταφυλιού, στις
λαϊκές αγορές και τα αποτελέσματα παρουσιάζονται στον πίνακα.
Υπάρχει ή όχι σαφής ένδειξη ότι η τιμή του συγκεκριμένου σταφυλιού
αυξήθηκε στην Ελλάδα τον τελευταίο χρόνο;
πόλεις
έτος
Άργος
Πάτρα
Βόλος
Χίος
Χανιά
Ξάνθη
Ρόδος
Αθήνα
1997
255
245
315
205
295
325
420
229
1998
268
250
310
218
305
340
392
225
6.2.
Για να συγκριθεί η γεύση μιας ποικιλίας κρασιού που παρασκευάζεται με
δύο
διαφορετικούς
τρόπους
(απολάσπωση
και
μη
απολάσπωση),
ζητήθηκε η γνώμη 8 γευσιγνωστών στους οποίους δόθηκαν δείγματα και
από τους δύο τύπους παρασκευής του κρασιού. Η ποιότητα της γεύσης
αξιολογήθηκε σε μια κλίμακα από 0-10. Τα αποτελέσματα παρουσιάζονται
στον πίνακα. Από τα αποτελέσματα της αξιολόγησης υπάρχει ένδειξη ότι
το κρασί που προήλθε από απολάσπωση είναι γευστικά καλύτερο;
γευσιγνώστης
6.3.
τύπος κρασιού
1ος
2ος
3ος
4ος
5ος
6ος
7ος
8ος
απολάσπωση
7
6
10
10
8
4
9
8
χωρίς απολάσπωση
4
3
6
10
5
2
4
7
Ο παρακάτω πίνακας δείχνει τις τιμές ελαιόλαδου (σε euro) σε 6
διαφορετικές Κοινότητες του Ηρακλείου το 2002 και το 2003. Υπάρχει
ένδειξη ότι η τιμή του ελαιόλαδου αυξήθηκε το 2002;
56
6.4.
2002
2,5
2,1
2,3
1,9
2,6
2,0
2003
2,6
2,3
2,0
2,1
1,8
1,9
Ένας γεωπόνος θέλοντας να δει αν ένα λίπασμα βοηθάει την παραγωγή
σε ένα φυτό πήρε 15 φυτά ίδιας ηλικίας και μέτρησε την παραγωγή τους.
Μετά ένα χρόνο και αφού χρησιμοποιούσε το λίπασμα αυτό, μέτρησε πάλι
την παραγωγή τους. Τα αποτελέσματα των μετρήσεων φαίνονται στον
παρακάτω πίνακα. Το λίπασμα αυτό αυξάνει την παραγωγή;
ΠΡΙΝ
70
80
72
76
76
76
72
78
82
64
74
92
74
68
84
ΜΕΤΑ
68
72
62
70
58
66
68
52
64
72
74
60
74
72
74
6.5.
Ο υπεύθυνος μεγάλης επιχείρησης παραγωγής μεταλλικών στύλων
περίφραξης θέλει να αγοράσει καινούρια μηχανήματα κοπής στύλων. Για
να ελέγξει
αν η απόδοση των μηχανημάτων της Α και της Β μάρκας
διαφέρουν, πήρε τυχαίο δείγμα από 12 εργάτες οι οποίοι την πρώτη μέρα
χειρίζονταν τα μηχανήματα της Α μάρκας και τη δεύτερη της Β μάρκας. Για
κάθε ένα από τους εργάτες κατέγραψε τον αριθμό των στύλων που
έκοψαν ημερησίως και πήρε τα παρακάτω αποτελέσματα. Αν μπορούμε
να υποθέσουμε ότι ο αριθμός των μεταλλικών στύλων που κόβει μία
μηχανή ακολουθεί κανονική κατανομή, να ελεγχθεί η υπόθεση ότι η
απόδοση των δύο μηχανημάτων είναι ίδια για τις δύο μάρκες σε επίπεδο
σημαντικότητας α=0,05.
ΕΡΓΑΤΗΣ
ΜΗΧΑΝΗΜΑ
1
2
3
4
5
6
7
8
9
10
11
12
Α
80
95
104
117
79
95
100
83
79
80
98
104
Β
88
105
102
107
80
98
110
74
86
84
90
108
57
7. Ανάλυση Διασποράς (ANOVA)
Η μέθοδος χρησιμοποιείται για τη σύγκριση μέσων τιμών k πληθυσμών (k>2).
Οι πληθυσμοί στο εξής θα ονομάζονται κατηγορίες.
Οι βασικές προϋποθέσεις που πρέπει να ισχύουν για τους πληθυσμούς είναι:
α) να είναι ανεξάρτητοι μεταξύ τους
β) να ακολουθούν κανονική κατανομή με μέσες τιμές μ 1 , μ 2 , ... ,μ k και
διασπορές σ 1 2 , σ 2 2 ,..., σ k 2 .
γ) οι διασπορές να είναι ίσες μεταξύ τους σ 1 2 =σ 2 2 =...=σ k 2 .
Πίνακας ANOVA
ΠΗΓΗ
ΑΘΡΟΙΣΜΑ
ΜΕΣΟ
Β. Ε.
ΑΘΡΟΙΣΜΑ
ΜΕΤΑΒΛΗΤΟΤΗΤΑΣ
ΤΕΤΡΑΓΩΝΩΝ
Μεταξύ Κατηγοριών
SSB
k-1
MSB
Μέσα στις Κατηγορίες
SSW
nk-k
MSW
Σύνολο
SST
nk-1
F-ΛΟΓΟΣ
F 0,95
MSB/MSW
...
ΤΕΤΡΑΓΩΝΩΝ
Τελικό ζητούμενο είναι η απόρριψη ή μη της μηδενικής υπόθεσης για το οποίο
θα βοηθήσει η συμπλήρωση του πίνακα ANOVA.
Μεθοδολογία
¾ Ορισμός της μηδενικής και εναλλακτικής υπόθεσης
Ηο: μ 1 =μ 2 =...=μ k
Α: μ i ≠μ j (για κάποια i, j=1, 2, …, k)
¾ Συμπλήρωση του βοηθητικού πίνακα
58
Βοηθητικός Πίνακας ANOVA
ΠΛΗΘΥΣΜΟΙ
2
.
.
.
k
x 1.1
x 2.1
.
.
.
x k.1
x 1.2
x 2.2
.
.
.
x k.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x 1.n
x 2.n
.
.
.
x k.n
Συνολικό Άθροισμα
Ορισμός
Τ 1 =Σx 1
Τ 2 =Σx 2
.
.
.
Τ k =Σx k
T =Τ 1 +Τ 2 +...+Τ k
C=T 2 /nk
Τ12
Τ22
.
.
.
Τk2
ΣT 2 =Τ 1 2 +Τ 2 2 +...+Τ k 2
B=ΣT 2 /n
Σx 1 2
Σx 2 2
.
.
.
Σx k 2
Σx 2 =Σx 1 2 +Σx 2 2 +...+Σx k 2
Α=Σx 2
ΜΕΤΑΒΛΗΤΕΣ
1
Άθροισμα
Κατηγορίας
Τετράγωνο
Αθροίσματος
Κατηγορίας
Άθροισμα
Τετραγώνων
μεταβλητών x ανά
Κατηγορία
¾ Υπολογισμός Συνόλων
SST = A − C
(Total Sum of Squares=Συνολική Μεταβλητότητα)
SSB = B − C
(Between
categories
Sum
of
Squares=Μεταβλητότητα
μεταξύ των κατηγοριών)
SSW = SST − SSB
(Within categories Sum of Squares=Μεταβλητότητα
μέσα στις κατηγορίες)
¾ Υπολογισμός Μέσων Αθροισμάτων Τετραγώνων
MSB =
SSB
k −1
(Mean Between Sum of Squares=Μέση Μεταβλητότητα
μεταξύ των Κατηγοριών)
MSW =
SSW
nk − k
(Mean Within Sum of Squares=Μέση Μεταβλητότητα
μέσα στις Κατηγορίες)
59
F-test
=
MSB
MSW
•
Υπολογίζεται ο λόγος : F
•
Συμπλήρωση πίνακα ANOVA
•
Σύγκριση του F με την τιμή F 0,95 που βρίσκεται από τον πίνακα της Fκατανομής για Βαθμούς Ελευθερίας (Β. Ε.) k-1 (στήλες) και nk-k
(γραμμές)
•
Αν F>F 0,95 τότε απορρίπτεται η μηδενική υπόθεση Ηο άρα οι μέσες τιμές
που συγκρίνουμε διαφέρουν
•
Αν F<F 0,95 τότε δεν απορρίπτεται η μηδενική υπόθεση Ηο άρα οι μέσες
τιμές που συγκρίνουμε δεν διαφέρουν.
ΑΣΚΗΣΗ 1
Κατά την διάρκεια θερμικής επεξεργασίας του γάλακτος μετρήθηκε σε 3
διαφορετικές θερμοκρασίες, η ταχύτητα αποστείρωσης. Πήραμε 7 δείγματα από
την κάθε θερμοκρασία. Να ελέγξετε εάν η θερμοκρασία μεταβάλλει την
ταχύτητα αποστείρωσης του γάλακτος. Οι μετρήσεις δίνονται στον παρακάτω
πίνακα.
Λύση
Θ 1 (120 ο C)
Θ 2 (125 ο C)
Θ 3 (130 ο C)
2,5
3,1
4,2
2,8
3,9
5,1
3,3
5,4
6,2
3,8
6,3
6,9
4,1
5,2
8,2
4,2
4,9
7,5
2,8
3,5
6,3
60
•
Υποθέσεις
Μηδενική υπόθεση Ηο: μ 1 =μ 2 =μ 3
Εναλλακτική υπόθεση Α : μ i ≠μ j (για κάποια i,j=1, 2, 3)
•
Βοηθητικός Πίνακας
Σε κάθε κελί θα περιγράφονται αρχικά οι πράξεις, έπειτα η διεύθυνση του κελιού και
μετά οι εντολές ή οι τύποι στο Excel. Οι αρχικές μετρήσεις θα βρίσκονται στα κελιά Β1
μέχρι Β8 για την Θ1, στα κελιά C2 μέχρι C8 για την Θ2 και D2 έως D8 για την
θερμοκρασία Θ3.
Θ1
2,5
2,8
3,3
3,8
4,1
4,2
2,8
Κελί Β9
Τ 1 =(2,5+…+2,8)=23,5
=SUM(B2:B8)
Κελί Β10
2
Τ 1 =23,5 2 =552,25
=Β9^2
K=3
Θ2
3,1
3,9
5,4
6,3
5,2
4,9
3,5
Κελί C9
Τ 2 =32,3
=SUM(C2:C8)
Κελί C10
Τ 2 2 =1043,29
=C9^2
Θ3
4,2
5,1
6,2
6,9
8,2
7,5
6,3
Κελί D9
Τ 3 =44,4
=SUM(D2:D8)
Κελί D10
Τ 3 2 =1971,36
=D9^2
Κελί Β11
2,5 +…+2,8 2 =81,71
=SUMSQ(B2:B8)
Κελί C11
156,97
=SUMSQ(C2:C8)
Κελί D11
292,88
=SUMSQ(D2:D8)
2
n=7
Συνολικό Άθροισμα
Κελί F9
T=100,2
=SUM(B9:D9)
Κελί F10
ΣTi 2 =3566,9
=SUM(B10:D10)
Κελί F11
Σx 2 =531,56
=SUM(B11:D11)
Ορισμός
Κελί H9
C=100,2 2 /7·3=478,10
=F9^2/21
Κελί H10
B=3566,9/7=680,2
=F10/7
Κελί H11
Α=531,56
61
Στα επόμενα βήματα της άσκησης θα περιγράφονται δίπλα στις πράξεις οι
διευθύνσεις των κελιών και οι τύποι στο Excel
•
Υπολογισμός Συνόλων
Συνολική Μεταβλητότητα (αποτελεί το άθροισμα των μεταβλητοτήτων του
πειράματος)
SST = A − C =531,56-478,10=53,46
Μεταβλητότητα
μεταξύ
των
Κελί J9: =H11-H9
κατηγοριών
(οφείλεται
στις
διαφορετικές
θερμοκρασίες)
SSB = B − C =5,09,56-478,10=31,46
Κελί J10: =H10-H9
Μεταβλητότητα μέσα στις κατηγορίες (οφείλεται στην εσωτερική ανομοιογένεια
των δειγμάτων του γάλακτος)
SSW = SST − SSB =53,46-31,46=22,00
•
Κελί J11: =J9-J10
Υπολογισμός Μέσων Αθροισμάτων Τετραγώνων
Μέση Μεταβλητότητα μεταξύ των Κατηγοριών
MSB =
SSB 31,46
=
=15,73
k −1 3 −1
Κελί L10: =J10/2
Μέση Μεταβλητότητα μέσα στις Κατηγορίες
MSW =
•
SSW
22,00
=
=1,22
nk − k 7 ⋅ 3 − 3
Κελί L11: =J11/18
F-test
Υπολογίζεται ο λόγος F =
MSB 15.73
=
=12,87
MSW 1.22
Κελί N10: =L10/L11
62
•
Συμπλήρωση πίνακα ANOVA
ΠΗΓΗ
ΜΕΣΟ
ΑΘΡΟΙΣΜΑ
Β. Ε.
ΑΘΡΟΙΣΜΑ
ΜΕΤΑΒΛΗΤΟΤΗΤΑΣ
ΤΕΤΡΑΓΩΝΩΝ
Μεταξύ Κατηγοριών
SSB=31,46
k-1=2
MSB=15,73
SSW=22,00
nk-k=18
MSW=1,22
SST=53,46
nk-1=20
Μέσα στις
Κατηγορίες
Σύνολο
•
F-ΛΟΓΟΣ
F 0 , 95
MSB/MSW=12,87
3,55
ΤΕΤΡΑΓΩΝΩΝ
Σύγκριση
Παρατηρούμε ότι η τιμή που βρήκαμε για την ελεγχοσυνάρτηση F=12,87 είναι
μεγαλύτερη από την τιμή F 0,95 =3,55 που είναι το κρίσιμο σημείο της Fκατανομής και βρίσκεται από τον πίνακα της F-κατανομής για Βαθμούς
Ελευθερίας (Β. Ε.) k-1=3-1=2 (στήλες) και nk-k=7·3-3=18 (γραμμές)
•
Συμπέρασμα
Αυτό σημαίνει ότι απορρίπτεται η μηδενική υπόθεση Ηο άρα οι μέσες τιμές που
συγκρίναμε έχουν στατιστικά σημαντική διαφορά και από ό,τι φαίνεται οι
θερμοκρασίες έχουν επίδραση στην ταχύτητα αποστείρωσης του γάλακτος.
Θα μπορούσαμε να συμπεράνουμε νωρίτερα ότι οι θερμοκρασίες επηρεάζουν
την ταχύτητα αποστείρωσης αφού στα αποτελέσματα φαίνεται ότι η μέση
μεταβλητότητα
ΜSB=15,73
που
οφείλεται
στην
επέμβαση
που
κάναμε
(θερμοκρασίες) είναι κατά πολύ μεγαλύτερη από την μέση μεταβλητότητα που
παρατηρείται μέσα σε κάθε δείγμα γάλακτος ΜSW=1,22.
Παρατήρηση:
Στο EXCEL, χρησιμοποιώντας την Ανάλυση Δεδομένων μπορούμε να κάνουμε
την Ανάλυση Διασποράς, πολύ ευκολότερα με τον παρακάτω τρόπο:
Στο μενού Εργαλεία, επιλέγουμε Πρόσθετα και στη συνέχεια ενεργοποιούμε το
Πακέτο Εργαλείων Ανάλυσης.
Στο μενού Εργαλεία υπάρχει τότε η επιλογή Ανάλυση Δεδομένων.
Η Ανάλυση Διασποράς βρίσκεται στην επιλογή Ανάλυση Διακύμανσης με
έναν παράγοντα. Ακολουθώντας τα βήματα, βρίσκουμε τον πίνακα ANOVA.
63
64
ΑΣΚΗΣΕΙΣ
7.1.
Για να ελεγχθεί εάν οι πληθυσμοί ενός συγκεκριμένου είδους σκαθαριού
σε τέσσερα νησιά του Αιγαίου διαφέρουν ως προς το συνολικό τους
μήκος,
μετρήθηκαν
τυχαία
δείγματα
30
ατόμων
από
κάθε
νησί.
Διαφέρουν οι πληθυσμοί αυτοί ως προς το μέγεθος ή όχι; Δίνονται τα
σύνολα Τ και ΣΧ 2 για καθένα νησί.
Τ
ΣΧ 2
7.2.
Νησί 1
Νησί 2
Νησί 3
Νησί 4
425
480
417
445
6150
8055
6438
7088
Έγινε ένα πείραμα για να συγκρίνουμε την περιεκτικότητα (%) σε άμυλο
μιας ποικιλίας ντομάτας που αναπτύχθηκε σε τρία διαφορετικά εδαφικά
υποστρώματα. Μετρήθηκαν 4 πειραματικά τεμάχια ανά υπόστρωμα και τα
αποτελέσματα δίνονται στον παρακάτω πίνακα. Υπάρχουν διαφορές στην
περιεκτικότητα σε άμυλο ανάμεσα στις τρεις καλλιέργειες;
7.3.
Α
Β
Γ
Δ
23
12
7
15
20
14
9
13
21
13
7
18
18
10
6
10
Για την καταπολέμηση ενός βλαβερού εντόμου στην τριανταφυλλιά
δόθηκαν τρία διαφορετικά εντομοκτόνα και μετρήθηκε ο αριθμός των
θανόντων εντόμων σε 4 παγίδες. Τα αποτελέσματα δίνονται στον
παρακάτω πίνακα. Υπάρχουν διαφορές στα τρία διαφορετικά εντομοκτόνα
που χρησιμοποιήθηκαν ως προς την δραστικότητά τους;
65
7.4.
Ένας
καθηγητής
Ε1
Ε2
Ε3
35
33
38
31
30
36
28
32
25
29
27
28
επιθυμώντας
να
συγκρίνει
τρεις
μεθόδους
για
αποδοτικότερο διάβασμα χρησιμοποίησε 12 σπουδαστές και με κάποιο
τεστ μέτρησε την απόδοση τους. Υψηλός δείκτης δείχνει υψηλή απόδοση.
Η μέθοδος 1 εφαρμόστηκε σε 4 σπουδαστές διαλεγμένους τυχαία, η
μέθοδος 2 εφαρμόστηκε σε 4 σπουδαστές διαλεγμένους επίσης τυχαία και
η μέθοδος 3 εφαρμόστηκε στους υπόλοιπους 4 σπουδαστές. Στο τέλος
του εξαμήνου τα αποτελέσματα ήταν αυτά που παρουσιάζονται στον
πίνακα. Μπορούμε να απαντήσουμε αν οι τρεις μέθοδοι διαφέρουν
σημαντικά;
ΜΕΘΟΔΟΣ
ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΕ ΒΑΘΜΟΥΣ
Α
80
92
87
83
Β
70
81
78
74
Γ
63
76
70
80
66
8. Παλινδρόμηση – Συσχέτιση
Αν σε έναν πληθυσμό μετρήσουμε συγχρόνως δύο διαφορετικά ποσοτικά
χαρακτηριστικά (μεταβλητές) X και Y και ζητάμε να βρούμε τι σχέση έχουν αυτά
μεταξύ τους, οι μέθοδοι που προσπαθούν να δώσουν απαντήσεις στο ερώτημα
αυτό είναι της Παλινδρόμησης και της Συσχέτισης.
Παλινδρόμηση
Η συνάρτηση παλινδρόμησης μας δίνει τη μαθηματική σχέση η οποία συνδέει
τις τιμές της ανεξάρτητης μεταβλητής X με τις τιμές της εξαρτημένης
μεταβλητής Y.
Η απλούστερη σχέση μεταξύ των μεταβλητών X και Y είναι η γραμμική:
Y =α +β ⋅X
Για να εκτιμήσουμε την εξίσωση αρκεί να εκτιμήσουμε το α(=σημείο τομής με
τον άξονα των y) και το β(=κλίση της ευθείας).
Γραφικές παραστάσεις της Y = α + β ⋅ X
y
β
για (α>0)
y
y
α
α
β
x
x
x
β〉 0
β〉 0
β=0
↑ X ⇒↑ Y
↑ X ⇒↓ Y
Υ =α
67
Μεθοδολογία
¾ Πίνακας τιμών Χ και Υ
X
Y
X2
Y2
X·Y
Χ1
Y1
Χ12
Y12
X 1 ·Y 1
Χ2
Y2
Χ22
Y22
X 2 ·Y 2
.
.
.
.
.
.
.
.
.
.
Χn
Yn
Χn2
Yn2
X n ·Y n
ΣΧ
ΣΥ
ΣΧ 2
ΣΥ 2
ΣXY
¾ Υπολογισμός μέσων τιμών x =
Σy
Σx
και y =
n
n
¾ Υπολογισμός των μεγεθών C, D και E
C = Σx 2 − n ⋅ x
2
D = Σy 2 − n ⋅ y
2
E = Σx ⋅ y - n x ⋅ y
¾ Εκτίμηση του β με το b (κλίση της ευθείας)
b=
E
C
¾ Εκτίμηση του α με το a (του σημείου τομής της ευθείας με τον άξονα των y)
a= y − b⋅ x
¾
Έλεγχος σημαντικότητας της γραμμικής σχέσης της παλινδρόμησης
(Δίπλευρος έλεγχος)
•
Ορισμός μηδενικής και εναλλακτικής υπόθεσης. (Ηο: β=0 και Α: β≠0)
•
Επίπεδο σημαντικότητας: α=5%
68
•
Αν
Διασπορά της Παλινδρόμησης:
•
Τυπικό σφάλμα του b:
•
Ελεγχοσυνάρτηση (t):
•
Σύγκριση
t
D − b2 ⋅ C
S =
n−2
2
SE (b ) =
t=
S2
S
=
=
C
C
D − b2 ⋅ C
(n − 2) ⋅ C
b
SE (b )
>t 0,975 για Βαθμούς Ελευθερίας n-2, τότε απορρίπτεται η μηδενική
υπόθεση Ηο και το μοντέλο γραμμικής παλινδρόμησης είναι σημαντικό.
Αν
t
<t 0,975 για Βαθμούς Ελευθερίας n-2, τότε δεν απορρίπτεται η μηδενική
υπόθεση Ηο και το μοντέλο γραμμικής παλινδρόμησης δεν είναι σημαντικό.
Συντελεστής Γραμμικής Συσχέτισης (R)
Δείχνει πόσο ισχυρή είναι η σχέση μεταξύ των μεταβλητών Χ και Υ. Μεταξύ των
μεταβλητών δεν υπάρχει διάκριση και θεωρούνται και οι δύο τυχαίες.
Αν R→1 ή R→-1 τότε η σχέση είναι ισχυρή.
Αν R→0 τότε η σχέση δεν είναι ισχυρή (ασθενής).
Αν R>0 τότε η σχέση είναι θετική.
Αν R<0 τότε η σχέση είναι αρνητική.
Αν R=0 τότε δεν υπάρχει γραμμική σχέση και οι μεταβλητές είναι ανεξάρτητες
Μεθοδολογία
¾ Πίνακας τιμών Χ και Υ
¾ Υπολογισμός μέσων τιμών x και y
¾ Υπολογισμός των μεγεθών C, D και E
69
¾ Τύπος συντελεστή συσχέτισης:
E
R=
C⋅D
Έλεγχος σημαντικότητας συντελεστή συσχέτισης (ρ)
Συνήθως πρέπει να γίνεται έλεγχος επειδή εξετάζουμε δείγμα και όχι τον
πληθυσμό (ρ).
Αν
•
Ορισμός μηδενικής και εναλλακτικής υπόθεσης. (Ηο: ρ=0 και Α: ρ≠0)
•
Επίπεδο σημαντικότητας: α=5%
•
Ελεγχοσυνάρτηση (t):
•
Σύγκριση
t
t = R⋅
n−2
1 − R2
>t 0,975 για Βαθμούς Ελευθερίας n-2, τότε απορρίπτεται η μηδενική
υπόθεση Ηο και ο συντελεστής γραμμικής συσχέτισης είναι σημαντικός.
Αν
t
<t 0,975 για Βαθμούς Ελευθερίας n-2, τότε δεν απορρίπτεται η μηδενική
υπόθεση Ηο και ο συντελεστής γραμμικής συσχέτισης δεν είναι σημαντικός.
ΑΣΚΗΣΗ 1
Σε εντατικής μορφής γεωργική εκμετάλλευση παραγωγής οπωροκηπευτικών
μετρήθηκαν
κατά
την
διάρκεια
των
10
τελευταίων
χρόνων
το
κόστος
παραγωγής γεωργικών προϊόντων και το κέρδος αυτών μετά την πώληση τους
στην αγορά. Τα αποτελέσματα είναι εκφρασμένα σε χιλιάδες ευρώ και
φαίνονται στον πίνακα που ακολουθεί. Να παρουσιάσετε το μοντέλο της
γραμμικής
παλινδρόμησης
που
συνδέει
το
κόστος
με
το
κέρδος
της
εκμετάλλευσης και να ελέγξετε την σημαντικότητα του.
κόστος
2,5
4,8
3,9
5,2
4,2
3,8
4,5
3,5
5,8
2,9
κέρδος
6,5
5,8
8,9
6,2
5,2
8,0
7,5
9,5
8,8
5,9
Λύση
Στην άσκηση υπάρχουν δύο βασικά
τμήματα. Το πρώτο αφορά στον
προσδιορισμό της ευθείας της παλινδρόμησης βάση των τιμών που έχουμε και
70
το δεύτερο αφορά στον δίπλευρο έλεγχο σημαντικότητας της ευθείας που
προσδιορίσαμε. Οι τιμές για το κόστος (Χ) βρίσκονται στα κελιά Α2 μέχρι Α11
ενώ οι τιμές για το κέρδος (Υ) βρίσκονται στα κελιά Β2 μέχρι Β11. Το n είναι
10.
Προσδιορισμός της ευθείας της παλινδρόμησης
Μέση τιμή χ
y = a + b⋅ x
Κελί Ε1
4,11
=AVERAGE(A2:A11)
Μέση τιμή y
Κελί G1
7,23
=AVERAGE(B2:B11)
Άθροισμα
Κελί Ε2
τετραγώνων
=SUMSQ(A2:A11)
Άθροισμα
Κελί G2
τετραγώνων
=SUMSQ(B2:B11)
Άθροισμα
Κελί Ε3
γινομένων
=SUMPRODUCT(A2:A11;B2:B11)
Μέγεθος C
Κελί Ε4
Σx 2 =178,17
Σy 2 =543,33
Σxy=298,43
2
C = Σx 2 − n ⋅ x =9,25
=E2-10*E1^2
Μέγεθος D
Κελί Ε5
2
D = Σy 2 − n ⋅ y =20,60
=G2-10*G1^2
Μέγεθος E
Κελί Ε6
E = Σx ⋅ y - n x ⋅ y =1,28
=E3-10*E1*G1
Εκτίμηση του
Κελί Ε7
β (b)
=E6/E4
Εκτίμηση του
Κελί Ε8
α (a)
=G1-E7*E1
b=
E
=0,14
C
a = y − b ⋅ x =6,66
Η ευθεία που προσδιορίσαμε για τα δείγματα που δόθηκαν είναι y=6,66+0,14x.
Τώρα πρέπει να ελέγξουμε εάν η ευθεία αυτή είναι στατιστικά σημαντική ή όχι.
71
Έλεγχος σημαντικότητας της ευθείας
Υποθέσεις
Διασπορά
Παλινδρόμησης
Τυπική απόκλιση
Μηδενική Ηο:β=0
Εναλλακτική Α: β≠0
Κελί Ε16
=(Ε5-(Ε7^2*Ε4))/8
Κελί Ε17
Παλινδρόμησης
=SQRT(E16)
Τυπικό σφάλμα
Κελί Ε18
Παλινδρόμησης
=E17/SQRT(E4)
Ελεγχοσυνάρτηση (t)
Κρίσιμο σημείο της
t-κατανομής (t 0,975 )
Κελί Ε19
=E7/E18
S2 =
D − b2 ⋅ C
=2,55
n−2
S = S 2 =1,60
SE (b ) =
t=
S
=0,53
C
b
=0,26
SE(b )
Η τιμή t 0,975 προκύπτει
Οι βαθμοί ελευθερίας
από τον πίνακα της t-
είναι 8 και το t 0,975 είναι
κατανομής για βαθμούς
2,31
ελευθερίας n-2
Η απόλυτη τιμή της ελεγχοσυνάρτησης t είναι μικρότερη από το κρίσιμο σημείο
της t-κατανομής. Αυτό σημαίνει ότι δεν απορρίπτεται η μηδενική υπόθεση Ηο.
Άρα η ευθεία y=6,66+0,14x δεν είναι σημαντική και δεν ισχύει για τον
πληθυσμό παρά μονάχα για το δείγμα που χρησιμοποιήσαμε.
72
Η λύση της άσκησης σε φύλλο του Excel φαίνεται παρακάτω:
ΑΣΚΗΣΗ 2
Χρησιμοποιήσαμε διαφορετικές ποσότητες κομπόστας (οργανικό λίπασμα) σε 9
φυτά γαρδένιας (gardenia Jasminoides). Τον Ιούλιο μετρήσαμε την ανθοφορία
δηλαδή τον αριθμό ανθέων ανά φυτό. Τα αποτελέσματα παρουσιάζονται στον
παρακάτω πίνακα:
Κομπόστα(kg)
2
3
4
3
5
4
3
6
Αριθμός ανθέων
9
8
11
9
12
10
9
13
Να υπολογιστεί ο Συντελεστής γραμμικής συσχέτισης και να ελέγξετε την
σημαντικότητα του. Υπάρχει ένδειξη ότι η κομπόστα αυξάνει την ανθοφορία της
γαρδένιας;
Λύση
Όπως και στην παλινδρόμηση έχουμε χωρίσει την άσκηση σε δύο βασικά
τμήματα όπου το ένα θα περιέχει τα βήματα της εύρεσης του συντελεστή
συσχέτισης R και το άλλο τον έλεγχο της σημαντικότητας του R. Οι τιμές των
δειγμάτων τοποθετούνται στα κελιά Α2 έως Α9 για τις τιμές του λιπάσματος και
Β2 μέχρι Β9 για τον αριθμό των ανθών.
73
Εύρεση του R
Μέση τιμή χ
Κελί Ε1
3,75
=AVERAGE(A2:A9)
Μέση τιμή y
Κελί G1
10,13
=AVERAGE(B2:B9)
Άθροισμα
Κελί Ε2
τετραγώνων
=SUMSQ(A2:A9)
Άθροισμα
Κελί G2
τετραγώνων
=SUMSQ(B2:B9)
Άθροισμα
Κελί Ε3
γινομένων
=SUMPRODUCT(A2:A9;B2:B9)
Μέγεθος C
Κελί Ε4
Σx 2 = 124
Σy 2 =841
Σxy= 318
2
C = Σx 2 − n ⋅ x =11,50
=E2-8*E1^2
Μέγεθος D
Κελί Ε5
2
D = Σy 2 − n ⋅ y =20,88
=G2-8*G1^2
Μέγεθος E
Κελί Ε6
E = Σx ⋅ y - n x ⋅ y =14,25
=E3-8*E1*G1
Συντελεστής
Κελί Ε7
Συσχέτισης
=E6/SQRT(E4*E5)
R=
E
=0,92
C⋅D
Το γεγονός ότι ο συντελεστής συσχέτισης είναι και κοντά στην μονάδα, μας
οδηγεί στο συμπέρασμα ότι υπάρχει ισχυρή σχέση ανάμεσα στον αριθμό
ανθέων της γαρδένιας και στην κομπόστα. Επίσης ο θετικός συντελεστής
συσχέτισης υποδηλώνει θετική συσχέτιση δηλαδή ότι όσο περισσότερη
κομπόστα χρησιμοποιήσουμε τόσο περισσότερα άνθη θα παραχθούν.
Αυτά βέβαια ισχύουν για το δείγμα που μας δόθηκε. Για να δούμε εάν ισχύουν
και για τον πληθυσμό αρκεί να ελέγξουμε εάν το R είναι σημαντικό.
74
Έλεγχος του R
Μηδενική Ηο:ρ=0
Υποθέσεις
Ελεγχοσυνάρτηση t
Εναλλακτική Α: ρ≠0
Κελί Ε14
=Ε7*SQRT(6/(1-E7^2))
t = R⋅
n−2
=5,74
1 − R2
Η τιμή t 0,975 προκύπτει
Κρίσιμο σημείο της
από τον πίνακα της t-
Οι βαθμοί ελευθερίας είναι
t-κατανομής (t 0,975 )
κατανομής για βαθμούς
6 και το t 0,975 είναι 2,45
ελευθερίας n-2
Από
τον
δίπλευρο
έλεγχο
που
προηγήθηκε
ελεγχοσυνάρτηση (5,74) είναι μεγαλύτερη από
προκύπτει
ότι
αφού
η
την κρίσιμη τιμή (2,45),
απορρίπτεται η μηδενική υπόθεση και ο συντελεστής συσχέτισης είναι
σημαντικός.
Παρατήρηση:
Στο EXCEL, χρησιμοποιώντας την Ανάλυση Δεδομένων μπορούμε να βρούμε
την ευθεία παλινδρόμησης, πολύ ευκολότερα με τον παρακάτω τρόπο:
Στο μενού Εργαλεία, επιλέγουμε Πρόσθετα και στη συνέχεια ενεργοποιούμε το
Πακέτο Εργαλείων Ανάλυσης. Στο μενού Εργαλεία υπάρχει τότε η επιλογή
Ανάλυση Δεδομένων.
Στη συνέχεια επιλέγουμε Παλινδρόμηση. Ακολουθώντας τα βήματα, βρίσκουμε
την ευθεία. Ο έλεγχος t για τη σημαντικότητά της δίνεται επίσης σαν
αποτέλεσμα. Επίσης δίνεται ο συντελεστής συσχέτισης R.
75
ΑΣΚΗΣΕΙΣ
8.1.
Σε 10 ομοειδής αγροτικές εκμεταλλεύσεις μετρήθηκαν τα επενδυμένα
κεφάλαια σε εγγειοβελτιωτικά έργα τα τελευταία 5 έτη και τα αντίστοιχα
κέρδη που απέφερε η χρήση τους (τα νούμερα εκφράζουν χιλιάδες
euro). Να βρείτε την εξίσωση της γραμμικής παλινδρόμησης και να
ελέγξετε την σημαντικότητα της σχέσης
Κεφάλαιο
80
90
100
120
150
180
200
250
300
350
Κέρδη
15
20
25
25
30
30
40
40
60
80
8.2.
Σε μια περιοχή πάρθηκαν μετρήσεις του πληθυσμού ενός κολεόπτερου,
που πιστεύουμε ότι επηρεάζεται από τη μέση ημερήσια θερμοκρασία της
περιοχής. Για το λόγο αυτό έγιναν 10 δειγματοληψίες κατά τους
καλοκαιρινούς μήνες και τα αποτελέσματα δίνονται στον πίνακα: Να βρείτε
τον συντελεστή συσχέτισης. Υπάρχει σαφής ένδειξη ότι το κολεόπτερο
εμφανίζεται με μεγαλύτερη αφθονία τις πιο ζεστές μέρες; (Δίνονται τα
αθροίσματα ΣΧ 2 =8462, ΣΥ 2 =2524 και ΣΧΥ=4572)
Θερμοκρασία(Χ)
Πληθυσμός(Υ)
8.3.
20
25
21
28
33
27
30
30
35
37
7
10
10
15
18
15
16
20
22
19
Για τις παρακάτω μετρήσεις να βρείτε την ευθεία παλινδρόμησης της Υ
στην Χ και να ελέγξετε την σημαντικότητα της ευθείας.
Χ
7,2
7,7
8
8
9
12
14
16
Υ
75
72
75
82
95
105
120
126
8.4.
Μετρήθηκε η απόδοση σε καλαμπόκι σε 10 χωράφια ίδιου εμβαδού που
χρησιμοποιήθηκε λίπασμα σε διαφορετικές ποσότητες. Τα αποτελέσματα
76
δίνονται από τον παρακάτω πίνακα. Να βρείτε την ευθεία της γραμμικής
παλινδρόμησης και να ελέγξετε την σημαντικότητα της σχέσης.
8.5.
Χ (λίπασμα σε kgr)
2
2
3
3
4
4
5
5
6
6
Υ (απόδοση σε tn)
12
13
13
14
15
15
14
16
17
18
Σε μια εξέταση στα βιομαθηματικά οκτώ σπουδαστών η βαθμολογία δύο
εξεταστών Α, Β δίνεται από τον παρακάτω πίνακα: Να εξετάσετε αν
υπάρχει γραμμική συσχέτιση μεταξύ της βαθμολογίας των δύο εξεταστών.
ΜΑΘΗΤΗΣ
1 ος
2 ος
3 ος
4 ος
5 ος
6 ος
7 ος
8 ος
ΕΞΕΤΑΣΤΗΣ Α
55
62
71
66
63
56
72
51
ΕΞΕΤΑΣΤΗΣ Β
54
56
61
66
63
61
73
54
77
9. Έλεγχοι x2 - Ανεξαρτησίας
Οι
έλεγχοι
αναφέρονται
σε
ποιοτικά
χαρακτηριστικά.
Τα
ποιοτικά
χαρακτηριστικά λέγονται και κατηγορικά γιατί οι τιμές που παίρνουν είναι σε
κατηγορίες πλήρως διακριτές μεταξύ τους. Ο έλεγχος ανεξαρτησίας γίνεται όταν
ζητάμε να δούμε αν δύο ποιοτικά χαρακτηριστικά Α και Β ενός πληθυσμού
σχετίζονται μεταξύ τους ή όχι.
Μεθοδολογία
¾ Ορίζεται η μηδενική και η εναλλακτική υπόθεση
Ho: Α και Β ανεξάρτητα και Αο: Α και Β σχετίζονται
¾ Καταγραφή Παρατηρούμενων Συχνοτήτων (Π).
Το χαρακτηριστικό Α έχει r κατηγορίες (γραμμές). Το χαρακτηριστικό Β έχει c
κατηγορίες (στήλες).
Πίνακας Συνάφειας
Χαρακτηριστικό
Χαρακτηριστικό
Α1
Α2
Α
Β1
Β2
.
.
B
.
Βc
f Β1.Α1 f Β2.Α1 . . . f Βc.Α1
f Β1.Α2 f Β2.Α2 . . . f Βc.A2
Σύνολο
R1
R2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Αr
f B1.Ar
f B2.Ar
.
.
.
f Bc.Ar
Rr
Σύνολο
C1
C2
.
.
.
Cc
n
n: είναι το σύνολο του εξεταζόμενου πληθυσμού
¾ Καταγραφή Αναμενόμενων-Θεωρητικών Συχνοτήτων (Α) ή (Θ)
Είναι οι συχνότητες κάθε μιας κατηγορίας που θεωρητικά θα έπρεπε να είχε ο
πληθυσμός.
Οι
Ri ⋅ C j
)
f Bi . Aj =
n
συχνότητες
αυτές
υπολογίζονται
από
τον
τύπο:
(με i=1, 2, …, c και j=1, 2, …, r)
78
Πίνακας Αναμενόμενων Συχνοτήτων (Α)
.
Β
. .
.
.
.
.
.
.
)
f Bc.A1
)
f Bc.A2
.
.
.
.
.
.
.
.
.
.
.
.
.
Αr
)
f B1. Ar
)
f B 2. Ar
.
.
.
)
f Bc. Ar
Rr
Σύνολο
C1
C2
.
.
.
Cc
n
Χαρακτηριστικό
Χαρακτηριστικό
Α
Β1
Β2
Α2
)
f B1. A1
)
f B1. A2
)
f B 2. A1
)
f B 2. A2
.
.
.
Α1
¾ Προσδιορισμός της Ελεγχοσυνάρτησης
x =∑
2
Βc
Σύνολο
R1
R2
(Π - Α )2
Α
¾ Προσδιορισμός του κρίσιμου σημείου της x 2 -κατανομής
Υπολογίζεται το x 2 0,95 (για α=5%) από τον πίνακα της x 2 -κατανομής, για
Βαθμούς Ελευθερίας (r-1)·(c-1).
r=αριθμός γραμμών πίνακα συχνοτήτων
c=αριθμός στηλών πίνακα συχνοτήτων
¾ Σύγκριση
Αν
x 2 >x 2 0,95
απορρίπτεται
η
υπόθεση
Ηο
της
ανεξαρτησίας
των
δύο
χαρακτηριστικών που μελετάμε στον πληθυσμό και ισχύει η Α.
ΑΣΚΗΣΗ
Σε μια έρευνα που έγινε για τον αγροτουρισμό προσδιορίστηκαν οι περιοχές
που εδρεύουν 120 αγροτουριστικές επιχειρήσεις σε σχέση με το μέγεθος τους.
Τα αποτελέσματα φαίνονται στον πίνακα που ακολουθεί.
Μέγεθος επιχείρησης
Μικρού μεγέθους
Μεγάλου μεγέθους
(< 10 κλίνες)
(> 10 κλίνες)
Πεδινή
15
52
Ορεινή
18
8
Ημιορεινή
13
14
Είδος περιοχής
79
Να ελέγξετε εάν το μέγεθος των αγροτουριστικών μονάδων επηρεάζεται από το
είδος της περιοχής. (α=5%)
Λύση
Ο
έλεγχος
που
θα
χρησιμοποιήσουμε
στην
άσκηση
θα
είναι
έλεγχος
ανεξαρτησίας, αφού τα χαρακτηριστικά που μελετάμε (είδος περιοχής και
μέγεθος επιχείρησης) είναι ποιοτικά.
Μηδενική Ηο: Τα χαρακτηριστικά είναι ανεξάρτητα
Εναλλακτική Α: Τα χαρακτηριστικά δεν είναι ανεξάρτητα
Η άσκηση περιλαμβάνει τέσσερα βασικά βήματα:
Καταγραφή των παρατηρούμενων συχνοτήτων (Π)
Στον πίνακα που ακολουθεί φαίνονται οι παρατηρούμενες συχνότητες και τα
σύνολα των γραμμών και των στηλών που βρίσκουμε καθώς και οι τύποι στο
Excel που χρησιμοποιούμε. Ο πίνακας αυτός ονομάζεται πίνακας συνάφειας.
Οι τιμές 15,18, 13 βρίσκονται στα κελιά Β4,Β5,Β6 ενώ οι τιμές 52,8,14
βρίσκονται στα κελιά C4,C5,C6.
Μέγεθος επιχείρησης
Είδος περιοχής
Μικρού μεγέθους
(< 10 κλίνες)
Μεγάλου μεγέθους
(> 10 κλίνες)
Πεδινή
15
52
Κελί D4
=SUM(B4:B6)
67
18
8
Κελί D5
=SUM(B4:B6)
26
14
Κελί D6
=SUM(B4:B6)
27
Ορεινή
Ημιορεινή
13
Σύνολα
Σύνολα
Κελί Β7
=SUM(B4:B6)
46
Κελί C7
=SUM(B4:B6)
74
Κελί D7
=SUM(B7:C7)
120
80
Καταγραφή των αναμενόμενων συχνοτήτων (Α)
Ο γενικός τύπος για να υπολογίσουμε τις αναμενόμενες συχνότητες είναι:
)
Ri ⋅ C j
f i. j =
n
όπου Ri = το άθροισμα της γραμμής, Cj = το άθροισμα της
στήλης, ενώ n είναι το σύνολο δηλαδή ο αριθμός 120. Στην άσκηση οι γραμμές
είναι 3 και οι στήλες είναι 4.
Μέγεθος επιχείρησης
Είδος περιοχής
Μικρού μεγέθους
(< 10 κλίνες)
Μεγάλου μεγέθους
(> 10 κλίνες)
Πεδινή
Kελί Β13
=B7*D4/D7
25,68
Κελί C13
=C7*D4/D7
41,32
Ορεινή
Κελί Β14
=B7*D5/D7
9,97
Κελί C14
=C7*D5/D7
16,03
Ημιορεινή
Κελί Β15
=B7*D6/D7
10,35
Κελί C15
=C7*D6/D7
16,65
Εύρεση της ελεγχοσυνάρτησης x 2
2
Για την ελεγχοσυνάρτηση x δίνεται ο γενικός τύπος:
x2 = ∑
(Π - Α )2
Α
Θα πρέπει να υπολογίσουμε τόσους όρους για το άθροισμα όσες είναι και οι
συχνότητες δηλαδή έξι όπως φαίνεται στον παρακάτω πίνακα και στο τέλος να
αθροίσουμε όλους τους όρους.
Μέγεθος επιχείρησης
Είδος περιοχής
Μικρού μεγέθους
(< 10 κλίνες)
Μεγάλου μεγέθους
(> 10 κλίνες)
Πεδινή
Kελί Β21
=(Β4-Β13)^2/Β13
4,44
Κελί C21
=(C4-C13)^2/C13
2,76
Ορεινή
Κελί Β22
=(Β5-Β14)^2/Β14
6,48
Κελί C22
=(C5-C14)^2/C14
4,03
Ημιορεινή
Κελί Β23
=(Β6-Β15)^2/Β15
Κελί C23
=(C6-C15^2/C15
81
0,68
Στο κελί Β25 γράφουμε
0,42
=SUM(B21:C23)
οπότε Χ 2 =4,44+2,76+6,48+4,03+0,68+0,42=18,81
Σύγκριση – Συμπέρασμα
Αν r= αριθμός γραμμών c= αριθμός στηλών, οι βαθμοί ελευθερίας είναι
(r-1)·(c-1)
Βρίσκουμε το x 2 0,95 (για α=5%) από τον πίνακα της x 2 -κατανομής, για Βαθμούς
Ελευθερίας (3-1)·(2-1)=2. Προκύπτει ότι x 2 0,95 =5,99
Αφού 18,81>5,99 απορρίπτεται η υπόθεση της ανεξαρτησίας των δύο
χαρακτηριστικών που μελετάμε στον πληθυσμό. Αυτό σημαίνει ότι η περιοχή
καθόρισε το μέγεθος των μονάδων αγροτουρισμού. Στο φύλλο του Excel που
ακολουθεί φαίνεται η λύση της άσκησης.
82
ΑΣΚΗΣΕΙΣ
9.1.
Να ελεγχθεί αν τα χαρακτηριστικά «φύλο» και «αχρωματοψία» είναι
ανεξάρτητα στον ανθρώπινο πληθυσμό με βάση τα παρακάτω δεδομένα
(α=0,05)
αχρωματοψία
φύλο
κανονικοί
πάσχουν
άνδρες
442
814
38
6
γυναίκες
9.2.
Για να ελεγχθεί η ευαισθησία της ανθοφορίας της γαρδένιας στο ηλιακό
φως τοποθετήθηκαν 40 γλάστρες σε άμεση έκθεση στο ηλιακό φως και 40
γλάστρες στη σκιά. Από τα αποτελέσματα που παρουσιάζονται στον
πίνακα μπορείτε να πείτε αν η ανθοφορία της γαρδένιας επηρεάζεται από
την άμεση έκθεση στο ηλιακό φως;
ανθοφορία
φωτισμός
πλούσια
φτωχή
φως
6
28
34
12
σκιά
9.3.
Υπάρχουν 5 κιβώτια με κονσέρβες χοιρινού κρέατος 5 διαφορετικών
επιχειρήσεων Α, Β, Γ, Δ και Ε. Κάθε κιβώτιο περιέχει 24 κονσέρβες (της
ίδιας επιχείρησης). Έγινε έλεγχος στις κονσέρβες για το εάν πληρούσαν ή
όχι
τις
προδιαγραφές
ποιότητας.
Τα
αποτελέσματα
δίνονται
στον
παρακάτω πίνακα. Υπάρχει σχέση μεταξύ ποιότητας προϊόντων των 5
επιχειρήσεων και των προδιαγραφών που πληρούν οι επιχειρήσεις;
Κλάσεις ποιότητας
Α
Β
Γ
Δ
Ε
Κάτω από προδιαγραφές
4
10
6
2
8
Πάνω από προδιαγραφές
20
14
18
22
16
83
9.4.
Μελετήθηκε η στάση νέων αγροτών απέναντι στην εκπαίδευση για την
εφαρμογή νέων τεχνολογιών στις καλλιέργειες, σε τρεις διαφορετικές
αγροτικές περιοχές: ορεινή, ημιορεινή και πεδινή. Στην ορεινή περιοχή
συμμετείχαν στα σεμινάρια εκπαίδευσης οι 3 από τους 15 νέους αγρότες.
Στην ημιορεινή περιοχή από τα 25 άτομα συμμετείχαν τα 8 και στην
πεδινή περιοχή συμμετείχαν τα 29 από τα 42 άτομα. Να τοποθετήσετε τα
δεδομένα σε πίνακα διπλής εισόδου και να ελέγξετε αν υπάρχει σχέση
μεταξύ συμμετοχής των νέων αγροτών στην αγροτική εκπαίδευση και
περιοχής στην οποία διαμένουν.
9.5.
Ένα
τυχαίο
δείγμα
200
υπαλλήλων
μιας
μεγάλης
εταιρείας
φυτοφαρμάκων, ταξινομήθηκε ανάλογα με τη θέση του μέσα στην
επιχείρηση και τη συμπεριφορά του σχετικά με την έκπτωση που ζητούν οι
πελάτες. Τα αποτελέσματα φαίνονται στον παρακάτω πίνακα. Σχετίζεται η
ιδιότητα του υπαλλήλου με την συμπεριφορά του όταν του ζητούν
έκπτωση; (α=0,05).
Συμπεριφορά ως προς την έκπτωση
Κάνει έκπτωση
Δεν κάνει έκπτωση
Είναι αναποφάσιστος
πωλητής
30
15
15
τμηματάρχης
40
50
10
διαχειριστής
10
25
5
Ιδιότητα Υπαλλήλου
84
ΠΙΝΑΚΕΣ
Πίνακας x 2 -κατανομής
Ο πίνακας περιέχει τα 95%, και 99% ποσοστιαία σημεία ανάλογα με τους
βαθμούς ελευθερίας (Β.Ε.)
B.E.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
x 2 0,95
3,8415
5,9915
7,8147
9,4877
11,0705
12,5916
14,0671
15,5073
16,9190
18,3070
19,6752
21,0261
22,3620
23,6848
24,9958
26,2962
27,5871
28,8693
30,1435
31,4104
32,6706
33,9245
35,1725
36,4150
37,6525
38,8851
40,1133
41,3372
42,5569
43,7730
x 2 0,99
6,6349
9,2104
11,3449
13,2767
15,0863
16,8119
18,4753
20,0902
21,6660
23,2093
24,7250
26,2170
27,6882
29,1412
30,5780
31,9999
33,4087
34,8052
36,1908
37,5663
38,9322
40,2894
41,6383
42,9798
44,3140
45,6416
46,9628
48,2782
49,5878
50,8922
85
Πίνακας t-κατανομής.
Περιέχει τα 95%, 97.5%, 99% και 99.5% ποσοστιαία σημεία ανάλογα με τους
βαθμούς ελευθερίας (β.ε.)
Β.Ε.
95%
97.5%
99%
99.5%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
>100
6,31
2,92
2,35
2,13
2,02
1,94
1,90
1,86
1,83
1,81
1,80
1,78
1,77
1,76
1,75
1,75
1,74
1,73
1,73
1,72
1,72
1,72
1,71
1,71
1,71
1,71
1,70
1,70
1,70
1,70
1,68
1,67
1,66
1,65
12,71
4,30
3,18
2,78
2,57
2,45
2,36
2,31
2,26
2,23
2,20
2,18
2,16
2,14
2,13
2,12
2,11
2,10
2,09
2,09
2,08
2,07
2,07
2,06
2,06
2,06
2,05
2,05
2,04
2,04
2,02
2,00
1,98
1,96
31,82
6,96
4,54
3,75
3,36
3,14
3,00
2,90
2,82
2,76
2,72
2,68
2,65
2,62
2,60
2,58
2,57
2,55
2,54
2,53
2,52
2,51
2,50
2,49
2,48
2,48
2,47
2,47
2,46
2,46
2,42
2,40
2,36
2,33
63,66
9,92
5,84
4,60
4,03
3,71
3,50
3,36
3,25
3,17
3,11
3,06
3,01
2,98
2,95
2,92
2,90
2,88
2,86
2,84
2,83
2,82
2,81
2,80
2,79
2,78
2,77
2,76
2,76
2,75
2,70
2,68
2,63
2,58
86
Πίνακας F-κατανομής
για α=0,05
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
20
25
30
40
60
120
∞
k-1
nk-k
1
161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 242,98 243,90 244,69 245,36 245,95 248,02 249,26 250,10 251,14 252,20 253,25 254,32
2
18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,42 19,42 19,43 19,45 19,46 19,46 19,47 19,48 19,49 19,50
3
10,13 9,55
9,28
9,12
9,01
8,94
8,89
8,85
8,81
8,79
8,76
8,74
8,73
8,71
8,70
8,66
8,63
8,62
8,59
8,57
8,55
8,53
4
7,71
6,94
6,59
6,39
6,26
6,16
6,09
6,04
6,00
5,96
5,94
5,91
5,89
5,87
5,86
5,80
5,77
5,75
5,72
5,69
5,66
5,63
5
6,61
5,79
5,41
5,19
5,05
4,95
4,88
4,82
4,77
4,74
4,70
4,68
4,66
4,64
4,62
4,56
4,52
4,50
4,46
4,43
4,40
4,37
6
5,99
5,14
4,76
4,53
4,39
4,28
4,21
4,15
4,10
4,06
4,03
4,00
3,98
3,96
3,94
3,87
3,83
3,81
3,77
3,74
3,70
3,67
7
5,59
4,74
4,35
4,12
3,97
3,87
3,79
3,73
3,68
3,64
3,60
3,57
3,55
3,53
3,51
3,44
3,40
3,38
3,34
3,30
3,27
3,23
8
5,32
4,46
4,07
3,84
3,69
3,58
3,50
3,44
3,39
3,35
3,31
3,28
3,26
3,24
3,22
3,15
3,11
3,08
3,04
3,01
2,97
2,93
9
5,12
4,26
3,86
3,63
3,48
3,37
3,29
3,23
3,18
3,14
3,10
3,07
3,05
3,03
3,01
2,94
2,89
2,86
2,83
2,79
2,75
2,71
10
4,96
4,10
3,71
3,48
3,33
3,22
3,14
3,07
3,02
2,98
2,94
2,91
2,89
2,86
2,85
2,77
2,73
2,70
2,66
2,62
2,58
2,54
11
4,84
3,98
3,59
3,36
3,20
3,09
3,01
2,95
2,90
2,85
2,82
2,79
2,76
2,74
2,72
2,65
2,60
2,57
2,53
2,49
2,45
2,40
12
4,75
3,89
3,49
3,26
3,11
3,00
2,91
2,85
2,80
2,75
2,72
2,69
2,66
2,64
2,62
2,54
2,50
2,47
2,43
2,38
2,34
2,30
13
4,67
3,81
3,41
3,18
3,03
2,92
2,83
2,77
2,71
2,67
2,63
2,60
2,58
2,55
2,53
2,46
2,41
2,38
2,34
2,30
2,25
2,21
14
4,60
3,74
3,34
3,11
2,96
2,85
2,76
2,70
2,65
2,60
2,57
2,53
2,51
2,48
2,46
2,39
2,34
2,31
2,27
2,22
2,18
2,13
15
4,54
3,68
3,29
3,06
2,90
2,79
2,71
2,64
2,59
2,54
2,51
2,48
2,45
2,42
2,40
2,33
2,28
2,25
2,20
2,16
2,11
2,07
16
4,49
3,63
3,24
3,01
2,85
2,74
2,66
2,59
2,54
2,49
2,46
2,42
2,40
2,37
2,35
2,28
2,23
2,19
2,15
2,11
2,06
2,01
17
4,45
3,59
3,20
2,96
2,81
2,70
2,61
2,55
2,49
2,45
2,41
2,38
2,35
2,33
2,31
2,23
2,18
2,15
2,10
2,06
2,01
1,96
18
4,41
3,55
3,16
2,93
2,77
2,66
2,58
2,51
2,46
2,41
2,37
2,34
2,31
2,29
2,27
2,19
2,14
2,11
2,06
2,02
1,97
1,92
19
4,38
3,52
3,13
2,90
2,74
2,63
2,54
2,48
2,42
2,38
2,34
2,31
2,28
2,26
2,23
2,16
2,11
2,07
2,03
1,98
1,93
1,88
20
4,35
3,49
3,10
2,87
2,71
2,60
2,51
2,45
2,39
2,35
2,31
2,28
2,25
2,22
2,20
2,12
2,07
2,04
1,99
1,95
1,90
1,84
21
4,32
3,47
3,07
2,84
2,68
2,57
2,49
2,42
2,37
2,32
2,28
2,25
2,22
2,20
2,18
2,10
2,05
2,01
1,96
1,92
1,87
1,81
22
4,30
3,44
3,05
2,82
2,66
2,55
2,46
2,40
2,34
2,30
2,26
2,23
2,20
2,17
2,15
2,07
2,02
1,98
1,94
1,89
1,84
1,78
23
4,28
3,42
3,03
2,80
2,64
2,53
2,44
2,37
2,32
2,27
2,24
2,20
2,18
2,15
2,13
2,05
2,00
1,96
1,91
1,86
1,81
1,76
24
4,26
3,40
3,01
2,78
2,62
2,51
2,42
2,36
2,30
2,25
2,22
2,18
2,15
2,13
2,11
2,03
1,97
1,94
1,89
1,84
1,79
1,73
25
4,24
3,39
2,99
2,76
2,60
2,49
2,40
2,34
2,28
2,24
2,20
2,16
2,14
2,11
2,09
2,01
1,96
1,92
1,87
1,82
1,77
1,71
30
4,17
3,32
2,92
2,69
2,53
2,42
2,33
2,27
2,21
2,16
2,13
2,09
2,06
2,04
2,01
1,93
1,88
1,84
1,79
1,74
1,68
1,62
40
4,08
3,23
2,84
2,61
2,45
2,34
2,25
2,18
2,12
2,08
2,04
2,00
1,97
1,95
1,92
1,84
1,78
1,74
1,69
1,64
1,58
1,51
60
4,00
3,15
2,76
2,53
2,37
2,25
2,17
2,10
2,04
1,99
1,95
1,92
1,89
1,86
1,84
1,75
1,69
1,65
1,59
1,53
1,47
1,39
120
3,92
3,07
2,68
2,45
2,29
2,18
2,09
2,02
1,96
1,91
1,87
1,83
1,80
1,78
1,75
1,66
1,60
1,55
1,50
1,43
1,35
1,25
∞
3,84
3,00
2,60
2,37
2,21
2,10
2,01
1,94
1,88
1,83
1,79
1,75
1,72
1,69
1,67
1,57
1,51
1,46
1,39
1,32
1,22
1,00