Β.2.6. Γεωµετρικός µέσος . - Τ.Ε.Ι. Κεντρικής Μακεδονίας

61
Β.2.6. Γεωµετρικός µέσος.
α) Τα δεδοµένα δίνονται αναλυτικά
Ορισµός Β.11.
Έστω ότι τα δεδοµένα είναι δοσµένα αναλυτικά (ν τιµές που αντιστοιχούν στα ν
άτοµα του πληθυσµού):
Χi, i=1,2,3,...,ν
Ονοµάζουµε Γεωµετρικό µέσο των δεδοµένων Xi, την ν-οστή ρίζα του
γινοµένου τους:
ν
G=
Χ1*Χ2*Χ3*...*Χν
β) Τα δεδοµένα είναι κατανεµηµένα σε κ κλάσεις:
Ορισµός Β.12.
Έστω ότι τα δεδοµένα είναι κατανεµηµένα σε κ κλάσεις: Xi, i=1,2,3,...,κ.
Ονοµάζουµε Γεωµετρικό µέσο των δεδοµένων αυτών την ν-οστή ρίζα των γινοµένων
των παραγόντων Xifi:
ν
G=
Χ1f1*Χ2f2*X3f3*...*Χκfκ
Παρατήρηση:
Μια σηµαντική ιδιότητα του γεωµετρικού µέσου είναι πως επηρεάζεται
λιγότερο απ' ότι ο αριθµητικός µέσος, από τις ακραίες µεγάλες τιµές, ενώ επηρεάζεται
περισσότερο του µ από τις µικρες ακραίες τιµές. Ας υπολογίσουµε, για παράδειγµα,
τον αριθµητικό και το γεωµετρικό µέσο των τιµών: Xi = 1, 2, 3, 4, 5, 10 (για i=1,2,..,6).
µx = (1+2+3+4+5+10)/6 = 4.16667
Gx =
6
1 * 2 * 3 * 4 * 5 * 6 = 3.25984
62
Παράδειγµα Β.2.
Θα προσπαθήσουµε να δείξουµε τη χρησιµότητα του Γεωµετρικού µέσου µε το
εξής παράδειγµα: Κάποιος αγοράζει την 1η Ιανουαρίου του 1988, µε το ποσό του ενός
εκατοµµυρίου έντοκα γραµµάτια του Ελληνικού ∆ηµοσίου και έκτοτε το ανανεώνει
κάθε 1η Ιανουαρίου µε το τρέχον επιτόκιο, ενσωµατώνοντας στο κυρίως κεφάλαιο και
τους τόκους. Προκύπτει λοιπόν ο παρακάτω πίνακας:
Χρονολογία
Χρηµ.ποσό
αρχής έτους
1988
1989
1990
1991
1992
1993
1994
1000000
1175000
1398250
1712856
2132506
2612320
3160907
Τρέχον επιτόκιο
%
Σχετ.µεταβολή
17,5
19,0
22,5
24,5
22,5
21,0
19,5
1.175
1.190
1.225
1.245
1.225
1.210
1.195
Τελικό ποσό
τέλος έτους
1175000
1398250
1712856
2132506
2612320
3160907
3777284
Η σχετική ετήσια µεταβολή είναι ο συντελεστής ο οποίος πολλαπλασιάζει το
κεφάλαιο της αρχής του έτους για να µας δώσει το κεφάλαιο στο τέλος του έτους. Για
επιτόκιο α%, ο συντελεστής µεταβολής δίνεται από τη σχέση:
Συντελεστής µεταβολής = 1 + α/100
Εποµένως εάν το επιτόκιο είναι 17.5%, τότε ο συντελεστής µεταβολής θα
ισούται µε 1.175.
Ας υπολογίσουµε τώρα το µέσον όρο των σχετικών µεταβολών της επταετίας:
µε = (1.175+1.19+1.225+...+1.195)/7 = 8.465/7 = 1.209286
και το Γεωµετρικό τους µέσο:
Gε =
7
1175
. * 119
. * 1.25*...*1.195 ≈ 7 3.777284 = 1,209078
Στη συνέχεια θα φτιάξουµε έναν πίνακα χρησιµοποιώντας στη θέση του
τρέχοντος επιτοκίου τον αριθµητικό µέσο την µια φορά και το Γεωµετρικό µέσο την
άλλη:
63
Χρονολογία
1988
1989
1990
1991
1992
1993
1994
Τελικό ποσό βάση
σχετ.µεταβολής
του µ
1209286
1462373
1768427
2138534
2586099
3127333
3781840
Τελικό ποσό βάση
σχετ.µεταβολής
του G
1209078
1461869
1767513
2137061
2583873
3124103
3777284
Πραγµατικό
τελικό
ποσό.
1175000
1398250
1712856
2132506
2612320
3160907
3777284
Αξίζει να παρατηρήσουµε ότι ο Γεωµετρικός µέσος, αν και δεν δίνει απολύτως
σωστά ενδιάµεσα αποτελέσµατα, όπως άλλωστε και ο µέσος όρος, εν τούτοις
υπολογίζει ακριβέστατα το τελικό αποτέλεσµα, κάτι που δεν καταφέρνει να επιτύχει ο
αριθµητικός µέσος(1).
Παρατηρήσεις:
1η) Ο Γεωµετρικός µέσος υπάρχει και έχει νόηµα µόνον όταν τα δεδοµένα
είναι θετικοί αριθµοί, ακόµη και στην περίπτωση που η ρίζα δίνει πραγµατική τιµή.
Για παράδειγµα ο γεωµ.µέσος των τιµών: -1 , 3 και 9 είναι το -3, που βέβαια δεν
µπορεί να θεωρηθεί κεντρική τάση των τριών αυτών τιµών.
2η) Ο γεωµετρικός µέσος είναι ίσος µε το µέσο όρο µόνον όταν όλες οι τιµές
είναι ίσες µεταξύ τους (Χ1=Χ2=...=Χν). Σε κάθε άλλη περίπτωση ο µέσος όρος είναι
µεγαλύτερος. Αυτή η ιδιότητα µπορεί να αποδειχθεί πολύ εύκολα για δύο τιµές. Να
το δείξετε!
1
Το παράδειγµα αυτό θα το ξαναδούµε στο Κεφάλαιο των Αριθµοδεικτών (στη Στατιστική ΙΙ),
οπότε θα δειχθεί το γιατί ο Γεωµετρικός µέσος δίνει το ακριβές αποτέλεσµα.
64
B.2.7. Επαναληπτικό παράδειγµα.
∆ιακόσιοι µαθητές της Α’ Λυκείου πήδηξαν
τρία άλµατα εις µήκος, από τα οποία διαλέξαµε το
καλύτερο. Τα αποτελέσµατα παρουσιάζονται στο
διπλανό πίνακα. Ζητούνται:
i) Ο πλήρης Στατιστικός πίνακας,
ii) το ραβδόγραµµα συχνοτήτων και η παράσταση
της αθροιστικής συχνότητας,
iii) µία αιτιολογηµένη εκτίµηση, µε το µάτι, των
τιµών µ, Τ και δ.
iv) o ακριβής υπολογισµός του τύπου Τ,
v) ο υπολογισµός της διαµέσου δ,
vi) ο υπολογισµός των τεταρτηµορίων Q1, Q2, Q3,
Άλµα
Χi
Συχνότητα
fi
1.6
2.0
2.4
2.8
3.2
3.6
4.0
4.4
6
10
30
90
44
15
4
1
vii) ο υπολογισµός του µέσου όρου µ, και
iix) ο υπολογισµός του γεωµετρικού µέσου G.
Λύση:
i) Στατιστικός Πίνακας:
α/α Κλάση
Xi
1
2
3
4
5
6
7
8
1.6
2.0
2.4
2.8
3.2
3.6
4.0
4.4
Όρια
κλάσης
1.4 - 1.8
1.8 - 2.2
2.2 - 2.6
2.6 - 3.0
3.0 - 3.4
3.4 - 3.8
3.8 - 4.2
4.2 - 4.6
Σύνολο
Συχν. Σχετική
fi
συχν. Pi
Σχετική Αθροιστ. Σχετική Σχετ.αθρ.
συχν.(%) συχν. Fi αθρ.συχ. συχν.(%)
6
10
30
90
44
15
4
1
0.03
0.05
0.15
0.45
0.22
0.075
0.02
0.005
3
5
15
45
22
7.5
2
0.5
200
1,0000
100,00
6
16
46
136
180
195
199
200
0.03
0.08
0.23
0.68
0.90
0.975
0.995
1.000
3
8
23
68
90
97.5
99.5
100.0
65
10 0
75
fi
50
25
0
1.6
2
2.4
2.8
3.2
3.6
4
4 .6
Xi
20 0
150
Fi
10 0
50
0
1.6
2
2.4
2.8
3.2
3.6
4
4.4
4.8
Xi
ii) To ραβδόγραµµα των συχνοτήτων και της αθροιστικής συχνότητας.
iii) ∆εν είναι λίγες οι φορές που αποφεύγουµε σηµαντικότατα λάθη µε το να
έχουµε υπ’όψη µας µια εκτίµηση για τις τιµές των παραµέτρων που ψάχνουµε. Για το
λόγο αυτό θα προσπαθήσουµε να δώσουµε µια πρώτη εκτίµηση για τις τιµές των
παραµέτρων µ, Τ και δ, παρατηρώντας το ραβδόγραµµα των συχνοτήτων.
α) Για το µέσο όρο µ(2). Η κατανοµή των συχνοτήτων στο ραβδόγραµµα των
συχνοτήτων είναι µονοκόρυφη και σχεδόν συµµετρική. Στην περίπτωση αυτή ο µέσος
όρος είναι στο κέντρο, δηλαδή στο µέσο της κλάσης Χ4, η οποία είναι και η
επικρατούσα υιµή Τ των τιµών Χi. Βέβαια, το µέσον της κλάσης Χ4 είναι το όνοµά
της, δηλαδή 2.8 µέτρα.
Παρατηρώντας προσεκτικότερα αντιλαµβανόµαστε πως όλες οι κλάσεις που
βρίσκονται δεξιά της Χ4, έχουν µεγαλύτερες συχνότητες απ’αυτές που βρίσκονται στα
δεξιά της Χ4, σε συµµετρική θέση, πράγµα που σηµαίνει πως το ποσοστό του
πληθυσµού που βρίσκεται δεξιά της Χ4 είναι µεγαλύτερο απ’αυτό που βρίσκεται
αριστερά. Άµεση συνέπεια αυτών είναι η µικρή µετακίνηση του µ προς τα δεξιά του
2.8. Είναι λογική λοιπόν µια εκτίµηση για το µ γύρω στο 2.9 ...
2
Θεωρούµε πως οι 200 µαθητές αποτελούν τον πληθυσµό του προβλήµατος που µελετούµε (µ αντί του
x)
66
β) Για τον τύπο Τ. Η πλειοψηφούσα κλάση είναι η Χ4, πράγµα που είναι
φανερό από το ραβδόγραµµα συχνοτήτων, οπότε χονδρικά έχουµε πως:
Τ = Χ4 = 2.8
Επειδή όµως η κλάση που βρίσκεται δεξιά της Χ4 (η Χ5) έχει µεγαλύτερη
συχνότητα απ’αυτή που βρίσκεται αριστερά της (τη Χ3), η ακριβής τιµή του Τ θάναι
λίγο µετακινηµένη προς τα δεξιά του 2.8. Θα δώσουµε σαν προσεγγιστική τιµή και
πάλι τα 2.9 µέτρα.
γ) Για τον Γεωµετρικό µέσο G. Ο G, όπως έχει ήδη ειπωθεί, είναι πάντα
µικρότερος από τον µ. Άρα περιµένουµε να είναι πιό κοντά στο 2.8 (το κέντρο της
πλειοψηφούσας κλάσης).
iv) Η κλάση µε τη µεγαλύτερη συχνότητα είναι η Χ4=2.8 (f4=90). Σε πρώτη
προσέγγιση µπορούµε να δεχθούµε πως η επικρατούσα τιµή είναι Τ=2.8 µέτρα. Στο
εσωτερικό της κλασης Χ4 θα βρίσκεται η ακριβής τιµή του τύπου Τ. Έχουµε πως:
ft-1 = f3 = 30 , fτ+1 = f5 = 44
ενώ το κάτω όριο της κλασης Χ4 είναι το Ο1 =2.6, µε εύρος ε=0.4. Τώρα µπορούµε να
υπολογίσουµε τον τύπο Τ:
T = O1 +
f T+1
44
ε = 2,6 +
* 0,4 = 2,838
f T −1 + f T + 1
30 + 44
v) Η πραγµατική θέση της διαµέσου (η σειρά της δηλαδή ανάµεσα στα 200
στοιχεία του πληθυσµού µας) είναι η:
ξ = (ν+1)/2 = 201/2 = 100.5
και «φιλοξενείται» στο εσωτερικό της κλάσης Χ4 (µια και η αθροιστ. συχνότητα
F4=136, είναι η πρώτη που ξεπερνάει το ξ). Εύκολα τώρα συνάγουµε τα υπόλοιπα
στοιχεία που χρειάζονται στον τύπο της διαµέσου:
Ο1 = 2.6 ,
δ = Ο1 +
Fδ-1 = 46 , fδ = 90
και ε = 0.4
ξ − Fδ −1
100,5 − 46
ε = 2,6 +
* 0,4 = 2,842
fδ
90
67
vi) Η πραγµατική σειρά των τριών τεταρτηµορίων δίνεται είναι η:
ξ1 = (ν+1)/4 = 201/4 = 50.25 ,
ξ2 = 2ξ1 = 100.5 και
ξ3 = 3ξ1 = 150.75
Οι κλάσεις που φιλοξενούν το καθένα από τα τρία τεταρτηµόρια, βρίσκονται
ακριβώς µε τον ίδιο τρόπο µ’αυτόν της διαµέσου. ∆εν ξεχνούµε βέβαια πως το
δεύτερο τεταρτηµόριο είναι ίσο µε τη διάµεσο (Q2=δ).
Έχουµε λοιπόν πως το Q1 φιλοξενείται στην κλάση Χ4, το Q2 στην Χ4 επίσης
και το Q3 στην Χ5.
Q1 = O1 +
ξ − Fq −1
fq
ε = 2 .6 +
50.25 − 46
* 0.4 = 2.619
90
Q2 = δ = 2.842
Q 3 = O1 +
ξ − Fq −1
fq
ε = 3+
150.75 − 136
* 0.4 = 3.066
90
vii) Σύµφωνα µε τον τύπο του µέσου όρου για δεδοµένα σε κλάσεις έχουµε:
µ=x=
1 8
6 * 1.6 + 10 * 2 + ... + 1 * 4.4 568
f jX j =
= 2.844
=
∑
ν j= 1
200
200
iix) Εφαρµόζουµε τέλος και τον τύπο για τον Γεωµετρικό µέσο:
________________
_______________
200
f1
f2
fκ
200
G=
Xi *X2 *...*Xκ =
1.66*210*....*4.41 =
____________
200
=
3.2241*1089 = 2.8025
68
Β.2.8. Άσκηση.
Ζητήσαµε από τους 70 µαθητές δύο τµηµάτων της
Β’ Λυκείου να
βαθµολογήσουν τον κοινό καθηγητή Μαθηµατικών, που έχουν (βαθµοί από 0 έως 10).
Τα ακατέργαστα αποτελέσµατα που πήραµε εµφανίζονται στον επόµενο πίνακα:
8
9
7
8
6
7
7
8
6
7
8
6
7
9
5
6
7
5
6
9
7
8
5
6
9
3
8
6
7
7
6
7
5
8
7
8
7
6
9
4
6
5
7
9
8
4
8
7
10
8
7
5
6
7
4
5
8
6
7
9
7
6
9
8
5
7
8
4
6
8
i) Να κατατάξετε τα αποτελέσµατα κατ’αύξουσα σειρά.
ii) Να αποφασίσετε για το πλήθος των κλάσεων στις οποίες θα ενταχθούν τα
παραπάνω δεδοµένα.
iii) Να κάνετε τον πλήρη Στατιστικό πίνακα.
iv) Nα υπολογίσετε τον τύπο Τ και τον µέσο όρο (κλάσεις).
v) Να υπολογίσετε την διάµεσο για τα αναλυτικά δεδοµένα και για τα δεδοµένα
των κλάσεων.
69
Β.3. ΜΕΤΡΑ ∆ΙΑΣΠΟΡΑΣ.
Β.3.1. Αναγκαιότητα των µέτρων διασποράς.
Οι παράµετροι κεντρικής τάσης (ή µέτρα θέσης), που γνωρίσαµε στην
προηγούµενη παράγραφο, αποτελούν µια σηµαντική προσπάθεια να δηλωθούν µε το
συνοπτικότερο δυνατό τρόπο, οι τιµές που παίρνει µια τυχαία µεταβλητή στα ν
στοιχεία ενός πληθυσµού. Όµως η Λακωνικότητα αυτή µας στερεί από ουσιαστικές
πληροφορίες, οι οποίες µάλιστα θα µπορούσαν να µεταβάλουν σηµαντικά την άποψη
που δηµιουργούν για την τυχαία µεταβλητή, τα µέτρα θέσης. Ας δούµε λοιπόν ένα
παράδειγµα...
Παράδειγµα Β.3.
Η επιτροπή υποτροφιών καλείται να εκλέξει ένα σπουδαστή που θα πάρει την
υποτροφία για την επόµενη χρονιά. Οι υποψήφιοι που απέµειναν στην τελική εκλογή
είναι τρείς. Απ'αυτούς η επιτροπή θα ξεχωρίσει τους δύο (τον βασικό υπότροφο και τον
επιλαχόντα). Η βαθµολογία τους στα 10 µαθήµατα της περασµένης σπουδαστικής
χρονιάς, βάσει της οποίας θα κρίνει η επιτροπή και τα οποία θεωρούνται ισοδύναµα,
είναι η παρακάτω:
Μάθηµα
Σπουδαστής Χ
Σπουδαστής Υ
Σπουδαστής Ζ
1ο
2ο
3ο
4ο
5ο
6ο
7ο
8ο
9ο
10ο
6
8
9
10
7
5
6
9
10
10
7
8
8
8
9
7
8
7
10
8
5
10
5
10
5
10
10
10
10
5
Η επιτροπή αποφασίζει πως το βασικό κριτήριο µε το οποίο θα αναδείξει τον
υπότροφο και τον επιλαχόντα θα είναι ο µέσος όρος της βαθµολογίας τους. Όµως
αποφασίζει πως για παραπλήσιους µέσους όρους θα λάβει υπ'όψη της και την
οµοιογένεια των βαθµών του κάθε σπουδαστή, θεωρώντας πιο αξιόπιστο το
σπουδαστή του οποίου οι βαθµοί έχουν µικρότερες αποκλίσεις από το µέσο όρο.
70
Ας υπολογίσουµε αρχικά τους τρείς µέσους όρους:
µΧ = (6+8+9+...+10)/10 = 80/10 = 8
µΥ = (7+8+8+....+8)/10 = 80/10 = 8
µΖ = (5+10+5+...+5)/10 = 80/10 = 8
Παρατηρούµε πως και οι τρεις σπουδαστές επέτυχαν τον ίδιο µέσο όρο. Θα
πρέπει λοιπόν να ορίσουµε µία νέα παράµετρο που να προσδιορίζει τον τρόπο µε τον
οποίο κατανέµονται οι δοσµένες αριθµητικές τιµές γύρω από το µέσο όρο τους.
Τον τρόπο αυτό κατανοµής των δεδοµένων θα τον ονοµάσουµε διασπορά των
δεδοµένων γύρω από το µέσο όρο. Οι διάφορες παράµετροι που θα αποδίδουν τη
διασπορά λέγονται συχνά µέτρα διασποράς.
Β.3.2. Μέση απόκλιση.
Μια πρώτη ιδέα είναι να χρησιµοποιήσουµε σαν µέτρο διασποράς τη µέση τιµή
των "αποστάσεων" των αριθµητικών δεδοµένων Χi (i=1,2,...,ν) από τον
αριθµητικό µέσο µ (δοσµένες σε απόλυτη τιµή). Το µέσο όρο δηλαδή των ποσοτήτων:
|Χ1-µ| , |Χ2-µ| , |Χ3-µ| , .... , |Χν-µ|
Ορισµός Β.11.
Έστω οι ν τιµές µιας τυχαίες µεταβλητής Χi, µε αριθµητικό µέσο το µ.
Ονοµάζουµε µέση απόκλιση των τιµών Χi από το µ την ποσότητα:
AX =
X 1 − µ + X 2 − µ + ... + X ν − µ
ν
=
1 ν
∑ Χj − µ
ν j= 1
Όταν τα δεδοµένα δίνονται κατανεµηµένα σε κ-κλάσεις: Xi, i=1,2,...,κ, η µέση
απόκλιση δίνεται από τη σχέση:
AX =
f 1 X 1 − µ + f 2 X 2 − µ + ... + f κ X κ − µ
ν
=
1 κ
∑fj Χj − µ
ν j= 1
71
Παρατηρήσεις:
1η) Είπαµε πως η µέση απόκλιση είναι στην ουσία ο µέσος όρος των
αποστάσεων της κάθε µέτρησης Χi από το µέσο όρο µ. Βέβαια η απόσταση που
ορίζεται εδώ είναι η Ευκλείδεια απόσταση, η οποία είναι µια ποσότητα θετική ή µηδέν.
2η) Η ερµηνεία του τύπου που χρησιµοποιεί τις συχνότητες fi είναι ακριβώς
όµοια µε την ερµηνεία που δίνεται στον αντίστοιχο τύπο για το µέσον όρο (1η
παρατήρηση).
3η) Να παρατηρήσουµε πως στον τύπο της µέσης απόκλισης χρησιµοποιούµε
απόλυτες τιµές γιατί το αλγεβρικό άθροισµα των διαφορών (Χi-µ) είναι ίσο µε το
µηδέν. Ισχύει δηλαδή:
(x1-µ) + (x2-µ) + (x3-µ) + ... + (xν-µ) = 0
Πρόκειται για µια σηµαντική ιδιότητα του µέσου όρου την οποία µαζί µε άλλες
θα την µελετήσουµε στην µεθεπόµενη παράγραφο (Β.3.4). Προς το παρόν αξίζει τον
κόπο να κάνετε µια δοκιµή για την ισχύ της.
Παράδειγµα Β.2. (συνέχεια 2η...)
Αφαιρώντας από τους βαθµούς των τριών σπουδαστών την τιµή του κοινού
µέσου όρου (µ=8) και παίρνοντας την απόλυτη τιµή του αποτελέσµατος καταλήγουµε
στον επόµενο πίνακα:
Mάθηµα
|Χi-µ|
|Yi-µ|
|Zi-µ|
1o
2o
3o
4o
5o
6o
7o
8o
9o
10o
2
0
1
2
1
3
2
1
2
2
1
0
0
0
1
1
0
1
2
0
3
2
3
2
3
2
2
2
2
3
Σύνολο
16
6
24
72
Τα αποτελέσµατα:
Αx = 16/10 = 1.6
Αy = 6/10 = 0.6
Αz = 24/10 = 2.4
Τα αποτελέσµατα κάνουν φανερό το ότι οι βαθµοί του Υ σπουδαστή είναι πολύ
κοντά στο µέσο όρο (µ=8), ενώ δεύτερος σε οµοιογένεια βαθµών έρχεται ο
σπουδαστής Χ. Πρόκειται βέβαια για κάτι που διαφαινόταν από τον πίνακα των
αποτελεσµάτων, τώρα όµως πιστοποιείται "επίσηµα" από τις µέσες αποκλίσεις.
Β.3.3. ∆ιακύµανση και τυπική απόκλιση.
Ένα σηµαντικό µειονέκτηµα της έννοιας της µέσης απόκλισης είναι η χρήση
των απολύτων τιµών στον Μαθηµατικό της τύπο, κάτι που συχνά δυσκολεύει τις
πράξεις. Για το λόγο αυτό, σαν µέτρο της διασποράς των τιµών της τυχαίας
µεταβλητής γύρω από την µέση τους τιµή, χρησιµοποιείται συνήθως ο µέσος όρος των
τετραγώνων των "αποστάσεων" των δεδοµένων Χi από το αριθµητικό µέσο µ.
Πρόκειται δηλαδή για το µέσο όρο των ποσοτήτων:
(Χ1-µ)2 , (Χ2-µ)2 , (Χ3-µ)2 , .... , (Χν-µ)2
Ορισµός Β.12.
Έστω οι ν τιµές µιας τυχαίες µεταβλητής Χi, µε αριθµητικό µέσο το µ.
Ονοµάζουµε διακύµανση των τιµών Χi την ποσότητα:
σ =
2
(X 1 − µ )2 + (X 2 − µ )2 + ... + (X ν − µ )2
ν
=
1 ν
∑ Xj − µ
ν j= 1
και τυπική απόκλιση ή διασπορά των Χi την ποσότητα: σ =
(
)
2
σ2
Εύκολα διαπιστώνουµε πως όταν τα αριθµητικά δεδοµένα διατάσσονται κατά
κλάσεις, Xi i=1,2,...,κ, ο τύπος της διακύµανσης δίνεται από τη σχέση:
f (X − µ ) + f 2 (X 2 − µ ) + ... + f κ (X κ − µ )
1 ν
σ = 1 1
= ∑fj Xj − µ
ν
ν j= 1
2
2
2
2
(
)
2
73
όπου, να ξαναθυµίσουµε, κ είναι το πλήθος των κλάσεων και fi η συχνότητα της iοστής κλάσης.
Κάνοντας πράξεις(3) στις σχέσεις που δίνουν την διακύµανση καταλήγουµε στις
παρακάτω σχέσεις, που είναι πιο εύχρηστες[1]:
X 12 + X 22 + ... + X ν2
− µ2 =
ν
ν
1
2
= ∑ Xj − µ2
ν j= 1
σ2 =
[ ]
f 1 X 12 + f 2 X 22 + ... + f κ X 2κ
σ =
− µ2 =
ν
ν
1
2
= ∑ f jX j − µ 2
ν j= 1
2
[
]
όταν έχουµε αναλυτικά
αριθµητικά δεδοµένα στα
ν στοιχεία του πληθυσµού
και
όταν έχουµε δεδοµένα
κατανεµηµένα
σε κ κλάσεις
.
Παράδειγµα Β.2. (συνέχεια 4η...)
Ας επανέλθουµε στο παράδειγµα, µε το οποίο ξεκινήσαµε την τρέχουσα
παράγραφο. Θα επιχειρήσουµε να υπολογίσουµε τη διακύµανση που έχουν οι βαθµοί
του κάθε σπουδαστή γύρω από το µέσο όρο τους.
Συµβολίζουµε µε Χi τους βαθµούς του πρώτου σπουδαστή, Υi τους βαθµούς του
δεύτερου και Ζi τους βαθµούς του τρίτου (i=1,2,...,10). Συχνά διευκολυνόµαστε στους
υπολογισµούς κατασκευάζοντας τον παρακάτω πίνακα, στον οποίο δίπλα από τις τιµές
Xi, Yi και Zi τις τιµές Xi2, Yi2 και Zi2.
Συµβολίζοντας µε σΧ, σΥ και σΖ τις τυπικές απικλίσεις των βαθµών των
αντίστοιχων σπουδαστών και χρησιµοποιώντας τον δεύτερο τύπο της διακύµανσης,
που βγάλαµε µετά τις πράξεις, έχουµε:
3
Οι πράξεις αυτές δεν παρατίθενται στο σηµείο αυτό για να µην αποπροσανατολίσουν την
προσοχή του αναγνώστη από την ουσία του προβλήµατος της διακύµανσης στις πράξεις µε το
σύµβολο Σ. Επειδή όµως οι πράξεις αυτές είναι ιδιαίτερα απλές, αναγράφονται στο τέλος του
κεφαλαίου. Το ίδιο θα συµβεί και µε άλλες πράξεις, γι'αυτό υπάρχει και η σχετική αρίθµηση [1]
74
Μάθηµα
Χi
Xi 2
Yi
Yi 2
Zi
Zi 2
1o
2o
3o
4o
5o
6o
7o
8o
9o
10o
6
8
9
10
7
5
6
9
10
10
36
64
81
100
49
25
36
81
100
100
7
8
8
8
9
7
8
7
10
8
49
64
64
64
81
49
64
49
100
64
5
10
5
10
5
10
10
10
10
5
25
100
25
100
25
100
100
100
100
25
Σύνολο
80
672
80
648
80
700
Αρχικά να θυµίσουµε πως ο αριθµητικός µέσος είναι ίσος µε το 8 (=80/10) και
στις τρεις περιπτώσεις.
σ 2X =
1 ν 2
672
Χ j − µ 2Χ =
− 8 2 = 67,2 − 64 = 3,2
∑
ν j= 1
10
σ Υ2 =
1 ν 2
648
Υ j − µ Υ2 =
− 8 2 = 64,8 − 64 = 0,8
∑
ν j= 1
10
σ Υ2 =
1 ν 2
6700
Z j − µ 2Z =
− 8 2 = 70 − 64 = 6
∑
ν j= 1
10
Τα τελικά αποτελέσµατα για της τυπικές αποκλίσεις είναι τα παρακάτω και
αξίζει να τα αντιπαραβάλουµε µε τα αποτελέσµατα που υπολογίσαµε για τη µέση
απόκλιση, στην προηγούµενη παράγραφο.
σΧ =
σ 2Χ = 3,2 = 1.78885438
[Αx = 1.6]
σΥ =
σ Υ2 = 0,8 = 0.89442719
[Αy = 0.6]
σΖ =
σ 2Ζ = 6,0 = 2.44948974
[Αz = 2.4]
75
Παρατηρήσεις:
1η) Έστω οι ν τιµές της τυχαίας µεταβλητής Χi, στα ν άτοµα ενός πληθυσµού
και µχ ο αριθµητικός µέσος τους. Είναι φανερό πως ο µέσος όρος έχει τόσο
µεγαλύτερη αξία και φυσική σηµασία, όσο πιο "κοντά" στο µέσο όρο κατανέµονται οι
τιµές Χi.
Έτσι, η δήλωση πως ο Υ σπουδαστής είναι ένας σπουδαστής του 8, αποδίδει
ικανοποιητικά την πραγµατικότητα και αποτελεί έναν επαρκή χαρακτηρισµό των
επιδόσεων του εν λόγω σπουδαστή. Αντίθετα, η δήλωση πως ο Ζ σπουδαστής είναι
επίσης σπουδαστής του 8, δεν αποδίδει την πραγµατικότητα, µε αποτέλεσµα η αξία της
(η αξία δηλαδή του αριθµητικού µέσου στην περίπτωση αυτή) νά'ναι µικρή.
2η) Η διακύµανση (σ2) και η τυπική απόκλιση (σ) είναι δύο παράµετροι που
δίνουν τη σηµαντικότητα του µέσου όρου. Με τη βοήθεια των παραµέτρων αυτών η
επιτροπή υποτροφιών απένειµε την υποτροφία για το επόµενο σπουδαστικό έτος στο
σπουδαστή Υ. Επιλαχών επιλέχτηκε ο σπουδαστής Χ.
3η) Αξίζει να σηµειώσουµε πως οι µονάδες στις οποίες εκφράζεται η
διακύµανση (σ2) είναι οι µονάδες των τιµών της τυχαίας µεταβλητής, υψωµένες στο
τετράγωνο. Αντίθετα η τυπική απόκλιση (σ) είναι µία παράµετρος που εκφράζεται
σε µονάδες όµοιες µ'αυτές που χρησιµοποιούνται στις τιµές της τυχαίας µεταβλητής
Χi.
4η) Αποδεικνύεται εύκολα [2] πως η µέση απόκλιση είναι πάντα µικρότερη ή ίση
µε την τυπική απόκλιση.
Παράδειγµα Β.1. (συνέχεια 7η...)
Ξαναγυρίζοντας, για µια ακόµη φορά, στο παράδειγµα Β.1., πάντα στον πίνακα
που αφορά στα κορίτσια (πιν.Β.3), υπολογίζουµε τις ποσότητες που ζητά ο τύπος της
διακύµανσης, ξεκινώντας ως συνήθως από τα αναλυτικά δεδοµένα. Βέβαια έχουµε ήδη
υπολογίσει στην παράγραφο που περιέγραφε τον αριθµητικό µέσο ($ Β.2.4) τη µέση
τιµή των δεδοµένων αυτών:
µ = (ΣΧi)/ν = 4919/30 = 163.9667
Η επόµενη ποσότητα που µας χρειάζεται είναι το άθροισµα των τετραγώνων
των υψών των κοριτσιών. Έχουµε λοιπόν
76
Σ Xi2 = 1552 + 1562 + .... + 1772 + 1782 = 807671,
Αντικαθιστώντας τις πιο πάνω ποσότητες στον τύπο της διακύµανσης έχουµε:
σ 2X =
1 ν 2
807671
Χ j − µ 2Χ =
− 163.9667 2 = 37.2989
∑
ν j= 1
30
⇒
σ = 6.10728
∆εδοµένα κατά κλάσεις:
Πηγαίνοντας τώρα στον πίνακα συχνοτήτων του παραδείγµατος Β.1. (και πάλι
για τα κορίτσια) και µε δεδοµένη την τιµή του µέσου όρου που υπολογίστηκε στην
αντίστοιχη παράγραφο,
µ = (ΣfiΧi)/ν = 4920/30 = 164,
έχουµε για τη διακύµανση:
σ2 =
[
]
1 ν
2
f jX j − µ 2 =
∑
ν j= 1
4 * 155 2 + 11 * 160 2 + 7 * 165 2 + 4 * 170 2 + 3 * 175 2 + 180 2
− 164 2 =
=
30
808150
=
− 26896 = 42.33 ⇒
30
σ = 6,50641
Παρατηρούµε πως ενώ η χρήση του πίνακα συχνοτήτων στον υπολογισµό του
αριθµητικού µέσου µ, δεν επηρεάζει ιδιαίτερα την ακρίβεια του αποτελέσµατος,
αντίθετα, στον υπολογισµό της τυπικής απόκλισης, το σφάλµα είναι αρκετά
σηµαντικό. Βέβαια είναι προφανές πως τα αποτελέσµατα των αναλυτικών δεδοµένων
είναι και τα ακριβή.
77
Β.3.4. Ιδιότητες του αριθµητικού µέσου και της
τυπικής απόκλισης. Μετασχηµατισµοί.
Οι ιδιότητες που αναφέρονται στη συνέχεια αποδεικνύονται µε ευκολία. Η
απόδειξή τους όµως υπάρχει στο τέλος του κεφαλαίου, ακολουθώντας πάντα την
αρίθµηση της παραποµπής.
1η) Το άθροισµα των αλγεβρικών αποστάσεων της κάθε τιµής Χi, από το µέσο
όρο µ, είναι ίσο µε το µηδέν:
(Χ1-µ) + (Χ2-µ) + (Χ3-µ) + ... + (Χν-µ) = 0
Πρόκειται για µία βασική ιδιότητα του µέσου όρου. Η ερµηνεία της αρκετά
απλή: Μια και ο µέσος όρος είναι, ας πούµε, το "κέντρο" των τιµών Χi, οι αλγεβρικές
αποστάσεις (κάποιες θετικές και κάποιες αρνητικές) αλληλοαναιρούνται [3].
2η) Η διακύµανση σ2 και η τυπική απόκλιση σ των τιµών µιας τυχ.µεταβλητής
Χi, γύρω από τη µέση τους τιµή µχ είναι ποσότητες µεγαλύτερες ή ίσες µε το µηδέν.
Μάλιστα είναι ακριβώς ίσες µε το µηδέν όταν οι τιµές Χi είναι όλες ίσες µεταξύ τους
(Χi=c για κάθε τιµή του i), περίπτωση κατά την οποία και ο µέσος όρος των τιµών Χi
είναι ίσος µε το c. Πράγµατι ισχύουν τα παρακάτω:
µΧ =
σ =
2
Χ 1 + Χ 2 + ... + Χ ν c + c + .. + c νc
=
=c
=
ν
ν
ν
(X 1 − µ )2 + (X 2 − µ )2 + ... + (X ν − µ )2
ν
(c − c) + (c − c ) + ... + (c − c) 2
=
=0
ν
2
2
=
Πρόκειται για ένα κλάσµα, που
ο αριθµητής του είναι άθροισµα
τετραγώνων (θετικός) και ο
παρονοµαστής είναι φυσικός.
Άρα το σ2 θά'ναι πάντα θετικό.
3η) Έστω η τυχαία µεταβλητή Χi , i=1,2,..,ν, µε µέση τιµή το µχ και τυπική
απόκλιση το σ2χ. Τώρα στις τιµές Χi προσθέτουµε τον ίδιο σταθερό πραγµατικό αριθµό
c, ή τις πολλαπλασιάζουµε µε τη σταθερά c. Tότε οι τυχ. µεταβλητές Yi και Τi που
προκύπτουν είναι οι:
Yi = Xi+c , i=1,2,...,ν
Τi = cXi , i=1,2,...,ν
78
Οι τυχαίες µεταβλητές που προκύπτουν µε πράξεις σαν τις προηγούµενες
λέγονται συχνά και µετασχηµατισµοί των τιµών Χi.
Οι ιδιότητες των
µετασχηµατισµών είναι σηµαντικές και ιδιαίτερα χρήσιµες.
Oι αντίστοιχες µέσες τιµές και τυπικές αποκλίσεις εµφανίζονται στον πίνακα(4):
Τυχ.µεταβλητή
µ
Χi
Υi = Xi + c
Τi = cXi
σ
µΧ
µΥ = µΧ + c
µΤ = cµΧ
σΧ
σΥ = σΧ
σΤ = cσΤ
Αξίζει να προσπαθήσουµε να ερµηνεύσουµε τον πρώτο από τους δύο αυτούς
µετασχηµατισµούς.
Προσθέτοντας τη σταθερή ποσότητα c στις τιµές Χi, τις
µετακινούµε κατά c.
Χ1
Χ2
Χ3
Χ4
Υ1
Υ2
µΧ
Υ3
Υ4
µΥ
c
Είναι εύκολο λοιπόν να διαπιστώσει κανείς πως και ο νέος µέσος όρος θα είναι
αντίστοιχα µετακινηµένος. Επειδή όµως η σχετική θέση των τιµών Υi γύρω από το
µέσο όρο τους (µΥ) παραµένει ακριβώς η ίδια, η τυπική απόκλιση σΥ είναι ίδια µε την
αντίστοιχη των τιµών Χi(5).
Σκεφθείτε σαν παράδειγµα τις τιµές: Χi = 5, 6, 7
Yi = Xi+100 = 105, 106, 107
και
4η) Τα δύο σκέλη της προηγούµενης ιδιότητας µπορούν, συνδυαζόµενα να
δώσουν ιδιαίτερα χρήσιµες σχέσεις. Έστω λοιπόν:
i) η τυχαία µεταβλητή Χi, οι τιµές της οποίας έχουν µέσον
όρο το µΧ και τυπική απόκλιση το σΧ, και
ii) οι σταθερές α και β.
Για την απόδειξη των σχέσεων αυτών βλέπε στο τέλος του κεφαλαίου [4].
5
Να θυµηθούµε πως η τυπική απόκλιση σ είναι ένα µέτρο για το πώς κατανέµονται οι τιµές Υi
γύρω από το µέσο όρο τους µΥ.
4
79
Θα εξετάσουµε τους δύο σηµαντικούς µετασχηµατισµούς:
Yi = αΧi + β
και
Zi =
Xi − α
β
Με τη βοήθεια των σχέσεων του προηγούµενου πίνακα αποδεικνύουµε την
πρώτη, και µε τη βοήθεια της πρώτης τη δεύτερη(6).
Τυχ.µεταβλητή
µ
σ
Χi
µΧ
σΧ
Υi = αXi + β
µΥ = αµΧ + β
σΥ = ασΧ
Zi =
Xi − α
β
µΖ =
µΧ − α
β
σΖ =
σΧ
β
Συχνά στον τελευταίο µετασχηµατισµό:
Zi = (Xi-α)/β
θέτουµε:
α = µx και β = σx
οπότε ισχύει µΖ = 0 και σΖ = 1, κάτι που θα κάνουµε κατ' επανάληψη στη συνέχεια…
5η) Έστω οι τιµές Χi, µιας τυχ.µεταβλητής, σε έναν πληθυσµό Ω αποτελούµενο
από ν στοιχεία. Ας υποθέσουµε τώρα πως ο εν λόγω πληθυσµός αποτελείται από τρείς
υποπληθυσµούς Ω1, Ω2 και Ω3, τα στοιχεία των οποίων δίνονται στον παρακάτω
πίνακα:
6
Η απόδειξη για τις παραµέτρους του µετασχηµατισµού Yi = αΧi +β, είναι ιδιαίτερα απλή, είτε
γίνει µε πράξεις, είτε µε τη βοήθεια των σχέσεων της 3ης ιδιότητας. Αξίζει ίσως να γίνει από
τον αναγνώστη. Τέλος, σκεφθείτε πως ο µετασχηµατισµός:
Zi =
X i −α
β
γράφεται
Zi =
1
β
Χi −
α
β
της µορφής
Ζ i = κΧ i + λ
80
πλήθος στοιχείων
µέση τιµή
τυπική απόκλιση
Ω1
ν1
µ1
σ1
Ω2
ν2
µ2
σ2
Ω3
ν3
µ3
σ3
και όπου βέβαια ν = ν1+ν2+ν3. Τότε ο µέσος όρος µ και η διακύµανση σ2 του
πληθυσµού δίνονται, σαν συναρτήσεις των αντίστοιχων παραµέτρων των
υποπληθυσµών, από τις σχέσεις:
µ=
ν 1 µ 1 + ν 2 µ 2 + ν 3 µ 3 ν 1µ 1 + ν 2 µ 2 + ν 3 µ 3
=
ν1 + ν 2 + ν 3
ν
σ2 =
ν 1 (µ 1 − µ ) 2 + ν 2 (µ 2 − µ ) 2 + ν 3 (µ 3 − µ ) 2 ν 1 σ 12 + ν 2 σ 22 + ν 3 σ 23
+
ν1 + ν 2 + ν 3
ν
[5]
Παρατήρηση: Οι τύποι αυτοί µπορούν να γραφούν και για δύο αλλά και για
περισσότερους από τρείς υποπληθυσµούς του βασικού πληθυσµού.
6η) Στην τελευταία αυτή ιδιότητα θα αντιµετωπίσουµε την τυπική απόκλιση
κάτω από ένα άλλο πρίσµα, το οποίο θα γίνει πιο κατανοητό όταν θα µιλήσουµε για
την Κανονική Κατανοµή.
Ας υποθέσουµε λοιπόν πως έχουµε την τυχ.µεταβλητή Χi, στα ν-στοιχεία ενός
πληθυσµού. Πολύ συχνά εξετάζουµε το ποσοστό των ατόµων του πληθυσµού για τα
οποία η τιµή Χi ανήκει σε κάποιο διάστηµα. Για παράδειγµα, θα µας ενδιέφερε να
γνωρίζουµε πως το 60 % των σπουδαστριών έχει ύψος από 157 cm έως 165 cm. Είναι
βέβαια γνωστός ο τρόπος αναγραφής τέτοιων διαστηµάτων µε τη βοήθεια των
παρενθέσεων: (157 , 165).
Συχνά χειριζόµαστε διαστήµατα µε κέντρο τον µέσο όρο µ.
διάστηµα µε κέντρο το µ και ακτίνα το σταθερό µήκος d, γράφεται:
(µ-d , µ+d). Βέβαια το συνολικό του µήκος (η διάµετρός του) είναι 2d.
Ένα τέτοιο
Σε πολλές περιπτώσεις (όχι πάντα), το ποσοστό των στοιχείων του πληθυσµού
για τα οποία η µέτρηση Χi ανήκει σε διάστηµα της µορφής (µ-rσ , µ+rσ), µε κέντρο
δηλαδή το µ και ακτίνα r φορές το σ, µπορεί να εκτιµηθεί από την τιµή του r.
81
Σχ.Β.10. Ραβδόγραµµα κατανοµής της συχνότητας µε µεγάλο
αριθµό κλάσεων, έτσι ώστε η γνωστή «σκαλίτσα» να αντικαθίσταται µε µία καµπύλη,
και το συµµετρικό, ως προς το µ, διάστηµα (µ-rσ , µ+rσ).
Όπως θα δούµε αναλυτικά στο κεφάλαιο των συναρτήσεων κατανοµής της
πιθανότητας, σε ένα ραβδόγραµµα, το εµβαδό Ε µπορεί να συµβολίζει το ποσοστό των
στοιχείων του πληθυσµού για τα οποία η µέτρηση Χi βρίσκεται στο διάστηµα: (µ-rσ ,
µ+rσ)(7).
Από τον επόµενο πίνακα βλέπουµε πως σε πολλές περιπτώσεις το ποσοστό των
στοιχείων του πληθυσµού, µε µέτρηση Χ που ανήκει στο διάστηµα (µ-2σ,µ+2σ), είναι
95 %.
Περιοχή για την τιµή Χi
(µ-σ , µ+σ)
r=1
(µ-2σ , µ+2σ)
r=2
(µ-3σ , µ+3σ)
r=3
Ποσοστό του πληθυσµού
68 %
95 %
99.7 %
Σύµφωνα µε τα προηγούµενα, εάν ένας πληθυσµός σπουδαστριών έχει µέσο όρο
ύψους µ=164 cm, και τυπική απόκλιση σ=6 cm, τότε το 95 % τους θα ανήκει στο
διάστηµα :
(µ-2σ,µ+σ) = (164-2*6 , 164+2*6) = (152,176)
πράγµα που µάλλον ισχύει...
7
Εάν σκεφθείτε λίγο την παρατήρηση αυτή, θα διαπιστώσετε πως συµβολίζοντας µε το εµβαδό Ε
το ποσοστό του διαστήµατος (µ-rσ,µ+rσ), τότε το συνολικό εµβαδό ανάµεσα στον άξονα των Χ
και την καµπύλη συχνοτήτων είναι ίση µε το 100 %.
82
Παράδειγµα Β.3.
∆ίνονται οι παρακάτω 5 αριθµοί: Χi = 5,6,7,8 και 9 για
i=1,2,..5.
i) Να υπολογισθούν η µέση τιµή µχ και η τυπική τους απόκλιση σχ.
ii) Αφαιρώντας από τον κάθε έναν από τους αριθµούς αυτούς το µ,
υπολογίστε µία νέα 5-άδα αριθµών Υi, i=1,2,...5. Υπολογίστε τη
µέση τιµή µy και τυπική απόκλιση σy των Υi. Τί παρατηρείτε;
iii) Υπολογίστε τέλος τις τιµές Ζi = Yi/σy, για i=1,2,...5, την µέση
τους τιµή µz και την απόκλισή τους σz.
i) µ Χ =
σ Χ2 =
5 + 6 + 7 + 8 + 9 35
=7
=
5
5
(5 − 7 ) 2 + ( 6 − 7 ) 2 + ( 7 − 7 ) 2 + ( 8 − 7 ) 2 + ( 9 − 7 ) 2 4 + 1 + 0 + 1 + 4
=
=2 ⇒
5
5
σΧ = 2
ii)
Yi = Xi-µχ = Χi-7 = -2,-1,0,1,2 για i=1,2,..5.
µΥ =
− 2−1+ 0+1+ 2 0
= =0
5
5
( −2 − 0) 2 + ( −1 − 0) 2 + ( 0 − 0) 2 + (1 − 0) 2 + ( 2 − 0) 2 4 + 1 + 0 + 1 + 4
=
=2 ⇒
σ =
5
5
2
Υ
σΥ = 2
Βέβαια τα αποτελέσµατα αυτά ήταν αναµενόµενα, σύµφωνα µε την 3η ιδιότητα
της προηγούµενης παραγράφου. Πράγµατι οι τιµές Yi προκύπτουν απ'τις Χi, όταν
προσθέτουµε σ'αυτές τη σταθερή c=-µχ.
Εποµένως θα ισχύουν οι ισότητες:
µy = µχ+c = µχ-µχ = 0
σΥ = σΧ = 2
83
iii) Θα απαντήσουµε και σ’ αυτή την ερώτηση µε τη βοήθεια, και πάλι, της 3ης
ιδιότητας της προηγουµένης παραγράφου, χωρίς να κάνουµε αναλυτικά τις πράξεις.
Αρχικά να καταγράψουµε τις τιµές Ζi:
Zi =
Yi
1
2
− 2 −1 0
=
,
,
,
,
για i = 1,2,...,5
σΥ
2
2
2
2
2
οι οποίες προκύπτουν από τις τιµές των Υi, όταν αυτές πολλαπλασιάζονται µε τη
σταθερά c = 1/σΥ = 1/ 2 . Άρα θα ισχύουν οι ισότητες:
µΖ = cµΥ = µΥ/σΥ = 0/ 2
σΖ = cσΥ = (1/ 2 )* 2 = 1
Παρατήρηση:
Να παρατηρήσουµε πως εάν τις µετρήσεις Χi τις διαιρέσουµε µε την τυπική
τους απόκλιση, οι νέες τιµές που προκύπτουν έχουν τυπική απόκλιση τη µονάδα. Αυτό
είναι βέβαια αναµενόµενο από την 3η ιδιότητα της προηγουµένης παραγράφου.
Η φυσική σηµασία όµως αυτής της επισήµανσης λέει πως όταν διαιρούµε τις
µετρήσεις Χi, µε την τυπική τους απόκλιση σX, τότε συµβαίνουν τα εξής:
(α) οι νέες τιµές που προκύπτουν είναι καθαροί αριθµοί (δεν έχουν
µονάδες, µια και οι µετρήσεις Χi και η τυπική απόκλιση σΧ έχουν τις ίδιες
µονάδες),
(β) οι νέες τιµές µετριούνται ουσιαστικά µε µονάδα µέτρησης την
τυπική απόκλιση (µε την οποία διαιρέσαµε).
Παράδειγµα Β.4.
Το Β' εξάµηνο ενός τµήµατος
Απόφοιτοι Απόφοιτοι
Βαθµοί Όρια
των Τ.Ε.Ι αποτελείται από 100
Χi
Κλάσης
Γ.Λ.
Τ.Ε.Λ.
σπουδαστές, από τους οποίους οι
70 προέρχονται από τα Γενικά
9,5
9-10
2
0
Λύκεια και οι 30 από τα Τεχνικά.
8,5
8-9
5
1
Η τελική βαθµολογία του τµήµα7,5
7-8
10
3
τος στο µάθηµα των Μαθηµατι6,5
6-7
7
3
κών ΙΙ δίνεται από το διπλανό
5,5
5-6
16
10
πίνακα:
4,5
4-5
15
7
i) Να υπολογισθούν, ο µέσος
3,5
3-4
7
2
όρος και η τυπική απόκλιση του
2
1-3
8
4
κάθε υποπληθυσµού,
ii) Να υπολογισθούν οι ίδιες παράµετροι, για το σύνολο του πληθυσµού.
84
i) Για τους αποφοίτους των ΓΕ.Λ. έχουµε:
µ1 =
2 * 9,5 + 5 * 8,5 + ... + 8 * 2 378
= 5 ,4
=
70
70
σ 12 =
2 * 9,5 2 + 5 * 8,5 2 + ... + 8 * 2 2
2305,5
− 5 ,4 2 =
− 29,16 = 3,7757 ⇒
70
70
σ 1 = 1,943
Όµοια για τους αποφοίτους των Τ.Ε.Λ. έχουµε:
µ2 =
1 * 8,5 + 2 * 7,5 + ... + 4 * 2 152
= 5,0667
=
30
30
σ 22 =
1 * 8,5 2 + 2 * 7,5 2 + ... + 4 * 2 2
852,5
− 5,0667 2 =
− 25,6711 = 2,74556 ⇒
30
30
σ 2 = 1,657
ii) Με τη βοήθεια των σχέσεων της 5ης ιδιότητας, της προηγουµένης
παραγράφου, υπολογίζουµε τη µέση τιµή και την τυπική απόκλιση του πληθυσµού:
µ=
ν 1 µ 1 + ν 2 µ 2 70 * 5,4 + 30 * 5,06667
=
= 5, 3
ν1 + ν 2
100
2
σ2 =
2
ν 1 (µ 1 − µ ) 2 + ν 2 ( µ 2 − µ ) 2 ν 1 σ 1 + ν 2 σ 2
+
=
ν1 + ν 2
ν1 + ν 2
70(5,4 − 5,3) 2 + 30(5,06667 − 5,3) 2 + 70 * 3,7757 + 30 * 2,74556
=
=
100
349
=
= 3,49
⇒
100
σ = 3,49 = 1,868
85
B.3.5. Ο Μετασχηµατισµός Ζi.
Η παράγραφος αυτή αποτελεί συστηµατοποίηση των όσων ειπώθηκαν στην
προηγούµενη παράγραφο Β.3.4. Αφορά έναν συγκεκριµένο µετασχηµατισµό ο οποίος,
πέραν του ότι µας διευκολύνει συχνά στις πράξεις, αποτελεί τελικά ένα απαραίτητο
εργαλείο στην κατανόηση της Κανονικής κατανοµής της Πιθανότητας (ιδιαίτερα
σηµαντικό κεφάλαιο της Στατιστικής).
Ορισµός Β.13.
Έστω η τυχαία µεταβλητή Χi , i=1,2,...,ν µε µέση τιµή µ=µx και τυπική
απόκλιση σ=σx. Οι τιµές:
Zi =
Xi − µ Χ
σΧ
λέγονται τυπικές τιµές που αντιστοιχούν στις τιµές Χi.
Παρατηρήσεις:
1η) Με βάση τα όσα ειπώθηκαν στην προηγούµενη παράγραφο (Β.3.4) αλλά
και το παράδειγµα Β.3, έχουµε πως οι Ζ-τιµές έχουν µέση τιµή το µηδέν και τυπική
απόκλιση τη µονάδα. ∆ηλαδή:
µz = 0 και σz = 1
2η) Oι τιµές Ζi είναι καθαροί αριθµοί (απαλλαγµένοι από τις µονάδες των τιµών
Χi, όπως είδαµε στην παρατήρηση του Παραδείγµατος Β.3.). Συχνά καλούνται και
τυπικές τιµές των τιµών Χi.
3η) Η τυχαία µεταβλητή Ζi είναι µια τυχαία µεταβλητή που διατηρεί απόλυτα τη
"φόρµα" της τυχαίας µεταβλητής Χi. Η διατήρηση της "φόρµας" γίνεται φενερή από
τα διαγράµµατα των συχνοτήτων:
Εάν "σµπρώξουµε" το διάγραµµα των τιµών Χi, έτσι ώστε να έχει µέση τιµή το
0 και, στη συνέχεια υιοθετήσουµε σαν µονάδα στον άξονα των κλάσεων την τυπική
απόκλιση, τότε προκύπτει το διάγραµµα των τιµών Ζi.
86
fi
-s
0
s
m
-
s
m
m +
s
Σχ.Β.11. Η κατανοµή των τυπικών τιµών Ζ είναι ακριβώς η ίδια µε
αυτή των τιµών Χ. Μόνο που η καµπύλη, χωρίς να µεταβάλλει τη µορφή της,
µετακινείται στο κέντρο των αξόνων και έχει µονάδα στον άξονα των κλάσεων το 1(σ).
B.3.6. Υπολογισµός της µέσης τιµής και της διακύµανσης
µε τη βοήθεια των Μετασχηµατισµών.
Οι µετασχηµατισµοί µας επιτρέπουν να αποφύγουµε τη χρήση πολύ µεγάλων
αριθµών, κατά τον υπολογισµό του αριθµητικού µέσου και της διακύµανσης κάποιων
τιµών Χi.
Aς επιστρέψουµε, για άλλη
µια φορά στο παράδειγµα Β.1 και
ας υπολογίσουµε το µέσο όρο µ
και την τυπική απόκλιση σ των
υψών των 60 νέων. Παίρνοντας
λοιπόν τα στοιχεία του κοινού
πίνακα (αγοριών και κοριτσιών),
κατασκευάζουµε το διπλανό πίνακα, που θα µας βοηθήσει στον
υπολογισµό των µ και σ.
Έχουµε λοιπόν:
Χi
fi
f i Xi
f i Xi 2
155
160
165
170
175
180
185
190
195
4
11
7
8
9
11
5
3
2
620
1760
1155
1360
1575
1980
925
570
390
96100
281600
190575
231200
275625
356400
171125
108300
76050
10335
1786975
9
∑f X
j
µ=
j= 1
ν
j
=
10335
= 172,25
60
Σύνολο
87
9
∑f X
j
σ2 =
2
j
j= 1
− µ2 =
ν
1786975
− 172,25 2 = 112,854
60
σ = 112,854 = 10,623
Παρατηρούµε πως οι τιµές που προκύπτουν στο άθροισµα των τετραγώνων
είναι ιδιαίτερα µεγάλες, τόσο που ίσως να είναι προτιµότερο να υπολογίσουµε την
διακύµανση από τον τύπο: σ2 = [Σfi(Xi-µ)2]/ν
2η λύση:
Το πρόβληµα γίνεταιv απλούστερο
εάν από κάθε τιµή Χi αφαιρέσουµε µία
τιµή, έτσι ώστε οι τιµές Χi να µειωθούν
αισθητά. Επαναλαµβάνουµε τον προηγούµενο υπολογισµό, µε τις νέες τιµές
(Yi), διορθώνοντας στο τέλος τα αποτελέσµατα.
Στο διπλανό λοιπόν πίνακα οι νέες
τιµές προκύπτουν από τις Χ µε την αφαίρεση του 155 (το οποίο είναι η πρώτη
τιµή των Χ).
Yi =
Xi-155
fi
f i Yi
f i Yi 2
0
5
10
15
20
25
30
35
40
4
11
7
8
9
11
5
3
2
0
55
70
120
180
275
150
105
80
0
275
700
1800
3600
6875
4500
3675
3200
1035
24625
Έχουµε λοιπόν:
9
∑f Y
j
µY =
j
j= 1
=
ν
9
∑f Y
j
σ 2Y =
j= 1
ν
1035
= 17,25
60
Σύνολο
2
j
− µ 2Y =
24625
− 17,25 2 = 112,854
60
σ = 112,854 = 10,623
Από τις τιµές Χi αφαιρέσαµε την τιµή 155. Σύµφωνα µε την 3η ιδιότητα της
παραγράφου Β.3.4, ο µέσος όρος των τιµών Yi θα είναι µικρότερος κατά 155 απ'αυτόν
των τιµών Χ, ενώ οι δύο τυπικές αποκλίσεις θα είναι ίσες. ∆ιορθώνοντας λοιπόν τις
τιµές έχουµε:
και
µΧ = µΥ + 155 = 17.25 + 155 = 172.25
σΧ = σΥ = 10.623
Όπως διαπιστώνουµε συγκρίνοντας τα αποτελέσµατα µ'αυτά του προηγούµενου
υπολογισµού, είναι ακριβή.
88
3η λύση:
Η τρίτη λύση, που είναι και η πλέον
εύκολη και χρήσιµη, στηρίζεται στο µετασχηµατισµό:
Zj =
Xj − α
β
όπου το α ισούται µε την τιµή της µεσαίας
κλάσης (α=175), και το β µε το εύρος ε
των κλάσεων.
Έχουµε λοιπόν:
Zj =
X j − 175
5
και µε το µετασχηµατισµό αυτό παίρνουµε
το διπλανό πίνακα τιµών, που περιέχει και
τις µικρότερες τιµές.
Ζi
fi
f i Ζi
f i Ζi 2
-4
-3
-2
-1
0
1
2
3
4
4
11
7
8
9
11
5
3
2
-16
-33
-14
-8
0
11
10
9
8
64
99
28
8
0
11
20
27
32
-33
289
Σύνολο
9
∑f Z
j
µZ =
j
j= 1
=
ν
9
∑f Z
j
σ 2Y =
− 33
= −0.55
60
2
j
j= 1
ν
− µ 2Z =
289
2
− (− 0.55 ) = 4.51417
60
σ = 4.51417 = 2.12466
Στην παράγραφο Β.3.4. δινόταν ο µέσος όρος µΖ απ’τον µΧ. Τώρα, λύνοντας τη
σχέση αυτή ως προς µΧ, βρίσκουµε τη σχέση:
µΖ =
µΧ − α
β
⇔
µΧ = β *µΖ + α
οπότε
µ Χ = ε * µ Ζ + Χ µεσαίο = 5 * µ Ζ + 175 = 5( −0,55) + 175 = 172,25
όµοια απ’την αντίστοιχη σχέση για τις τυπικές αποκλίσεις έχουµε:
σΖ =
σΧ
β
⇔
σΧ = β* σΖ
οπότε
σ Χ = ε * σ Ζ = 5 * 2,12466 \ 10,623
Για άλλη µια φορά υπολογίσαµε τις παραµέτρους µ και σ των τιµών Χi, αλλά µε
πολύ ευκολότερες πράξεις.
89
Παρατήρηση: Ο µετασχηµατισµός Ζi χρησιµοποιείται όταν το εύρος ε των
κλάσεων διατηρείται σταθερό και στις κ-κλάσεις. Η επιλογή όµως των τιµών των
παραµέτρων α και β του µετασχηµατισµού εξαρτάται από το κ. Ισχύει λοιπόν ο
γενικός κανόνας:
περιττός
Το α ισούται µε τη µεσαία κλάση.
Το β ισούται µε το κοινό έυρος των κλάσεων ε.
κ
άρτιος
Το α ισούται µε το ηµιάθροισµα των 2 µεσαίων κλάσεων.
Το β ισούται µε το ήµισυ του κοινού εύρους (ε/2).
Β.3.7. Συντελεστής µεταβλητότητας.
Με το συντελεστή µεταβλητότητας γίνεται µία προσπάθεια να εκτιµηθεί το
µέγεθος της τυπικής απόκλισης σ των τιµών Χi, όχι σε απόλυτες τιµές αλλά σε σχέση
µε το µέγεθος της µέσης τιµής των δεδοµένων.
Ορισµός Β.14.
Έστω οι (θετικές) µετρήσεις Χi, µε µέση τιµή το µΧ και τυπική απόκλιση σΧ.
Ονοµάζουµε συντελεστή µεταβλητότητας έναν καθαρό αριθµό, που προκύπτει από το
λόγο της τυπικής απόκλισης, προς το µέσο όρο των µετρήσεων.
CV =
σΧ
µΧ
Συχνά ο συντελεστής µεταβλητότητας υπολογίζεται σαν ποσοστό επί τοις
εκατό:
CV(%) = 100
σΧ
µΧ
Παρατηρήσεις:
1η) Ο συντελεστής µεταβλητότητας δίνει, σε τελική ανάλυση, τη σηµαντικότητα
της τυπικής απόκλισης, σε σχέση µε το µέγεθος των µετρήσεων στις οποίες αντιστοιχεί
(αντιπρόσωπος των οποίων είναι ο µέσος τους όρος).
90
2η) Έστω οι δύο τυχ.µεταβλητές Χi και Yi, οι οποίες αντιστοιχούν σε δύο
διαφορετικούς πληθυσµούς. Οι τυπικές αποκλίσεις σΧ και σΥ, δεν είναι συγκρίσιµες,
διότι δεν µετριούνται µε τις ίδιες µονάδες. Αντίθετα οι συντελεστές CV(Χ) και
CV(Y), σαν καθαροί αριθµοί (Απαλλαγµένοι από τις µονάδες των µετρήσεων Χi
καιYi), είναι απόλυτα συγκρίσιµοι.
3η) Ο συντελεστής µεταβλητότητας CV(X) δεν έχει φυσική σηµασία εάν οι
µετρήσεις Χi δεν είναι όλες θετικοί αριθµοί.
Παράδειγµα.
Εξετάσαµε τους 28 γνωστότερους ατµοσφαιρικούς κινητήρες παραγωγής των
αυτοκινήτων, µε κυβισµό 1400 cm3, ως προς την ιπποδύναµη. Στη συνέχεια κάναµε το
ίδιο για τους 34 γνωστότερους των 2000 cm3.
Ο µέσος όρος και η τυπική απόκλιση
της ιπποδύναµης των µικρών κινητήρων βρέθηκαν:
και σ1.4=10.8 ίπποι Din.
µ1.4=80
και των µεγάλων κινητήρων:
µ2,0=137 και σ2,0=13.3 ίπποι Din.
Σε ποιό κυβισµό η ιπποδύναµη των κινητήρων έχει µεγαλύτερη σχετική
διασπορά;
Ο συντελεστής µεταβλητότητας (που συχνά λέγεται και συντελεστής σχετικής
διασποράς) δίνει µια ικανοποιητική απάντηση στο προηγούµενο ερώτηµα. Έχουµε
λοιπόν:
CV(1.4) = 100
10.8
= 13.5 %
80
CV( 2.0) = 100
13.3
= 9 .7 %
137
Παρατηρούµε πως η απόδοση των µεγάλων κινητήρων είναι πιο οµοιογενής
απ’αυτήν των µικρότερων κινητήρων.
91
Β.4. ΠΑΡΑΜΕΤΡΟΙ ∆ΕΙΓΜΑΤΩΝ.
Β.4.1. Γενικά.
Σύµφωνα µε τα όσα έχουµε πει ήδη για τα δείγµατα και τη δειγµατοληψία, στο
πρώτο κεφάλαιο των σηµειώσεων αυτών, έχουµε πάρει µια ιδέα για τη χρησιµότητα
των δειγµάτων. Ας ανακεφαλαιώσουµε:
Έστω ένας πληθυσµός Ω, αποτελούµενος από ν στοιχεία και µία τυχαία
µεταβλητή Χi, της οποίας µας ενδιαφέρουν οι τιµές, στα ν στοιχεία του πληθυσµού.
Το κύριο (και καίριο) πρόβληµα που αντιµετωπίζουµε είναι το να
προσδιορίσουµε τις δύο παραµέτρους που εκφράζουν, µε τρόπο ικανοποιητικό,
την συµπεριφορά της τυχ. µεταβλητής Χ στα στοιχεία του πληθυσµού. Πρόκειται
βέβαια για την µέση τιµή (µ) και τη διακύµανση (σ2) ή την τυπική απόκλιση (σ),
των τιµών Χi.
Η έλλειψη όµως χρόνου, χρηµάτων ή άλλων παραγόντων δεν επιτρέπουν την
καταµέτρηση της τιµής της τυχ.µεταβλητής Χ, σ'όλα τα στοιχεία του πληθυσµού.
Είµαστε λοιπόν υποχρεωµένοι να προσεγγίσουµε τις τιµές µ και σ2 µε τη βοήθεια των
µετρήσεων που θα διενεργήσουµε σ'ένα δείγµα από τον συνολικό πληθυσµό.
Β.4.2. Αµερόληπτες δειγµατικές εκτιµήτριες παράµετροι.
Μία παράµετρος του δείγµατος που προσεγγίζει τον µέσο όρο (ή την
διακύµανση) του πληθυσµού λέγεται αµερόληπτη εκτιµήτρια του µέσου όρου (ή της
διακύµανσης). Τίθεται λοιπόν το ερώτηµα: "Τί σηµαίνει πως µία παράµετρος
προσεγγίζει την τάδε παράµετρο του πληθυσµού;" Ας δούµε τα επόµενα...
Έστω ο πληθυσµός των ν στοιχείων και ένα δείγµα κ στοιχείων. Ορίζουµε στη
συνέχεια όλα τα δυνατά δείγµατα (χρησιµοποιώντας τη δειγµατοληψία µε επανάθεση)
των κ στοιχείων, των οποίων το πλήθος δίνεται από τη σχέση της παραγράφου Α.2.4.
Πλήθος δειγµάτων = Κ = νκ (= ε∆νκ)
Στο κάθε ένα απ'αυτά τα δείγµατα ορίζουµε µία παράµετρο χj, την οποία
ονοµάζουµε µέση τιµή του j-οστού δείγµατος.
Έχουµε εποµένως Κ τέτοιες
παραµέτρους τις οποίες ονοµάζουµε δειγµατικούς µέσους. Εάν ο µέσος όρος των Κ
δειγµατικών µέσων τιµών είναι ίσος µε το µέσο όρο µ του πληθυσµού, τότε λέµε πως η
εν λόγω δειγµατική παράµετρος είναι αµερόληπτη εκτιµήτρια για τον µέσο όρο του
πληθυσµού.
92
Ορισµός Β.14.
Αποδεικνύεται(8) πως οι δειγµατικές παράµετροι x και s2, οι οποίες ορίζονται
από τις παρακάτω σχέσεις, είναι αµερόληπτοι εκτιµητές του αριθµητικού µέσου (µ) και
της διακύµανσης (σ2) του πληθυσµού.
X 1 + X 3 + ... + X ν δ
x=
νδ
(X1 − x )2 + (X 2 − x )2 + ... + (X ν
s =
2
δ
−x
νδ − 1
)
2
=
Χ 1 + Χ 1 + ... + Χ ν δ
νδ − 1
−
νδ
x2
νδ − 1
όπου νδ είναι το πλήθος των στοιχείων του δείγµατος(9).
Όταν τα δεδοµένα δίνονται καταταγµένα σε κλάσεις οι προηγούµενες σχέσεις
γίνονται:
x=
f 1 X 1 + f 1 X 3 + ... + f ν δ X ν δ
s =
2
=
νδ
(f 1 X 1 − x )2 + (f 2 X 2 − x )2 + ... + (X ν
δ
− f νδ x
νδ − 1
f 1 X 1 + f 2 X 2 + ... + f ν δ X ν δ
νδ − 1
−
)
2
=
νδ
x2
νδ − 1
όπου νδ είναι πάντα το πλήθος των στοιχείων του δείγµατος.
Προκύπτει στη συνέχεια το εξής ερώτηµα: Οι παράµετροι x του κάθε δείγµατος
έχουν, ως γνωστό, µέσο όρο τη µέση τιµή µ του πληθυσµού, όµως ποιά είναι η
διακύµανσή τους γύρω από το µ; Σαν απάντηση έχουµε τον επόµενο σηµαντικότατο
ορισµό.
8
Η απόδειξη της πρότασης αυτής υπάρχει σε αρκετά συγγράµµατα Στατιστικής. π.χ. στην
Εφαρµοσµένη Στατιστική του ∆.Π.Ψωινού (1985-Εκδόσεις Ζήτη).
9
Ο δεύτερος τύπος για τη διακύµανση (όπως και ο αντίστοιχος στους επόµενους τύπους που
ισχύουν για δεδοµένα σε κλάσεις) προκύπτουν όπως και ο αντίστοιχος τύπος:
σ2 = Σ(Χi2)/ν - µΧ2.
93
Ορισµός Β.15.
Η διακύµανση των δειγµατικών µέσων όρων x j , των δειγµάτων µε νδ στοιχεία,
γύρω από τη µέση τους τιµή µ (του πληθυσµού), ισούται µε το πηλίκο της διακύµανσης
σ2 του πληθυσµού διά του πλήθους των στοιχείων νδ των δειγµάτων. Η τετραγωνική
ρίζα της ποσότητας αυτής (δηλαδή η τυπική απόκλιση των δειγµατικών µέσων) συχνά
καλείται τυπικό σφάλµα του δειγµατικού αριθµητικού µέσου:
σ
2
x
σ2
=
νδ
Παρατηρήσεις:
1η) Καταλήγουµε στον απλό κανόνα ο οποίος λέει πως στον υπολογισµό της
διακύµανσης ενός πληθυσµού, χρησιµοποιούµε τον τύπο του σ2, ενώ στον υπολογισµό
της διακύµανσης ενός δείγµατος, χρησιµοποιούµε τον τύπο του s2.
2η) Στους υπολογιστές τσέπης που έχουν και Στατιστικές συναρτήσεις, ο
συµβολισµός των δύο τυπικών αποκλίσεων συµβολίζεται είτε όπως και εδώ (δηλαδή σ
και s), είτε µε τα σn και σn-1, για ευνόητους λόγους.
3η) H τυπική απόκλιση των δειγµατικών µέσων όρων χj, την οποία ονοµάσαµε
και τυπικό σφάλµα των δειγµατικών µέσων όρων, είναι ένας σηµαντικός δείκτης για το
πόσο κοντά στο µέσο όρο του πληθυσµού περιµένουµε να βρίσκεται ο µέσος όρος ενός
δείγµατος.
Πράγµατι, ας υποθέσουµε πως ο µέσος όρος του πληθυσµού είναι ο µ, που είναι
άγνωστος.
Εµείς επιλέγουµε ένα δείγµα αποτελούµενο από νδ στοιχεία, και
βρίσκουµε τον µέσο όρο, καθώς και την τυπική απόκλιση του δείγµατος:
x και s.
Για να υπολογίσουµε το τυπικό σφάλµα των δειγµατικών µέσων όρων
χρειαζόµαστε την τυπική απόκλιση (σ) του πληθυσµού Ω, την οποία όµως δεν
γνωρίζουµε. Έτσι την αντικαθιστούµε µε την τυπική απόκλιση του δείγµατος s, που
είναι ό,τι καλύτερο διαθέτουµε...
σx =
σ
≈
νδ
s
νδ
Σύµφωνα εποµένως µε τα όσα είπαµε στο προηγούµενο κεφάλαιο, ο
δειγµατικός µέσος δεν µπορεί να βρίσκεται οπουδήποτε, µα κάπου κοντά στο µέσο όρο
των δειγµατικών µέσων. Μάλιστα είναι γνωστό πως το 95% των δειγµατικών µέσων
θα πρέπει να βρίσκονται στο διάστηµα:
( µ − 2σ x , µ + 2σ x )
94
Αντιστρέφοντας λοιπόν το συλλογισµό µας, δηλώνουµε πως ο δειγµατικός
µέσος όρος που υπολογίσαµε, έχει 95% πιθανότητα να µην απέχει από τον
άγνωστο µέσο όρο του πληθυσµού, περισσότερο από 2 σ x .
Από τον τύπο του τυπικού σφάλµατος του δειγµατικού µέσου όρου γίνεται
φανερό πως όσο µεγαλύτερο είναι το πλήθος των στοιχείων του δείγµατος (νδ), τόσο
µεγαλύτερος θα είναι ο παρονοµαστής του κλάσµατος, οπότε τόσο µικρότερο θα είναι
το τυπικό σφάλµα του δειγµατικού µέσου. Άρα, ο µέσος όρος του δείγµατος θα
αποτελεί καλύτερη προσέγγιση του πληθυσµιακού µέσου.
Παράδειγµα Β.5.
Θα προσπαθήσουµε να δείξουµε ό,τι αναφέρθηκε πιο πάνω, µε τη βοήθεια ενός
παραδείγµατος. Έστω λοιπόν ο πληθυσµός Ω που αποτελείται από τα στοιχεία:
Ω = { 1,3,4,7 }
Θα αναζητήσουµε όλα τα δείγµατα
των δύο στοιχείων που δηµιουργούνται
από τα 4 στοιχεία του πληθυσµού.
Αρχικά θα υιοθετήσουµε τη δειγµατοληψία µε επανάθεση. Στην περίπτωση αυτή το πλήθος των δειγµάτων
είναι ίσο µε:
Κ = ε∆42 = 42 = 16
Στο διπλανό πίνακα εµφανίζονται
όλα τα δείγµατα των δύο στοιχείων.
Στις επόµενες στήλες υπάρχουν οι παράµετροι x , σ2 και s2 κάθε δείγµατος.
Έχουµε λοιπόν:
i) Για τον πληθυσµό:
µ=
1 + 3 + 4 + 7 15
= 3,75
=
4
4
και
σ
2
2
2
(
1 − 3,75 ) + ... + (7 − 3,75 )
=
4
= 4,678
∆είγµα
x
σ2
s2
1,1
1,3
1,4
1,7
3,1
3,3
3,4
3,7
4,1
4,3
4,4
4,7
7,1
7,3
7,4
7,7
1
2
2.5
4
2
3
3.5
5
2.5
3.5
4
5.5
4
5
5.5
7
0
1
2.25
9
1
0
0.25
4
2.5
0.25
0
2.25
9
4
2.25
0
0
2
4.5
18
2
0
0.5
8
4.5
0.5
0
4.5
18
8
4.5
0
Σύνολο
60
37.5
75
95
ii) Για τα δείγµατα έχουµε:
Ο µέσος όρος των δειγµατικών µέσων όρων:
µx =
1 + 2 + 2.5 + ... + 5.5 + 7 60
= 3.75
=
16
16
Το αποτέλεσµα αυτό είναι βέβαια σύµφωνο µε την προηγούµενη δήλωση
σύµφωνα µε την οποία ο δειγµατικός µέσος όρος είναι αµερόληπτος εκτιµητής του
πληθυσµιακού µέσου όρου.
Υπολογίζοντας τώρα την διακύµανση των δειγµατικών µέσων όρων x , γύρω
από το µέσο όρο τους µ, έχουµε:
σ
2
Χ
2
2
2
2
(
1 − 3,75 ) + (2 − 3,75 ) + (2,5 − 3,75) + ... + (7 − 3,75 )
=
16
=
37,5
= 2,34375
16
Και εδώ επιβεβαιώνεται ο αντίστοιχος ορισµός (B.14), µια και η διακύµανση
των δειγµατικών µέσων όρων είναι η µισή της διακύµανσης του πληθυσµού.
σ 1 4,6875
= 2,34375
σ =
=
2
2
2
Χ
Τώρα θα υπολογίσουµε τη µέση τιµή των δειγµατικών σ2 και s2.
( )
0 + 1 + 2,25 + ... + 2,25 + 0 37,5
= 2,34375
=
16
16
( )
0 + 2 + 4,5 + ... + 4,5 + 0 75
= 4.6875
=
16
16
µ σ2 =
και
µ s2 =
Παρατηρούµε και εδώ πως η δειγµατική διακύµανση s2 είναι αµερόληπτος
εκτιµητής της διακύµανσης σ2 του πληθυσµού, κάτι που δεν συµβαίνει µε την
παράµετρο σ2 των δειγµάτων(10).
Το ότι η µέσος όρος των δειγµατικών σ2 είναι το ήµισυ της πληθυσµιακής διακύµανσης σ2 (και
εποµένως ίση µε την διακύµανση των δειγµατικών µέσων όρων), είναι συµπτωµατικό και
οφείλεται στο πλήθος των στοιχείων (2) των δειγµάτων. Εάν αυτό µεταβληθεί, εάν δηλαδή
πάρουµε δείγµατα των 3 στοιχείων, τότε η ισότητα αυτή δεν θα ισχύει.
10
96
Παράδειγµα Β.6.
Τώρα θα κάνουµε ακριβώς την ίδια
δουλειά για δειγµατοληψία χωρίς επανάθεση. Τώρα το πλήθος των διαφορετικών
δειγµάτων είναι ίσο µε:
Κ = ∆42 = 4!/2! = 12
Στο διπλανό πίνακα εµφανίζονται
όλα τα δείγµατα των δύο στοιχείων.
Στις επόµενες στήλες υπάρχουν οι παράµετροι χ, σ2 και s2 κάθε δείγµατος.
Ο µέσος όρος των δειγµατικών µέσων
σων όρων:
µΧ =
2 + 2,5 + ... + 5,5 45
= 3,75
=
12
12
∆είγµα
µ
σ2
s2
1.3
1.4
1.7
3.1
3.4
3.7
4.1
4.3
4.7
7.1
7.3
7.4
2
2.5
4
2
3.5
5
2.5
3.5
5.5
4
5
5.5
1
2.25
9
1
0.25
4.
2.25
0.25
2.25
9
4
2.25
2
4.5
18
2
0.5
8
4.5
0.5
4.5
18
8
4.5
Σύνολο
45
37.5
75
Κι' αυτό το αποτέλεσµα αυτό είναι σύµφωνο µε την προηγούµενη δήλωση κατά
την οποία ο δειγµατικός µέσος όρος είναι αµερόληπτος εκτιµητής του πληθυσµιακού
µέσου όρου. Στην περίπτωση αυτή όµως (δειγµατοληψία χωρίς επανάθεση) τίποτε
άλλο δεν ισχύει. Οι µέσοι όροι των δειγµατικών σ2 και s2 είναι:
( )
1 + 2,25 + ... + 4 + 2,25 37,5
= 3.125
=
12
12
( )
2 + 4,5 + ... + 8 + 4,5 75
= 6.25
=
12
12
µ σ2 =
και
µ s2 =
από τα οποία κανένα δεν είναι ίσο µε την διακύµανση του πληθυσµού (4.6875).
97
Β.4.3. Γενικό παράδειγµα.
Ζητήσαµε από 200 Θεσσαλονικείς, επιλεγµένους κατά τρόπο τυχαίο, να µας
δηλώσουν τους φορολογίσιµους ίππους του αυτοκινήτου τους.
Τα στοιχεία που
συλλέξαµε φαίνονται στον επόµενο πίνακα.
Ζητούνται:
i) Ο υπολογισµός του µέσου όρου και της
τυπικής απόκλισης των δεδοµένων του
διπλανού πίνακα.
ii) Να υπολογισθεί το τυπικό σφάλµα που
αντιστοιχεί στο µέσο όρο του δείγµατος
που µόλις υπολογίσαµε.
iii) Να δοθεί ένα διάστηµα τιµών, στο
εσωτερικό του οποίου να ανήκει ο µέσος
όρος του πληθυσµού, µε πιθανότητα 95%.
Φορ.ίπποι
Χi
Συχνότητα
fi
7
8
9
10
11
12
13
14
10
35
60
50
20
7
3
15
Λύση:
i) Για λιγότερες πράξεις, καταφεύγουµε στο γνωστό µετασχηµατισµό:
Zj =
Xj − α
β
=
X j − 10,5
(11)
0.5
Έτσι φθάνουµε στο διπλανό πίνακα.
Έχουµε λοιπόν για το µέσο όρο:
z=
∑f X
j
ν
j
=
− 314
= −1,57
200
Χi
fi
Zi
f i Zi
f i Zi 2
7
8
9
10
11
12
13
14
10
35
60
50
20
7
3
15
-7
-5
-3
-1
1
3
5
7
-70
-175
-180
-50
20
21
15
105
490
875
540
50
20
63
75
735
-314
2848
200
οπότε ο µέσος όρος των Χ(12):
µΧ = β z + α = 0.5*(-1.57) + 10.5 = 9.715
Όµοια υπολογίζουµε την τυπική απόκλιση, ξεκινώντας από τον υπολογισµό της
διακύµανσης των Ζ-τιµών. ∆εν λησµονούµε βέβαια πως πρόκειται για δείγµα, οπότε η
διακύµανση είναι η s2 αντί της σ2:
11
Όπου πήραµε σαν β το µισό του εύρους της κάθε κλάσης (β/2=1/2), έτσι ώστε τα Ζ που θα
προκύψουν να είναι ακέραιοι αριθµοί.
12
Η σχέση που ακολουθεί, όπως και η επόµενη που συνδέει τις τυπικές αποκλίσεις σΧ και sX,
προκύπτει από την 4η ιδιότητα των µετασχηµατισµών, της παραγράφου Β.3.4.
98
s 2Z =

νδ
1  νδ
1
200
2
(− 1.57 )2 = 11.83427
z2 =
2848 −
∑ f j X ξ  −
ν δ − 1  j= 1
199
199
 νδ − 1
και
sZ = 1183427
.
= 3.44
οπότε η τυπική απόκλιση των τιµών Χ δίνεται από τη σχέση:
sX = β*sΖ = 0.5*3.44 = 1.72
ii) Να θυµίσουµε στη συνέχεια πως ονοµάζουµε τυπικό σφάλµα του
δειγµατικού µέσου όρου, την τυπική απόκλιση των δειγµατικών µέσων όρων όλων των
διαφορετικών δειγµάτων, των οποίων το πλήθος των στοιχείων είναι ίσο µε το νδ. Το
τυπικό σφάλµα των δειγµατικών µέσων δίνεται σαν συνάρτηση της τυπικής απόκλισης
(σ) του πληθυσµού. Όπως όµως ειπώθηκε ήδη (στην 3η παρατήρηση της παραγράφου
Β.4.2), αντικαθιστούµε την άγνωστη τυπική απόκλιση σ, µε την τυπική απόκλιση του
δείγµατος s. Έχουµε λοιπόν:
σx =
σ
≈
νδ
s
1.72
=
0 . 1216
νδ
200
iii) Σύµφωνα πάντα µε την ίδια παρατήρηση (3η της Β.4.2) το 95% των
δειγµατικών µέσων όρων θα περιέχεται στο διάστηµα:
( µ − 2σ x , µ + 2σ x ) = (µ-2*0.1216 , µ+2*0.1216) = (µ-0,2432 , µ+0.2432)
Άρα, και ο µέσος όρος του δείγµατος που µόλις υπολογίσαµε, έχει 95%
πιθανότητα να ανήκει στο διάστηµα αυτό. Επειδή όµως τον µέσο όρο του πληθυσµού
(µ) δεν τον γνωρίζουµε, αντιστρέφοντας λοιπόν τη λογική της προηγούµενης
πρότασης, δηλώνουµε πως υπάρχει 95% πιθανότητα, ο άγνωστος πληθυσµιακός µέσος
όρος να ανήκει στο διάστηµα:
( x − 2σ x , x + 2σ x ) = (9.715-2*0.1216 , 9.715+2*0.1216) ⇒
µ ∈ (9.47 , 9.96)
µε πιθανότητα 95%.
Πιστεύουµε πως η 3η παρατήρηση της παραγράφου Β.4.2, όπως βέβαια και η
απάντηση στο (iii) ερώτηµα του τρέχοντος παραδείγµατος, πρέπει να προσεχθούν
ιδιαίτερα, µια και στην ουσία είναι η πρώτη φορά κατά την οποία βγάζουµε
συµπεράσµατα για το γενικό (εκτίµηση του διαστήµατος στο οποίο πρέπει να ανήκει ο
πληθυσµιακός µέσος όρος), από το µερικό (από τα δεδοµένα ενός δείγµατος).
99
Β.5. ΡΟΠΕΣ.
Β.5.1. Ροπές των τιµών µιας τυχ.µεταβλητής.
Ορισµός Β.16.
Έστω η τυχαία µεταβλητή Χi, i=1,2,..,ν. Ονοµάζουµε ροπή τάξης t των τιµών
αυτών, γύρω από την τιµή α, την ποσότητα:
Pα ,t =
(X 1 − α )t + (X 2 − α )t + ... + (X ν − α )t
ν
1 ν
= ∑ Xj − α
ν j= 1
(
)
t
Εποµένως η ροπή Ρα,t(Χi) ισούται µε το µέσο όρο «των αλγεβρικών
αποστάσεων της κάθε µιας τιµής Χi, από κάποια σταθερά α, υψωµένων εις την t».
Όπως θα δούµε στις ιδιότητες των ροπών, αλλά και όπως µπορείτε να
βεβαιωθείτε και µόνοι σας χρησιµοποιώντας τον τύπο του προηγούµενου ορισµού, ο
αριθµητικός µέσος µ των τιµών Χi είναι η ροπή πρώτης τάξης γύρω από το µηδέν, ενώ
η διακύµανση σ2 είναι η ροπή δεύτερης τάξης γύρω από τον µέσο όρο µ.
Οι ροπές που χρησιµοποιούνται συνήθως, είναι οι ροπές µε κέντρο το µηδέν
(α=0) και οι ροπές µε κέντρο τον αριθµητικό µέσο µ των τιµών Χi (α=µ). Οι ροπές
µε κέντρο το µηδέν συµβολίζονται µε το µt(X), ενώ αυτές µε κέντρο τον µέσο όρο, µε
το Vt(X). Έχουµε λοιπόν τους τύπους:
i) Όταν έχουµε αναλυτικά δεδοµένα: Xi, i=1,2,..,ν
X 1t + X 1t + ... + X 1t 1 ν
t
µ t (X j ) =
= ∑ Xj
ν
ν j= 1
και
Vt ( X j ) =
(X 1 − µ )t + (X 2 − µ )t + ... + (X ν − µ )t
ν
1 ν
= ∑ Xj − µ
ν j= 1
(
)
t
ii) Όταν τα δεδοµένα δίνονται σε κ κλάσεις: Xi, i=1,2,..,κ , όπου βέβαια η
συχνότητα της i-οστης κλάσης συµβολίζεται µε το fi.
µ t (X j ) =
f 1 X 1t + f 1 X 1t + ... + f κ X tκ 1 κ
t
= ∑ f1 X j
ν
ν j= 1
και
f (X − µ ) + f 2 (X 2 − µ ) + ... + f κ (X κ − µ )
1 κ
Vt ( X j ) = 1 1
= ∑fj Xj − µ
ν
ν j= 1
t
t
t
(
)
t
100
Β.5.2. Ιδιότητες των ροπών.
i)
Το µο είναι ίσο µε τη µονάδα,
το µ1 είναι ο αριθµητικός µέσος µ, των τιµών Χi, ενώ
το µt είναι ο αριθµητικός µέσος µ(Χt), των ποσοτήτων Xit.
Πράγµατι:
X 10 + X 02 + ... + X 0ν 1 + 1 + ... + 1 ν
= =1
=
ν
ν
ν
1
1
1
X + X 2 + ... + X ν Χ 1 + Χ 2 + ... + Χ ν
µ1 (X j ) = 1
=
= µΧ
ν
ν
X t + X t2 + ... + X tν
µ t (X j ) = 1
= µ Χt
ν
µ 0 (X j ) =
( )
Πιστεύουµε πως το ότι η ροπή µt(X) είναι ο µέσος όρος των τιµών Χit,
δικαιολογεί και τον συµβολισµό που επιλέξαµε για την ροπή t-τάξης µε κέντρο το
µηδέν...
ii) Το Vo είναι ίσο µε τη µονάδα,
το V1 είναι ίσο µε το µηδέν, ενώ
το V2 είναι η διακύµανση σ2 των τιµών Χi, γύρω από το µέσο όρο τους, µ
.
Πράγµατι:
V0 ( X j ) =
(X 1 − µ )0 + (X 2 − µ )0 + ... + (X ν − µ )0
=
1 + 1 + ... + 1
=1
ν
ν
(X 1 − µ ) + (X 2 − µ )1 + ... + (X ν − µ )1 0
V1 ( X j ) =
= =0
ν
ν
2
2
2
(X − µ ) + (X 2 − µ ) + ... + (X ν − µ )
V2 ( X j ) = 1
= σ 2Χ
ν
1
(13)
Το ότι η ροπή V2(X) είναι ίση µε την διακύµανση (Variance), δικαιολογεί και
πάλι τον συµβολισµό που υιοθετήθηκε.
13
Η γνωστή Ιδιότητα του µέσου όρου (i): Σ(Xi-µ) = 0.
101
iii) Με την ιδιότητα αυτή θα διερευνήσουµε τη συµπεριφορά των ροπών στους
γραµµικούς µετασχηµατισµούς. Έστω η τυχαία µεταβλητή Χi, i=1,2,..,ν. Τώρα στις
τιµές Χi προσθέτουµε τον ίδιο σταθερό πραγµατικό αριθµό c, ή τις πολλαπλασιάζουµε
µε τη σταθερά c. Tότε οι τυχ. µεταβλητές Yi και Ri που προκύπτουν είναι οι:
Yi = Xi+c , i=1,2,...,ν
και
Ri = cXi , i=1,2,...,ν
Η σχέση ανάµεσα στις ροπές Vt των τιµών Χ, Y και R δίνεται από τον
παρακάτω πίνακα:
Τυχ. µεταβλητή
Xi
Yi = Xi+c
Ti = cXi
Vt
µt
µt(X)
(14)
µt(T) = ctµt(X)
Vt(X)
Vt(Y) = Vt(X)
Vt(T) = ctVt(X)
Στην ειδική περίπτωση του πολύ σηµαντικού µετασχηµατισµού που
περιγράφεται από τη σχέση:
Zj =
Xj − α
β
έχουµε τις ροπές να συνδέονται µε τη σχέση:
Vt ( Z ) =
Vt ( X )
βt
[6]
Β.5.3. Υπολογισµός των ροπών.
Για τον υπολογισµό των ροπών µt και Vt ισχύουν οι τύποι:
V2 = µ 2 - µ 1 2
V3 = µ3 - 3µ1µ2 + 2µ13
V4 = µ4 - 4µ1µ3 + 6µ2µ12 - 3µ14
Οι τύποι που προκύπτουν για t ≥ 2 είναι ιδιαίτερα πολύπλοκοι, τους οποίους σπάνια
χρησιµοποιούµε. Για παράδειγµα ο τύπος για t=2:
µ2(Yi) = µ2(Χ) + 2cµ1 + c2
14
102
Να παρατηρήσουµε πως ο πρώτος από τους τρείς πιο πάνω τύπους είναι ο
γνωστός τύπος της διακύµανσης:
Χ 2 + Χ 22 + ... + Χ ν2
V2 = µ 2 − µ 12 = 1
− µ2 = σ2
ν
τον οποίο αποδείξαµε στην παραποµπή [1]. Παρόµοια είναι και η απόδειξη των άλλων
δύο.
Από τα παραπάνω καταλήγουµε εύκολα στο συµπέρασµα πως οι ροπές Vt
(γύρω από τη µέση τιµή µ) υπολογίζονται µε τη βοήθεια των ροπών µt (γύρω από
το 0).
Άρα όταν οι τιµές της τυχ.µεταβλητής Χi δίνονται αναλυτικά, τότε ο
υπολογισµός της ροπής Vp γίνεται εύκολα µε τη βοήθεια του πίνακα:
Σύνολο
Xi
Xi 2
...
Xi p
...
...
...
...
Μ1
Μ2
...
Μp
οπότε οι ροπές µt δίνονται (προφανώς) µε τη βοήθεια των ποσοτήτων Μt του πιο πάνω
πίνακα από τη σχέση:
µt = Mt/ν
Όταν οι τιµές Χ δίνονται σε κλάσεις, χρησιµοποιούµε τον προηγούµενο τύπο,
υπολογίζοντας όµως τις ποσότητες Μt, από τον πίνακα:
Xi
fi
f i Xi
f i Xi 2
...
f i Xi p
...
...
...
...
...
...
Μ1
Μ2
...
Μp
Σύνολο
103
Β.5.4. Υπολογισµός των ροπών Vt µε τη βοήθεια των
µετασχηµατισµών.
Όταν οι τιµές των κλάσεων Xi είναι ιδιαίτερα µεγάλες τότε τα νούµερα στον πιο
πάνω πίνακα γίνονται πολύ µεγάλα, όπως πολύ µεγάλες είναι και οι τιµές των Μ1, Μ2,
κ.λ.π.. Παρ’όλα αυτά, συχνά χρειαζόµαστε τις ροπές V3 και V4. Όταν οι κλάσεις Χi
έχον σταθερό εύρος (ε), τις υπολογίζουµε µε τη βοήθεια των µετασχηµατισµών.
Εάν δηλαδή θέλουµε να υπολογίσουµε την ροπή Vt(Χ) των τιµών Χi, τότε
εργαζόµαστε ως εξής:
i) Υπολογίζουµε την ροπή µt(Z) των τιµών:
Zj =
Xj − α
β
(15)
όπου:
περιττός
Το α ισούται µε τη µεσαία κλάση.
Το β ισούται µε το κοινό έυρος των κλάσεων ε.
κ
άρτιος
Το α ισούται µε το ηµιάθροισµα των 2 µεσαίων κλάσεων.
Το β ισούται µε το ήµισυ του κοινού εύρους (ε/2).
ii) Στη συνέχεια υπολογίζουµε τις ροπές Vt(Ζ), µε τη βοήθεια των σχέσεων της
παραγράφου Β.5.3, οι οποίες ορίζουν τις ροπές Vt σαν συναρτήσεις των ροπών µt(Z).
iii) Υπολογίζουµε την ροπή των Χ που ζητούµε από τη σχέση:
Vt(X) = Vt(Z)*βt
Η µέθοδος που ακολουθήθηκε για τον υπολογισµό των ροπών V είναι ιδιαίτερα
συνηθισµένη στα Μαθηµατικά, όταν υπολογίζουµε τις ποσότητες που αναζητούµε
κάνοντας έναν κύκλο, ή ακριβέστερα, κάνοντας ένα Π, για να ξεπεράσουµε κάποια
δύσκολα εµπόδια που εµποδίζουν τον απ’ευθείας υπολογισµό:
15
Αυτός ο ορισµός των παραµέτρων α και β έγινε στην παρατήρηση της 3ης λύσης της
παραγράφου Β.3.6.
104
Υπολογισµός των
ροπών µt(Z)
Zj =
Υπολογισµός των
ροπών Vt(Z)
Xj − α
β
∆εδοµένα Χi, fi
..........
Yπολογισµός των
ροπών Vt(X)
Παράδειγµα B.7.:
Να υπολογισθούν, χωρίς τη χρήση µετασχηµατισµού, οι ροπές µ3 και V3 των
τιµών: Χi = 2, 3, 5, 6 και 8 για i = 1,2,..,5
Σύµφωνα µε τα δεδοµένα του διπλανού
πίνακα έχουµε τις ροπές µi:
µ1 = [ΣΧ]/ν = 24/5 = 4.8
µ2 = [ΣΧ2]/ν = 138/5 = 27.6
µ3 = [ΣΧ3]/ν = 888/5 = 177.6
οπότε έχουµε για την V3:
V3 = µ3 - 3µ1µ2 + 2µ13 =
= 177.6 - 3*4.8*27.6 + 2*4.83 ⇒
Σύνολο
Xi
Xi 2
Xi 3
2
3
5
6
8
4
9
25
36
64
8
27
125
216
512
24
138
888
V3 = 1.344
Παράδειγµα B.8.:
Aς επιστρέψουµε για τελευταία φορά στο παράδειγµα Β.1 και ας υπολογίσουµε
τις ροπές V3 και V4 των υψών των 60 νέων. Παίρνοντας και πάλι τα στοιχεία του
κοινού πίνακα (αγοριών και κοριτσιών), κατασκευάζουµε το διπλανό πίνακα, που θα
µας βοηθήσει στον υπολογισµό των V3 καιV4. Στον πίνακα αυτό ορίσαµε:
105
Zj =
X j − 175
ε
=
X j − 175
5
Xi
fi
Zi
f i Zi
f i Zi 2
f i Zi 3
f i Zi 4
155
160
165
170
175
180
185
190
195
4
11
7
8
9
11
5
3
2
-4
-3
-2
-1
0
1
2
3
4
-16
-33
-14
-8
0
11
10
9
8
64
99
28
8
0
11
20
27
32
-256
-297
-56
-8
0
11
40
81
128
1024
891
112
8
0
11
80
43
512
-33
289
-357
2881
Σύνολο
Έχουµε λοιπόν για τις ροπές µt(Z):
µ1 (Ζ) =
1 9
− 33
f jZ j =
= −0.55
∑
60
60 j=1
µ 2 (Ζ) =
1 9
289
f j Z 2j =
= 4.816667
∑
60 j=1
60
µ 3 (Ζ) =
1 9
− 357
f j Z 3j =
= −5.95
∑
60 j=1
60
1 9
2881
µ 4 (Ζ) =
f j Z 4j =
= 48.016667
∑
60 j=1
60
Με τη βοήθεια των ροπών µ, οι ροπές Vt(Z) δίνονται από τις ισότητες:
V2(Ζ) = µ2 - µ12 = 4.8166667 - (-0.55)2 =
= 4.51417
106
V3(Ζ) = µ3 - 3µ1µ2 + 2µ13 = -5.95 - 3*(-0.55)*4.816667 + 2(-0.55)2 =
= 2.6025
V4(Ζ) = µ4 - 4µ1µ3 + 6µ2µ12 - 3µ14
= 48.016667 - 4*(-0.55)*(-5.95) + 6*4.816667*(-0.55)2 +
+ 2(-0.55)2 = 44.2739
Εποµένως οι δύο ροπές V3(Χ) και V4(Χ) υπολογίζονται από τις ανάλογες των
τιµών Ζ, µετά από πολλαπλασιασµό µε το 53 και 54 αντίστοιχα:
V3(X) = 53V3(Z) = 125*2.6025 = 325.3125
V4(X) = 54V4(Z) = 625*44.2739 = 27671.2
Β.5.5. Συντελεστές ασυµµετρίας.
Οι τρείς καµπύλες συχνότητας (πρόκειται για τις καµπύλες που προκύπτουν από
τα αντίστοιχα ραβδογράµµατα συχνότητας) που εµφανίζονται στο παρακάτω σχήµα,
περιγράφουν τις συχνότητες των τιµών µιας τυχαίας µεταβλητής Χi, σε τρείς
διαφορετικούς πληθυσµούς. Οι τρείς αυτές κατανοµές περιγράφουν τελικά τρείς
διαφορετικές συµπεριφορές της τυχ. µεταβλητής στα στοιχεία των πληθυσµών.
m
(α)
m
(β)
m
(γ)
Σχ.Β.11. Απ'αυτές τις καµπύλες συχνότητας την (α) την ονοµάζουµε ασύµµετρη προς
τα αριστερά (στρέφει την ουρά προς τα αριστερά), την (γ) ασύµµετρη προς τα δεξιά
(στρέφει την ουρά προς τα δεξιά),
ενώ την (β) συµµετρική.
107
Αναζητούµε τώρα µία παράµετρο (έναν δείκτη) ο οποίος:
i) να δηλώνει την ύπαρξη µιας τέτοιας ασυµµετρίας,
ii) να δηλώνει το βαθµό ασυµµετρίας.
Ορισµός Β.17.
Ανάµεσα σε πολλούς τέτοιους δείκτες (συντελεστές) ασυµµετρίας, ιδιαίτερο
ενδιαφέρον παρουσιάζει ο επόµενος συντελεστής ασυµµετρίας:
α3 =
V3 ( X)
σ 3Χ
όπου V3 είναι η ροπή 3ης τάξης των τιµών Xi, γύρω από τη µέση τους τιµή, ενώ το σ3
είναι η τυπική απόκλιση των τιµών Χi, υψωµένη εις την τρίτη.
Ερµηνεία του α3.
Η ερµηνεία του συντελεστή ασυµµετρίας α3 είναι αρκετά εύκολη. Όταν µια
κατανοµή στρέφει την ουρά προς τα δεξιά, σηµαίνει πως οι τιµές που βρίσκονται δεξιά
από το µέσο όρο είναι µεν λιγότερες, αλλά πιο αποµακρυσµένες. Στη ροπή τρίτης
τάξης V3(X) αθροίζονται οι τιµές (Χi-µ)3, οι αλγεβρικές δηλαδή αποστάσεις των
αποστάσεων, υψωµένες εις την τρίτη, που είναι άλλες θετικές και άλλες αρνητικές. Η
ύψωση όµως στην τρίτη κάνει να υπερισχύσουν στο τελικό άθροισµα οι πιο
αποµακρυσµένες τιµές, έστω κι'αν είναι λιγότερες.
Ας πάρουµε σαν παράδειγµα τις τιµές: 2, 3, 4, 11 των οποίων η µέση τιµή είναι
ίση µε το 5.
2
3
4
11
µ=5
Σ(Χi-µ)3 = (2-5)3 + (3-5)3 + (4-5)3 + (11-5)3 =
= (-3)3 + (-2)3 + (-1)3 + 63 = -27-8-1+216 = 180
Έχουµε λοιπόν:
V3 > 0 ---> Καµπύλη συχνότητας µε ουρά προς τα δεξιά,
V3 = 0 ---> Καµπύλη συχνότητας συµµετρική,
V3 < 0 ---> Καµπύλη συχνότητας µε ουρά προς τα αριστερά.
108
∆ιαιρώντας την V3 (της οποίας οι µονάδες είναι οι µονάδες της τυχ.µεταβλητής
υψωµένες εις την τρίτη) µε την τρίτη δύναµη της τυπικής απόκλισης σ, ορίζουµε σαν
συντελεστή ασυµµετρίας τον καθαρό αριθµό (δηλαδή έναν αριθµό χωρίς µονάδες) α3.
Με βάση τα όσα ειπώθηκαν για την ροπή V3(Χ), έχουµε για το συντελεστή
ασυµµετρίας τις παρακάτω ιδιότητες:
i) To α3 είναι οµόσηµο του V3, µια και η τυπική απόκλιση σ (άρα
και το σ3) είναι πάντα θετική.
ii) To α3 είναι θετικό όταν η καµπύλη συχνότητας στρέφει την
ουρά της προς τα δεξιά.
iii) To α3 είναι αρνητικό όταν η καµπύλη συχνότητας στρέφει την
ουρά της προς τα αριστερά.
iv) Όσο µεγαλύτερη είναι η απόλυτη τιµή του α3, τόσο πιο
ασύµµετρη θα είναι η καµπύλη των συχνοτήτων. Αντίθετα όταν το α3
είναι κοντά στο µηδέν τότε έχουµε συµµετρική καµπύλη.
Β.5.6. Άσκηση επανάληψης.
Από ένα Μικροβιολογικό εργαστήριο της περιοχής Χαριλάου (Θεσσαλονίκης)
πήραµε τα αποτελέσµατα για το ποσοστό χοληστερίνης στο αίµα 106 ατόµων.
• Αφού τα κατατάξουµε κατ' αύξουσα σειρά, να δηµιουργήσουµε το Στατιστικό
πίνακα των δεδοµένων.
• Να εκτιµηθούν, µε το µάτι, οι τιµές της µέσης τιµής και της τυπικής απόκλισης.
• Να υπολογισθούν: η διάµεσος, η µέση τιµή, η τυπική απόκλιση και ο
συντελεστής ασυµµετρίας α3.
• Να γίνει η γραφική παράσταση της συχνότητας και να αιτιολογηθεί η τιµή του
συντελεστή ασυµµετρίας που υπολογίστηκε προηγουµένως.
Λύση:
i) Για οικονοµία χώρου δεν αναφέρουµε αναλυτικά τις τιµές των 106 ατόµων.
Χρησιµοποιώντας τον εµπειρικό τύπο, που δίνει το πλήθος κ των κλάσεων σαν
συνάρτηση του πλήθους των ατόµων του πληθυσµού ν, έχουµε:
κ = 1 + 3.3*Log(106) = 7.68
109
Η φύση των τιµών όµως του παραδείγµατός µας, µας αναγκάζει να πάρουµε
λίγο µεγαλύτερο αριθµό κλάσεων κ=10, έτσι έστε να έχουµε στρογγυλεµένες τιµές για
τις κλάσεις. Καταλήγουµε λοιπόν στον πίνακα:
α/α
Εύρος
Κλάσης
(ε)
Κλάση
Xi
Συχνότ.
fi
1
2
3
4
5
6
7
8
9
10
140 - 160
160 - 180
180 - 200
200 - 220
220 - 240
240 - 260
260 - 280
280 - 300
300 - 320
320 - 340
150
170
190
210
230
250
270
290
310
330
3
16
18
26
13
16
10
2
0
2
Σύνολο
Σχετική
συχνότ.
Pi
.0283
.1509
.1698
.2453
.1226
.1509
.0943
.0188
.0000
.0189
106
1,000
Σχετική
συχνότ.
(%)
Αθροιστ.
συχνότ.
Fi
2.83
15.09
16.98
24.53
12.26
15.09
9.43
1.88
0.00
1.89
3
19
37
63
76
92
102
104
104
106
Σχετική
αθροιστ.
συχνοτ.
.0283
.1792
.3491
.5943
.7170
.8679
.9623
.9811
.9811
1.000
100,00
Στατιστικός πίνακας των µετρήσεων χοληστερίνης 106 ατόµων.
ii) Παρατηρώντας τον προηγούµενο Στατιστικό πίνακα, διαπιστώνουµε πως
µπορούµε να παραλείψουµε τις δύο τελευταίες κλάσεις (310 και 330), λόγω της πολύ
µικρής συχνότητας (0 και 2 αντίστοιχα). Από τις κλάσεις που αποµένουν υπάρχουν
δύο κεντρικές (η 210 και 230). Εάν εποµένως η κατανοµή των συχνοτήτων µε κέντρο
το κοινό όριο των δύο κενρτικών κλάσεων (το 220) ήταν συµµετρική, τότε ο µέσος
όρος θα ταυτίζονταν µε το 220. Όµως οι συχνότητες των µικρότερων κλάσεων είναι
ελαφρά µεγαλύτερες από τις αντίστοιχες των µεγαλυτέρων. Για το λόγο αυτό ο µέσος
όρος θα πρέπει νά’ναι µικρότερος του 220.
Μια καλή πρόβλεψη θα ήταν το 210.
Προσθέτοντας τώρα στην πρόβλεψή µας το δεδοµένο της ύπαρξης δύο ατόµων µε
πολύ υψηλή χοληστερίνη (330), αναγκαζόµαστε να «διορθώσουµε» την προηγούµενη
πρόβλεψη, ανεβάζοντας την τιµή του µέσου όρου στο 215.
Θα προσπαθήσουµε να εκτιµήσουµε την τιµή της τυπικής απόκλισης,
σκεπτόµενοι την ιδιότητα σύµφωνα µε την οποία για το µεγαλύτερο ποσοστό του
πληθυσµού (γύρω στο 95%), η τιµή της τυχ. µεταβλητής Χi ανήκει στο διάστηµα: (µ2σ , µ+2σ)(16).
16
∆είτε την 6η ιδιότητα της παραγράφου Β.3.4.
110
Το διάστηµα στο οποίο έχουµε τιµές είναι το (150,330). Εποµένως το κάτω
όριο απέχει από την πρόβλεψη του µέσου όρου (215) κατά 65, ενώ το άνω όριο απέχει
αντίστοιχα 115. Χονδρικά θα µπορούσαµε να πούµε πως η απόσταση των άκρων από
το µέσο όρο είναι κατά µέσο όρο 80 µονάδες, οι οποίες, µοιρασµένες στις δύο τυπικές
αποκλίσεις, δίνουν σαν πρόβλεψη: σ=40 mgr(17).
iii) Ο υπολογισµός των παραµέτρων που ζητούνται θα γίνουν σε δύο ενότητες:
α) Υπολογισµός της διαµέσου και της µέσης τιµής.
Η σειρά ξ της διαµέσου είναι ίση µε:
ξ=
ν + 1 106 + 1
=
= 53,5
2
2
φιλοξενείται στην 4η κλάση (X4=210 µε F4=63) και ισούται µε:
δ = Ο1 +
Η µέση τιµή:
ξ − F3
53,5 − 37
ε = 200 +
20 = 212,69
f4
26
µΧ =
1 10
22980
f jX j =
= 216.79
∑
106 j=1
106
β) Ο υπολογισµός της τυπικής απόκλισης (από τη διακύµανση σ2) και του
συντελεστή ασυµµετρίας α3, θα γίνει µε τη βοήθεια των ροπών. Εάν όµως δεν
καταφύγουµε στη βοήθεια των µετασχηµατισµών, τότε τα νούµερα που θα προκύψουν
θα είναι τεράστια (που φθάνουν τα δισεκατοµµύρια). Ο µετασχηµατισµός στην
περίπτωση αυτή έχει ένα ιδιαίτερο ενδιαφέρον µια και το πλήθος των κλάσεων είναι
άρτιο (10). Να θυµίσουµε πως θα χρησιµοποιήσουµε τον µετασχηµατισµό:
Zj =
Xj − α
β
Θα επιλέξουµε λοιπόν σαν τιµή α το ηµιάθροισµα των δύο µεσαίων κλάσεων
(Χ5=230 και Χ6=250), και σαν β το ήµισυ του εύρους της κάθε κλάσης (ε=20).
17
O υπολογισµός αυτός είναι εντελώς χονδρικός και µας δίνει µόνο µια ιδέα για την τάξη
µεγέθους της τυπικής απόκλισης. Όσο µάλιστα τα δεδοµένα είναι λιγότερο συµµετρικά, τόσο
αυτός ο προσεγγιστικός υπολογισµός θα αποκλίνει από το ακριβές νούµερο.
111
Θα έχουµε εποµένως το
µετασχηµατισµό:
Zj =
X j − 240
10
∆ηµιουργούµε λοιπόν το
διπλανό πίνακα,
µε
τη
βοήθεια
του
οποίου
υπολογίζουµε τις ροπές µt(Z):
Χi
fi
Zi
f i Zi
f i Zi 2
f i Zi 2
150
170
190
210
230
250
270
290
310
330
3
16
18
26
13
16
10
2
0
2
-9
-7
-5
-3
-1
1
3
5
7
9
-27
-112
-90
-78
-13
16
30
10
0
18
243
784
450
234
13
16
90
50
0
162
-2187
-5488
-2250
-702
-13
16
270
250
0
1458
-246
2042
-8646
Σύνολο
1 10
− 246
µ 1 (Ζ) =
f jZ j =
= −2.320755
∑
106 j=1
106
µ 2 (Ζ) =
1 10
2042
f j Z 2j =
= 19.26415
∑
106 j=1
106
µ 3 (Ζ) =
1 10
− 8646
f j Z 3j =
= −81.566038
∑
106 j=1
106
Για τον υπολογισµό του συντελεστή ασυµµετυρίας α3 µας χρειάζονται, η ροπή
V3(Χ) και η τυπ.απόκλιση (δηλαδή η διακύµανση, εποµένως η ροπή V2(Χ)). Οι δύο
αυτές ροπές υπολογίζονται µε τη βοήθεια των ροπών V2(Ζ) και V3(Ζ):
V2(Ζ) = µ2(Ζ) - µ1(Ζ)2 = 19.26415 - (-2.320755)2 =
= 13.87825
V3(Ζ) = µ3(Ζ) - 3µ1(Ζ)µ2(Ζ) + 2µ1(Ζ)3 =
= -81.566038 - 3*(-2.320755)*19.26415 + 2(-2.320755)2 =
= 63.323279
Εποµένως οι ροπές V2(Χ) και V3(Χ) υπολογίζονται από τις V2(Ζ) και V3(Ζ),
µετά από πολλαπλασιασµό τους µε το 102 και 103 αντίστοιχα:
σ2Χ = V2(X) = 102V2(Z) = 100*13.87825 = 1387.825 ⇒
σΧ = 1387.825 = 37.25
και
V3(X) = 103V3(Z) = 1000*63.323279 = 63323.79
112
Τελικά έχουµε το συντελεστή ασυµµετρίας α3:
α3 =
V3 ( X) 63323
= 1.2248
=
σ 3Χ
37.25 3
Ο συντελεστής α3 είναι θετικός, πράγµα που σηµαίνει πως τα δεδοµένα µας
είναι ασύµµετρα προς τα δεξιά, η καµπύλη, δηλαδή, της συχνότητάς τους στρέφει την
ουρά της προς τα δεξιά. Όλα αυτά επιβεβαιώνονται από την επόµενη γραφική
παράσταση:
Σχ.Β.12. ∆ιάγραµµα συχνοτήτων των µετρήσεων χοληστερίνης
106 ατόµων.
Παρατήρηση:
Ξαναγυρίζοντας στην πρόβλεψη της τιµής των µ και σ, πρέπει να πούµε πως
ήταν αρκετά πετυχηµένη. Όµως πετυχηµένη θα θεωρούσαµε µια πρόβλεψη ανάµεσα
στις τιµές 210 έως 225 για το µέσο όρο, και ανάµεσα στο 30 και 45 για την τυπική
απόκλιση.
Επιστρέφοντας στα ακριβή αποτελέσµατα, θα προσπαθήσουµε να βεβαιωθούµε
για το εάν το 95% των µετρήσεων του πληθυσµού βρίσκεται στο διάστηµα (µ-2σ ,
µ+2σ). Σύµφωνα µε τα αποτελέσµατα της άσκησης έχουµε µ=216.8 και σ=37.25.
Άρα περιµένουµε πως το 95 % των µετρήσεων θα περιλαµβάνεται στο διάστηµα:
∆ = (142.3 , 291.3)
113
Με µία µατιά διαπιστώνουµε πως τουλάχιστον τα 102 από τα 106 άτοµα
ανήκουν στο διάστηµα αυτό, πράγµα που επιβεβαιώνει τα προηγούµενα.
Συχνά µάλιστα στις Βιολογικές και Ιατρικές Επιστήµες το διάστηµα (µ-2σ ,
µ+2σ), ενός δείγµατος υγειών ατόµων, ορίζει και αυτό που ονοµάζεται φυσιολογική
περιοχή τιµών (φυσιολογικά όρια).
Σύµφωνα λοιπόν µε τα δεδοµένα µας, τα φυσιολογικά όρια της χοληστερίνης
είναι από 142 έως 290 mgr/cm3;
Θα λέγαµε όχι, διότι:
(i) το δείγµα µας δεν ήταν τυχαίο,
(ii) δεν ήταν ούτε ικανό (ν=106, ιδιαίτερα µικρό),
(iii) δεν ήταν δείγµα υγειών ατόµων.
∆εν ήταν τυχαίο διότι πάρθηκε από ένα µόνο εργαστήριο, µιας και µόνης
περιοχής.
Ταυτόχρονα δεν ήταν δείγµα υγειών ατόµων, µια και είναι γνωστό πως
σπάνια κάποιος που είναι (ή νοιώθει) υγιής, κάνει ανάλυση αίµατος. Πρόκειται για
δείγµα ατόµων στους οποίους κάποιος γιατρός συνέστησε την αιµατολογική εξέταση,
εποµένως για άτοµα µε κάποιο πρόβληµα υγείας.
Β.5.7. Άσκηση.
Ζητήσαµε από 500 Θεσσαλονικείς, επιλεγµένους κατά τρόπο τυχαίο, να µας
δηλώσουν την ηλικία τους. Τα στοιχεία που συλλέξαµε φαίνονται στον επόµενο
πίνακα.
Ζητούνται:
i) Ο υπολογισµός του µέσου όρου και της τυπικής
απόκλισης των δεδοµένων του διπλανού πίνακα.
ii) Να υπολογισθεί το τυπικό σφάλµα που
αντιστοιχεί στο µέσο όρο του δείγµατος που µόλις
υπολογίσαµε.
iii) Να
δοθεί
ένα
διάστηµα τιµών, στο
εσωτερικό του οποίου να ανήκει ο µέσος όρος του
πληθυσµού, µε πιθανότητα 95%.
Ηλικία Χi
Συχνότητα fi
5
15
25
35
45
55
65
75
85
95
60
72
78
68
58
64
57
29
12
2
114
ΠΑΡΑΡΤΗΜΑ
Οι πράξεις σύµφωνα µε τις παραποµπές του κειµένου.
[1]
Για την απόδειξη της σχέσης [1] θα χρησηµοποιήσουµε την επόµενη ιδιότητα
του συµβόλου της άθροισης (Σ), η οποία άλλωστε είναι γνωστή σαν προσεταιριστική
ιδιότητα της πρόσθεσης (τα αθροίσµατα, όπου δεν αναφέρονται τα όριά τους,
πηγαίνουν από i=1 έως ν):
Σ(αi+βi) = Σαi + Σβi διότι
Σ(αi+βi) = (α1+β1) + (α2+β2) + ... + (αν+βν) =
= (α1+α2+...+αν) + (β1+β2+...+βν) = Σαi + Σβi
Όµοια έχουµε:
Σ(καi) = κΣαi εάν κ είναι µία σταθερά, διότι
Σ(καi) = κα1 + κα2 + ... + καν = κ(α1 + α2 + ... + αν) = κΣαi
Γενικά, µπορούµε να εξάγουµε κοινό παράγοντα έξω από το άθροισµα µία
ποσότητα που δεν έχει δείκτη (και άρα θεωρείται σταθερά για το άθροισµα).
Σύµφωνα λοιπόν µε τα προηγούµενα αποδεικνύουµε την νέα σχέση για τη
διακύµανση:
σ2 =
1 ν
∑ Xj − µ
ν j= 1
(
)
2
=
ν
ν

1 ν
1 ν
2
2
2
X
−
2
µ
X
+
µ
X
+
−
2
µ
X
+
=
µ2  =
∑ j ∑
∑
∑
j
j
j
ν j= 1
ν  j= 1
j= 1
j =1

(
)
( )
ν
ν

1 ν
2
= ∑ X j − 2µ ∑ X j + νµ 2  =
ν  j= 1
j= 1

( )
ν
∑ (X )
=
j= 1
∑ (X )
ν
2
j
− 2µ 2 + µ 2 =
j= 1
ν
∑X
2
j
ν
2
j
ν
∑ (X )
j= 1
− µ2
ν
(
− 2µ
j= 1
ν
j
νµ 2
+
=
ν
)
( )
115
[2]
Πρέπει να αποδείξουµε πως η τυπική απόκλιση είναι πάντα µεγαλύτερη ή ίση
της µέσης απόκλισης: Αχ ≤ σχ. Εάν συµβολίσουµε µε Di την Ευκλείδεια απόσταση της
τιµής Χi από το µέσο όρο µ,
δηλαδή Di = X j − µ
τότε η σχέση που πρέπει να αποδείξουµε γράφεται:
D 1 + D 2 + ... + D ν
≤
ν
D 12 + D 22 + ... + D ν2
ν
Επειδή οι πράξεις για ν αθροίσµατα µπορεί να µπερδέψουν τον αναγνώστη, θα
αποδείξουµε την προηγούµενη ανισότητα για ν=3. Όλες οι πράξεις που θα γίνουν
γενικεύονται εύκολα. Πρέπει λοιπόν να δείξουµε πως:
D1 + D 2 + D 3
≤
3
D 12 + D 22 + D 23
3
Για ευκολία θα θέσουµε D1=α, D2=β και D3=γ, και υψώνουµε στο τετράγωνο, µια και
τα δύο µέλη της ανισότητας είναι θετικοί αριθµοί:
(α + β + γ )2
32
≤
α2 + β2 + γ 2
3
⇒
α2+β2+γ2 + 2αβ+2αγ+2βγ ≤ 3(α2+β2+γ2) ⇒
α2+β2+γ2 + 2αβ+2αγ+2βγ - 3(α2+β2+γ2) ≤ 0 ⇒
-2(α2+β2+γ2) + 2αβ+2αγ+2βγ ≤ 0 ⇒
-α2-β2+2αβ - α2-γ2+2αγ - β2-γ2+2βγ ≤ 0 ⇒
-(α-β)2 - (α-γ)2 - (β-γ)2 ≤ 0
Η οποία ανισότητα αληθεύει...
[3]
ν
∑ (X
j
)
−µ = 0
j= 1
ν
∑ (X
j= 1
j
)
ν
−µ = ∑
j= 1
 ν
∑ Xj
ν
j= 1
X j + ∑ (− µ ) = ν 

ν
j= 1


( )
( )
 − νµ = νµ − νµ = 0



όπου το πρώτο άθροισµα πολλαπλασιάζεται και διαιρείται µε το ν, οπότε το
περιεχόµενο της αγκύλης είναι ίσο µε το µ.
116
[4]
Από τις σχέσεις του πίνακα:
Τυχ.µεταβλητή
µ
Χi
Υi = Xi + c
Τi = cXi
σ
µΧ
µΥ = µΧ + c
µΤ = cµΧ
σΧ
σΥ = σΧ
σΤ = cσΤ
θα αποδείξουµε µόνο την τελευταία. Οι υπόλοιπες αποδεικνύονται εύκολα, µε
παρόµοιο τρόπο. Έχουµε λοιπόν:
µΤ =
Τ1 + Τ2 + ... + Τv cX 1 + cX 2 + ... + cX v c(X 1 + X 2 + ... + X v )
=
=
= cµ Χ
ν
ν
ν
Ξαναγράφοντας την πιο πάνω σχέση µε τη βοήθεια του συµβόλου Σ, έχουµε:
µΤ =
1 ν

1 ν
1 ν
Τ
cX
c
=
=
 ∑ X j  = cµ Χ
∑
∑
j
j
ν j= 1
ν j= 1
 ν j= 1 
σ Τ2 =
1 ν
∑ Τj − µ Τ
ν j= 1
(
)
2
=
1 ν
∑ cX j − cµ X
ν j= 1
(
)
= c2
2
1 ν
∑ Xj − µX
ν j= 1
(
)
2
= c 2 σ 2X ⇒
σ Τ = cσ Χ
[5]
Θα αποδείξουµε τις σχέσεις για δύο υποπληθυσµούς. Η γενίκευση είναι
αρκετά εύκολη. Έστω λοιπόν ο γενικός πληθυσµός, Χi, i=1,2,..,ν, µε δύο
υποπληθυσµούς:
Yi , i=1,2,...,νΥ µε µ=µΥ και σ2=σΥ2
Zi , i=1,2,...,νΖ µε µ=µΖ και σ2=σΖ2
όπου βέβαια ισχύει πως νΥ + νz = ν. Έχουµε λοιπόν:
νΖ
 νΥ

1 ν
1
µ = µΧ = ∑ Χj =
∑ Yj + ∑ Z j  =
(ν Y + ν Ζ )  j=1
ν j= 1
j= 1

( )
=
  1
1
ν 
(ν Y + ν Ζ )  Υ  ν Υ

∑ (Y ) + ν
νΥ
j
j= 1

 1

Ζ
 νΖ
( )


ν µ
∑ (Z )  = (ν
νΖ
j
j= 1
 
Y
Υ
Y
+ ν Ζµ Ζ
+ νΖ )
117
Ακολουθώντας την ίδια λογική έχουµε:
1 ν
σ = σ = ∑ Χj − µ
ν j= 1
2
(
2
Χ
)
2
νΖ
1  νY
2
= ∑ Yj − µ + ∑ Z j − µ
ν  j= 1
j= 1
(
)
(
=
νΖ
1  νY
2
Y
−
µ
+
µ
−
µ
Zj − µΖ + µΖ − µ
+
∑ j
∑
Υ
Υ
ν  j= 1
j= 1
=
1  νY
 ∑ Yj − µ Υ
ν  j= 1
(
)
((
) + (µ
2
((
νΖ
+ ∑ Zj − µΖ
1  νY
∑ Yj − µ Υ
ν  j= 1
((
) + (µ
2
+ ∑ ((Z
νΖ
Ζ
j
j= 1
((
((
νΖ
νΖ
) ) + ν (µ
Υ
=
)
Υ
)
)
νY
((
)
)
νΖ

j= 1

2
Ζ − µ ) ) − 2∑ ((Z j − µ Ζ )(µ Ζ − µ )) =
νY
(
− µ ) − 2(µ Υ − µ )∑ Yj − µ Υ
2
) ) + ν (µ
2
Ζ
∑ ((Y − µ ) ) + ν
j= 1
)
)
j= 1
νY
2
j

j= 1
) ) + ∑ ((µ
j= 1
1 νΥ

ν νΥ
Υ
2
+ ∑ Zj − µΖ
=
2
j= 1
1  νY
= ∑ Yj − µ Υ
ν  j= 1
2
− µ ) − 2∑ Yj − µ Υ (µ Υ − µ )
j= 1
− µΖ
)  =
)
(
νY
2


2
− µ ) − 2 Z j − µ Ζ (µ Ζ − µ )  =

) ) + ∑ ((µ
2
(
2
− µ ) − 2 Yj − µ Υ (µ Υ − µ ) +
2
Υ
j= 1
=
(
)  =
Υ
Ζ
νΖ

2
− µ ) − 2(µ Ζ − µ )∑ Z j − µ Ζ  =
j= 1

(
)
νΖ

j= 1

νΖ
2
2
2
∑ ((Z j − µ Ζ ) ) + ν Ζ (µ Ζ − µ ) 
Υ (µ Υ − µ ) +
νΖ
[
]
1
2
2
ν Υ σ Υ2 + ν Υ (µ Υ − µ ) + ν Ζ σ 2Ζ + ν Ζ (µ Ζ − µ ) =
ν
ν Υ σ Υ2 + ν Ζ σ 2Ζ ν Υ (µ Υ − µ ) + ν Ζ (µ Ζ − µ )
=
+
ν
ν
2
2
Για να γίνουν κατανοητές οι προηγούµενες πράξεις αξίζει να θυµηθούµε πως
ισχύουν οι παρακάτω ισότητες:
118
νY
∑ ((Y
)
νY
)
(
)
(
)
− µ Υ (µ Υ − µ ) = (µ Υ − µ )∑ Yj − µ Υ
j
j= 1
j= 1
και
νΖ
∑ ((Z
j= 1
j
νΖ
)
)
− µ Ζ (µ Ζ − µ ) = (µ Ζ − µ )∑ Z j − µ Ζ
j= 1
όπου απλώς βγάλαµε κοινό παράγοντα από τα αθροίσµατα τους παράγοντες που δεν
έχουν δείκτη. Ταυτόχρονα, λόγω της βασικής ιδιότητας του αριθµητικού µέσου, η
οποία είναι άλλωστε αποδεδειγµένη στην υποσηµείωση [3], έχουµε:
νY
∑ (Y
)
− µΥ = 0
j
j= 1
και
νΖ
∑ (Z
j
)
− µΖ = 0
j= 1
Κατά την απόδειξη της σχέσης: Vt(Z) = Vt(X)/βt θα χρησιµοποιήσουµε την
ήδη αποδεδειγµένη ιδιότητα, σύµφωνα µε την οποία ο µέσος όρος των τιµών:
[6]
Zj =
Xj − α
είναι ίσος µε:
β
Έχουµε λοιπόν:
t
1 ν
1 ν  Xj − α µΧ − α 
t
 =
Vt ( Z ) = ∑ Ζ j − µ = ∑ 
−
ν j= 1
β 
ν j= 1  β
(
)
t
1 ν  Xj − α − µΧ + α 
 =
= ∑ 

ν j= 1 
β

ν
1  Xj − µΧ
= ∑ 
ν j= 1 
β
ν
t

 =


∑ (X
j
− µΧ
j= 1
νβ
t
)
t
=
Vt ( X)
βt
µΖ =
µΧ − α
β
119
ΒΙΒΛΙΟΓΡΑΦΙΑ
1) ∆ρόσου Γεωργίου - Καραπιστόλη ∆ηµητρίου:
ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ, Εκδόσεις Έλλην.
Παρατηρήσεις: Βιβλίο που απευθύνεται στους Σπουδαστές της
Σχολής ∆ιοίκησης και Οικονοµίας των ΤΕΙ.
Προσεγµένο και
καλογραµµένο, χωρίς ιδιαίτερα Μαθηµατικά, υπερκαλύπτει την ύλη της
Στατιστικής Ι και ΙΙ.
2) Κάτου Β.Αναστασίου: ΣΤΑΤΙΣΤΙΚΗ, Εκδόσεις Εγνατία.
Παρατηρήσεις: Πλήρες σύγγραµµα µε παραδείγµατα παρµένα
κατά βάση από την Κτηνιατρική, ιδιαίτερα προσεγµένο και
καλογραµµένο. Αν και Πανεπιστηµιακού επιπέδου είναι κατανοητό. Έχει
αναλυτικά το κεφάλαιο των εκτιµήσεων και των τεστ (κεφάλαιο ιδιαίτερα
σηµαντικό, αλλά εκτός ύλης για το ΙΕΚ), αλλά δεν περιέχει τα κεφάλαια
των χρονοσειρών και των αριθµοδεικτών (Στατιστική ΙΙ).
3) Κιόχου Α.Πέτρου: ΣΤΑΤΙΣΤΙΚΗ, Εκδόσεις Ευγενιδείου Ιδρύµατος.
Παρατηρήσεις: Πρόκειται για βιβλίο που απευθύνεται στους
µαθητές του Λυκείου, απλό, κατανοητό και καλογραµµένο. Καλύπτει σε
µεγάλο βαθµό της ανάγκες των µαθηµάτων Στατιστική Ι και Στατιστική
ΙΙ.
4) Κατσουγιαννόπουλου Χ.Βασιλείου: ΒΑΣΙΚΗ ΙΑΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ,
Εκδόσεις Αδελφών Κυριακίδη.
Παρατηρήσεις: Σύγγραµµα που απευθύνεται στους φοιτητές της
Ιατρικής ιδιαίτερα κατανοητό και καλογραµµένο. Αν και είναι πλήρες,
αποφεύγει τη Μαθηµατική κάλυψη, µε αποτέλεσµα να είναι ιδανικό για
κάποιον που θέλει να έχει καλή γνώση της Στατιστικής, χωρίς όµως να
ανακατευτεί µε τα Μαθηµατικά (χωρίς χρονοσειρές και αριθµοδείκτες).
5) Μπαγιάτη Β.Κωνσταντίνου: ΣΤΑΤΙΣΤΙΚΗ, Εκδόσεις Χριστοδουλίδη.
Παρατηρήσεις: Σύγγραµµα που απευθύνεται στους φοιτητές των
ΤΕΦΑΑ µε πολλά παραδείγµατα από τον Αθλητισµό. Συνδυάζει την
απλότητα µε σηµαντική Μαθηµατική κάλυψη. (Ούτε εδώ υπάρχουν οι
χρονοσειρές και οι αριθµοδείκτες).
120
6) Μπαγιάτη Β.Κωνσταντίνου: Μέθοδοι έρευνας (Στην εκπαίδευση και
τη Φυσική Αγωγή), Εκδόσεις Χριστοδουλίδη.
Παρατηρήσεις: Βιβλίο που ελάχιστη σχέση έχει µε την ύλη των
ΙΕΚ, το οποίο όµως είναι βασικότατο εργαλείο για όποιον θέλει να
"στήσει" µια Στατιστική έρευνα.
7) Παπαδήµα Όθωνα: ΣΤΑΤΙΣΤΙΚΗ, Μακεδονικές Εκδόσεις.
Παρατηρήσεις: Πολύ καλό βιβλίο, παρόµοιο µε το βιβλίο των
∆ρόσου-Καραπιστόλη. Ισχύουν ακριβώς οι ίδιες παρατηρήσεις.
8) Ψωινού Π.∆ηµητρίου: ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ,
Εκδόσεις Ζήτη.
Παρατηρήσεις: Πανεπιστηµιακό σύγγραµµα, καλογραµµένο µε
σηµαντική Μαθηµατική κάλυψη. Σηµαντικό βοήθηµα για κάποιον που
θέλει να ασχοληθείσε βάθος µε τη Στατιστική. Όπως και το σύγγραµµα
του Α.Β.Κάτου, δεν έχει τα κεφάλαια των χρονοσειρών και των
αριθµοδεικτών.
9) Spiegel R.Murray: ΠΙΘΑΝΟΤΗΤΕΣ ΚΑΙ ΣΤΑΤΙΣΤΙΚΗ
(απο τη µεταφρασµένη σειρά του Schaum), Εκδόσεις McGraw-Hill.
Παρατηρήσεις: Βιβλίο πλήρες µε άπειρα παραδείγµατα και
συνοπτική θεωρία. Ακατάληλο σαν βασικό βιβλίο στο επίπεδο των ΙΕΚ,
µια και χρησιµοποιεί συχνά Μαθηµατικά, αλλά ιδανικό σαν βοηθητικό
και σαν βιβλίο ασκήσεων.