null

1. Έλεγχος Υποθέσεων
1.1 Έλεγχοι για την µέση τιµή πληθυσµού
Ας υποθέσουµε ένα πληθυσµό µε µέση τιµή (µ.τ.) µ και τυπική απόκλιση (τ.α.) σ.
Έχει δειχτεί στο κεφ.10 ο έλεγχος µιας µηδενικής υπόθεσης H0 δεδοµένης µιας
χαρακτηριστικής τιµής του µ, δηλαδή H0 : µ = µ0 ενάντια σε µια εναλλακτική
υπόθεση H1
τέτοια ώστε H1 : µ ≠ µ0 ( σε έλεγχο διπλό)
η H1 : µ > µ0 (σε µονό έλεγχο)
Με βάση την µ.τ. X ενός τυχαίου δείγµατος πληθυσµού αποφασίζεται ποια
υπόθεση είναι η σωστή.
Εδώ θα δούµε πως επεκτείνεται η ιδέα σε ένα ευρύ φάσµα περιπτώσεων. Έστω ότι
ένα τυχαίο δείγµα πληθυσµού έχει µ.τ. Χµ. Είναι Ε[ X ] = µ και var( X ) =
σ2
n
Πρέπει να υποτεθεί ότι:
(i)
To δείγµα µέσης τιµής X έχει προσεγγιστικά κανονική κατανοµή. Αυτό
ικανοποιείται εάν :
ο πληθυσµός έχει κανονική κατανοµή
ή το δείγµα είναι σχετικά µεγάλο
(ii)
Η τυπική απόκλιση σ είναι γνωστή:
Η το δείγµα είναι αρκετά µεγάλο (n>50) έτσι ώστε είναι λογικό να
εκτιµηθεί η τυπική απόκλιση σ από την τ.α. του δείγµατος s
Οι δύο αυτές παραδοχές ικανοποιούνται αυτοµάτως για µεγάλα δείγµατα αλλά οι
µέθοδοι αυτού του κεφαλαίου εφαρµόζονται και σε πολύ µικρά δείγµατα αν είναι
γνωστή η σ και ο πληθυσµός έχει περίπου κανονική κατανοµή.
Η µ.τ. του δείγµατος X έχει σχεδόν κανονική κατανοµή, µε µ.τ. µ και τ.α. σ n άρα
X −µ
X −µ
η
έχει (προσεγγιστικά) τυπική κατανοµή. ∆ηλ.
~Ν(0,1)
σ n
σ n
Για να ελεγχθεί H0 : µ = µ0
X −µ
Θέτουµε Ζ =
σ n
Εάν H0 αληθής, τότε Ζ~Ν(0,1)
Σχηµατίζεται µια ‘‘περιοχή απόρριψης’’ αποτελούµενη από τιµές του Ζ που
ανταποκρίνονται στην αντίθετη υπόθεση H1, τέτοια ώστε όταν H0 αληθές ( Ζ~Ν(0,1))
η πιθανότητα το Ζ να βρίσκεται εντός αυτής της περιοχής είναι ίση µε το επίπεδο
σηµαντικότητας του ελέγχου (συνήθως 5% ή όπως προσδιοριστεί).
X −µ
Για το δοσµένο δείγµα υπολογίζουµε την τιµή του στατιστικού Ζ =
σ n
Εάν η τιµή βρίσκεται στην ‘‘περιοχή απόρριψης’’ τότε η H0 δεν γίνεται δεκτή σε
διαφορετική περίπτωση γίνεται.
Υπάρχει πιθανότητα δύο ειδών λαθών στην απόφαση αποδοχής:
a) απόρριψη της H0 ενώ είναι αληθής, η πιθανότητα του λάθους αυτού είναι ίση µε
το επίπεδο σηµαντικότητας.
b) Αποδοχή της H0 ενώ είναι ψευδής.
Παράδειγµα 1
Περιεχόµενο φιάλης κρασιού ενός οινοποιείου έχει µ.τ. µ ml και τ.α. σ =12 ml. Σε
επιθεώρηση του υπουργείου Εµπορίου ελέγχεται η υπόθεση H0 : µ =700ml κόντρα
στην H1 : µ < 700, µετράται το µέσο περιεχόµενο X ml ενός τυχαίου δείγµατος 50
φιαλών µε επίπεδο σηµαντικότητας 5%.
1) για ποια τιµή του X γίνεται δεκτή η υπόθεση;
2) αν µ = 696ml ποια η πιθανότητα να γίνει αποδεκτή;
X − µ X − 700
=
σ n 12 / 50
εάν H0 αληθής τότε Ζ~Ν(0,1)
και η H1 ευνοείται από αρνητικές τιµές του Ζ
αν Ζ>-1.645 τότε γίνεται αποδεκτή η H0
12
X − 700
⇒ X > 697.21ml
έτσι είναι
>-1.645⇒ X > 700 − 1.645 ×
50
12 / 50
2) έστω ότι η X έχει προσεγγιστικά κανονική κατανοµή µε µ.τ. µ και τ.α. σ. Αν
12
µ=696ml τότε η X έχει µ.τ. 696 και τ.α.
50
έτσι έχουµε Ρ(αποδοχή της H0) = Ρ( X >697.21)
697.21 − 696
= Ρ(Ζ΄ >
12
50
= Ρ(Ζ΄>0.712)
= 1-0.7617
=0.2383
προκύπτει ότι αν µ=696ml δηλαδή η ποτοποιεία δεν έχει σωστά γεµάτες τις φιάλες,
υπάρχει µια πιθανότητα 23.83% να περάσουν από τον έλεγχο του Υπουργείου.
1) έστω Ζ =
∆ιαφορές στις µέσες τιµές
Έστω δύο πληθυσµοί µε µ.τ. µ1, µ2 και τ.α. σ1, σ2 αντίστοιχα. Είναι δυνατό να
ελεγχθεί αν οι πληθυσµοί έχουν ίσες ή όχι µ.τ. χωρίς να έχουµε γνώση του
πραγµατικού µεγέθους των µ.τ.
∆ιαµορφώνεται η υπόθεση H0 : µ1 = µ2 µε εναλλακτική την H1 : µ1≠ µ2 ή (αν
υπάρχουν ενδείξεις ότι ο δεύτερος πληθυσµός είναι π.χ. µεγαλύτερος) H1 : µ1< µ2.
Έστω λοιπόν ότι υπάρχουν δύο δείγµατα (ένα από κάθε πληθυσµό) µε µ.τ.
X 1 , X 2 αντίστοιχα, τότε έχουµε:
X 1 προσεγγιστικά κανονική µε µ.τ. µ1 και τ.α.
X 2 προσεγγιστικά κανονική µε µ.τ. µ2 και τ.α.
σ1
n1
σ2
n2
τότε
Ε[ X 1 - X 2 ] = Ε[ X 1 ]-Ε[ X 2 ] = µ1 - µ2 και λόγω της ανεξαρτησίας των X 1 , X 2 ισχύει
var ( X 1 - X 2 ) = var ( X 1 ) + var( X 2 ) =
σ 12
n1
+
σ 22
n2
Άρα η ( X 1 - X 2 ) είναι προσεγγιστικά κανονική µε µ.τ. (µ1 - µ2) και
(X
1
)
− X 2 − ( µ1 − µ 2 )
σ
2
1
n1
+
σ 22
 σ 12 σ 22 

 άρα
+
 n1 n2 
≈ N (0,1) έτσι προκύπτει
n2
Για να ελεγχθεί H0 : µ1= µ2
X1 − X 2
Θέτουµε Z =
σ 12
+
σ 22
n1 n2
Εάν H0 αληθής, τότε Ζ~Ν(0,1)
Παράδειγµα 2
Έστω δύο θέρετρα Α και Β, στα οποία θέλουµε να συγκρίνουµε τις µέσες
θερµοκρασίες µεσηµεριού. Για τυχαίο δείγµα 250 ηµερών στο θέρετρο Α είχαµε µέση
θερµοκρασία 27.20 C µε τυπική απόκλιση 3.90 C, ενώ στο Β για άλλο τυχαίο δείγµα
180 ηµερών ήταν µέση θερµοκρασία 28.10 C και τυπική απόκλιση 5.60 C. Για ποιο
επίπεδο σηµαντικότητας έχουµε ενδείξεις διαφοράς στην µέση θερµοκρασία της
θερµοκρασίας µεσηµεριού;
Έστω ότι για τα δύο θέρετρα είναι αντίστοιχα:
Θέρετρο Α µέση θερµοκρασία µ1 και τυπική απόκλιση σ1
Θέρετρο Β µέση θερµοκρασία µ2 και τυπική απόκλιση σ2
Ελέγχουµε την H0 : µ1= µ2 ενάντια στην H1 : µ1≠ µ2 για τυχαία δείγµατα n1, n2
ηµερών αντίστοιχα έχουµε µέσες θερµοκρασίες X 1 , X 2 έστω λοιπόν
X1 − X 2
εάν η H0 είναι αληθής τότε Ζ~Ν(0,1)
Z=
σ 12
n1
+
σ 22
n2
είναι σύµφωνα µε τα δεδοµένα n1= 250, n2 = 180, X 1 = 27.2, X 2 = 28.1 και λόγω του
µεγέθους των δειγµάτων µπορεί να δεχτούµε σ1 ≈ 3.9 και σ2 ≈ 5.6 έτσι προκύπτει
Z=
27.2 − 28.1
3 .9 2
2
= −1.856
5 .6
250 180
εάν η H0 είναι αληθής (δηλ. Ζ< -1.856) τότε Ρ(Ζ< -1.856) = 0.0318 και αφού
πρόκειται για συµµετρικό έλεγχο η τιµή Ζ = -1.856 είναι σηµαντική σε επίπεδο 2x
3.18% = 6.36% , επειδή η τιµή αυτή είναι µεγαλύτερη του 5% συνήθως δεν λογίζεται
ως αρκετή απόδειξη της διαφοράς των µέσων θερµοκρασιών.
Πρέπει να σηµειωθεί ότι η δειγµατοληψία είναι απαραίτητο να είναι ανεξάρτητη για
κάθε πληθυσµό. Αν είχαν επιλεχτεί 200 τυχαίες ηµέρες κοινές για τα δύο θέρετρα και
+
γινόταν µετρήσεις των θερµοκρασιών θα είχαµε µεν τυχαίο αλλά όχι ανεξάρτητο
δείγµα µε n =200 και συνέπεια η σχέση
var ( X 1 - X 2 ) = var ( X 1 ) + var( X 2 ) =
σ 12
+
σ 22
n1
n2
να µην ισχύει απαραίτητα και ο έλεγχος της αρχικής υπόθεσης δεν είναι έγκυρος. Σε
τέτοιες περιπτώσεις δέον όπως χρησιµοποιείται έλεγχος ζεύγους (βλ. σελ. 332).
Ασκήσεις 1.1 Έλεγχοι µέσης τιµής πληθυσµών
1. Σε χηµική βιοµηχανία παράγονται ρητίνες οι οποίες συσκευάζονται σε δοχεία των
οποίων τα βάρη έχουν κανονική κατανοµή µε τ.α. 0.25kg. Η µέση τιµή του
βάρους δεν πρέπει να είναι λιγότερο από 7.5 kg. Σε τυχαίο δείγµα δοχείων αν
βρεθεί το µέσο βάρος τους <7.4 kg η παραγωγή σταµατά αυτόµατα.
i.
έστω ότι λαµβάνουµε τυχαίο δείγµα 10 δοχείων, να βρεθεί το επίπεδο
σηµαντικότητας του ελέγχου. Να δοθεί η έννοια της τιµής αυτής.
ii.
Ποιο το µέγεθος του δείγµατος για επίπεδο σηµαντικότητας 5%.
2. Οι ταχύτητες εξόδου των βληµάτων από την κάνη όπλου έχουν κανονική
κατανοµή µε µέση ταχύτητα µ m/sec και τυπική απόκλιση 15 m/sec. Με µέτρηση
της µέσης ταχύτητας X τυχαίου δείγµατος βληµάτων ελέγχεται η υπόθεση H0 : µ
=600 (σε επίπεδο σηµαντικότητας 5%) ενάντια στην H1 : µ≠ 600.
i.
Για ποιες τιµές του X είναι αποδεκτή η H0 σε τυχαίο δείγµα 75
βληµάτων; Αν µ = 605 να δοθεί η µέση ταχύτητα και τυπική απόκλιση
του X και να βρεθεί η πιθανότητα αποδοχής της H0 .
ii.
Ποια η πιθανότητα αποδοχής της H0 τυχαίο δείγµα 150 βληµάτων όταν
µ= 605 ; Σχολιάστε την επιρροή του µεγέθους δείγµατος στην
πιθανότητα αποδοχής.
3. Σε δύο αποµονωµένα νησιά Α,Β έγινε µια οικολογική έρευνα κατά την οποία
παγιδεύτηκαν και καταγράφηκαν χελιδόνια. Για την νήσο Α βρέθηκε, σε δείγµα
260 πουλιών, µέσο ύψος 11.8 cm µε τυπική απόκλιση 1.4 cm, αντίστοιχα για την
νήσο Β σε δείγµα 145 πουλιών ήταν µέσο ύψος 12.1 cm και τυπική απόκλιση 1.6
cm. Υπάρχουν ενδείξεις ότι τα χελιδόνια στα δύο νησιά έχουν διαφορετικά ύψη;
4. Στην περιοχή της Έδεσσας σε οπωρώνα µε δαµασκηνιές κάποια δέντρα
ψεκάστηκαν µε ζιζανιοκτόνο. Για τυχαίο δείγµα 80 δέντρων που ψεκάστηκαν
µετρήθηκε η απόδοση σε kg και ήταν ∑ xi = 1210 , ∑ xi2 = 19275 . Σε τυχαίο
δείγµα µη ψεκασµένων δέντρων είχαµε αντίστοιχα
∑y
i
= 1210 , ∑ yi2 = 19275 .
Μπορεί να αποδειχτεί αύξηση της απόδοσης λόγω της χρήσης ζιζανιοκτόνου;
5. ∆εχόµαστε ότι η µέση ηλικία κατά την οποία ένα παιδί αρχίζει να µιλά έχει
κανονική κατανοµή µε τυπική απόκλιση 1.8 µήνες. Τυχαία δείγµατα παιδιών από
δύο διαφορετικές περιοχές είχαν τις παρακάτω ηλικίες(σε µήνες) έναρξης οµιλίας:
Περιοχή 1 : 14.5,13.9,15.2,14.0,13.3,9.8,11.9,16.6
Περιοχή 2 : 14.0,10.0,10.5,14.6,11.4
Υπάρχει σηµαντική διαφορά µεταξύ των δύο περιοχών όσον αφορά την ηλικία
που τα παιδιά αρχίζουν να µιλούν;
6. Επιλέγονται ανεξάρτητα δείγµατα µεγέθους n1, n2 πληθυσµών µε µέσες τιµές µ1,
µ2 και τυπική απόκλιση σ1, σ2. Αν δίνονται οι µέσες τιµές των δειγµάτων X 1 , X 2
να δοθεί η µέση τιµή και η τυπική απόκλιση του ( X 1 - X 2 ). Υποθέτωντας
(προσεγγιστικά) κανονική κατανοµή του ( X 1 - X 2 ) να δείξετε ότι
(X
)
1 − X 2 ± 1.96
σ 12
+
σ 22
n2 n2
είναι τα επίπεδα σηµαντικότητας 95% του (µ1 - µ2).
Μια χηµική αντίδραση επαναλήφθηκε 150 φορές χωρίς την παρουσία καταλύτη,
και κατόπιν άλλες 100 φορές µε την παρουσία καταλύτη. Ο χρόνος αντίδρασης
χωρίς καταλύτη είχε µέση τιµή 348 sec µε τυπική απόκλιση 16 sec, ενώ µε την
παρουσία καταλύτη είχαµε µέση τιµή 162 sec µε τυπική απόκλιση 12 sec. Να
βρεθούν τα όρια εµπιστοσύνης 95% της µείωσης του χρόνου αντίδρασης λόγω
της παρουσίας του καταλύτη.
7. Θεωρούµε ότι τα δέντρα στην νότια πλαγιά ενός λόφου γίνονται ψηλότερα από
ότι αυτά που βρίσκονται στην βόρεια πλαγιά. Τυχαίο δείγµα 160 δέντρων της
νότιας πλαγιάς είχε µέσο ύψος 28.3 m µε τυπική απόκλιση 4.6 m, ενώ τυχαίο
δείγµα από την βόρεια πλαγιά είχε µέσο ύψος 26.7 m µε τυπική απόκλιση 3.5 m.
Να δειχτεί αν ισχύει η παραδοχή που αρχικά κάναµε και να δοθεί το όριο
εµπιστοσύνης 99% για την διαφορά µεταξύ των µέσων υψών.
8. Έστω τυχαίο δείγµα µεγέθους n πληθυσµού που ακολουθεί την κατανοµή Poisson
X −µ
µε µέση τιµή µ. Εάν η µέση τιµή δείγµατος είναι X εξηγήστε γιατί η
µ n
έχει προσεγγιστικά την τυπική κανονική κατανοµή.
Για µια µακρά περίοδο ο καθηµερινός αριθµός των πελατών ενός καταστήµατος
είχε κατανοµή Poisson µε µέση τιµή 75. Στις 20 ηµέρες που ακολούθησαν µια
διαφηµιστική καµπάνια του καταστήµατος εξυπηρετήθηκαν συνολικά 1565
πελάτες. Υπάρχουν αποδείξεις ότι η διαφηµιστική εκστρατεία αύξησε τον µέσο
καθηµερινό αριθµό των πελατών;
9. Ο εβδοµαδιαίος αριθµός των ατυχηµάτων σε ορισµένο µήκος οδού είχε κατανοµή
Poisson µε µέση τιµή 5.8 . Έγιναν αλλαγές στην χάραξη κάποιων διασταυρώσεων
και σε µια περίοδο 52 εβδοµάδων µετά τις αλλαγές αυτές ο εβδοµαδιαίος αριθµός
των ατυχηµάτων ήταν 6.6 . Υπάρχει ένδειξη αλλαγής του ρυθµού των
ατυχηµάτων (χρησιµοποιήστε επίπεδο σηµαντικότητας 1%).
1.2 Έλεγχοι αναλογιών(τµηµάτων).
Αν θεωρηθεί πληθυσµός του οποίου ένα ποσοστό θ έχει κάποιο χαρακτηριστικό (π.χ.
σε ανθρώπινο πληθυσµό θ το ποσοστό των αριστερόχειρων, σε πληθυσµό
βιοµηχανικών προϊόντων θ το ποσοστό των ελαττωµατικών). Θέλοντας να
ελέγξουµε αν το θ παίρνει µια συγκεκριµένη τιµή ελέγχουµε την υπόθεση Η0 : θ = θ0
ενάντια στην Η0 : θ ≠ θ0 . Έστω ότι σε τυχαίο δείγµα µεγέθους n, Χ κατέχουν κάποια
χαρακτηριστικά.
Τότε το Χ ακολουθεί διωνυµική κατανοµή Β(n,θ).
Είναι λοιπόν Ε[Χ] = nθ και var(X) = nθ(1-θ).
Έστω ότι οι συνθήκες είναι τέτοιες ώστε η διωνυµική κατανοµή Β(n,θ) µπορεί να
προσεγγιστεί από µια κανονική κατανοµή. Τότε η Χ είναι κατά προσέγγιση κανονική,
X − nθ
µε µέση τιµή nθ και τυπική απόκλιση nθ (1 − θ ) ώστε
≈ Ν (0,1)
nθ (1 − θ )
Για να ελεγχθεί H0 : θ = θ0
X − nθ
Θέτουµε Z =
nθ (1 − θ )
Εάν H0 αληθής, τότε Ζ~Ν(0,1)
Παράδειγµα 1
Γνωρίζουµε ότι 12% του πληθυσµού παρακολούθησε το πρώτο επεισόδιο µιας νέας
τηλεοπτικής σειράς. Την επόµενη εβδοµάδα σε τυχαίο δείγµα πληθυσµού 500
ανθρώπων βρέθηκε ότι 75 από αυτούς παρακολούθησαν το δεύτερο επεισόδιο.
Υπάρχει διαφορά στα ποσοστά τηλεθέασης µεταξύ των δύο επεισοδίων(εβδοµάδων);
Έστω θ το ποσοστό των ανθρώπων που παρακολούθησαν το δεύτερο επεισόδιο η
υπόθεση µας είναι αν το ποσοστό θ είναι το ίδιο µε αυτό του πρώτου επεισοδίου.
Ελέγχουµε H0 : θ = 0.12 ενάντια στην H0 : θ ≠ 0.12
Για τυχαίο δείγµα n ανθρώπων, από τους οποίους X παρακολούθησαν το δεύτερο
X − n × 0.12
επεισόδιο έχουµε Z =
n × 0.12 × 0.88
Εάν H0 αληθής, τότε Ζ~Ν(0,1), µε τα δεδοµένα του προβλήµατος είναι n=500,X=75
75 − 500 × 0.12
έτσι προκύπτει Z =
= 2.064
500 × 0.12 × 0.88
Και η Η0 απορρίπτεται, δηλ. όντως υπάρχει διαφορά ανάµεσα στις τηλεθεάσεις.
∆ιόρθωση συνέχειας
Χρησιµοποιώντας την Κανονική προσέγγιση της ∆ιωνυµικής κατανοµής Β(n,θ) είναι
απαραίτητη µια διόρθωση συνέχειας, όµως λόγω της µικρής επίδρασης στην τιµή της
Ζ αυτή αγνοείται.
Κατά τον υπολογισµό του επιπέδου σηµαντικότητας η χρήση διόρθωσης δίνει
ακριβέστερες τιµές. Π.χ. ας υπολογίσουµε το επίπεδο σηµαντικότητας για Χ = 75 στο
προηγούµενο παράδειγµα. Εάν H0 αληθής, τότε Χ~ Β(500,0.12) και
74.5 − 500 × 0.12
Ρ(Χ 75) = Ρ(Χ>74.5 στην κανονική) = Ρ( Ζ >
)
500 × 0.12 × 0.88
= Ρ(Ζ > 1.995)
= 1 - 0.9770
= 0.0230
αφού ο έλεγχος είναι συµµετρικός το αποτέλεσµα Χ = 75 είναι σηµαντικό σε επίπεδο
2 × 2.3 % = 4.6 %.
∆ιαφορές στις αναλογίες (τµήµατα)
Έστω δύο πληθυσµοί, στον πρώτο υπάρχει ένα ποσοστό θ1 µε κάποιο χαρακτηριστικό
και στον δεύτερο ένα ποσοστό θ2 µε κάποιο χαρακτηριστικό, για τα οποία θέλουµε αν
ελέγξουµε κατά πόσο τα δύο ποσοστά θ1 και θ2 είναι όµοια δηλαδή ελέγχουµε την
υπόθεση H0 : θ 1= θ2 .
Υποθέτουµε δύο ανεξάρτητα δείγµατα, ένα από κάθε πληθυσµό. Στο τυχαίο δείγµα
µεγέθους n1 του πρώτου πληθυσµού Χ1 κατέχει κάποιο χαρακτηριστικό, αντίστοιχα
στο τυχαίο δείγµα µεγέθους n2 του δεύτερου πληθυσµού Χ2 κατέχει το ίδιο
χαρακτηριστικό. Τότε Χ1 ~ Β(n1,θ1) και η Χ1 είναι κατά προσέγγιση κανονική µε µέση
τιµή n1θ1 και διασπορά n1θ1(1-θ1) προκύπτει ότι το ποσοστό του δείγµατος
X 1 n1 είναι προσεγγιστικά κανονικό,
Με µέση τιµή
n1θ1
n θ (1 − θ ) θ (1 − θ1 )
= θ1 και διασπορά 1 1 2 1 = 1
n1
n1
n1
αντίστοιχα η X 2 n2 είναι προσεγγιστικά κανονική µε
Με µέση τιµή θ2 και διασπορά
n1θ1 (1 − θ1 ) θ1 (1 − θ1 )
=
n12
n1
X
X
X 
X 
X 
X 
Τότε η  1 − 2  έχει µέση τιµή E  1 − 2  = E  1  − E  2  = θ1 − θ 2
 n1 n2 
 n1 n2 
 n1 
 n2 
Και αφού τα δείγµατα είναι ανεξάρτητα
X
X 
 X  θ (1 − θ1 ) θ 2 (1 − θ 2 )
X 
var 1 − 2  = var 1  + var 2  = 1
+
n1
n2
 n1 n2 
 n1 
 n2 
έτσι προκύπτει
 X1 X 2 
 − (θ1 − θ 2 )

−
 n1 n2 
≈ N (0,1)
θ1 (1 − θ1 ) θ 2 (1 − θ 2 )
+
n1
n2
X1 + X 2
δηλαδή το
n1 + n2
συνδυασµένο ποσοστό των δύο δειγµάτων για να εκτιµήσουµε τις τιµές των θ 1, θ2.
όταν θ 1= θ2 τότε (θ 1- θ2) = 0. Χρησιµοποιούµε το p =
Για να ελεγχθεί H0 : θ1 = θ2
X1 X 2
−
X + X2
n1 n2
όπου p = 1
Θέτουµε Z =
n1 + n2
p(1 − p ) p(1 − p )
+
n1
n2
Εάν H0 αληθής, τότε Ζ~Ν(0,1)
Παράδειγµα 2
Μια εταιρεία παράγει χάλυβες προέντασης σε δύο ποιότητες ‘‘κανονική’’ και
‘‘ειδική’’. Κάποια τεχνική εταιρεία αγόρασε 120 ράβδους ‘‘κανονικές’’ και 80
‘‘ειδικές’’ οι οποίες χρησιµοποιήθηκαν στο ίδιο έργο (χωρίς να ληφθεί υπ’όψη
πιθανή διαφορά). Τρία χρόνια αργότερα 33 ‘‘κανονικές’’ ράβδοι και 13 ‘‘ειδικές’’
παρουσίασαν ‘‘χαλάρωση’’(µορφή αστοχίας). Προκύπτουν ικανοποιητικές
αποδείξεις (για επίπεδο σηµαντικότητας 1%) για το ότι οι ‘‘ειδικές’’ ράβδοι είναι
καλύτερες από τις ‘‘κανονικές’’ ;
Υποθέτουµε ότι η πιθανότητα ‘‘χαλάρωσης’’ κατά τα πρώτα 3 χρόνια είναι θ1 για τις
‘‘κανονικές’’ ράβδους και θ2 για τις ‘‘ειδικές’’. Αναµένεται οι ‘‘ειδικές’’ ράβδοι να
έχουν χαµηλότερη πιθανότητα χαλάρωσης γι’αυτό δεν απαιτείται συµµετρικός
έλεγχος, έτσι ελέγχουµε H0 : θ1 = θ2 ενάντια στην H0 : θ1 > θ2.
Εάν χαλαρώσουν Χ1 ‘‘κανονικές’’ ράβδοι και Χ2 ‘‘ειδικές’’ είναι
X1 X 2
−
X + X2
n1 n2
όπου p = 1
Z=
και εάν H0 αληθής, τότε Ζ~Ν(0,1)
n1 + n2
p(1 − p ) p(1 − p )
+
n1
n2
η Η1 ευνοείται από θετικές τιµές του Ζ
και µε τα δεδοµένα που έχουµε n1 = 120, n2 =80
33 + 13
X1 = 33, X2 = 13 άρα p =
= 0.23
120 + 80
33 13
−
120
80
Έτσι προκύπτει Z =
= 1.852
0.23(1 − 0.23) 0.23(1 − 0.23)
+
120
80
Άρα η H0 αληθής, δηλ. δεν υπάρχουν ικανοποιητικές αποδείξεις ότι η ‘‘ειδική’’
ποιότητα είναι καλύτερη της ‘‘κανονικής’’ (για επίπεδο σηµαντικότητας 1%).
Ασκήσεις 1.2 Έλεγχοι αναλογιών
1. Ρίχνουµε κέρµα 200 φορές και φέρνουµε 112 φορές κορώνα. Υπάρχει απόδειξη
ότι το κέρµα είναι ‘‘πειραγµένο’’;
2. Ρίχνουµε ζάρι 120 φορές και το 6 εµφανίζεται 30 φορές. Για ποιο επίπεδο
σηµαντικότητας έχουµε ένδειξη αλλοίωσης; Βρείτε κατά προσέγγιση το όριο
εµπιστοσύνης 95% της πιθανότητας εµφάνισης του 6 στο συγκεκριµένο ζάρι.
3. Οι οργανωτές σπουδών δια αλληλογραφίας υποστηρίζουν ότι 80% των µαθητών
ολοκληρώνουν µε επιτυχία τις σπουδές τους. Κάποιος που πιστεύει ότι το
ποσοστό αυτό είναι µικρότερο επικοινώνησε µε τυχαίο δείγµα 72 µαθητών και
4.
5.
6.
7.
8.
προέκυψε ότι 50 από αυτούς ολοκλήρωσαν µε επιτυχία τις σπουδές. Ποιο
συµπέρασµα προκύπτει όσον αφορά τους ισχυρισµούς των οργανωτών?
Από έρευνες είναι γνωστό ότι στο σύνολο του πληθυσµού 24% φορούν γυαλιά.
Σε τυχαίο δείγµα 250 φοιτητών του Πανεπιστηµίου βρέθηκαν 72 διοπτροφόροι,
κατά πόσο δείχνει αυτό ότι το ποσοστό των φοιτητών που φορούν γυαλιά είναι
διαφορετικό από αυτό του συνολικού πληθυσµού?
Κατά την διάρκεια του Αυγούστου σε δηµοσκόπηση δείγµατος 1000 ατόµων, 376
απάντησαν ότι θα ψήφιζαν την παρούσα κυβέρνηση, τον Σεπτέµβριο σε δείγµα
500 ατόµων 152 απάντησαν ότι θα ψήφιζαν την κυβέρνηση. Προκύπτει
σηµαντική αλλαγή στο ποσοστό υποστήριξης της κυβέρνησης?
Φαρµακευτική εταιρεία εφεύρε προϊόν που ελπίζει να µεγαλώσει τις πιθανότητες
ανάρρωσης προβάτων που πάσχουν από κάποια ασθένεια. Στις δοκιµές που
έγιναν ένα δείγµα 120 άρρωστων ζώων χωρίστηκε τυχαία σε δύο οµάδες των 60.
Η µία οµάδα πήρε το νέο φάρµακο και 48 πρόβατα ανάρρωσαν, η άλλη οµάδα
πήρε το παλαιό φάρµακο και 37 πρόβατα έγιναν καλά. Υπάρχουν αρκετές
αποδείξεις, για επίπεδο σηµαντικότητας 1%, ότι το νέο φάρµακο αυξάνει τις
πιθανότητες ανάρρωσης?
Εταιρεία που κατασκευάζει πυροτεχνήµατα υποστηρίζει ότι κάτω από 10% των
προϊόντων της είναι ελαττωµατικά. Κάποιος πελάτης αγόρασε 20 πυροτεχνήµατα
και 5 από αυτά ήταν ελαττωµατικά. Να εξηγηθεί γιατί δεν µπορούµε να
χρησιµοποιήσουµε την Κανονική προσέγγιση της ∆ιωνυµικής κατανοµής στην
περίπτωση αυτή. Αν υποτεθεί ότι 10% των προϊόντων είναι ελαττωµατικά να
υπολογιστεί η πιθανότητα ότι σε τυχαίο δείγµα 20 πυροτεχνηµάτνω 5 είναι
ελαττωµατικά. Γίνεται δεκτή η υπόθεση ότι τα ελαττωµατικά προϊόντα είναι
πραγµατικά 10%?.
Στη συσκευασία χυµού φρούτων αναγράφεται ότι ο όγκος της είναι ‘‘2 λίτρα e’’
(όπου e δηλώνει ότι χρησιµοποιείται η µέση τιµή) πρέπει να ικανοποιούνται οι
παρακάτω συνθήκες:
A) Το µέσο περιεχόµενο της συσκευασίας δεν πρέπει να είναι µικρότερο από 2 lt
B) Λιγότερο από 1 στις 40 συσκευασίες µπορεί να περιέχει <1970 ml
C) Καµία συσκευασία δεν επιτρέπεται να περιέχει λιγότερο από 1940 ml.
Μετρήθηκαν τα περιεχόµενα τυχαίου δείγµατος 500 συσκευασιών και το
αποτέλεσµα δίνεται οµαδοποιηµένο στον παρακάτω πίνακα
Περιεχόµενο
σε ml
19401960
19601970
19701980
19801990
19902000
Αριθµός
συσκευασιών
5
12
56
83
162
Περιεχόµενο
σε ml
20002010
20102020
20202030
20302040
20402060
Αριθµός
συσκευασιών
88
35
30
13
16
Ελέγξετε µε τη χρήση του επιπέδου σηµαντικότητας 5% εάν:
i)
Ικανοποιείται η συνθήκη Α
ii)
Ικανοποιείται η συνθήκη Β.
1.3 Ο έλεγχος της προσαρµογής χ2
Κατανοµές χ2
Εάν οι Ζ1, Ζ2,……., Ζn είναι ανεξάρτητες τυχαίες µεταβλητές οι οποίες έχουν τυπική
Κανονική κατανοµή τότε η ανεξάρτητη µεταβλητή
Y 2 = Z12 + Z 22 + ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ + Z n2
έχει την xn2 κατανοµή (κατανοµή χι τετράγωνο µε n βαθµούς ελευθερίας) και είναι µια
συνεχής τυχαία µεταβλητή που παίρνει µη-αρνητικές τιµές µε συνάρτηση την
f (x) = Cx n 2−1e − x 2 αν χ ≥ 0
f (x) = 0
αν χ ≤ 0
∞
όπου C σταθερά επιλεγµένη ώστε
∫ f (x )dx = 1 .
0
Για κάθε θετικό ακέραιο n υπάρχει διαφορετική χ2
κατανοµή, xn2 .
Για παράδειγµα, αν n =8 (σχ. 14.5) η συνάρτηση της
xn2 κατανοµής είναι
f (x) = Cx 3e − x 2
Και αν n = 15 (σχ. 14.6) η συνάρτηση της
xn2 κατανοµής είναι
f (x) = Cx 6.5e − x 2
Σηµειώστε ότι οι χ2 κατανοµές έχουν θετική λοξότητα.
Η συνάρτηση είναι δύσκολο να ολοκληρωθεί (εκτός αν
το n είναι µικρό και περιττό). Πίνακες χ2 (βλ. σελ.398)
δίνουν την τιµή χ που ξεπερνάται µε πιθανότητα p%
από µια ανεξάρτητη µεταβλητή που έχει την κατανοµή
xn2 (σχ.14.7).
p
αν Υ2~ xn2 τότε Ρ(Υ2>χ) =
100
Για παράδειγµα αν n = 3 και p = 5 (σχ. 14.8) οι πίνακες
δίνουν χ = 7.815 .
Αν Υ2~ x32 τότε Ρ(Υ2>7.815) = 0.05
Όταν n = 7 και p = 90 από τους πίνακες προκύπτει
χ = 2.833 . Αν Υ2~ x32 τότε Ρ(Υ2>2.833) = 0.90 .
Καταλληλότητα της προσαρµογής
Σε αρκετές περιπτώσεις υπολογίστηκαν αναµενόµενες συχνότητες από µια θεωρητική
κατανοµή οι οποίες συγκρίθηκαν µε τις πραγµατικά παρατηρούµενες. Εδώ θα δούµε
κατά πόσο συµφωνούν οι παρατηρούµενες µε τις αναµενόµενες συχνότητες.
Έστω n ανεξάρτητες δοκιµές µε k πιθανά αποτελέσµατα κάθε δοκιµής (π.χ. αν
ρίξουµε ζάρι υπάρχουν 6 πιθανά αποτελέσµατα 1,2,3,4,5,6, αν επιλέξουµε τυχαία ένα
όχηµα ανήκει σε µια από 8 κατηγορίες µοτοσικλέτα, αυτοκίνητο, ηµιφορτηγό,
λεωφορείο, φορτηγό, νταλίκα, αγροτικό, άλλο ειδικό όχηµα. Μια τυχαία επιλεγµένη
οικογένεια κατατάσσεται σύµφωνα µε τον αριθµό των παιδιών: ‘χωρίς παιδιά’, ‘ένα
παιδί’, ‘δύο παιδιά’, ‘περισσότερα από δύο παιδιά’ κ.ο.κ.).
Τα πιθανά αποτελέσµατα καλούνται ‘κλάσεις’ ή ‘κελιά’ και έστω ότι τα k πιθανά
αποτελέσµατα έχουν πιθανότητες
P1, P2, ………, Pκ ώστε p1 + p2 + ⋅ ⋅ ⋅ ⋅ ⋅ + pk = 1
Τότε για n δοκιµές οι αναµενόµενες συχνότητες είναι
np1, np2, ….., npk
αν θέσουµε για τις n δοκιµές
Χ1 πόσες φορές προκύπτει το πρώτο αποτέλεσµα
Χ2 πόσες φορές προκύπτει το δεύτερο αποτέλεσµα και συνεχίσουµε όµοια έως το k
αποτέλεσµα τότε οι τυχαίες µεταβλητές Χ1, Χ2, …., Χk εκφράζουν τις
‘παρατηρούµενες συχνότητες’ και ισχύει
X1 + X 2 + ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ + X k = n
ορίσαµε ότι Χ1 είναι το πόσες φορές προκύπτει το πρώτο αποτέλεσµα σε n
ανεξάρτητες δοκιµές έτσι έχουµε Χ1 ~Β(n,p1). Αν τώρα το np1 δεν είναι πολύ µικρό
X 1 − np1
τότε η Χ1 είναι κατά προσέγγιση κανονική και
~Ν(0,1) όµοια αν
np1 (1 − p1 )
υποθέσουµε για τις υπόλοιπες µεταβλητές Χι ισχύει τελικά για το άθροισµα των
τετραγώνων k τυπικών κανονικών µεταβλητών
( X 1 − np1 )2 + ( X 2 − np2 )2 + ⋅ ⋅ ⋅ ⋅ ⋅ + ( X k − npk )2
np1 (1 − p1 ) np2 (1 − p2 )
npk (1 − pk )
ότι αναµένουµε να έχει την x k2 κατανοµή. Επειδή οι Χ1, Χ2, …., Χk δεν είναι
ανεξάρτητες (αφού X 1 + X 2 + ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ + X k = n ) το επιχείρηµα αυτό δεν ισχύει.
Χρειαζόµαστε δύο τροποποιήσεις για την σωστή θεωρητική αντιµετώπιση, οι
παράγοντες (1-p1), (1-p2),…, (1-pk), απαλείφονται από τους παρονοµαστές και η
κατανοµή γίνεται xk2−1 αντί της x k2 δηλαδή η
( X 1 − np1 )2 + ( X 2 − np2 )2 + ⋅ ⋅ ⋅ ⋅ ⋅ + ( X k − npk )2
np1
np2
npk
2
k −1
έχει κατά προσέγγιση την x κατανοµή. Έτσι οι Χ1, Χ2, …., Χk είναι οι
παρατηρούµενες συχνότητες(Ο) και np1, np2, ….., npk είναι οι αναµενόµενες (Ε) και
2
(
O − E)
µπορεί να γραφεί ∑
~ xk2−1
E
πρέπει να παρατηρήσουµε ότι οι Χ1, Χ2, …., Χk είναι ακέραιοι αριθµοί
ώστε η
k
( X i − npi )2
i =1
npi
∑
έχει διακριτή κατανοµή την οποία προσεγγίζουµε µε την
συνεχή κατανοµή xk2−1 θα έπρεπε να γίνει µια διόρθωση συνέχειας αλλά την αγνοούµε
λόγω της πολυπλοκότητάς της.
Έτσι θα ελέγξουµε την υπόθεση H0 ότι οι πιθανότητες P1, P2, ………, Pκ έχουν
συγκεκριµένες τιµές ενάντια στην υπόθεση H1 (οι πιθανότητες έχουν κάποιες άλλες
τιµές) σύµφωνα µε τον παρακάτω τρόπο.
Υποθέτουµε ότι ισχύει η H0 και υπολογίζουµε τις αναµενόµενες συχνότητες(Ε)
(O − E )2 , το στατιστικό ελέγχου Υ2 δίνει ένα µέτρο της
κατόπιν θέτουµε Y 2 = ∑
E
διαφοράς µεταξύ των παρατηρούµενων και αναµενόµενων συχνοτήτων.
Αν η H1 είναι αληθής οι Ο και Ε διαφέρουν σηµαντικά, κατά συνέπεια η ποσότητα
(Ο-Ε)2 γίνεται µεγάλη, δηλαδή η H1 ευνοείται από µεγάλες τιµές του Υ2 και η H0 θα
απορρίπτεται όταν το Υ2 λαµβάνει µεγάλες τιµές.
Εάν η H0 είναι αληθής τότε Υ2~ xk2−1 και µε τη χρήση πινάκων χ2 επιλέγουµε την
‘‘περιοχή απόρριψης’’ για το επιθυµητό επίπεδο σηµαντικότητας (συνήθως 5%).
Παράδειγµα 1
Βιοµηχανία υποδηµάτων κατασκευάζει παιδικά παπούτσια σε πέντε µεγέθη
Α,B,C,D,E στις παρακάτω αναλογίες:
A: 2% B: 8% C: 30% D: 40% E: 20%
Σε τυχαίο δείγµα 500 παιδιών βρέθηκαν για κάθε κατηγορία µεγέθους:
A: 12 B: 46 C: 171 D: 178 E: 93
Προκύπτει από το δείγµα αυτό ότι τα µεγέθη παπουτσιών των παιδιών είναι
διαφορετικά από αυτά που υπέθεσε ο κατασκευαστής?
Στο συγκεκριµένο παράδειγµα ορίζουµε ως ‘‘δοκιµή’’ την επιλογή ενός παιδιού και
την κατάταξή του σε µία από τις πέντε κλάσεις µεγεθών (αυτό επαναλαµβάνεται για
ολόκληρο το δείγµα των 500 παιδιών). Ελέγχονται οι υποθέσεις:
H0 τα ποσοστά είναι όντως A: 2% B: 8% C: 30% D: 40% E: 20%
H1 τα παρατηρούµενα ποσοστά είναι διαφορετικά από τα αναµενόµενα.
Έστω λοιπόν ότι H0 αληθής έχουµε:
Κλάση µεγέθους
A
B
C
D
E
0.02
0.08
0.3
0.4
0.2
Αναµενόµενη συχνότητα (Ε)
10
40
150
200
100
Παρατηρούµενη συχνότητα (Ο)
12
46
171
178
93
0.4
0.9
2.94
2.42
0.49
Πιθανότητα
(O − E )2
E
Θέτουµε Y 2 = ∑
(O − E )2
και αφού
E
υπάρχουν 5 κλάσεις, αν η H0 αληθής
τότε
Υ2~ x42 .
Είναι
όµως
2
Y = 0.40 + 0.90 + 2.94 + 2.42 + 0.49 = 7.15
άρα η H0 γίνεται αποδεκτή.
Το δείγµα δεν µας δίνει ικανοποιητικές αποδείξεις (στο επίπεδο σηµαντικότητας 5%)
για να υποστηρίξουµε διαφορές µεταξύ των ποσοστών που παρατηρήθηκαν και αυτών
που υπέθεσε ο κατασκευαστής.
Όταν θέλουµε να ελέγξουµε την υπόθεση H0 η οποία όµως δεν έχει αρκετές
πληροφορίες ώστε να υπολογιστούν οι πιθανότητες P1, P2, ………, Pκ είναι
απαραίτητο να χρησιµοποιηθούν οι παρατηρούµενες συχνότητες Χ1, Χ2, …., Χk για
εκτιµηθούν ‘‘παράµετροι’’ του πληθυσµού (π.χ. η µέση τιµή) προτού µπορέσουµε να
εκτιµήσουµε τις πιθανότητες και κατά συνέπεια τις αναµενόµενες συχνότητες.
Για παράδειγµα αν προσαρµόζουµε µια κατανοµή Poisson σε κάποια δεδοµένα,
πρώτα βρίσκουµε την µέση τιµή του δείγµατος, κατόπιν υπολογίζουµε την πιθανότητα
η κατανοµή Poisson να έχει αυτή τη µέση τιµή.
2
k
(
X i − npi )
οι πιθανότητες pI εξαρτώνται από τις Χ1, Χ2, …., Χk άρα είναι και
Στην ∑
npi
i =1
αυτές ανεξάρτητες µεταβλητές, µια σωστή θεωρητική αντιµετώπιση γίνεται λοιπόν
εξαιρετικά πολύπλοκη.
k
( X − npi )2 έχει (προσεγγιστικά) την χ2 κατανοµή, αλλά για
Σηµειωτέον ότι η ∑ i
npi
i =1
κάθε φορά που χρησιµοποιούνται τα δεδοµένα για την εκτίµηση µιας ‘‘παραµέτρου’’
πρέπει να αφαιρείται ένας βαθµός ελευθερίας. Ο έλεγχος προσαρµογής χ2
εφαρµόζεται σε ένα ευρύ φάσµα περιπτώσεων εάν τηρούνται οι παρακάτω όροι:
(i)
Είναι δυνατή η αναγνώριση n ανεξάρτητων δοκιµών οι οποίες µπορεί να
καταταγούν σε k πιθανές κλάσεις.
(ii)
Οι κλάσεις πρέπει να ανταποκρίνονται σε όλα τα ενδεχόµενα (ακόµη κι αν δεν
υπάρχουν δεδοµένα για κάποιες).
(iii) Καµία από τις αναµενόµενες συχνότητες δεν πρέπει να είναι µικρότερη από 5
(αν είναι απαραίτητο συνδυάζουµε περισσότερες κλάσεις σε µία).
Για να ελεγχθεί υ υπόθεση H0 υπολογίζουµε τις αναµενόµενες συχνότητες, θεωρώντας
ότι η H0 είναι αληθής και θέτουµε
(O − E )2
Y2 = ∑
E
Αν χρησιµοποιήθηκαν k κλάσεις για τον υπολογισµό της Υ2 και από τη χρήση των
δεδοµένων προέκυψαν m παράµετροι πληθυσµού τότε
Όταν η H0 είναι αληθής ⇒ Υ2~ xk2−1− m
Σηµειώνεται ότι οι παρατηρούµενες συχνότητες (Ο) είναι πραγµατικές συχνότητες
εµφάνισης και πρέπει κατά συνέπεια να είναι ακέραιοι αριθµοί, αντίθετα οι
αναµενόµενες συχνότητες (Ε) δεν είναι απαραίτητο να είναι ακέραιοι.
Παράδειγµα 3
Να ελεγχθεί (στο επίπεδο σηµαντικότητας 1%) η προσαρµογή µιας κατανοµής
Poisson στα παρακάτω δεδοµένα
Αριθµός Η/Υ που
πωλήθηκαν σε µια ηµέρα
0
1
2
3
4
5
6
7
8
9
Αριθµός ηµερών
23
42
35
33
25
18
15
6
0
3
Στο παράδειγµα αυτό µια ‘‘δοκιµή’’ είναι να εξεταστεί µια ηµέρα η οποία κατόπιν θα
καταταγεί σε µια κλάση ανάλογα µε τον αριθµό των υπολογιστών που πωλήθηκαν, η
διαδικασία θα επαναληφθεί 200 φορές (όσες ο αριθµός των ηµερών).
Γίνεται ο έλεγχος των υποθέσεων H0 είναι κατανοµή Poisson
H1 δεν είναι κατανοµή Poisson.
Ενάντια στον έλεγχο
Η υπόθεση H0 είναι κατανοµή Poisson είναι αρκετή για τον υπολογισµό των
πιθανοτήτων αφού είναι απαραίτητη η γνώση της µέσης τιµής.
∑ xf = 560 = 2.8 καθώς και τις
Υπολογίζουµε την µέση τιµή του δείγµατος x =
∑ f 200
πιθανότητες, και τις αναµενόµενες συχνότητες της κατανοµής Poisson (2.8).
Είναι απαραίτητη η εισαγωγή µιας κλάσης ‘περισσότερες από 9 πωλήσεις’ ώστε να
καλύπτονται τα ενδεχόµενα να είναι συλλεκτικά εξαντληµένα.
Αριθµός πωλήσεων
0
1
2
3
4
5
Πιθανότητα από Poisson (2.8) 0.0608 0.1703 0.2384 0.2225 0.1557 0.0872
Αναµενόµενη συχνότητα
12.2
34.1
47.7
44.5
31.1
Αριθµός πωλήσεων
6
7
8
9
>9
Πιθανότητα από Poisson (2.8) 0.0407 0.0163 0.0057 0.0018 0.0006
Αναµενόµενη συχνότητα
8.1
3.3
1.1
0.4
17.4
0.1
Λόγω του ότι οι τέσσερις τελευταίες κλάσεις έχουν αναµενόµενες συχνότητες της
οµαδοποιούµε σε µία κλάση ‘ περισσότερες από 7 πωλήσεις’
Αριθµός πωλήσεων
Αναµενόµενη συχνότητα (Ε)
Παρατηρούµενη συχνότητα (Ο)
(O − E )
0
1
2
3
4
5
12.2 34.1 47.7 44.5 31.1 17.4
23
42
35
33
25
18
6
≥7
8.1
4.9
15
9
2
E
Θέτουµε Y 2 = ∑
9.56 1.83 3.38 2.97 1.20 0.02 5.88 3.43
(O − E )2
E
Επειδή υπάρχουν 8 κλάσεις και τα δεδοµένα χρησιµοποιήθηκαν για την εκτίµηση της
µέσης τιµής ο αριθµός των βαθµών ελευθερίας είναι 8-1-1=6
Εάν η H0 είναι αληθής τότε Υ2~ x62
Είναι Υ2= 9.56+1.83+…+3.43=28.27
Άρα η H0 απορρίπτεται, υπάρχουν πολύ
ισχυρά πειστήρια ότι οι καθηµερινές
πωλήσεις υπολογιστών δεν ακολουθούν
κατανοµή Poisson.
Παράδειγµα 3
Να εξεταστεί αν το παρακάτω δείγµα µπορεί σύµφωνα µε την λογική να προέκυψε
από µια κανονική κατανοµή.
Ηλιοφάνεια µηνός Ιουνίου
(ακέραιες τιµές)
Αριθµός ετών
Ηλιοφάνεια µηνός Ιουνίου
(ακέραιες τιµές)
Αριθµός ετών
141-150
151-160
161-170
171-180
181-190
2
3
11
26
21
191-200
201-210
211-220
221-230
10
5
1
1
Στο παράδειγµα αυτό µια ‘‘δοκιµή’’ είναι να εξεταστεί ένα έτος το οποίο κατόπιν θα
καταταγεί σε µια κλάση ανάλογα µε τον αριθµό των ωρών ηλιοφάνειας, η διαδικασία
θα επαναληφθεί 80 φορές (όσες ο αριθµός των ετών).
Γίνεται ο έλεγχος των υποθέσεων H0 είναι κανονική κατανοµή
H1 δεν είναι κανονική κατανοµή.
Ενάντια στον έλεγχο
(Τα συγκεκριµένα δεδοµένα εξετάστηκαν και στην παράγραφο 13.5 βλ. σελ. 290).
Βρήκαµε την µέση τιµή x = 180.75 και τυπική απόκλιση s = 14.403 του δείγµατος
και υπολογίστηκαν οι αναµενόµενες συχνότητες για µια κανονική κατανοµή µε αυτά
τα δεδοµένα, οι υπολογισµοί δίνονται στον πίνακα.
Ώρες
ηλιοφάνειας
Αναµενόµενη
συχνότητα
160.5170.5
170.5180.5
180.5190.5
190.5200.5
12.7
20.4
20.6
13.1
5
11
26
21
10
7
0.31
0.23
1.54
0.01
0.73
0.01
1.4 5.0
1
424
3
(O − E )2
E
Θέτουµε Y = ∑
200.5210.5
210.5220.5
>220.5
5.3 1.3 0.2
14
4244
3
6.4
Παρατηρούµενη
συχνότητα
2
150.5160.5
<150.5
6.8
(O − E )2
E
∑
(O − E )2
και τα δεδοµένα
E
χρησιµοποιήθηκαν για την εκτίµηση της µέσης τιµής καθώς και της τυπικής
απόκλισης ο αριθµός των βαθµών ελευθερίας είναι 6-1-2=3
Εάν η H0 είναι αληθής τότε Υ2~ x32
Είναι Υ2= 0.31+0.23+…+0.01=2.82
Άρα η H0 γίνεται αποδεκτή, η κανονική
κατανοµή προσαρµόζεται ικανοποιητικά
στα δεδοµένα.
Επειδή υπάρχουν 6 κλάσεις για τον υπολογισµό του
Πίνακες συσχέτισης
Ας θεωρήσουµε πληθυσµό που µπορεί να καταταχθεί µε δύο διαφορετικούς τρόπους
(π.χ. ένας άνθρωπος µπορεί να καταταγεί σύµφωνα µε το χρώµα των µατιών : γαλάζιο
ή καστανό αλλά και σύµφωνα µε το χρώµα των µαλλιών: καστανό, ξανθό, κόκκινο).
Καλούµαστε να απαντήσουµε αν οι δύο κατατάξεις σχετίζονται κατά κάποιο τρόπο
µεταξύ τους (π.χ. οι γαλανοµάτηδες είναι και ξανθοί?), ή είναι οι κατατάξεις
ανεξάρτητες µεταξύ τους?
Σε τέτοιε περιπτώσεις η αρχική υπόθεση είναι τέτοια ώστε δηλώνει την µησχετικότητα µεταξύ των κατατάξεων (δηλ. ότι είναι ανεξάρτητες µεταξύ τους). Αν
αντίθετα υποθέσουµε πιθανή συσχέτιση δεν είναι δυνατό να γίνουν ακριβείς
υπολογισµοί εκτός αν γνωρίζουµε επακριβώς τον τρόπο συσχέτισης.
Παράδειγµα 4
Σε τυχαίο δείγµα 160 αξιωµατικών των Ενόπλων ∆υνάµεων, καταγράφηκε ο κλάδος
στον οποίο ανήκουν (Στρατός Ξηράς, Ναυτικό, Αεροπορία) καθώς και ο τύπος του
Λυκείου από το οποίο αποφοίτησαν (∆ηµόσιο, Ιδιωτικό). Τα αποτελέσµατα της
καταγραφής δίνονται στον παρακάτω πίνακα συσχέτισης.
∆ηµόσιο
Λύκειο
Ιδιωτικό
Λύκειο
Σύνολα
Στρατός Ξηράς
Ναυτικό
Αεροπορία
27
52
27
24
18
12
51
70
39
Σύνολα
106
54
160
Όπου για παράδειγµα 52 αξιωµατικοί του δείγµατος είναι µέλη του Στρατού Ξηράς
και αποφοίτησαν από ∆ηµόσιο Λύκειο.
Να υπολογιστούν οι αναµενόµενες συχνότητες µε βάση την υπόθεση ότι δεν υπάρχει
συσχέτιση µεταξύ του κλάδου των Ενόπλων ∆υνάµεων και του τύπου του Λυκείου
αποφοίτησης.
Αν οι δύο κατατάξεις είναι ανεξάρτητες τότε έχουµε π.χ.
Ρ(Ναυτικό και ∆ηµόσιο Λύκειο) = Ρ(Ναυτικό) * Ρ(∆ηµόσιο Λύκειο)
51
Από τη στιγµή που 51 αξιωµατικοί ανήκουν στο Ναυτικό προκύπτει Ρ(Ναυτικό)=
160
106
και αφού 106 αξιωµατικοί αποφοίτησαν από ∆ηµόσιο Λύκειο Ρ(∆ηµ.Λύκειο)=
160
51 106
×
άρα η αναµενόµενη
και προκύπτει Ρ(Ναυτικό και ∆ηµόσιο Λύκειο)=
160 160
51 106
×
= 33.8 κατά τον ίδιο
συχνότητα ‘Ναυτικό και ∆ηµόσιο Λύκειο’ είναι 160 ×
160 160
τρόπο είναι για την αναµενόµενη συχνότητα ‘Ναυτικό και Ιδιωτικό Λύκειο’
51 54
160 ×
×
= 17.2 κ.ο.κ
160 160
προκύπτουν οι αναµενόµενες συχνότητες που δίνονται στον παρακάτω πίνακα.
Ε
Ναυτικό
Στρατός Ξηράς
Αεροπορία
∆ηµόσιο
Λύκειο
33.8
46.4
25.8
Ιδιωτικό
Λύκειο
17.2
23.6
13.2
Τώρα µπορούµε να ελέγξουµε την αρχική υπόθεση (δεν υπάρχει συσχέτιση) κάνοντας
µια δοκιµασία προσαρµογής χ2 , µε την σύγκριση των αναµενόµενων συχνοτήτων (Ε)
µε αυτές που πραγµατικά παρατηρήθηκαν (Ο) και δίνονται στον πρώτο πίνακα.
Στο συγκεκριµένο παράδειγµα µια ‘δοκιµή’ είναι η επιλογή ενός αξιωµατικού και η
κατάταξή του σε ένα από τα έξη κελιά του πίνακα, αυτό επαναλαµβάνεται 160 φορές
(όσες και το µέγεθος του δείγµατος).
Κατά τον υπολογισµό των αναµενόµενων συχνοτήτων χρησιµοποιήσαµε τα δεδοµένα
για να υπολογιστούν οι πιθανότητες
51
70
106
, Ρ(Στρατός Ξηράς) =
, Ρ(∆ηµόσιο Λύκειο) =
Ρ(Ναυτικό) =
160
160
160
Μένει να υπολογιστούν οι εναποµείνασες πιθανότητες
Ρ(Αεροπορία) =1- Ρ(Ναυτικό)- Ρ(Στρατός Ξηράς)
και Ρ(Ιδιωτικό Λύκειο) = 1 - Ρ(∆ηµόσιο Λύκειο)
Προκύπτει λοιπόν ότι τα δεδοµένα χρησιµοποιήθηκαν 3 φορές, και αφού έχουµε ένα
πίνακα συσχέτισης 3× 2 δηλ. έξη κλάσεις ο αριθµός των βαθµών ελευθερίας είναι
συνεπώς 6 – 1 – 3 = 2
Γενικά για ένα πίνακα συσχέτισης r × s έχουµε rs κλάσεις (κελιά).
Ακολούθως τα δεδοµένα χρησιµοποιούνται για την εκτίµηση (r-1) πιθανοτήτων για
την κατάταξη των σειρών του πίνακα και (s-1) πιθανοτήτων για την κατάταξη που
δίνεται στις στήλες του πίνακα, έτσι προκύπτει ο αριθµός των βαθµών ελευθερίας
rs – 1 – (r - 1) – (s - 1) = rs – r – s + 1 = (r - 1)(s -1)
Για ένα πίνακα συσχέτισης r × s
Προκειµένου να ελεγχθεί η H0 : δεν υπάρχει συσχέτιση,
θέτουµε
2
(
O − E)
2
Y =∑
E
Όταν η H0 είναι αληθής τότε Υ2~ x(2r −1)( s −1)
Παράδειγµα 5
Να δειχθεί αν από τα δεδοµένα που δίνονται στον πίνακα συσχέτισης του
προηγούµενου παραδείγµατος προκύπτουν αποδείξεις συσχέτισης µεταξύ του κλάδου
των αξιωµατικών του Στρατού Ξηράς και του τύπου Λυκείου αποφοίτησης.
Ελέγχουµε την υπόθεση H0 : δεν υπάρχει συσχέτιση
Ενάντια στην υπόθεση H1 : υπάρχει συσχέτιση
Οι πραγµατικά παρατηρούµενες συχνότητες εµφάνισης δίνονται στον αρχικό πίνακα
συσχέτισης. Υποθέτοντας την H0 οι αναµενόµενες συχνότητες υπολογίζονται όπως
είδαµε στο προηγούµενο παράδειγµα 4.
Για κάθε κλάση υπολογίζουµε
(O − E )2
για την κλάση ‘αξιωµατικοί Ναυτικού και
E
2
2
(
(
27 − 33.8)
O − E)
=
= 1.37 και οµοίως για τις άλλες.
∆ηµόσιο Λύκειο’ είναι π.χ. ,
33.8
E
(O − E )2
∆ηµόσιο
Ιδιωτικό
∆ηµόσιο
Ιδιωτικό
E
Ιδιωτικό
Αναµενόµενες
συχνότητες
∆ηµόσιο
Παρατηρούµενες
συχνότητες
Ναυτικό
27
24
51
33.8
17.2
1.37
2.69
Στρατός Ξηράς
52
18
70
46.4
23.6
0.68
1.33
Αεροπορία
27
12
39
25.8
13.2
0.06
0.11
Σύνολο
106
54
160
Έστω λοιπόν Y 2 = ∑
Σύνολο
(O − E )2
αφού έχουµε πίνακα συσχέτισης 3 × 2 ο αριθµός των
E
βαθµών ελευθερίας είναι 2 × 1 = 2 εάν η υπόθεση H0 είναι αληθής τότε Υ2~ x22 , έχουµε
Υ2=1.37+2.69+….+0.11=6.24
Άρα η υπόθεση H0 απορρίπτεται.
Υπάρχει λοιπόν κάποια ένδειξη (στο επίπεδο σηµαντικότητας 5%) για την συσχέτιση
µεταξύ των αξιωµατικών του κλάδου του Στρατού Ξηράς και του τύπου του Λυκείου
από το οποίο αποφοίτησαν.
2
(
O − E)
Η υψηλότερη τιµή του
, 2.69 εµφανίζεται στην κλάση ‘Ναυτικό και
E
Ιδιωτικό Λύκειο’. Συγκρίνοντας τις παρατηρούµενες µε τις αναµενόµενες συχνότητες
(Ο =24, Ε =17.2) γίνεται αντιληπτό ότι οι αξιωµατικοί του Ναυτικού που
αποφοίτησαν από Ιδιωτικό Λύκειο είναι περισσότεροι από ότι θα περιµέναµε.
Ασκήσεις 1.3 Κατανοµές χ2 και καταλληλότητα προσαρµογής
1. Χρησιµοποιώντας τους πίνακες της κατανοµής χ2
i.
∆οθέντος Υ2~ x52 , να υπολογιστεί η τιµή του a όταν Ρ(Υ2>a) =0.05
ii.
∆οθέντος Υ2~ x102 , να υπολογιστεί η τιµή του b όταν Ρ(Υ2<b) =0.01
iii.
∆οθέντος Υ2~ x82 , να υπολογιστεί η Ρ(Υ2>20.09)
iv.
2
, να υπολογιστεί η Ρ(18.94<Υ<50.89)
∆οθέντος Υ2~ x30
v.
∆οθέντος Υ2~ xn2 , και Ρ(Υ2>10.64) =0.01, να βρεθεί η τιµή του n
vi.
vii.
∆οθέντος Υ2~ x22 , να υπολογιστεί η τιµή του c όταν Ρ(Υ2>c) =0.005
2
∆οθέντος Υ2~ x50
, να υπολογιστεί η τιµή του d όταν Ρ(Υ2>d) =0.05
2. Χρησιµοποιώντας τους πίνακες κανονικών κατανοµών, µε δεδοµένο ότι η Ζ είναι
µια τυπική κανονική µεταβλητή, να βρεθούν:
i.
Η Ρ(Ζ2 < 2.706)
ii.
Η τιµή της a όταν Ρ(Ζ2 > a) =0.01
Να ελεγχθούν τα αποτελέσµατα µε τη χρήση πινάκων χ2 (η Ζ έχει την
x12 κατανοµή).
3. Η τυχαία µεταβλητή Υ2 ακολουθεί την κατανοµή χ2. Να βρεθούν µε ολοκλήρωση :
i.
Η σταθερά C της συνάρτησης Υ2
ii.
Η τιµή της Ρ(Υ2 > 6)
iii.
Η τιµή της a όταν Ρ(Υ2 > a) =0.09
iv.
Ο µέσος όρος της Υ2
Να ελεγχθούν οι απαντήσεις των (i) και (iii) µε τη χρήση πινάκων χ2 .
4. Η τυχαία µεταβλητή Υ2 ακολουθεί την κατανοµή x42 , να βρεθεί η σταθερά C της
συνάρτησης κατανοµής της και να δείξετε ότι η cdf της Υ2 είναι η
1
(x + 2)e− x 2 (για x≥0)
2
‘Έπειτα να βρεθούν οι Ρ(Υ2 < 1) και Ρ(Υ2 > 8).
F (x ) = 1 −
5. Η τυχαία µεταβλητή Υ2 ακολουθεί την κατανοµή xn2 . Με τη χρήση της
Y 2 = Z12 + Z 22 + ⋅ ⋅ ⋅ ⋅ ⋅ + Z n2 σε συνδυασµό µε τα αποτελέσµατα
[ ]
( )
E Z 2 = 1 και var Z 2 = 2 (βλ. άσκηση 13.4, ερώτηµα 6)
να δειχθεί ότι η µεταβλητή Υ2 έχει µέση τιµή n και απόκλιση 2n. Να εξηγηθεί
γιατί µεταβλητή Υ2 έχει προσεγγιστικά την κανονική κατανοµή όταν το n
λαµβάνει µεγάλες τιµές. Εάν n=30, µε τη χρήση της κανονικής προσέγγισης να
βρεθούν τα a και b ώστε Ρ(Υ2 < a)=0.05 και Ρ(Υ2 > b)=0.05.
Να συγκριθούν οι τιµές που προκύπτουν µε τις πραγµατικές (οι οποίες δίνονται
στους πίνακες χ2 .
6. Γνωρίζουµε ότι η κανονική προσέγγιση της κατανοµής xn2 (βλ. ερώτηµα 6) δεν
είναι ικανοποιητική εάν το n δεν είναι αρκετά µεγάλο. Μια καλύτερη προσέγγιση
δίνεται από την :
Υ2~ xn2 , τότε η 2Y 2 είναι προσεγγιστικά κανονική µε µέση τιµή 2n − 1 και
τυπική απόκλιση 1. Χρησιµοποιώντας την προσέγγιση αυτή :
2
i.
Εάν Υ2~ x30
, βρείτε τα a και b ώστε Ρ(Υ2 < a) =0.05 και Ρ(Υ2 > b) =0.05
ii.
2
, βρείτε το c ώστε Ρ(Υ2 > c) =0.01.
Εάν Υ2~ x50
7. Ρίχνουµε ένα ζάρι 100 φορές µε τα ακόλουθα αποτελέσµατα
Αριθµός που εµφανίζεται
1
2
3
Συχνότητα εµφάνισης
24
10
18
Υπάρχουν ενδείξεις ότι το ζάρι είναι ‘‘πειραγµένο’’?
4
9
5
13
6
26
8. Σύµφωνα µε θεωρητικές αναλύσεις οι γενετικοί τύποι A,B,C,D απαντώνται στους
απογόνους ενός συγκεκριµένου πληθυσµού µε αναλογία 1:2:2:1.
Σε τυχαίο δείγµα 150 απογόνων του πληθυσµού είχαµε
19 τύπου A, 66 τύπου B, 42 τύπου C, και 23 τύπου D.
Μπορούµε να ισχυριστούµε ότι η θεωρία αληθεύει?
9. Οι συχνότητες εµφάνισης των ψηφίων στις πρώτες 800 θέσεις του π = 3.14159….
είναι αυτές που φαίνονται στον παρακάτω πίνακα
Ψηφίο
0
1
2
3
4
5
6
7
8
9
∆εκαδικές θέσεις 1-400
39
43
44
39
47
39
42
24
44
39
∆εκαδικές θέσεις 401-800
35
49
39
40
33
34
35
51
32
52
Να ελεγχθεί η υπόθεση ότι όλα τα ψηφία έχουν ίδια πιθανότητα εµφάνισης.
i.
Με τη χρήση των πρώτων 400 ψηφίων
ii.
Με τη χρήση των πρώτων 800 ψηφίων.
10. Σε δείγµα οικογενειών που έχουν 6(έξη) παιδιά ο αριθµός των κοριτσιών ήταν
Αριθµός κοριτσιών
0
1
2
3
4
5
6
Αριθµός οικογενειών
2
6
11
19
9
3
0
Θεωρώντας ίσες πιθανότητες ύπαρξης αγοριών και κοριτσιών να υπολογιστούν
οι αναµενόµενες συχνότητες εµφάνισης και η ποιότητα προσαρµογής.
11. Αφού προσαρµόσετε µια ∆ιωνυµική κατανοµή στα παρακάτω δεδοµένα να
ελεγχθεί η ποιότητα προσαρµογής.
Αριθµός ηµερών µε
βροχή σε µία εβδοµάδα
0
Αριθµός εβδοµάδων
85
1
2
118 113
3
4
5
6
7
29
8
4
0
3
12. Να ελεγχθεί ο ισχυρισµός ότι το παρακάτω δείγµα είναι σε ακολουθία µε κάποιο
που έχει παρθεί από µια κατανοµή Poisson µε µέση τιµή 2.5.
Αριθµός
µικροελαττωµάτων
0
1
2
3
4
5
6
7
8
9
Αριθµός αυτοκινήτων
10
20
29
31
22
16
6
5
0
1
13. Να ελεγχθεί η προσαρµογή µιας κατανοµής Poisson στα παρακάτω δεδοµένα
Αριθµός ατυχηµάτων
0
1
2
3
4
5
6
7
8
Αριθµός ηµερών
61
115
94
65
24
4
0
1
1
14. Ελέγξετε την προσαρµογή µιας κανονικής κατανοµής στα δεδοµένα που δίνονται
στην άσκηση 14.2, ερώτηµα 8 (περιεχόµενα 500 φιαλών χυµού).
15. Τυχαίο δείγµα 100 ανθρώπων κατατάχθηκε σύµφωνα µε το χρώµα των µατιών
και το χρώµα των µαλλιών, όπως φαίνεται στον παρακάτω πίνακα
Χρώµα
µατιών
Ξανθό
Χρώµα µαλλιών
Καστανό
Κόκκινο
Γαλάζιο
15
10
3
καστανό
15
41
16
16. Σε τυχαίο δείγµα 300 ιδιοκτητών αυτοκινήτων, η ηλικία του κατόχου και ο τύπος
του αυτοκινήτου καταγράφηκαν ως εξής
Ηλικία
κατόχου
Τύπος αυτοκινήτου
Μικρό
Οικογενειακό
Πολυτελές
Κάτω από 25
38
28
4
25-40
23
62
20
Άνω των 40
31
70
24
Να αναλυθούν τα δεδοµένα για πιθανές ενδείξεις συσχετισµού µεταξύ ηλικιακής
οµάδας και τύπου αυτοκινήτου.
17. Από τον παρακάτω πίνακα συσχετισµού µπορούν να προκύψουν ενδείξεις για
συσχέτιση µεταξύ του µεγέθους ενός σπιτιού και του τύπου καυσίµου που
χρησιµοποιείται για θέρµανση?
Τύπος καυσίµου
Μέγεθος
σπιτιού
Στερεό
καύσιµο
Αέριο
Πετρέλαιο
Ηλεκτρικό
2 υπνοδωµάτια
94
144
30
72
3 υπνοδωµάτια
107
220
28
70
4 υπνοδωµάτια
18
43
5
11
5 υπνοδωµάτια
2
1
5
0
18. Ελέγχθηκαν δύο εντοµοκτόνα A και Β κατά τον ακόλουθο τρόπο. Χορηγήθηκε
ποσότητα του Α σε δείγµα 90 εντόµων και 55 από αυτά πέθαναν, ίδια ποσότητα
του Β δόθηκε σε δείγµα 60 εντόµων και πέθαναν τα 28.
i. Να γραφούν τα δεδοµένα σε πίνακα συσχέτισης 2 × 2 µε ανάλυση κατά
κλάσεις ‘τύπου Α ή Β’ και ‘πέθαναν ή έζησαν’. Με τη χρήση του ελέγχου χ2 να
βρεθεί συσχέτιση µεταξύ του τύπου εντοµοκτόνου και της αποτελεσµατικότητας.
ii. Έχοντας ως βάση τις αναλογίες των εντόµων που πέθαναν για τον τύπο Α και
τον Β, να χρησιµοποιηθεί ο έλεγχος διαφοράς αναλογιών για να ελεγχθεί η
υπόθεση H0 : οι πραγµατικές αναλογίες νεκρών εντόµων είναι ίδιες για τους δύο
τύπους εντοµοκτόνων.
Αν ο έλεγχος γίνει µε τη µορφή : Απορρίπτω την H0 εάν Ζ2 > (1.96)2 , και
κατόπιν υπολογίσουµε την τιµή της Ζ2 να αποδειχθεί ότι ο έλεγχος αυτός είναι
ακριβώς ίδιος µε αυτόν του ερωτήµατος (i).
19. Για ένα πίνακα συσχέτισης 2 × 2 είναι δυνατή µια διόρθωση συνέχειας (διόρθωση
κατά Yates). Το µέγεθος κάθε διαφοράς (Ο-Ε) µειώνεται κατά 0.5 και κατόπιν
υψώνεται στο τετράγωνο, έτσι το στατιστικό υπολογίζεται ως εξής:
Y =∑
2
[ O − E − 0.5]
2
E
Με τη χρήση της διόρθωσης αυτής να υπολογιστεί Υ2 για τον πίνακα συσχέτισης
2 × 2 του ερωτήµατος 19 (i).
1.3 Η κατανοµή της διασποράς του δείγµατος
Έστω [Χ1, Χ2, …., Χn ] τυχαίο δείγµα µε µέγεθος n πληθυσµού µε µέση τιµή µ και
2
διασπορά σ2 τότε είναι Ε[ Χ1 ] = µ και var( X 1 ) = E ( X 1 − µ ) = σ 2
1
Η µέση τιµή δείγµατος X = ( X 1 + X 2 + ⋅ ⋅ ⋅ + X n ) έχει
n
[
[ ]
]
( ) ( )
∑ (X − X ) ∑ X
2
σ
Μέση τιµή E X = µ και διασπορά var X = E  X − µ  =


n
n
διασπορά του δείγµατος S 2 =
i =1
n
2
ι
=
i =1
2
προκύπτει έτσι η
2
ι
−X
2
η οποία φυσικά είναι
n
n
τυχαία µεταβλητή (διαφορετική σε κάθε δείγµα), και µπορούµε να υπολογίσουµε την
µέση τιµή της Ε[ S2 ].
n
Είναι
∑ (X i
i =1
− µ) =
2
∑ {(X
n
i =1
i
) (
−X + X −µ
)}
2
∑ (X
=
i =1
n
∑ (X
=
∑ (X
i =1
n
Τώρα είναι
i =1
i
i
−X
)
+2 Xi − X X −µ + X −µ
i
−X
)
+2 X −µ
n
−X
n
)
2
2
2
=nS 2 και
προκύπτει ∑ ( X i − µ ) = nS
2
2
(
)(
(
)∑ (X
∑ (X
i =1
(
+n X −µ
i =1
Εάν λάβουµε τα αναµενόµενα
n
∑ Ε (X
i =1
δηλ.
i
−X
i
n
2
i =1
)
2
i
)
2
− nX = 0
οπότε
2
[(
[ ]
[ ]
[ ]
) (
) =∑X
σ 2 
nσ 2 = nΕ S 2 + n  και (n − 1 )σ
 n 
Ε S2 =
)
−X +n X −µ
− µ ) = nΕ S 2 + nΕ X − µ
2
i
n
i =1
n
) (
2
)]
2
[ ]
= nΕ S 2
(n − 1) σ 2
n
έτσι τελικά είναι
Να σηµειωθεί ότι η µέση τιµή της S2 που προκύπτει από όλα τα πιθανά δείγµατα
µεγέθους n είναι µικρότερη από την διασπορά του πληθυσµού σ2 (αυτό βέβαια δεν
σηµαίνει ότι η S2 είναι πάντα µικρότερη από την σ2 αλλά η µέση τιµή της είναι). Η
διασπορά δείγµατος S2 δίνει µια ‘επηρεασµένη’ τιµή της διασποράς του πληθυσµού σ2
η οποία µπορεί να διορθωθεί µε τον πολλαπλασιασµό της διασποράς του δείγµατος
n
µε τον συντελεστή
ορίζοντας έτσι την
(n − 1)
n
∆ιορθωµένη διασπορά δείγµατος S*2 =
S2
(n − 1)
∑ (X
n
=
i =1
i
−X
)
2
(n − 1)
η οποία συχνά χρησιµοποιείται για τον υπολογισµό της διασποράς του πληθυσµού σ2.
(σε υπολογιστή τσέπης µε στατιστικές συναρτήσεις, η τιµή της S* προκύπτει άµεσα µετά
την εισαγωγή των δεδοµένων Χ1, Χ2, …., Χn απλά µε το πάτηµα ενός πλήκτρου που
συνήθως είναι το σn-1 ή το s).
(n − 1) σ 2 .
∆είξαµε ήδη ότι η διασπορά δείγµατος S2 έχει πάντα µέση τιµή Ε S 2 =
n
Η κατανοµή της S2 εξαρτάται όµως από την κατανοµή του πληθυσµού από τον οποίο
πήραµε το δείγµα, θα εξετάσουµε µια ειδική περίπτωση.
Για το υπόλοιπο της παραγράφου,
Υποθέτουµε ότι το τυχαίο δείγµα πάρθηκε από πληθυσµό µε κανονική κατανοµή.
X −µ
Τότε i
~ Ν (0,1) και η X έχει επίσης κανονική κατανοµή έτσι είναι
[ ]
σ
X −µ
~ Ν (0,1)
σ n
θεωρούµε λοιπόν ότι, για δείγµατα από πληθυσµούς µε κανονική κατανοµή, η µέση
τιµή δείγµατος X και η διασπορά του S2 είναι ανεξάρτητες µεταβλητές.
Επίσης σηµειώνεται το ότι εάν οι Y12 και Y22 είναι ανεξάρτητες τυχαίες µεταβλητές,
µε Y12 ~ xm2 και Y22 ~ xn2 τότε Y12 + Y22 ~ xm2 + n (αφού η Y12 είναι το άθροισµα των
τετραγώνων m ανεξάρτητων τυπικών κανονικών µεταβλητών, και η Y22 είναι το
άθροισµα των τετραγώνων n τέτοιων µεταβλητών, προκύπτει ότι Y12 + Y22 είναι το
άθροισµα των τετραγώνων (m+n) τέτοιων µεταβλητών).
Εάν διαιρέσουµε την εξίσωση (1) (βλ. σελ. 324) µε το όρο σ2 έχουµε
2
nS 2  X − µ 
 Xi − µ 

 = 2 + 
∑

σ 
σ
i =1 
σ n 
n
2
2
X −µ
όπου ∑  i
 είναι το άθροισµα των τετραγώνων n ανεξάρτητων τυπικών
σ 
i =1 
κανονικών µεταβλητών και
2
n
 Xi − µ 
 ~ x n2

∑
σ 
i =1 
n
2
X −µ
2


επίσης
αφού πρόκειται για το τετράγωνο µιας τυπικής
 σ n  ~ x1


κανονικής µεταβλητής.
Από τη στιγµή που οι S2 και X είναι ανεξάρτητες προκύπτει ότι
nS 2
σ
2
~ χ n2−1
2
Μια αρχική υπόθεση ότι η σ λαµβάνει συγκεκριµένες τιµές µπορεί να ελεγχθεί
σύµφωνα µε τον παρακάτω συλλογισµό:
Για να ελεγχθεί εάν H0 : σ 2 = σ 02
Θεωρούµε Y 2 =
nS 2
σ 02
εάν H0 αληθής, τότε Y 2 ~ χ n2−1
Παράδειγµα 1
Τα µήκη ράβδων γυαλιού που παράγονταν σε µια βιοµηχανία είχαν, για µια µακρά
περίοδο, κανονική κατανοµή µε τυπική απόκλιση 4.2 mm. Έχοντας στόχο την
σµίκρυνση της τυπικής απόκλισης τροποποιήθηκε η διαδικασία παραγωγής, µετά την
τροποποίηση µετρήθηκαν τα µήκη τυχαίου δείγµατος 20 ράβδων και η τυπική τους
απόκλιση βρέθηκε να είναι 3.5mm.
Παρουσιάζει το δείγµα αυτό σηµεία µείωσης της τυπικής απόκλισης?
Έστω λοιπόν ότι, µετά την τροποποίηση, τα µήκη των ράβδων έχουν κανονική
κατανοµή µε τυπική απόκλιση σ.
Ελέγχουµε τη υπόθεση H0 : σ = 4.2
Ενάντια στην
H1 : σ < 4.2
Το τυχαίο δείγµα 20 ράβδων έχει τυπική απόκλιση S
20S 2
Θεωρούµε Y 2 =
4 .2 2
Η H1 ευνοείται από µικρές τιµές του Y 2
Εάν H0 αληθής τότε Y 2 ~ χ 192
Είναι
όµως
S
=3.5
2
20 × 3.5
Y2 =
= 13.89
4 .2 2
άρα
Η H0 γίνεται αποδεκτή. Το δείγµα δεν δίνει σαφείς αποδείξεις µείωσης της τυπικής
απόκλισης του πληθυσµού.
Παράδειγµα 2
Τυχαίο δείγµα 8 σχοινιών έσπασε στις παρακάτω δυνάµεις ( σε Newton)
8419, 8147, 8094, 8586, 8531, 8197, 8396, 7895.
Θεωρώντας ότι οι δυνάµεις θραύσης είναι κανονικά κατανεµηµένες, να δοθεί
διάστηµα εµπιστοσύνης 95% για την τυπική απόκλιση των δυνάµεων θραύσης.
Υποθέτουµε κανονική κατανοµή για τις δυνάµεις θραύσης µε τυπική απόκλιση σ.
8S 2
Το τυχαίο δείγµα 8 σχοινιών έχει τυπική απόκλιση S άρα 2 ~ χ 72
σ
Για το 95% των δειγµάτων
8S 2
8S 2
8S 2
1.690 < 2 < 16.01 ⇒
<σ2 <
16.01
1.690
σ
υπολογίζουµε τώρα την διασπορά S2 του δοθέντος δείγµατος.
∑x

Απευθείας χρήση του τύπου S
−
 n 
n


µπορεί να οδηγήσει σε λάθη κατά την στρογγυλοποίηση αφού η µέση τιµή είναι πολύ
µεγάλη σε σύγκριση µε την τυπική απόκλιση. Έτσι εργαζόµαστε ως εξής
u = x − 8000 : 419 ,147 , 94 , 586 , 531 ,197 , 396 , − 105
2
τότε
∑ u = 2265 , ∑ u
2
∑x
=
2
2
= 1038013
2
1038013  2265 
−
 = 49592
8
 8 
προκύπτει ότι το διάστηµα εµπιστοσύνης 95% είναι
8 × 49592
8 × 49592
<σ2 <
16.01
1.690
2
24780 < σ < 234754
157 < σ < 485 .
και S x2 = S u2 =
Ασκήσεις 14.4 Κατανοµή της διασποράς δείγµατος
1. Λήφθηκαν τυχαία δείγµατα µεγέθους 10 από πληθυσµό µε κανονική κατανοµή και
τυπική απόκλιση 7.2
Να δοθούν δύο τιµές, µεταξύ των οποίων βρίσκεται η τυπική απόκλιση για το
95% των δειγµάτων.
2. Από πληθυσµό µε κανονική κατανοµή και τυπική απόκλιση 36.0 πάρθηκαν τυχαία
δείγµατα µεγέθους 25.
Να δοθούν δύο τιµές, µεταξύ των οποίων βρίσκεται η τυπική απόκλιση για το
98% των δειγµάτων.
3. Από πληθυσµό µε κανονική κατανοµή και τυπική απόκλιση 10.0 πάρθηκαν τυχαία
δείγµατα µεγέθους 15.
Να βρεθεί η τιµή της τυπικής απόκλισης η οποία θα ξεπεραστεί στο 5% µόνο των
δειγµάτων του πληθυσµού.
4. Τα ύψη των πεύκων ενός δάσους έχουν κανονική κατανοµή µε τυπική απόκλιση
2.5m. Σε τυχαίο δείγµα 16 πεύκων από άλλο δάσος τα ύψη είχαν τυπική απόκλιση
3.2m. Μπορούµε να υποθέσουµε ότι η τυπική απόκλιση των υψών των πεύκων
είναι διαφορετική µεταξύ των δύο δασών?
5. Συσκευάζουµε ζάχαρη µε µια µηχανή, η τυπική απόκλιση των βαρών των
συσκευασιών δεν πρέπει να είναι µεγαλύτερη από 8gr.
Σε τυχαίο δείγµα 10 συσκευασιών µετρήθηκαν τα παρακάτω βάρη:
1000.3, 999.0, 1007.7, 995.0, 980.2, 986.1, 1017.4, 1013.3, 986.6, 990.3.gr
υπάρχουν ενδείξεις ότι η τυπική απόκλιση είναι µεγαλύτερη από 8gr? Να
δηλωθούν οποίες υποθέσεις ήταν απαραίτητο να γίνουν.
6. Κάποια εργαζόµενη βρήκε ότι οι χρόνοι διαδροµής για την προσέλευση στην
εργασία είχαν κανονική κατανοµή µε τυπική απόκλιση 6 λεπτά. ∆οκίµασε νέα
διαδροµή κατά την προσέλευση και οι χρόνοι xi σε λεπτά για 20 διαδροµές µε το
νέο δροµολόγιο έδωσαν
∑ x i = 965 ∑ x i2 = 46875
Η αλλαγή δροµολογίου άλλαξε την τυπική απόκλιση των χρόνων διαδροµής?
7. ∆ίνεται τυχαίο δείγµα 5 τιµών από µια κανονική κατανοµή:
3.54, 4.17, 3.90, 4.30, 4.56 .
να βρεθούν τα όρια εµπιστοσύνης 95% της τυπικής απόκλισης του πληθυσµού.
8. Θεωρούµε ότι το ύψος των ανθρώπων έχει κανονική κατανοµή, και για τυχαίο
δείγµα 30 ανθρώπων τα ύψη τους είχαν τυπική απόκλιση 11.4 cm. Να βρεθούν τα
όρια εµπιστοσύνης 95% για την τυπική απόκλιση των υψών όλων των ανθρώπων.
2
9. ∆ίνεται ότι Υ2~ x499
, να βρεθούν οι αριθµοί a και b ώστε
Ρ(Υ2 < a)=0.025 και Ρ (Υ2 > b) =0.025
(να γίνει χρήση του ότι εάν ότι Υ2 ~ xn2 τότε η
µε µέση τιµή
2n − 1 και διασπορά 1).
2Y 2 είναι προσεγγιστικά κανονική
Τυχαίο δείγµα 500 τιµών προερχόµενο από πληθυσµό µε κανονική κατανοµή, έχει
τυπική απόκλιση 26.8
(i)
Να ελεγχθεί η υπόθεση ότι ο πληθυσµός έχει τυπική απόκλιση 25.0
(ii)
Να δοθούν τα όρια εµπιστοσύνης 95% για την τυπική απόκλιση του
πληθυσµού.
10. Ένας πληθυσµός έχει κανονική κατανοµή µε διασπορά σ2 , τυχαίο δείγµα
µεγέθους n από τον πληθυσµό αυτό έχει διασπορά S2.
(i)
να δοθεί η αναµενόµενη τιµή της S2 και να δείξετε ότι
2(n − 1)σ 4
var S =
n2
2
2
2
µπορεί να υποτεθεί ότι Υ ~ xm , τότε var(Y ) = 2m .(βλ. Άσκηση 14.3 ερώτηµα 6).
(ii)
εάν το µέγεθος n είναι µεγάλο, να δείξετε ότι η τυπική απόκλιση του
δείγµατος
έχει προσεγγιστικά κανονική
κατανοµή µε µέση
τιµή σ (2n − 3) 2n και τυπική απόκλιση σ 2n ( να γίνει χρήση της
( )
2
κανονικής προσέγγισης της
2Y 2 όπως δόθηκε στο ερώτηµα 9).
1.4 Κατανοµές t
Εάν οι Ζ και Υ2 είναι ανεξάρτητες τυχαίες µεταβλητές µε Ζ ~ Ν(0,1) και Υ2 ~ xn2 τότε η
T=
Z n
λέγεται ότι έχει την κατανοµή tn (κατανοµή του
Y2
Student µε n βαθµούς ελευθερίας). Η Τ είναι µια συνεχής τυχαία µεταβλητή η οποία
µπορεί να λάβει οποιαδήποτε τιµή και έχει συνάρτηση την
τυχαία µεταβλητή

x2 

f ( x ) = C  1 +
n 

όπου η σταθερά C επιλέγεται έτσι ώστε
∫
∞
−∞
− (n + 1 ) 2
f ( x )dx = 1 .
Η κατανοµή είναι συµµετρική περί τον x =0 και η συνάρτησή της οµοιάζει αυτήν της
κανονικής κατανοµής. Για κάθε θετικό ακέραιο n υπάρχει διαφορετική κατανοµή t.
Το διάγραµµα δείχνει την γραφική
παράσταση της κατανοµής t3 , σε
σύγκριση µε την κανονική
κατανοµή που δίνεται µε την
στικτή γραµµή.
Σηµειώσετε ότι η κατανοµή t είναι
περισσότερο 'απλωµένη' από ότι η
κανονική κατανοµή.
Όσο µεγαλώνει το n τόσο η γραφική παράσταση της κατανοµής tn πλησιάζει
περισσότερο αυτήν της τυπικής κανονικής κατανοµής.
Επειδή είναι δύσκολο να εργαζόµαστε µε απευθείας χρήση της συνάρτησης της tn
καταφεύγουµε και πάλι στην χρήση πινάκων. Οι πίνακες t που υπάρχουν στην σελ.399
δίνουν συµµετρικά ποσοστά , δηλ. ο πίνακας δίνει την τιµή x που ξεπερνιέται µε
πιθανότητα
1
p% από µια τυχαία µεταβλητή που ακολουθεί την tn κατανοµή
2
(σχ.14.17).
1
p
2
Εάν T~ tn , P(T > x) =
100
Τότε λόγω συµµετρίας Ρ(Τ < -x )=
1
p
2
100
p
Και έχουµε P ( T > x ) =
100
Για παράδειγµα όταν n = 4 και p =
5 οι πίνακες δίνουν x = 2.776 (σχ.
14.18)
(σηµειώστε ότι η αντίστοιχη τιµή
µιας κανονικής κατανοµής είναι
1.96).
Εάν επιθυµούµε να αποκόψουµε
5% από την µια πλευρά της
κατανοµής πρέπει να δούµε την
τιµή p = 10. Για παράδειγµα όταν n
= 12 και p = 10 οι πίνακες δίνουν x
= 1.782 (βλ. σχ. 14.19).
Εφαρµογή σε δείγµατα
Μέχρι τώρα οι έλεγχοι υποθέσεων για την µέση τιµή πληθυσµού µ βασίστηκαν στο
ότι
X −µ
~ Ν (0,1)
σ n
και υποθέσαµε γνωστή την τυπική απόκλιση σ του πληθυσµού.
Στην πραγµατικότητα είανι µάλλον απίθανο να γνωρίζουµε την σ την οποία συνήθως
εκτιµούµε µε βάση το δείγµα. Το γεγονός αυτό δεν προκαλεί δυσκολίες για µεγάλα
δείγµατα, αλλά για µικρά δείγµατα (µέγεθος<50) η τυπική απόκλιση δέιγµατος S
µπορεί αν διαφέρει σηµαντικά από την σ, προκαλώντας έτσι µεγάλα λάθη. Θα
δείξουµε πως µπορεί να ξεπεραστεί αυτό το πρόβληµα µε τη χρήση της t κατανοµής,
πρέπει να τηρείται η απαραίτητη προϋπόθεση:
Θεωρούµε ΚΑΝΟΝΙΚΗ κατανοµή του πληθυσµού
Έστω λοιπόν πληθυσµός µε κανονική κατανοµή και µέση τιµή µ και διασπορά σ2.
Υποθέτουµε ότι τυχαίο δείγµα µεγέθους n έχει µέση τιµή X και διασπορά S2 .
Οι X και S2 είναι ανεξάρτητες τυχαίες µεταβλητές,
X −µ
nS 2
~ Ν (0,1) και
~ xn2−1
2
σ
σ n
προκύπτει ότι
X −µ


 σ n  n −1


~ tn −1 δηλ.
2
nS σ 2
( )
X −µ
~ tn −1
S n −1
έτσι όταν υπάρχει στη διάθεσή µας µόνο η τυπική απόκλιση του δείγµατος S
χρησιµοποιούµε
X −µ
X −µ
αντί της
S n −1
σ n
και την κατανοµή tn −1 αντί της τυπικής κανονικής κατανοµής.
Εφαρµόζοντας τις τροποποιήσεις αυτές µπορούµε να κάνουµε ελέγχους υποθέσεων
και να σχηµατίσουµε όρια εµπιστοσύνης µε τον ίδιο τρόπο που χρησιµοποιήθηκε
προηγούµενα.
Σηµείωση
εάν χρησιµοποιείται η 'διορθωµένη' τυπική απόκλιση δείγµατος
n
S* = S
n −1
X −µ
X −µ
~ Ν (0,1) .
Έχουµε
~ tn −1 που αντιστοιχεί καλύτερα µε την
σ n
S* n
Έλεγχος υποθέσεων για την µ
Για να ελεγχθεί Ho: µ = µ0
X −µ
Θεωρούµε T =
S n −1
Εάν Ho αληθής τότε T ~ tn −1
Παράδειγµα 1
Κάποια µηχανή συσκευασίας πακετάρει σακουλάκια µε καραµέλες µε µέσο βάρος
225gr. Σε τυχαίο δείγµα 10 συσκευασιών µετρήθηκαν τα παρακάτω βάρη:
238, 223, 226, 244, 218, 233, 240, 230, 222, 235 gr
το δείγµα αυτό δίνει ενδείξεις ότι το µέσο βάρος είναι διαφορετικό από 225gr?
(υποθέσατε κανονική κατανοµή των βαρών).
Έστω λοιπόν ότι τα βάρη έχουν κανονική κατανοµή µε µέση τιµή µ.
Ελέγχουµε την υπόθεση Η0 : µ = 225
Ενάντια στην Η1 : µ ≠ 225
Εάν τυχαίο δείγµα 10 συσκευασιών έχει µέση τιµή X και τυπική απόκλιση S έχουµε
X − 225
T=
S 9
Εάν η Ho αληθής τότε T ~ t9
(σχ.14.20). Για το δείγµα είναι X
=230.9 , S = 8.117 και
230.9 − 225
T=
= 2.181
8.117 9
Άρα η Ho γίνεται αποδεκτή.
Το δείγµα δεν έδωσε αποδείξεις ότι το µέσο βάρος είναι διαφορετικό από 225gr.
Όρια εµπιστοσύνης της µ
Παράδειγµα 2
Για ένα συγκεκριµένο δροµολόγιο τρένου µπορούµε να θεωρήσουµε ότι οι χρόνοι
διαδροµής έχουν κανονική κατανοµή. Σε τυχαίο δείγµα 8 διαδροµών οι χρόνοι είχαν
µέση τιµή 46.2 λεπτά και τυπική απόκλιση 2.3 λεπτά. Να δοθούν τα όρια
εµπιστοσύνης 99% των χρόνων διαδροµής.
Υποθέτουµε ότι οι χρόνοι διαδροµής έχουν κανονική κατανοµή µε µέση τιµή µ. Αν το
τυχαίο δείγµα 8 διαδροµών έχει µέση τιµή X και τυπική απόκλιση S έχουµε
X −µ
~ t7
σ 7
για το 99% των δειγµάτων
X −µ
− 3.499 <
< 3.499 σχ.14.21
S 7
συµπερασµατικά είναι
X − 3.499 ×
S
S
< µ < X + 3.499 ×
7
7
τα όρια εµπιστοσύνης 99% της µέσης τιµής µ είναι X ± 3.499 ×
= 46.2 ± 3.499 ×
S
7
2.3
7
= 46.2 ± 3.04
= 43.16, 49.24 λεπτά
σηµειώνουµε
(1) Εάν είναι γνωστή η τυπική απόκλιση του πληθυσµού γίνεται χρήση της
X −µ
~ Ν (0,1) όσο µικρό και να είναι το µέγεθος του δείγµατος
σ n
(2) Για µεγάλα δείγµατα (µέγεθος ≥ 50) υπάρχει ελάχιστη διαφορά µεταξύ της
κατανοµής t και της τυπικής κανονικής κατανοµής, έτσι για λόγους ευκολίας
χρησιµοποιούµε την κανονική κατανοµή ακόµη και όταν είναι άγνωστη η σ (βλ.
παρ. 14.1).
Έλεγχοι ζευγών t
Έστω ότι υπάρχουν δείγµατα από δύο πληθυσµούς και θέλουµε να ελέγξουµε κατά
πόσον είναι ίδιες οι µέσες τιµές µ1 , µ2 των δύο πληθυσµών. Θεωρούµε πρώτα την
περίπτωση η κάθε τιµή του ενός δείγµατος να αντιστοιχεί σε µια τιµή του άλλου
δείγµατος, δηλ. τα δείγµατα έχουν το ίδιο µέγεθος n.
Αφαιρούµε τις τιµές που αντιστοιχούν και προκύπτουν οι διαφορές τους D1, D2,
……Dn. Οι διαφορές αυτές προέρχονται από πληθυσµό µε µέση τιµή ( µ1 - µ2 ) όµως
δεν είναι γνωστή η τυπική απόκλιση του πληθυσµού των διαφορών (δεν είναι δυνατόν
να βρεθεί ακόµη και αν γνωρίζουµε τις τυπικές αποκλίσεις των αρχικών πληθυσµών,
αφού τα δείγµατα τους δεν είναι ανεξάρτητα). Είναι δυνατό να χρησιµοποιηθεί η
κατανοµή t µε την προϋπόθεση ότι
Θεωρούµε ότι οι διαφορές έχουν ΚΑΝΟΝΙΚΗ κατανοµή.
Εάν λοιπόν οι διαφορές D1, D2, ……Dn έχουν µέση τιµή D και τυπική απόκλιση S
έχουµε
D − (µ1 − µ 2 )
~ tn −1
S n −1
προκύπτει ότι
Για να ελεγχθεί Ho: µ1 = µ2
D
Θεωρούµε T =
S n −1
Εάν Ho αληθής, τότε T ~ tn −1
Παράδειγµα 3
Κάποια βιοµηχανία ισχυρίζεται ότι η βενζίνη της (τύπου Χ) είναι καλύτερη από αυτήν
µιας αντιπάλου εταιρείας (τύπου Υ). Τυχαίο δείγµα 7 αυτοκινήτων οδηγήθηκε όσο το
δυνατό πιο µακριά µε ένα γαλόνι βενζίνης τύπου Χ, και µετά µε ένα γαλόνι τύπου Υ.
Καταγράφηκαν οι αποστάσεις που διανύθηκαν.
Αυτοκίνητο
A
B
C
D
E
F
G
Μίλια µε τον τύπο Χ
43.8
22.8
15.3
35.5
9.7
30.3
28.2
Μίλια µε τον τύπο Υ
37.1
24.0
14.6
27.9
8.0
31.1
23.2
(i)
(ii)
Τα αποτελέσµατα δίνουν αποδείξεις των ισχυρισµών της εταιρείας?
Να δοθούν τα διαστήµατα εµπιστοσύνης 95% για τις διαφορές στα µ.α.γ.
(µίλια ανά γαλόνι) µεταξύ των δύο εταιρειών.
Οι διαφορές, (απόσταση µε τον τύπο Χ) – (απόσταση µε τον τύπο Υ) είναι
Για το αυτοκίνητο Α, 43.8 – 37.1 = 6.7 µίλια
Για το αυτοκίνητο Β, 22.8 – 24.0 = -1.2 µίλια, έτσι προκύπτει ο παρακάτω πίνακας
Αυτοκίνητο
A
B
C
D
E
F
G
∆ιαφορά απόστασης
6.7
-1.2
0.7
7.6
1.7
-0.8
5.0
Οι διαφορές αυτές έχουν µέση τιµή D = 2.814
και τυπική απόκλιση S = 3.331
θεωρούµε ότι η µέση τιµή των µ.α.γ. για τον τύπο Χ είναι µ1
και η µέση τιµή των µ.α.γ. για τον τύπο Υ είναι µ2
οι διαφορές έχουν τότε µέση τιµή ( µ1 - µ2 ). Και υποθέτουµε ότι έχουν κανονική
κατανοµή. Αν τυχαίο δείγµα 7 διαφορών έχει µέση τιµή D και τυπική απόκλιση S
έχουµε
D − (µ1 − µ 2 )
~ t6
S 7
(i) ελέγχουµε Ho: µ1 = µ2
ενάντια στην H1: µ1 > µ2
D
έστω T =
S 6
Εάν Ho αληθής, τότε T ~ t6
Έχουµε D = 2.814 και S = 3.331
2.814
Άρα T =
= 2.069
3.331 6
Έτσι η Ho απορρίπτεται.
Υπάρχουν κάποια στοιχεία (σηµαντικά στο επίπεδο 5%) ότι ο τύπος Χ είναι όντως
καλύτερος.
(ii)
D − (µ1 − µ 2 )
~ t6
S 7
για το 95% των δειγµάτων
έχουµε
D − (µ1 − µ 2 )
< 2.447 και συµπερασµατικά
S 6
S
S
D − 2.447 ×
< (µ1 − µ 2 ) < D + 2.447 ×
6
6
αντικαθιστώντας D = 2.814 και S = 3.331 ένα διάστηµα εµπιστοσύνης 95% της ( µ1
- µ2 ) είναι
− 0.51 < (µ1 − µ 2 ) < 6.14
− 2.447 <
Έλεγχος t µε δύο δείγµατα
Έστω τώρα ότι υπάρχουν δυο δείγµατα τα οποία δεν µπορούν να αντιστοιχιστούν σε
ζεύγος αλλά είναι ανεξάρτητα µεταξύ τους. ∆εν είναι απαραίτητο τα δείγµατα να είναι
του ίδιου µεγέθους.
Εξετάζουµε δύο πληθυσµούς,
ο πρώτος έχει µέση τιµή µ1και άγνωστη τυπική απόκλιση σ1 ,
ο δεύτερος έχει µέση τιµή µ2και γνωστή τυπική απόκλιση σ2 ,
ΣΗΜΕΙΩΣΗ είναι απαραίτητο να θεωρηθεί ότι οι δύο πληθυσµοί έχουν κανονική
κατανοµή και ίσες (αν και άγνωστες) τυπικές αποκλίσεις.
Έστω λοιπόν ότι υπάρχουν δυο ανεξάρτητα δείγµατα, ένα από κάθε πληθυσµό,
το πρώτο µεγέθους n1 έχει µέση τιµή X 1 και τυπική απόκλιση δείγµατος S1,
το δεύτερο µεγέθους n2 έχει µέση τιµή X 2 και τυπική απόκλιση δείγµατος S2
όπως δείχθηκε στην παράγραφο 14.1
επίσης
n1S12
σ
2
~ χ n21 −1 και
(
και
δηλ.
(X
1
n2 S 22
σ
2
(X
1
)
− X 2 − ( µ1 − µ 2 )
σ 2 n1 + σ 2 n2
~ χ n22 −1 έτσι προκύπτει
)
n1S12
σ
2
 X 1 − X 2 − (µ − µ ) 
1
2
 n1 + n2 − 2

2
2
σ n1 + σ n2 

n1S12 σ 2 + n2 S 22 σ 2
)
~ Ν (0,1)
+
σ
2
~ χ n21 + n2 − 2
~ t n1 + n2 − 2
− X 2 − (µ1 − µ 2 )
n1S12 + n2 S 22
2
~ tn1 + n2 − 2 όπου S =
(n1 + n2 − 2)
S 1 n1 + 1 n2
(X
n2 S 22
αυτό είναι συγκρίσιµο
)
− X 2 − (µ1 − µ 2 )
~ Ν (0,1)
σ 1 n1 + 1 n2
έτσι έχουµε συνεπώς
µε την έκφραση
1
Για να ελεγχθεί Ho: µ1 = µ2
X1 − X 2
Θεωρούµε T =
1 1
+
S
n1 n2
n1S12 + n2 S 22
(n1 + n2 − 2)
Εάν Ho αληθής, τότε T ~ t n1 + n2 − 2
όπου S 2 =
Παράδειγµα 4
Προκειµένου να ελεγχθεί η αποτελεσµατικότητα δυο υπνωτικών χαπιών, δόθηκαν σε
5 άτοµα χάπια τύπου Α και σε 8 άτοµα αντίστοιχα τύπου Β. Καταγράφηκαν οι χρόνοι
ύπνου ως εξής:
Χάπι τύπου Α(ώρες ύπνου): 5.2, 9.8, 8.4, 7.1, 3.4.
Χάπι τύπου B(ώρες ύπνου): 10.1, 7.5, 2.1, 12.0, 11.7, 9.3, 14.4, 8.0.
Προκύπτει από τα παραπάνω δεδοµένα σηµαντική διαφορά µεταξύ των δύο
φαρµάκων?
Υποθέτουµε κανονική κατανοµή των χρόνων ύπνου για τον τύπο Α µε µέση τιµή µ1
και τυπική απόκλιση σ, αντίστοιχα για τον τύπο Β οι χρόνοι ύπνου έχουν κανονική
κατανοµή µε µέση τιµή µ1 και τυπική απόκλιση σ.
ΣΗΜΕΙΩΣΗ είναι απαραίτητο να θεωρηθεί ότι οι δύο πληθυσµοί έχουν κανονική
κατανοµή και ίσες (αν και άγνωστες) τυπικές αποκλίσεις. Πρέπει επίσης να υποθέσουµε
ότι τα δύο δείγµατα ατόµων είναι τυχαία και ανεξάρτητα µεταξύ τους.
Ελέγχουµε Ho: µ1 = µ2
ενάντια στην H1: µ1 ≠ µ2
εάν οι χρόνοι ύπνου του τυχαίου δείγµατος 5 ατόµων στους οποίους χορηγήθηκε ο
τύπος Α έχουν µέση τιµή X 1 και τυπική απόκλιση δείγµατος S1, και οι αντίστοιχοι
χρόνοι για τα 8 άτοµα που πήραν τον τύπο Β έχουν µέση τιµή X 2 και τυπική απόκλιση
S2 τότε προκύπτει
X1 − X 2
5S 2 + 8S 22
όπου S 2 = 1
11
1 1
S
+
5 8
Εάν Ho αληθής, τότε T ~ t11 (βλ. σχ. 14.24)
T=
Για το πρώτο δείγµα (τύπος Α) είναι X 1 = 6.78, S1 =2.2702
για το δεύτερο δείγµα (τύπος Β) είναι X 2 = 9.3875, S2 = 3.4715
5 × 2.27022 + 8 × 3.47152
⇒ S = 3.3327
11
6.78 − 9.3875
και T =
= −1.372
1 1
+
3.3327
5 8
Έτσι η Ho γίνεται αποδεκτή.
∆εν υπάρχουν αποδείξεις ότι τα δύο φάρµακα διαφέρουν µεταξύ τους.
Σηµείωση εάν έχουµε δυο ανεξάρτητα δείγµατα µε γνωστές τις τυπικές αποκλίσεις
των πληθυσµών από τους οποίους προέρχονται ή όταν τα δυο δείγµατα είναι σχετικά
µεγάλα, τότε µπορούµε να χρησιµοποιήσουµε εναλλακτικά την σχέση
X 1 − X 2 − ( µ1 − µ 2 )
~ Ν (0,1) όπως δείχθηκε στην παράγραφο 14.1.
σ 2 n1 + σ 2 n2
έτσι S 2 =
(
)
Ασκήσεις 14.5 Κατανοµές t
1. Με τη χρήση πινάκων t
(i)
∆ίνεται T ~ t4 , να βρεθεί η τιµή του α όταν P ( T > a ) = 0.05 .
(ii)
(iii)
(iv)
(v)
(vi)
(vii)
∆ίνεται
∆ίνεται
∆ίνεται
∆ίνεται
∆ίνεται
∆ίνεται
d>0.
(viii) ∆ίνεται
T ~ t8 , να βρεθεί η τιµή του b όταν P (T > b) = 0.01 .
T ~ t20 , να βρεθεί η τιµή του c όταν P (T < c = 0.05 .
T ~ t7 , να βρεθεί η P(1.895 < T < 3.499 ) .
T ~ t2 , να βρεθεί η P(− 2.92 < T < 2.92 ) .
T ~ t n , και P(T > 2.65) = 0.01 , να βρεθεί η τιµή του n.
T ~ t5 , να βρεθεί η τιµή του d όταν P(− d < T < d ) = 0.95 όπου
T ~ t1 , να βρεθεί η τιµή του e όταν P (T < e = 0.995 .
2. Με δεδοµένο T ~ t1 , να γραφεί η συνάρτηση πυκνότητας πιθανότητας του Τ και
να βρεθεί η τιµή της σταθεράς. ∆είξτε ότι η συνάρτηση κατανοµής του Τ είναι η
1 1
F ( x ) = + tan −1 x και βρείτε (i) P(− 12.7 < T < 12.7 )
2 π
(ii) την τιµή της α όταν P (T > a) = 0.01 .
Με τη χρήση πινάκων t να γίνει έλεγχος των αποτελεσµάτων.
x
1
+
να βρεθεί η ΣΠΠ
2 2 2 + x2
f ( x ) και ακολούθως να αποδειχθεί ότι η Τ έχει την t2 κατανοµή.
(i) Να βρεθεί η Ρ(Τ < 4)
(ii) Βρείτε την τιµή της α όταν P (T > a) = 0.1
Σχεδιάστε µε µεγάλη ακρίβεια την γραφική παράσταση της ΣΠΠ της Τ µεταξύ
των σηµείων x = -5 και x = +5, χρησιµοποιώντας τους ίδιους άξονες σχεδιάστε
την γραφική παράσταση της ΣΠΠ της τυπικής κανονικής κατανοµής
1 −x2 2 

e
φ (x ) =
 . Να γίνει σύγκριση µεταξύ των δυο κατανοµών t2 και Ν(0,1)
2π


µε βάση τις γραφικές παραστάσεις τους.
3. Τυχαία µεταβλητή Τ έχει συνάρτηση την F ( x ) =
4. Από µηχανή εργοστασίου παράγονται χαλύβδινες ράβδοι τα µήκη των οποίων
έχουν κανονική κατανοµή µε µέση τιµή 12.00m. Σε τυχαίο δείγµα 8 ράβδων
βρέθηκαν τα παρακάτω µήκη :
11.89, 11.76, 11.98, 12.44, 12.70, 12.45, 13.76, 12.79 µέτρα
προκύπτουν ικανοποιητικές αποδείξεις ότι η µέση τιµή των 12.00 µέτρων είναι
λάθος?
5. Κάποια αθλήτρια του µήκους παρατήρησε ότι τα µήκη των αλµάτων της είχαν
κανονική κατανοµή µε µέση τιµή 6.46 µέτρα. Μετά από ένα ειδικό πρόγραµµα
προπόνησης µετρήθηκαν σε αγώνα 6 άλµατά της :
6.77, 6.37, 6.48, 6.59, 6.46, 6.64 σε µέτρα
προκύπτουν αποδείξεις ότι το ειδικό πρόγραµµα προπόνησης όντως απέδωσε?
6. Κάποιος εργαζόµενος παρακολουθώντας τις ώρες που ξυπνούσε κάθε πρωινό
παρατήρησε ότι έχουν κανονική κατανοµή µε µέση τιµή 25 (µετρώντας τα λεπτά
που πέρασαν µετά τις 7:00). Κατά την διάρκεια της άδειάς του και βρισκόµενος σε
12ήµερες διακοπές οι ώρες αφύπνισής του ήταν:
7:24, 7:35, 7:30, 7:37, 7:42, 7:32, 7:35, 7:33, 7:17, 7:42, 7:18, 7:25
µπορούµε να πούµε ότι µεταβλήθηκε η µέση τιµή της ώρας του εγερτηρίου του
κατά την διάρκεια των διακοπών?
7. Πάρθηκε από τα ράφια πολυκαταστήµατος τυχαίο δείγµα 15 συσκευασιών
αλευριού (υποτιθέµενο περιεχόµενο 1.5 kg). Τα βάρη των συσκευασιών αυτών
είχαν µέση τιµή 1.490kg και τυπική απόκλιση 0.014 kg.
Για το επίπεδο σηµαντικότητας 1%, υπάρχουν αποδείξεις ότι το µέσο βάρος είναι
<1.5kg?
8. Προ δεκαετίας η µέση ταχύτητα των αυτοκινήτων κατά µήκος ενός
συγκεκριµένου τµήµατος οδού ήταν 93km h-1 . Από πρόσφατο τυχαίο δείγµα 21
αυτοκινήτων προέκυψε ταχύτητα xi όπου ∑ xi = 1800 και ∑ xi2 = 159660 .
Υπάρχει ένδειξη αλλαγής της µέσης ταχύτητας?
9. Μπορούµε να θεωρήσουµε ότι το µήκος ενός συγκεκριµένου είδους φιδιού έχει
κανονική κατανοµή. Μετρήθηκαν τα µήκη τυχαίου δείγµατος 4 φιδιών και
βρέθηκαν να είναι 2.72, 2.68, 1.89, και3.23 µέτρα. Να βρεθούν τα όρια
εµπιστοσύνης 95% του µέσου µήκους των φιδιών αυτού του είδους.
10. Οι τάσεις θραύσης των τενόντων προέντασης που χρησιµοποιούνται στην
κατασκευή γέφυρας έχουν κανονική κατανοµή. Σε τυχαίο δείγµα 16 τενόντων
µετρήθηκαν οι τάσεις κατά την θραύση xi σε MPa και βρέθηκε ∑ xi = 268.8 και
∑x
2
i
= 4746.88 .
Να βρεθεί το χαµηλότερο όριο εµπιστοσύνης για το επίπεδο 99% της µέσης
τα’άσης θραύσης αυτού του τύπου τένοντα.
11. Γνωρίζουµε ότι τα βάρη των µήλων που παράγει ένα συγκεκριµένο δέντρο έχουν
κανονική κατανοµή µε τυπική απόκλιση 22gr. Τυχαίο δείγµα 6 µήλων είχε τα
ακόλουθα βάρη:
150, 148, 109, 175, 139, 145 gr
να βρεθούν τα όρια εµπιστοσύνης 95% για το µέσο βάρος των µήλων του δέντρου
αυτού.
12. Σε δυο παραθαλάσσια χωριά µετρήθηκαν οι θερµοκρασίες την ίδια χρονική στιγµή
κατά την διάρκεια µιας εβδοµάδας, µε τα ακόλουθα αποτελέσµατα:
Ηµέρα
1
2
3
4
5
6
7
Θερµοκρασία χωριού Α
24.7
18.5
25.6
27.3
22.2
28.2
31.2
Θερµοκρασία χωριού Β
17.9
20.0
26.7
21.8
19.7
26.3
24.4
Υπάρχουν αποδείξεις διαφοράς της µέσης θερµοκρασίας µεταξύ των δυο χωριών?
Να δηλωθούν οι υποθέσεις που χρειάστηκε να γίνουν.
13. Οκτώ χαλύβδινα δοκίµια µοιράστηκαν (κόπηκαν) σε δυο κοµµάτια, τα µισά
τµήµατα κάθε δοκιµίου υπέστησαν κατεργασία για να αυξηθεί η αντίστασή τους
στη διάβρωση, τα αντίστοιχά τους υπόλοιπα έµειναν ακατέργαστα. Τα 16
κοµµάτια τοποθετήθηκαν στο ίδιο σκληρό (όσον αφορά τη διάβρωση) περιβάλλον
και µετρήθηκε ο χρόνος που χρειάστηκε για να αποσαθρωθούν πλήρως, οι χρόνοι
δίνονται στον παρακάτω πίνακα:
∆οκίµιο
Χρόνος διάβρωσης
(σε ηµέρες)
κατεργασµένο
ακατέργαστο
A
B
C
D
E
F
G
H
75
64
60
35
31
30
58
53
40
33
80
84
72
62
97
80
Η κατεργασία είναι επιτυχηµένη?
14. Οι χρόνοι κύησης, σε ηµέρες, τυχαίων δειγµάτων από δύο είδη πιθήκων ήταν οι
εξής:
Είδος Α : 208, 217, 216, 219, 211, 203, 212, 207, 207
Είδος Β : 201, 209, 209, 195, 219, 206, 208
Υπάρχει ένδειξη διαφορετικών χρόνων κύησης µεταξύ των δύο ειδών? Μπορεί να
θεωρηθεί ότι οι χρόνοι κύησης έχουν κανονική κατανοµή.
15. ∆ώδεκα άτοµα επισκέφθηκαν το Α ινστιτούτο αδυνατίσµατος και µετά από ένα
µήνα δίαιτας η µέση απώλεια βάρους ήταν 5.12 kg µε τυπική απόκλιση 1.92 kg.
Κατά το ίδιο διάστηµα δώδεκα άλλα άτοµα επισκέφθηκαν το Β ινστιτούτο, όπου
εκτός της δίαιτας έκαναν εντατική γυµναστική, η µέση απώλεια βάρους ήταν 6.15
kg µε τυπική απόκλιση 1.75 kg.
Μπορούµε να συµπεράνουµε ότι η γυµναστική αυξάνει τη µέση απώλεια βάρους
?
16. Κάποια ηµέρα σε τυχαίο δείγµα 10 υπαλλήλων µιας µεγάλης βιοµηχανίας
καταγράφηκαν οι χρόνοι διαδροµής, κατά την προσέλευση και την αποχώρηση
από την εργασία, στον πίνακα :
Υπάλληλος
A
B
C
D
E
F
G
H
I
J
Χρόνος προσέλευσης(min)
25
68
47
19
7
58
71
35
60
21
33
64
45
28
7
62
80
45
63
27
Χρόνος αποχώρησης(min)
Υπάρχει ένδειξη διαφοράς των χρόνων διαδροµής µεταξύ προσέλευσηςαναχώρησης ?
17. Στον πίνακα που ακολουθεί δίνονται οι βαθµοί, για µια ‘πρόοδο’ και αυτοί της
τελικής εξέτασης σε κάποιο µάθηµα, ενός τυχαίου δείγµατος 9 φοιτητών
Φοιτητής
A
B
C
D
E
F
G
H
I
Βαθµός ‘προόδου’
2,3
6,0
7,1
1,5
4,3
8,0
3,8
2,6
6,4
Βαθµός τελικής εξέτασης
4,0
7,4
9,1
3,0
5,5
7,9
4,5
5,1
8,7
Θεωρώντας κανονική κατανοµή των διαφορών µεταξύ των βαθµών της
‘προόδου’ και της τελικής εξέτασης, να βρεθεί το διάστηµα εµπιστοσύνης 95%
για την διαφορά µεταξύ των µέσων βαθµολογιών των δύο εξετάσεων.
18. Επιλέξαµε 10 παρόµοια φυτά για να ελεγχθεί η επίδραση κάποιου λιπάσµατος. Σε
πέντε φυτά χορηγήθηκε λίπασµα, ενώ πέντε έµειναν χωρίς λίπανση. Μετρήθηκε η
µεταβολή στο ύψος κάθε φυτού µετά από κάποιο διάστηµα και προέκυψαν τα
εξής:
Φυτά µε λίπασµα : 85, 102, 82, 107, 75 mm
Φυτά χωρίς λίπασµα : 65, 60, 63, 45, 53 mm
Να βρεθούν τα όρια εµπιστοσύνης 90% για την µέση µεταβολή του ύψους του
συγκεκριµένου είδους φυτού λόγω του λιπάσµατος. ∆ηλώστε κάθε παραδοχή που
χρειάστηκε να γίνει.
19. Έγιναν δύο διαφορετικού τύπου τεστ νοηµοσύνης Α και Β σε τυχαίο δείγµα 150
ανθρώπων. Οι βαθµολογία τους στο τεστ Α είχε µέση τιµή 58.6 και τυπική
απόκλιση 18.3 ενώ στο τεστ Β αντίστοιχα ήταν, µέση τιµή 60.8 και τυπική
απόκλιση 16.2. Υπολογίστηκε η διαφορά
(βαθµός του τεστ Α) – (βαθµός του τεστ Β)
για κάθε άνθρωπο ξεχωριστά και οι διαφορές που προέκυψαν είχαν µέση τιµή –
2.2 και τυπική απόκλιση 8.5.
Υπάρχει απόδειξη διαφορετικών επιδόσεων των ατόµων σε καθένα από τα δύο
τεστ ?
20. Λαµβάνεται τυχαίο δείγµα 12 τιµών x1, x2, ……, xn από µια κανονική κατανοµή
και έχουµε ∑ xi = 243 και ∑ xi2 = 5226 .
Να βρεθούν τα όρια εµπιστοσύνης 95% για
(i)
Την µέση τιµή του πληθυσµού
(ii)
Την τυπική απόκλιση του πληθυσµού.
Μη-παραµετρικοί έλεγχοι
Κατά τον έλεγχο υποθέσεων µε τη χρήση µικρών σε µέγεθος δειγµάτων ήταν
απαραίτητο να θεωρήσουµε κανονική κατανοµή του πληθυσµού (ή έστω
προσεγγιστικά κανονική). Η θεώρηση αυτή είναι ιδιαιτέρως σηµαντική όταν
χρησιµοποιούµε µια κατανοµή t.
Εάν ο ισχυρισµός της κανονικότητας της κατανοµής δεν είναι λογικός πρέπει να
υιοθετήσουµε άλλους τρόπους ελέγχου. Θα περιγράψουµε κάποιους µηπαραµετρικούς ή ελεύθερους-κατανοµής ελέγχους όπου δεν είναι απαραίτητο να γίνουν
παραδοχές σχετικά µε την κατανοµή του πληθυσµού.
Ο έλεγχος πρόσηµου
Πρόκειται για έλεγχο της µέσης τιµής πληθυσµού.
Έστω ότι θέλουµε να ελέγξουµε την υπόθεση ότι η µέση τιµή έχει κάποια
συγκεκριµένη τιµή m0, έχοντας ένα τυχαίο δείγµα µεγέθους n. Αντιστοιχούµε το
πρόσηµο + σε κάθε τιµή που είναι µεγαλύτερη από τη µέση τιµή m0 και το – για κάθε
µικρότερη τιµή.
Εάν η µέση τιµή είναι όντως m0, τότε η πιθανότητα κάποια τιµή να είναι µεγαλύτερη
από m0 είναι 0.5, άρα ο αριθµός των πρόσηµων + ακολουθεί την ∆ιωνυµική κατανοµή
Β(n, 12 )
Για να ελεγχθεί Ho: µέση τιµή είναι m0
Θεωρούµε U = αριθµός + πρόσηµων
Εάν Ho αληθής, τότε U ~ Β(n, 12 )
Για κατάλληλες περιπτώσεις (µέγεθος δείγµατος n>8 περίπου) µπορεί να γίνει χρήση
της κανονικής προσέγγισης της Β(n, 12 ) .
Παράδειγµα 1
Ο µέσος χρόνος ζωής κάποιου συγκεκριµένου τύπου λαµπτήρα είναι 520 ώρες.
Παρουσιάστηκε ένας βελτιωµένος τύπος µεγάλης διάρκειας ζωής και σε τυχαίο δείγµα
12 λαµπτήρων η διάρκεια ζωής τους ήταν (σε ώρες):
324, 816, 552, 1570, 512, 640, 1242, 602, 758, 410, 645, 1857.
Υπάρχουν αποδείξεις µεγαλύτερης µέσης διάρκειας ζωής για τον νέο τύπο λαµπτήρα?
Έστω λοιπόν ότι οι λαµπτήρες µακράς ζωής έχουν µέση διάρκεια ζωής m.
Ελέγχουµε Ho: µέση τιµή είναι m0 =520
Ενάντια στην H1 : m >520
Αντιστοιχούµε πρόσηµα (+ αν η διάρκεια είναι µεγαλύτερη από 520, - αν είναι
µικρότερη) και έτσι προκύπτει:
- + + + - + + + + - + +
έστω U ο αριθµός των θετικών πρόσηµων, η υπόθεση H1 επιβεβαιώνεται για µεγάλες
τιµές του U, ενώ εάν Ho αληθής τότε U ~ Β(12, 12 ) .
Η κατανοµή αυτή µπορεί να προσεγγιστεί µε µια κανονική κατανοµή η οποία έχει µ.τ.
12 × 12 = 6
και
τυπική
απόκλιση
1
1
12 × 2 × 2 = 1.732 είναι όµως γι α το παράδειγµά µας U = 9.
Για να βρεθεί το επίπεδο σηµαντικότητας αυτού του στοιχείου, υπολογίζουµε
Ρ(U ≥ 9 ) όταν η Ho είναι αληθής. Κατόπιν Ρ(U ≥ 9 ) ≈ Ρ(U > 8.5 σε κανονική
8.5 − 6 

κατανοµή) = Ρ Z >

1.732 

=
Ρ(Z > 1.443)
= 1- 0.9255
=0.0745
βλέπουµε ότι για το επίπεδο σηµαντικότητας 5% η Ho αποδεκτή (αφού 0.0745>0.05)
δηλ. δεν υπάρχουν αποδείξεις ότι η µέση διάρκεια ζωής των νέων λαµπτήρων είναι
όντως µεγαλύτερη.
Σηµειώσεις
(1) πολλές πληροφορίες αγνοούνται κατά τη χρήση του ελέγχου
πρόσηµου, για παράδειγµα οι τιµές 552 και 1857
χρησιµοποιήθηκαν µε τον ίδιο τρόπο, τους αντιστοιχήθηκες το
πρόσηµο +.
(2) όταν κάποιες τιµές είναι ίσες µε τη µέση τιµή, στο παράδειγµα 520
πρέπει να τους δοθεί πρόσηµο 0, έτσι αγνοούνται και µειώνεται
αντιστοίχως η τιµή n.
Ο έλεγχος πρόσηµου για ζεύγη δειγµάτων
Ας υποθέσουµε την ύπαρξη δυο τυχαίων δειγµάτων, βάσει των οποίων θέλουµε να
εξετάσουµε την υπόθεση Ho τα δείγµατα αυτά προέρχονται από πληθυσµούς µε
πανοµοιότυπες κατανοµές.
(Σηµειώστε δεν είναι αναγκαίο να προσδιορίσουµε ποιος είναι ο τύπος της κατανοµής
αυτής).
Κατά πρώτο εξετάζουµε την περίπτωση της κατά ζεύγη αντιστοιχίας των δυο
δειγµάτων, όπου κάθε ένα έχει µέγεθος n. Κατόπιν αποδίδουµε πρόσηµα
+ όταν η τιµή του πρώτου δείγµατος είναι µεγαλύτερη από αυτή του δεύτερου
- όταν η τιµά του πρώτου δείγµατος είναι µεγαλύτερη από την αντίστοιχη του
δεύτερου
εάν η Ho αληθής τότε για κάθε ζεύγος τιµών η πιθανότητα ότι η τιµή του πρώτου
δείγµατος είναι µεγαλύτερη είναι 12 και ο αριθµός των πρόσηµων + ακολουθεί την
διωνυµική κατανοµή Β(n, 12 )
Για να ελεγχθεί Ho: οι δυο πληθυσµοί έχουν την
ίδια κατανοµή
Θεωρούµε U = αριθµός + πρόσηµων
Εάν Ho αληθής, τότε U ~ Β(n, 12 )
Παράδειγµα 2
Μετρήθηκαν οι σφυγµοί ακριβώς πριν και αµέσως µετά το φαγητό σε τυχαίο δείγµα
10 ανθρώπων, τα αποτελέσµατα δίνονται στον παρακάτω πίνακα
Άνθρωπος
Α
Β
Γ
∆
Ε
Ζ
Η
Θ
Ι
Κ
Σφυγµοί πριν το φαγητό
Σφυγµοί µετά το φαγητό
82
78
63
63
85
82
77
71
83
73
86
81
74
74
79
80
58
58
88
86
Υπάρχει κάποια σηµαντική διαφορά µεταξύ των σφυγµών προ και µετά του φαγητού?
Ελέγχουµε Ho: σφυγµοί προ και µετά το φαγητό έχουν την ίδια κατανοµή
Ενάντια στην H1 οι σφυγµοί πριν και µετά το φαγητό είναι διαφορετικοί
Αντιστοιχώντας πρόσηµα προκύπτει
A B
C D
E
F
G H
I
J
+
+
+
+
0
0
+
0
+
-
Υπάρχουν 7 µη-µηδενικές τιµές, θέτουµε U τον αριθµό των θετικών πρόσηµων.
Εάν Ho αληθής, τότε U ~ Β(7, 12 ) , είναι όµως U = 6.
όταν Ho αληθής Ρ(U ≥ 6 ) = Ρ(U = 6) + Ρ(U = 7)
= 7( 12 ) + ( 12 )
1
= = 0.0625
16
απλό τη στιγµή που πρόκειται για συµµετρικό έλεγχο η τιµή U = 6 είναι σηµαντική στο
επίπεδο 2 × 6.25% = 12.5% . Συνεπώς στο επίπεδο σηµαντικότητας 5% η Ho γίνεται
αποδεκτή.
∆ηλ. τα αποτελέσµατα που καταγράφηκαν δεν δείχνουν σηµαντική διαφορά στους
σφυγµούς προ και µετά το φαγητό.
Σηµειώνουµε Η κανονική προσέγγιση της Β(7, 12 ) δίνει
2
7
5.5 − 3.5 

Ρ(U ≥ 6 ) = Ρ Z >
 = 0.0653
1.75 

έτσι ακόµα και µε n = 7 η προσέγγιση της διωνυµικής µε κανονική
κατανοµή δείχνει αρκετά ικανοποιητική.
Έλεγχος αθροίσµατος κατάταξης
Υποθέτουµε τώρα ότι υπάρχουν δυο ανεξάρτητα δείγµατα µε µεγέθη n1 ,n2 αντίστοιχα.
Παρουσιάζουµε µια εντελώς νέα µέθοδο.
Θεωρούµε όλες τις τιµές (n1+n2) σαν µια ενιαία ακολουθία αριθµών και τους
κατατάσσουµε, στην περίπτωση αυτή συνηθίζεται να αντιστοιχούµε το 1 στην
χαµηλότερη τιµή το 2 στην αµέσως επόµενη και συνεχίζουµε µε τον ίδιο τρόπο.
Εάν υπάρχουν δυο ή περισσότερες τιµές ίδιες αποδίδουµε σε καθεµιά την µέση
κατάταξη των θέσεων που αντιστοιχεί.
Θέτουµε λοιπόν R1 το άθροισµα των αριθµών κατάταξης του πρώτου δείγµατος
Εάν τα δυο δείγµατα προέρχονται από πανοµοιότυπους πληθυσµούς η σειρά κατάταξης
1, 2, 3, ……, (n1+n2)
θα µοιράζεται τυχαία µεταξύ των δυο δειγµάτων.
Το σύνολο των αριθµών κατάταξης είναι 12 (n1 + n2 )(n1 + n2 + 1) και λόγω του ότι το
πρώτο δείγµα περιέχει n1 από τις (n1+n2) τιµές αναµένεται το R1 να προσεγγίζει την τιµή
n1
× 1 (n1 + n2 )(n1 + n2 + 1) = 12 n1 (n1 + n2 + 1)
n1 + n2 2
µπορούµε να δείξουµε ότι Ε(R1 ) = 12 n1 (n1 + n2 + 1)
και var(R1 ) = 121 n1n2 (n1 + n2 + 1)
και δοθέντος ότι τα n1 ,n2 δεν είναι πολύ µικρά (π.χ. n1≥8 ,n2 ≥8) τότε το R1 ακολουθεί
προσεγγιστικά την κανονική κατανοµή.
Για να ελεγχθεί Ho: πληθυσµοί έχουν
πανοµοιότυπες κατανοµές
R − 1 n (n + n + 1)
Θεωρούµε Z 1 2 1 1 2
1
n n (n + n2 + 1)
12 1 2 1
Εάν Ho αληθής, τότε Z ~ Ν (0,1)
Παράδειγµα 3
Από µεγάλο αριθµό παιδιών που έλαβαν µέρος σε κάποιο τοπικό έρανο, επιλέχθηκαν
τυχαία δείγµατα 8 κοριτσιών και 12 αγοριών.
Τα χρηµατικά ποσά που συγκέντρωσαν (σε χιλιάδες δραχµές) ήταν:
Κορίτσια : 16.40, 8.50, 27.00, 13.30, 17.65, 39.25, 20.00, 13.90
Αγόρια :12.60, 9.75, 7.50, 18.10, 27.00, 11.40, 3.00, 12.60, 15.00, 5.25, 6.70, 14.00
Υπάρχουν αποδείξεις ότι τα ποσά που συγκεντρώθηκαν από τα κορίτσια ήταν
διαφορετικά από αυτά των αγοριών?
Ελέγχουµε Ho: δεν υπάρχει διαφορά
Ενάντια στην H1 υπάρχει διαφορά.
Κατατάσσουµε τα 20 χρηµατικά ποσά
Κορίτσια : 14, 5, 18.5, 10, 15, 20, 17, 11
Αγόρια : 8.5, 6, 4, 16, 18.5, 7, 1, 8.5, 13, 2, 3, 12
Θέτουµε R1 το άθροισµα των αριθµών κατάταξης των κοριτσιών
R − 1 × 8 × 21
θεωρούµε Z = 1 2
1
× 8 × 12 × 21
12
εάν Ho αληθής, τότε Z ~ Ν (0,1)
είναι R1 = 14 + 5 + ……+ 11 = 110.5
110.5 − 84
= 2.045
και Z =
168
άρα η Ho απορρίπτεται
Υπάρχουν κάποιες ενδείξεις ότι αγόρια και κορίτσια συγκέντρωσαν διαφορετικής
τάξης χρηµατικά ποσά. Μια και το R1 είναι µεγαλύτερο από την αναµενόµενη τιµή
(84) προκύπτει ότι οι κατατάξεις των κοριτσιών είναι υψηλότερες, δηλ. τα κορίτσια
συγκεντρώνουν περισσότερα χρήµατα από τα αγόρια.
Σηµείωση Όταν δεν είναι δυνατή η χρήση της κανονικής προσέγγισης (π.χ. όταν ένα
από τα δείγµατα έχει µέγεθος <<8) πρέπει να λάβουµε υπ’όψη την πρωταρχική
κατανοµή του R1. Εάν Ho αληθής, τότε οι κατατάξεις του πρώτου δείγµατος είναι
εξίσου πιθανό να αντιστοιχούν σε οποιοδήποτε σύνολο n1 αριθµών επιλεγµένων από
τους 1, 2, 3, ……, (n1+n2).
Ασκήσεις 14.6 Μη-παραµετρικοί έλεγχοι
1. ∆ίνονται οι ηλικίες 15 οχηµάτων που παραδόθηκαν για απόσυρση (σε έτη):
11, 26, 13, 7, 11, 8, 18, 16, 9, 11, 22, 11, 14, 12, 21
να γίνει έλεγχος της υπόθεσης ότι η µέση ηλικία απόσυρσης των αυτοκινήτων
είναι 10 έτη.
2. Η µέση διάρκεια ενός ταξιδιού µε τρένο ήταν 144 λεπτά, µετά την αγορά νέων
µηχανών καταγράφηκαν οι χρόνοι διαδροµής επτά ταξιδιών ως εξής:
138, 140, 138, 139, 152, 138, 142
για ποιο επίπεδο σηµαντικότητας υπάρχουν ενδείξεις µείωσης της µέσης
διάρκειας του ταξιδιού?
3. Για κάποιο συγκεκριµένο τύπο εργαζόµενου υπάρχει η εντύπωση ότι ο µέσος
µισθός του είναι 165χιλ.δρχ. Σε τυχαίο δείγµα µεταξύ υπαλλήλων αυτού του
τύπου 103 είχαν µικρότερες αποδοχές, 15 είχαν αποδοχές ακριβώς 165χιλ.δρχ.,ενώ
82 είχαν µεγαλύτερες αποδοχές. Το δείγµα είναι ανάλογο του ισχυρισµού ότι ο
µέσος µισθός είναι 165000δρχ?
4. Σε δυο διαφορετικούς υπολογιστές ‘τρέξαµε’ τα ίδια προγράµµατα και
καταγράφηκαν (σε sec) οι χρόνοι για το καθένα:
Πρόγραµµα
Α
Β
Γ
∆
Ε
Ζ
Υπολογιστής Α
Υπολογιστής Β
15
37
30
11
13
78
65
45
44
50
41
Πρόγραµµα
Η
Θ
Ι
Κ
Λ
Μ
Ν
Υπολογιστής Α
Υπολογιστής Β
25
32
28
24
8
6
21
18
56
40
18
17
30
26
Χρησιµοποιώντας τον έλεγχο πρόσηµου να καθοριστεί εάν υπάρχουν αποδείξεις
διαφοράς στους χρόνους ‘‘τρεξίµατος’’ προγραµµάτων µεταξύ των δυο
υπολογιστών.
5. Μετρήθηκαν οι θερµοκρασίες (σε βαθµούς Co) δέκα διαφορετικών ηµερών στην
κορυφή και τους πρόποδες ενός λόφου προκειµένου να διαπιστωθεί εάν υπάρχει
περισσότερη ζέστη στα ψηλά ή τα χαµηλά, και προέκυψαν οι τιµές του πίνακα
Ηµέρα
1
2
3
4
5
6
7
8
9
10
Κορυφή
21
24
28
22
17
15
20
25
16
20
Πρόποδες
17
26
24
22
17
11
22
21
12
16
(i)
(ii)
Χρησιµοποιήστε τον έλεγχο πρόσηµου για να διαπιστωθεί αν υπάρχουν
αποδείξεις ότι η κορυφή είναι πιο ζεστή από τους πρόποδες.
Με τη χρήση ελέγχου t να καθοριστεί αν η µέση θερµοκρασία στους
πρόποδες είναι ψηλότερη από αυτή στην κορυφή. Ποια παραδοχή είναι
απαραίτητο να γίνει ώστε ο έλεγχος αυτός να είναι έγκυρος? Στην
προκείµενη περίπτωση η παραδοχή αυτή ανταποκρίνεται στη λογική?
6. Από τυχαία δείγµατα 12 κατοικιών µιας πόλης και 10 αγροτικών κατοικιών
καταγράφηκαν τα ποσά (σε χιλιάδες δραχµές) που ξοδεύτηκαν για επισκευές κατά
την διάρκεια του τελευταίου έτους
Αστικές κατοικίες: 54, 29, 8, 25, 490, 30, 33, 135, 75, 18, 35, 56
Αγροτικές κατοικίες: 12, 73, 175, 31, 80, 71, 170, 280, 26, 950
Να προσδιοριστεί αν υπάρχει διαφορά µεταξύ των χρηµατικών ποσών που
ξοδεύτηκαν σε επισκευές µεταξύ των αστικών και αγροτικών κατοικιών. Να γίνει
χρήση του ελέγχου αθροίσµατος κατάταξης.
7. Καταγράφηκαν οι διάρκειες ζωής (σε µήνες) εννέα ‘κανονικών’ και 9 ‘µακράς
διάρκειας’ συσσωρευτών, και δίνονται παρακάτω
‘κανονικοί’ συσσωρευτές : 38, 24, 44, 22, 35, 41, 22, 29, 46
‘µακράς διάρκειας’ συσσωρευτές : 36, 52, 47, 28, 45, 61, 49, 41, 54
χρησιµοποιώντας τον έλεγχο αθροίσµατος κατάταξης να προσδιοριστεί αν οι
‘µακράς διάρκειας’ συσσωρευτές όντως έχουν µεγαλύτερη διάρκεια ζωής.
8. Κατατάξαµε τα βάρη νεογέννητων παιδιών από τα οποία 20 αγόρια και 25
κορίτσια. Το άθροισµα των θέσεων κατάταξης των αγοριών ήταν 375. Μπορούµε
να πούµε ότι το βάρος των νεογέννητων αγοριών είναι µεγαλύτερο από αυτό των
κοριτσιών?
9. Σε κάποιο αγώνα σκοποβολής έλαβαν µέρος 3 γυναίκες και 8 άντρες, παρακάτω
δίνονται οι βαθµολογίες που συγκέντρωσαν:
Γυναίκες : 85, 66, 74
Άντρες : 91, 75, 98, 90, 83, 89, 95, 88
Αφού γίνει κατάταξη των βαθµολογιών (το 1 για τη χαµηλότερη βαθµολογία)
αποδώστε µε το R το άθροισµα των βαθµολογιών των γυναικών, δείξτε ότι R = 8.
Να καταγραφούν όλες οι πιθανές οµάδες βαθµολογιών των γυναικών για τις
οποίες R ≤ 8 και υπολογίστε την πιθανότητα του R ≤ 8 όταν θεωρούµε ισάξιες
αποδόσεις γυναικών-ανδρών (κατά τρόπο ώστε οι θέσεις κατάταξης των
γυναικών έχουν ίσες πιθανότητες να είναι κάθε οµάδα τριών αριθµών από τους 1,
2, 3, …., 11).
Για ποιο επίπεδο σηµαντικότητας δείχνουν οι βαθµολογίες που καταγράφηκαν
διαφορά στην απόδοση µεταξύ αντρών και γυναικών?
10. ∆ώδεκα κολυµβητές χρονοµετρήθηκαν στην ίδια απόσταση το πρωί και το
απόγευµα της ίδιας ηµέρας, οι χρόνοι τους δίνονται στον παρακάτω πίνακα
Κολυµβητής
Πρωινός χρόνος
Απογευµατινός
χρόνος
Κολυµβητής
Πρωινός χρόνος
Απογευµατινός
χρόνος
(i)
Α
Β
Γ
∆
Ε
Ζ
123.2
117.2
128.3
142.5
130.0
120.4
122.0
117.4
127.6
140.7
128.7
120.3
Η
Θ
Ι
Κ
Λ
Μ
126.8
136.3
119.2
125.4
147.6
116.9
127.7
133.9
117.7
126.0
146.0
116.5
∆ώστε πρόσηµο σε κάθε κολυµβητή µε τον συνήθη τρόπο (+ εάν ο
πρωινός χρόνος είναι µεγαλύτερος – εάν είναι µεγαλύτερος ο
(ii)
απογευµατινός), και µε τη χρήση του ελέγχου πρόσηµου να εξεταστεί
κάθε διαφορά µεταξύ των πρωινών και των απογευµατινών χρόνων.
Ο έλεγχος µπορεί να βελτιωθεί αν λάβουµε υπ’όψη το µέγεθος της
διαφοράς των χρόνων, αυτό µπορεί να γίνει ως εξής. Υπολογίζουµε τις
διαφορές µεταξύ των πρωινών και απογευµατινών χρόνων για κάθε
κολυµβητή, και κατατάσσουµε τις διαφορές αυτές σε αύξουσα σειρά (1
για τη µικρότερη κ.λπ.). Έστω R το άθροισµα των θέσεων κατάταξης για
τους κολυµβητές στους οποίους δόθηκε πρόσηµο + στο ερώτηµα (i).
Υπολογίστε το R για τα παραπάνω δεδοµένα.
∆ίνεται ότι για ζεύγη δειγµάτων µεγέθους n που προέρχονται από τον ίδιο
πληθυσµό το R έχει προσεγγιστικά κανονική κατανοµή µε µέση τιµή
1
1
( )
( )(
)
4 n n + 1 και διασπορά
24 n n + 1 2n + 1 . Με τη χρήση αυτών των
δεδοµένων ελέγξτε αν διαφέρουν οι πρωινοί µε τους απογευµατινούς
χρόνους.
11. Κάποιο ηφαίστειο πιστεύεται ότι εκρήγνυται κάθε 80 χρόνια περίπου, αλλά
διαδοχικές εκρήξεις εµφανίστηκαν κατά τα έτη
1751, 1769, 1799, 1827, 1887, 1977, 1982
(i)
Θεωρώντας κανονική κατανοµή των χρονικών διαστηµάτων µεταξύ
εκρήξεων, να ελεγχθεί η υπόθεση ότι η µέση περίοδος επαναφοράς είναι
80 έτη, µε τη χρήση της κατανοµής t.
(ii)
Θεωρήστε τώρα εκθετική κατανοµή των χρονικών διαστηµάτων µεταξύ
εκρήξεων µε συνάρτηση πυκνότητας πιθανότητας f ( x ) = λe − λx (για x≥0).
1
, επίσης αν ένα
∆ίνεται ότι η µέση τιµή της κατανοµής αυτής είναι
λ
(iii)
τυχαίο δείγµα έχει µέση τιµή X τότε η 2nλ X ακολουθεί την κατανοµή
x22n . Με αυτά τα δεδοµένα να ελεγχθεί η υπόθεση ότι η µέση τιµή
επαναφοράς έκρηξης είναι 80 έτη.
Χωρίς να γίνουν παραδοχές για την κατανοµή των χρονικών διαστηµάτων
µεταξύ εκρήξεων, χρησιµοποιήστε τον έλεγχο πρόσηµου για να
επαληθεύσετε την υπόθεση ότι το µέσο χρονικό διάστηµα µεταξύ
εκρήξεων είναι 80 έτη.