1. - Τ.Ε.Ι. Κεντρικής Μακεδονίας

104
Γ) ΠΑΛΙΝ∆ΡΟΜΗΣΗ ΚΑΙ ΣΥΣΧΕΤΙΣΗ
Γ.1. ΠΑΛΙΝ∆ΡΟΜΗΣΗ.
Γ.1.1. Η εξίσωση της ευθείας.
Η εξίσωση της ευθείας είναι ένα βασικό εργαλείο για το κεφάλαιο της
παλινδρόµησης και της συσχέτισης. Για το λόγο αυτό κρίνουµε απαραίτητο να
ασχοληθούµε περιληπτικά µ'αυτήν.
i) Η εξίσωση ψ = αχ+β.
Η εξίσωση ψ = f(x) = αχ+β είναι µία πολυωνυµική συνάρτηση 1ου βαθµού, όπου το χ είναι η ανεξάρτητη µεταβλητή και το ψ η εξαρτηµένη, ενώ τα α
και β είναι δύο παράµετροι. Προσπαθώντας να κάνουµε την γραφική της παράσταση, µε δοσµένες βέβαια τιµές για τα α και β, δηµιουργούµε τον παρακάτω
πίνακα τιµών, δίνοντας κάποιες αυθαίρετες τιµές στο χ και υπολογίζοντας από
τη συνάρτηση την αντίστοιχη τιµή του ψ.
χκ
ψκ
χ0 χ1
ψ0 ψ1
χ2 ...
ψ2 ...
χν
ψν
ψ
ε
ψν
Τοποθετώντας τα ζεύγη τιµών
(χκ,ψκ) στο Καρτεσιανό σύστηµα συντεταγµένων, παρατηρούµε (Σχ.Γ.1)
πως όλα τα σηµεία είναι τοποθετηµένα πάνω σε µία ευθεία, την ε, πράγµα
που συµβαίνει για οποιαδήποτε δυάδα τιµών των παραµέτρων α και β.
Έτσι φθάνουµε στον παρακάτω
ορισµό:
ψ1
x0
x1
....
xν
ψ0
Σχ.Γ.1. Η γραφική παράσταση της
συνάρτησης ψ=αχ+β.
x
105
Ορισµός Γ.1.
Η πρωτοβάθµια πολυωνυµική συνάρτηση ψ = f(χ) = αχ+β είναι η εξίσωση της ευθείας στο Καρτεσιανό επίπεδο. Κάθε δυάδα τιµών, των παραµέτρων α
και β, οδηγεί σε µια νέα ευθεία, ενώ υπάρχει πάντα µια δυάδα τιµών (α,β), για
κάθε ευθεία του επιπέδου Οχψ (µε εξαίρεση τις ευθείες που είναι κάθετες στον
άξονα των χ).
ii) Ερµηνεία των συντελεστών α και β.
Ως γνωστό, δύο σηµεία ορίζουν τη θέση µιας ευθείας. Ποιά λοιπόν είναι η
εξίσωση της ευθείας που διέρχεται από τα σηµεία Σ1(χ1,ψ1) και Σ2(χ2,ψ2); Στο
ερώτηµα αυτό θα απαντήσουµε µε δύο τρόπους. Ο καθένας µπορεί να διαλέξει
όποιον θέλει, ή σωστότερα, όποιον ταιριάζει στο πρόβληµα που αντιµετωπίζει.
Λύση 1η: Έστω πως η ευθεία που ορίζεται από τα σηµεία Σ1 και Σ2, είναι
η ε : ψ=αχ+β. Εφ’όσον όµως τα σηµεία αυτά ανήκουν στην ε, θα πρέπει οι
συντεταγµένες τους να επαληθεύουν την εξίσωσή της. Άρα, θα ισχύουν οι
σχέσεις:
ψ1 = αχ1 + β
ψ2 = αχ2 + β
Πρόκειται για ένα γραµµικό σύστηµα δύο εξισώσεων µε δύο αγνώ-στους,
τις παραµέτρους α και β. Λύνοντάς το, υπολογίζουµε τις τιµές των α και β, έτσι
ώστε η εξίσωση ψ=αχ+β να ορίζει την ευθεία που διέρχεται από τα σηµεία Σ1
και Σ2:
ψ2 - ψ1
χ2ψ1 - χ1ψ2
α = ---------- και β = ---------------χ2 - χ1
χ2 - χ1
Λύση 2η: Η εξίσωση της ευθείας ε, που διέρχεται από τα σηµεία Σ1 και
Σ2 είναι η εξής:
χ - χ1
ψ - ψ1
--------- = ---------χ2 - χ1
ψ2 - ψ1
ψ
ψ2
ψ
Σχέση η οποία εκφράζει την αναλογία που προκύπτει από τα όµοια τρίγωνα
του διπλανού σχήµατος.
ψ1
ε
χ1
χ
χ2
χ
106
Γεωµετρική ερµηνεία.
ψ
Η παράµετρος α, που ονοµάζεται
συντελεστής διεύθυνσης ή κλίση της
ευθείας ε, είναι ίση µε την εφαπτοµένη
της γωνίας φ, η οποία ορίζεται από την
θετική κατεύθυνση του άξονα των χ και
την ευθεία ε (Σχ.Γ.2.).
ψ2
ε
φ
x1
β
x2
x
ψ1
α = (ψ2-ψ1)/(χ2-χ1) =
= εφ φ
= συντελεστής διεύθυνσης της ε
= κλίση της ε
Το σηµείο (0,β) είναι το σηµείο
του άξονα των ψ στο οποίο τέµνει η ε
τον άξονα των ψ (Σχ.Γ.2.).
Σχ.Γ.2. Η ερµηνεία των παραµέτρων α και β.
iii) Παραδείγµατα.
1ο) Οι ευθείες ψ=2χ+4 και ψ=2χ-2 είναι δύο ευθείες µε τον ίδιο συντελεστή διεύθυνσης και διαφορετικό β. Πρόκειται εποµένως για δύο ευθείες παράλληλες, µε κλίση α=2. Η πρώτη τέµνει τον άξονα των ψ στο σηµείο ψ=4 ενώ η
δεύτερη στο ψ=-2. Από την κλίση µπορούµε να υπολογίσουµε την γωνία φ που
σχηµατίζουν η ευθείες µε την θετική κατεύθυνση του άξονα των χ.
α = 2 = εφ φ ⇒
φ = Τοξεφ2 = tan-1(2) = 63.435 ° (µοίρες) (= 1.10715 rad)
Να παρατηρήσουµε εδώ πως η αντίστροφη συνάρτηση της ψ=εφ(χ), δηλαδή η ψ=Τοξεφ(χ), δεν πρέπει να σας προβληµατίζει, µια και δίνεται από τον
υπολογιστή τσέπης µε το πλήκτρο που αντιστοιχεί στην ένδειξη tan-1. Oι µονάδες στις οποίες θα είναι η γωνία εξαρτώνται από την επιλογή σας. Εάν στην οθόνη υπάρχει η ένδειξη DEG τότε το αποτέλεσµα θα είναι σε µοίρες. Εάν στην
οθόνη υπάρχει η ένδειξη RAD, τότε το αποτέλεσµα θα είναι σε ακτίνια, ενώ εάν
υπάρχει η ένδειξη GRA, τότε το αποτέλεσµα θα είναι σε βαθµούς.
107
2ο) Η εξίσωση ψ=3 αντιστοιχεί σε µία ευθεία µε κλίση µηδέν (α=0), σε
µία ευθεία εποµένως που θα είναι παράλληλη µε τον άξονα των χ και διέρχεται
από το σηµείο ψ=3 του άξονα των ψ. Άλλωστε η εξίσωση ψ=3 δηλώνει πως
περιλαµβάνει όλα τα σηµεία, των οποίων η τεταγµένη (η συντεταγµένη ψ) είναι
σταθερά ίση µε 3, ανεξάρτητα από την τιµή του χ.
Η εξίσωση χ=4 αντιστοιχεί σε µία ευθεία κάθετη στον άξονα των χ στο
σηµείο χ=4 (άρα παράλληλη του άξονα των ψ, οπότε η κλίση της θα είναι η
εφ(90), δηλ. άπειρη), και όµοια, περιλαµβάνει τα σηµεία µε τετµηµένη σταθερή
(=4).
3ο) Στην επόµενη γραφική παράσταση, εµφανίζονται οι ευθείες που αντιστοιχούν στις εξισώσεις:
ε1 : ψ = f1(x) = x
ε2 : ψ = f2(x) = 2x
ε3 : ψ = f3(x) = 3x
ε4 : ψ = f4(x) = -x
ε5 : ψ = f5(x) = -3x
Είναι εξισώσεις 5 ευθειών που
διέρχονται από το κέντρο των αξόνων
(0,0), διότι το β είναι µηδέν για όλες
τους.
Να παρατηρήσουµε πως οι ευθείες που αντιστοιχούν σε θετικούς συντελεστές διεύθυνσης είναι αύξουσες,
ενώ αυτές που αντιστοιχούν σε αρνητικά α είναι φθίνουσες.
Να παρατηρήσουµε επίσης πως
ο συντελεστής α κάθε µιας απ'τις ευθείες είναι ίσος µε την µεταβολή της
τιµής του ψ, όταν το χ µεταβάλλεται
κατά µία µονάδα.
Για παράδειγµα εάν πάρουµε την
τιµή του ψ της ευθείας ψ=3χ, για χ=3
και για χ=4, έχουµε τις τιµές: ψ(3)=9
και ψ(4)=12.
ψ
ε3
ε2
ε1
2
1
x
1
ε4
-3
ε5
Σχ.Γ.3. Η γραφική παράσταση των
πέντε ευθειών.
Η µεταβολή του ψ που αντιστοιχεί σε µεταβολή του χ κατά µία µονάδα
είναι ίση µε το 3 (ίση δηλ. µε το συντελεστή α της ευθείας).
108
Γ.1.2. Ταυτόχρονη καταµέτρηση δύο τυχαίων µεταβλητών.
Είναι πολύ συχνό το φαινόµενο της ταυτόχρονης καταµέτρησης δύο ή
περισσότερων τυχαίων µεταβλητών στα ν-στοιχεία ενός πληθυσµού. Στη συνέχεια θα ασχοληθούµε µε την περίπτωση της καταµέτρησης δύο µόνο
τυχ.µεταβλητών. Κατά την περίπτωση αυτή το βασικό Στατιστικό δεδοµένο
είναι η δυάδα (χi,ψi), η µέτρηση δηλαδή των τιµών των δύο τ.µ. Χ και Ψ στο iοστό άτοµο του πληθυσµού.
Εποµένως το σύνολο των δεδοµένων αποτελείται από ν δυάδες:
(X1,Ψ1), (X2,Ψ2), (X3,Ψ3), ..., (Xν,Ψν).
όπου βέβαια είναι δυνατό η ίδια δυάδα να εµφανίζεται περισσότερες από µία
φορές. Ένα κλασσικό παράδειγµα είναι οι µετρήσεις του ύψους και του βάρους
ενός πληθυσµού ατόµων.
Γενικά δύο τέτοιες µεταβλητές λέγονται ανεξάρτητες, µια και η γνώση της τιµής της µιας σε κάποιο άτοµο του πληθυσµού δεν επαρκεί για τον
καθορισµό της τιµής της δεύτερης (στο ίδιο πάντα άτοµο).
Πράγµατι, δεν µπορούµε να καθορίσουµε το βάρος ενός άνδρα, εάν γνωρίζουµε πως έχει ύψος 185 cm.
Η δυσκολία της "ανάγνωσης" και της κατανόησης των δεδοµένων αυτών
επιβάλλει την επεξεργασία τους και την εµφάνισή τους κατά τρόπο παραστατικό
και συνοπτικό. Στη συνέχεια θα αναφερθούν κάποιες µέθοδοι συστηµατοποίησης και συνοπτικότερης παρουσίασης των δεδοµένων αυτών.
Γ.1.3. Γραφικές παραστάσεις.
Η πρώτη µας προσπάθεια αφορά στην παραστατική εµφάνιση των διπλών
αυτών µετρήσεων µε τη βοήθεια µιας γραφικής παράστασης (µια εικόνα αξίζει
όσο χίλιες λέξεις).
109
Η γραφική παράσταση γίνεται σ'ένα
ψ
Καρτεσιανό σύστηµα συντεταγµένων
*
όπου στον άξονα των Χ θέτουµε την
*
* *
πρώτη τυχ.µεταβλητή (έστω την Xi,
* *
* *
i=1,2,..,ν), ενώ στον άξονα των Ψ θέτου* *
*
*
µε τη δεύτερη τυχ.µεταβλητή (την Ψi,
*
*
**
*
*
*
* *
i=1,2,..,ν).
Τότε έχουµε το διπλανό σχεδιά* * * *
γραµµα, το οποίο συχνά µας επιτρέπει να
* *
* *
εξάγουµε κάποια πρώτα συµπεράσµατα.
x
Έτσι για παράδειγµα, από το
σχ.Γ.4 συµπεραίνουµε πως στα στοιχεία
του πληθυσµού στα οποία η τιµή της µεΣχ.Γ.4. ∆ιάγραµµα διασποράς
ταβλητής Χ είναι µεγάλη, υπάρχει µία
των ν-µετρήσεων (Χi,Yi).
χαλαρή τάση για µεγάλες τιµές και στην
τιµή της µεταβλητής Ψ, και αντίστροφα, οι µικρές τιµές στα Χ συνδυάζονται µε
µικρές, κατά βάση, τιµές στα Ψ.
Για λόγους που θα εξηγηθούν αργότερα, προσπαθούµε να τοποθετούµε στον άξονα των Χ την τυχαία µεταβλητή για την οποία, κατά κανόνα,
έχουµε ακριβέστερες ή πιο αξιόπιστες µετρήσεις.
Συχνά, η µία από τις δύο µετρήσεις θεωρείται σαν ανεξάρτητη µεταβλητή, ενώ η δεύτερη θεωρείται εξαρτηµένη από την τιµή της πρώτης. Για παράδειγµα εάν µετρούµε την απόσταση που χρειάζεται για να ακινητοποιηθεί ένα
αυτοκίνητο, το οποίο κινείται µε διάφορες ταχύτητες, τότε έχουµε µια σειρά διπλών µετρήσεων:
( Ταχύτητα , Απόσταση ακινητοποίησης )
όπου κατανοούµε πως η δεύτερη µέτρηση είναι συνέπεια της πρώτης. Βέβαια,
ακριβολογώντας, δεν µπορούµε παρά να τη θεωρούµε ανεξάρτητη µεταβλητή,
µια και η απόσταση ακινητοποίησης από κάποια συγκεκριµένη ταχύτητα εξαρτάται από το αυτοκίνητο, την επιλογή ελαστικών, την κατάσταση των αµορτισέρ, του οδηγού (εάν το αυτοκίνητο δεν έχει ABS), το οδόστρωµα κ.λ.π..
Ταυτόχρονα, ακόµη και εάν κρατήσουµε σταθερές όλες τις παραµέτρου είναι
απίθανο (πιθανότητα µηδέν) να επαναληφθεί η ίδια ακριβώς µέτρηση.
Παρ’όλα αυτά, στο προηγούµενο πρόβληµα θεωρούµε την ταχύτητα σαν
την ανεξάρτητη µεταβλητή και την τοποθετούµε στον άξονα των χ, ενώ η απόσταση ακινητοποίησης σαν την εξαρτηµένη, τοποθετώντας την στον άξονα των
ψ.
110
Γ.1.4. Πίνακες διπλής εισόδου.
Η προσπάθεια για συνοπτική παρουσίαση των δεδοµένων, γίνεται µε τη
βοήθεια Στατιστικών πινάκων, στους οποίους εµφανίζονται ταυτόχρονα οι δύο
τυχ.µεταβλητές, και ονοµάζονται πίνακες διπλής εισόδου.
Στους πίνακες αυτούς οι µετρήσεις της κάθε τυχαίας µεταβλητής εµφανίζονται µε τη βοήθεια κλάσεων, εκτός κι'αν είναι λιγοστές οι τιµές που µπορούν
να πάρουν οι τυχ.µεταβλητές. Η µορφή των πινάκων αυτών είναι η παρακάτω:
Ψ
Ψ1
Ψ2
Ψ3
Χ1
Χ2
Χ3
...
Χλ-1
Χλ
f1,1
f2,1
f3,1
...
fλ-1,1
fλ,1
f1,2
f2,2
f3,2
...
fλ-1,2
fλ,2
f1,3
...
f2,3
...
f3,3
...
...
...
fλ-1,3 ...
fλ,3
...
f1,κ-1
f2,κ-1
f3,κ-1
...
fλ-1,κ-1
fλ,κ-1
Σύνολο
Σfi,1
Σfi,2
Σfi,3
Σfi,κ-1
...
Ψκ-1
Ψκ
Σύνολο
Χ
...
f1,κ
f2,κ
f3,κ
...
fλ-1,κ
fλ,κ
Σfi,κ
Σf1,j
Σf2,j
Σf3,j
...
Σfλ-1,j
Σfλ,j
ΣΣfi,j=ν
Πίνακας Γ.1: Η γενική µορφή ενός πίνακα διπλής εισόδου.
Κατά την εξήγηση του πιο πάνω πίνακα πρέπει να ξεχωρίσουµε την περίπτωση κατά την οποία οι τυχ. µεταβλητές Χi και Ψi δίνονται σε κλάσεις. Τότε οι
µεν τιµές των Χ κατανέµονται σε λ κλάσεις, ενώ αυτές των Ψ σε κ κλάσεις. Αντίθετα, όταν τα δεδοµένα δίνονται σε αναλυτικές τιµές, τότε το πλήθος όλων
των διαφορετικών τιµών του Χ είναι ίσο µε το πλήθος των τιµών του Ψ, οπότε
ισχύει η ισότητα κ=λ (=ν όπου ν είναι το πλήθος των στοιχείων του πληθυσµού).
Με την έκφραση fi,j συµβολίζουµε το πλήθος των στοιχείων του πληθυσµού, των οποίων η µέτρηση Χ είναι ίση µε το Χi (ή ανήκει στην Χi κλάση),
ενώ ταυτόχρονα η µέτρηση Ψ είναι ίση µε το Ψj (ή ανήκει στην Ψj κλάση).
111
Αξίζει να παρατηρήσουµε πως στην κάτω γραµµή γράφονται τα αθροίσµατα των συχνοτήτων της κάθε στήλης. Ισχύει για παράδειγµα η σχέση:
λ
Σfi,3 = Σ fi,3 = f1,3 + f2,3 + f3,3 + ... + fλ,3
i=1
η οποία δίνει το άθροισµα της τρίτης στήλης. Πρόκειται δηλαδή για το πλήθος
των στοιχείων του πληθυσµού, των οποίων η τιµή της τυχ.µεταβλητής Ψ είναι
ίση µε Ψ3, ανεξάρτητα από την τιµή της τυχ.µεταβλητής Χ. Είναι εποµένως η
"γενική" συχνότητα της τιµής Ψ3.
Όµοια, στην τελευταία στήλη εµφανίζονται τα µερικά αθροίσµατα της
κάθε σειράς. Ισχύει και εδώ (για παράδειγµα) η σχέση:
κ
Σf3,j = Σ f3,j = f3,1 + f3,2 + f3,3 + ... + f3,κ
j=1
η οποία δίνει το άθροισµα της τρίτης γραµµής. Πρόκειται δηλαδή για το πλήθος
των στοιχείων του πληθυσµού, των οποίων η τιµή της τυχ.µεταβλητής Χ είναι
ίση µε Χ3, ανεξάρτητα από την τιµή της τυχ.µεταβλητής Ψ. Είναι εποµένως η
"γενική" συχνότητα της τιµής Χ3.
Τέλος στο τελευταίο (άκρο δεξιό) τετράγωνο της κάτω γραµµής υπάρχει
το άθροισµα όλων των µερικών αθροισµάτων. Η τιµή είναι ακριβώς η ίδια, είτε
προσθέσουµε τα µερικά αθροίσµατα της τελευταίας στήλης, ή αυτά της τελευταίας γραµµής. Ισχύει τώρα η σχέση:
λ
κ
κ
κ
κ
ΣΣfi,j = Σ Σ fi,j = Σ f1,j + Σ f2,j + ... + Σ fλ,j = ν
i=1
j=1
j=1
j=1
j=1
η οποία δίνει τελικά το συνολικό πλήθος των (διπλών -(Χi,Yi)-) µετρήσεων που
συµπεριλαµβάνονται στον πίνακα διπλής εισόδου.
Παράδειγµα Γ.1.
Ο επόµενος πίνακας δίνει τους βαθµούς στο µάθηµα των Αρχαίων Ελληνικών (Χi) και στο µάθηµα της Άλγεβρας (Ψi) 24 µαθητών της Β' Λυκείου ενός
Λυκείου της Θεσσαλονίκης.
112
Xi
Ψi
11 11 12 12 12 13 13 13 13 14 14 15
10 14 13 13 17 14 16 16 17 18 19 10
Xi
Ψi
15 15 16 16 16 16 17 17 17 17 18 19
16 19 12 12 13 14 13 14 18 19 15 18
Πίνακας Γ.2. Η βαθµολογία στα Αρχαία Ελληνικά (Χi) και
στην Άλγεβρα (Ψi), 24 µαθητών της Β' Λυκείου.
Ο προηγούµενος πίνακας δεδοµένων γίνεται ο επόµενος πίνακας διπλής
εισόδου. Αξίζει να παρατηρήσουµε πως ένας πίνακας διπλής εισόδου έχει κάτι
από την παραστατικότητα µιας γραφικής παράστασης.
Συνήθως, οριζόντια τοποθετείται ο άξονας των Ψ ενώ στον κατακόρυφο
άξονα, όπου έχουµε τις τιµές των Χ, οι τιµές αυτές αυξάνουν από πάνω προς τα
κάτω.
Ψ
10 11 12 13 14 15 16 17 18 19
Σύνολο
Χ
1
11
12
13
14
15
16
17
18
19
1
Σύνολο
2
1
2
1
2
1
1
1
1
1
1
1
1
2
1
1
1
1
1
1
0
2
4
4
1
3
2
3
3
2
3
4
2
3
4
4
1
1
24
Πίνακας Γ.3. Η βαθµολογία των 24 µαθητών στα Αρχαία και στην Αλγεβρα σε
πίνακα διπλής εισόδου.
113
Στο παράδειγµα αυτό, στους άξονες Χ και Ψ τοποθετούνται οι καταµετρηµένες τιµές, οι οποίες όµως θα µπορούσαν να θεωρηθούν και κλάσεις. Αυτό συµβαίνει διότι οι τιµές που µπορούν να πάρουν οι τυχ. µεταβλητές Χ και Ψ
είναι ακέραιες, µε αποτέλεσµα τη συχνή επανάληψή τους. Θα µπορούσαµε
όµως να πούµε πως συνήθως χρησιµοποιούµε πίνακες διπλής εισόδου όταν οι
τιµές των τ.µ. Χ και Ψ είναι κατανεµηµένες σε κλάσεις.
Τα προηγούµενα δεδοµένα τα τοποθετούµε σε ορθογώνιο σύστηµα συντεταγµένων, οπότε έχουµε την παρακάτω γραφική παράσταση. Αξίζει να παρατηρήσουµε την διαφορετική αίσθηση που µας δίνει αυτή σε σχέση µε τον πίνακα διπλής εισόδου, όπου, όπως τονίστηκε ήδη, ο άξονας των Χ αυξάνεται
προς τα κάτω. Όµως, περιστρέφοντας τον πίνακα διπλής εισόδου κατά 90 µοίρες (θετική φορά - αντίθετα από τους δείκτες του ρολογιού), τότε έχουµε ταύτιση των αξόνων.
ψ
1
18
1
1
1
1
16
1
1
1
2
1
1
14
1
1
1
2
12
10
1
1
1
2
1
1
11 12 13 14 15 16 17 18 19
Χ
Σχ.Γ.5: Γραφική παράσταση της βαθµολογίας 24 µαθητών, στα
µαθήµατα Αρχαία (Χ) και Άλγεβρα (Ψ). Με (1) συµβολίζουµε
την ύπαρξη ενός µαθητή µε τη συγκεκριµένη δυάδα τιµών,
ενώ µε (2) συµβολίζουµε την ύπαρξη 2 µαθητών
στο εν λόγω σηµείο.
114
Γ.1.5. Εξάρτηση των τυχαίων µεταβλητών.
Επανερχόµαστε και πάλι στις µετρήσεις των τυχαίων µεταβλητών Χ και
Ψ, στα ν στοιχεία ενός πληθυσµού. Αναρωτιόµαστε τώρα για το εάν υπάρχει
κάποια σχέση ανάµεσα στις τιµές που παίρνει η τυχ. µεταβλητή Χ, και σ'αυτές
που παίρνει, στα ίδια άτοµα, η τυχ.µεταβλητή Ψ. Η αναζήτηση µιας τέτοιας
σχέσης (εξάρτησης) ανάµεσα σε δύο τυχ. µεταβλητές είναι ιδιαίτερα σηµαντική.
Εάν καταλήξουµε στην ύπαρξη µιας τέτοιας εξάρτησης, τότε, γνωρίζοντας την
µέτρηση Χ ενός στοιχείου του πληθυσµού, µπορούµε να έχουµε µια ιδέα για την
τιµή που θα πάρει η τ.µ. Ψ στο ίδιο άτοµο.
(i) Συναρτησιακή εξάρτηση.
Η ύπαρξη απόλυτης εξάρτησης ανάµεσα στις τ.µεταβλητές Χ και Ψ, σηµαίνει πως µετρώντας την τιµή Χ ενός στοιχείου του πληθυσµού, γνωρίζουµε
αυτόµατα και την τιµή Ψ του ίδιου στοιχείου. Αυτό συµβαίνει γιατί υπάρχει µια
συνάρτηση της µορφής Ψ=f(Χ) που τις συνδέει και που εκφράζει την φυσική
εξάρτηση που υπάρχει ανάµεσα στα δύο Φυσικά µεγέθη Χ και Ψ.
Σαν παράδειγµα, θα αναφερθούµε στην
ελεύθερη πτώση ενός σώµατος στο κενό κάτω
από την επίδραση της επιτάχυνσης της Βαρύτητας, g. Εάν αφήσουµε ένα σώµα µάζας m να
πέσει ελεύθερα από το σηµείο Α, και αρχίσουµε
να καταγράφουµε σε κάποιες τυχαίες χρονικές
στιγµές:
α) τις τιµές της απόστασης που έχει διανύσει
το σώµα m, και
β) τις τιµές της στιγµιαίας ταχύτητάς του v,
Α
S
m
V
θα παρατηρήσουµε πως η µία µέτρηση µπορεί να συναχθεί από την άλλη.
Εάν καταµετρήσουµε την ταχύτητα σε κάποια χρονική στιγµή t, τότε το διάστηµα s που το σώµα έχει διανύσει δίνεται από τη σχέση:
v2
S(v) = ---2g
115
ενώ, εάν µετρήσουµε το διάστηµα s, µπορούµε να υπολογίσουµε την στιγµιαία
ταχύτητα απ'τη σχέση:
v(S) = 2gS
20
Ταχύτητα (m/sec)
Εάν λοιπόν καταµετρήσουµε τις διανυθείσες
αποστάσεις και την ταχύτητα που αντιστοιχεί σ’ αυτές,
τότε προκύπτει η διπλανή
γραφική παράσταση, όπου
οι µετρήσεις ακολουθούν
πιστά την θεωρητική καµπύλη, µη έχοντας καµία
σχέση µε το νέφος των σηµείων της προηγούµενης
γραφικής παράστασης.
15
10
5
0
0
5
10
15
20
∆ιανυθείσα απόσταση (m)
Ελεύθερη πτώση σε κενό.
Μετρήσεις της απόστασης και της
ταχύτητας του σώµατος που πέφτει.
Η Θεωρητική καµπύλη.
Ορισµός Γ.2
Στις περιπτώσεις (σαν την προηγούµενη) της απόλυτης αµοιβαίας εξάρτησης δύο τυχαίων µεταβλητών, µιλάµε για συναρτησιακή εξάρτηση.
Συχνά µάλιστα µιλάµε για συναρτησιακή εξάρτηση χωρίς να µπορούµε
να διατυπώσουµε τον ακριβή Μαθηµατικό τύπο µε τον οποίο ορίζεται αυτή η
εξάρτηση. Στην περίπτωση αυτή συνήθως πρόκειται για πειραµατικά δεδοµένα.
Επιστρέφοντας στο παράδειγµα όπου µετρούµε το διάστηµα s που χρειάζεται
για να φρενάρει ένα συγκεκριµένο αυτοκίνητο που κινείται µε κάποια ταχύτητα,
διαπιστώνουµε την ύπαρξη µιας εξάρτησης (η οποία θα µπορούσε προσεγγιστικά να θυµίζει Μαθηµατική συνάρτηση), ανάµεσα στις δύο αυτές µεταβλητές
(εφ' όσον δεν έχουµε αλλοίωση των ελαστικών του αυτοκινήτου ή των υλικών
τριβής). Εκτελώντας µερικές φορές το πείραµα αυτό, δηµιουργούµε έναν πίνακα τιµών, από τον οποίο (µε τη βοήθεια κάποιων Μαθηµατικών µεθόδων) έχουµε τη δυνατότητα να υπολογίσουµε µε αρκετή ακρίβεια τις οποιεσδήποτε ενδιάµεσες τιµές.
116
(ii) Στοχαστική εξάρτηση.
Το παράδειγµα της ελεύθερης πτώσης ενός σώµατος της προηγουµένης
παραγράφου, αναφέρεται σε ένα πρόβληµα που επ'ουδενί δεν θα µπορούσε να
ονοµαστεί πρόβληµα τύχης, µια και το αποτέλεσµά του είναι πολύ καλά µελετηµένο και εποµένως γνωστό εκ των προτέρων.
Όµως τα περισσότερα σύγχρονα προβλήµατα των διαφόρων Επιστηµών
όπως η Βιολογία, η Ιατρική, η Οικονοµία, η Κοινωνιολογία, η Ψυχολογία κ.λ.π.,
δεν αντιµετωπίζουν ποσότητες που να συνδέονται συναρτησιακά µεταξύ τους.
Παρ’όλα αυτά είναι δυνατό να υπάρχει κάποια (πολλές φορές ισχυρότατη) εξάρτηση ανάµεσα σε δύο µεταβλητές, χωρίς αυτή να είναι συναρτησιακή. Την
εξάρτηση αυτής της µορφής την λέµε Στοχαστική. Ένας πιο πλήρης ορισµός
είναι ο επόµενος (εάν δεν τον καλοκαταλάβετε ξαναδιαβάστε τον, αφού πρώτα
διαβάσετε το παράδειγµα που ακολουθεί!...).
Ορισµός Γ.3.
Έστω δύο τυχαίες µεταβλητές Χi και Yi, που αναφέρονται στα ν στοιχεία
ενός πληθυσµού Ω. Λέγεται πως ανάµεσα στις δύο αυτές τυχαίες µεταβλητές
υπάρχει Στοχαστική εξάρτηση, όταν η γνώση της τιµής Xj στο j-οστό άτοµο του
πληθυσµού, µεταβάλλει την πιθανότητα που έχει η τιµή Yj να ανήκει σε κάποιο
διάστηµα.
Ο προηγούµενος ορισµός λέει ουσιαστικά πως σε δύο µεταβλητές που
συνδέονται στοχαστικά, η γνώση της τιµής της µιας τυχ.µεταβλητής σε κάποιο άτοµο του πληθυσµού, δίνει σηµαντικές πληροφορίες για την τιµή που θα
πάρει η άλλη τυχαία µεταβλητή στο ίδιο άτοµο.
Παράδειγµα:
Ένα από τα πιο κλασσικά παραδείγµατα στοχαστικής εξάρτησης είναι αυτής που συνδέει το ύψος µε το βάρος των ανθρώπων, ιδιαίτερα του ίδιου φύλου.
Μελετώντας το βάρος 1000 ενηλίκων ανδρών φθάσαµε στο συµπέρασµα
πως η πιθανότητα του διαστήµατος(*) (110,120), εάν δεν ληφθεί υπ' όψην το
(*)
Οπως αναφέρθηκε στην παρατήρηση της παραγράφου Β.2.1, έχουµε τις τρείς εκφράσεις της
ίδιας ουσιαστικά έννοιας: "η πιθανότητα ενός διαστήµατος" ή "η πιθανότητα η µέτρηση Χ να
ανήκει σε κάποιο συγκεκριµένο διάστηµα" ή "το ποσοστό του συνολικού πληθυσµού που ανήκει
στο συγκεκριµένο διάστηµα".
117
ύψος του, είναι 5 τοις εκατό. Παίρνουµε στη συνέχεια κάποιο άτοµο στην τύχη, ελέγχουµε το ύψος του, και βρίσκουµε πως είναι 2 µέτρα. Τώρα όµως αλλάζει ριζικά η πιθανότητα για να ανήκει το βάρος του συγκεκριµένου άνδρα στο
διάστηµα (110,120). Σύµφωνα µάλιστα µε τις µετρήσεις που έχουµε κάνει, βρίσκουµε πως η πιθανότητα του διαστήµατος αυτού είναι ίση µε το 60 τοις εκατό.
Η διαπίστωση της στοχαστικής εξάρτησης λοιπόν ανάµεσα στο βάρος και
στο ύψος ενός άνδρα δηλώνει σε τελική ανάλυση πως η γενική τάση που επικρατεί στον πληθυσµό είναι πως "τα µεγάλα ύψη αντιστοιχούν κατά βάση
και σε µεγάλα βάρη".
Η ύπαρξη εξάρτησης ανάµεσα σε δύο
τυχ.µεταβλητές, γίνεται εύκολα φανερή από
την γραφική τους παράσταση. Βάζουµε τις
τιµές της πρώτης τυχ. µεταβλητής (Χi) στον
άξονα των χ, και της δεύτερης (Υi) στον άξονα των ψ. Τα ζεύγη των τιµών (Xi,Yi), που
αντιστοιχούν στα ν στοιχεία του πληθυσµού,
δηµιουργούν τη γραφική παράστασή τους.
Αν υποθέσουµε πως στη διπλανή γραφική παράσταση βάλαµε το ύψος στον άξονα των χ
και το βάρος στα ψ, τότε παρατηρούµε την
γενική τάση που αναφέρθηκε πιο πάνω, σύµφωνα µε την οποία οι πιο ψηλοί άνδρες έχουν
και µεγαλύτερο βάρος.
Βάρος
*
** *
***
**
* * ** *
* *
*
** * *
* ** *
* *
* * *
Ύψος
Εδώ θα µπορούσε να τεθεί το ερώτηµα: "∆εν είναι δυνατό να βρεθεί µια
συνάρτηση που να συνδέει αυτά τα δεδοµένα, της οποίας δηλαδή η καµπύλη να
διέρχεται από τα χίλια σηµεία (ύψος, βάρος) των δεδοµένων:"
Μια τέτοια συνάρτηση θα µπορούσε πράγµατι να βρεθεί, εφ' όσον βέβαια
δεν θα υπάρχουν δύο άτοµα που να έχουν ίδιο ύψος (ίδιο χ) και διαφορετικό βάρος. Όµως η φυσική της σηµασία θα ήταν µικρή ενώ ταυτόχρονα δεν θα µπορούσαµε να µιλήσουµε για συναρτησιακή εξάρτηση, µια και η συνάρτηση αυτή
θα ίσχυε µόνο για τους συγκεκριµένους άνδρες. Είναι σίγουρο πως τα δεδοµένα
του πρώτου άνδρα έξω από τον πληθυσµό των χιλίων θά'ταν έξω από την καµπύλη που µε τόσο κόπο χαράξαµε.
Τα ερωτήµατα που θα µας απασχολήσουν στη συνέχεια έχουν να κάνουν
µε το εάν υπάρχει στοχαστική εξάρτηση ανάµεσα σε δύο τυχ. µεταβλητές, και
µε το πόσο ισχυρή είναι η εξάρτηση αυτή.
118
iii) Καµπύλες παλινδρόµησης.
Ορισµός Γ.4.
Ονοµάζουµε καµπύλη παλινδρόµησης µια Μαθηµατική συνάρτηση
ψ=f(χ), η οποία προσπαθεί να προσεγγίσει τα δεδοµένα (τις µετρήσεις) δύο
τυχ.µεταβλητών Χi και Yi, στα στοιχεία ενός πληθυσµού, ή ενός δείγµατος.
Σύµφωνα λοιπόν µε τον πιο πάνω ορισµό η καµπύλη παλινδρόµησης είναι ένα Μαθηµατικό µοντέλο το οποίο προσπαθούµε να προσαρµόσου-µε στα
αριθµητικά δεδοµένα ενός προβλήµατος στοχαστικής εξάρτησης.
Το ερώτηµα που αµέσως έρχεται στα χείλη µας αφορά στη µορφή της συνάρτησης µε την οποία θα προσπαθήσουµε να προσεγγίσουµε τα δεδοµένα µας.
Πρόκειται για ένα σηµαντικότατο πρόβληµα, στο οποίο η απάντηση είναι εντελώς σχετική. Συνήθως έχουµε να διαλέξουµε ανάµεσα από κάποια µοντέλα,
από τα οποία θα πρέπει να επιλέξουµε το καταλληλότερο. Την επιλογή θα κάνει
κάποιος που έχει υπ'όψην του τις γραφικές παραστάσεις των Μαθηµατικών συναρτήσεων που εµφανίζονται στα διαθέσιµα µοντέλα, παρατηρώντας τη γραφική παράσταση των δεδοµένων (των σηµείων (χi,ψi)).
Στη συνέχεια θα µας απασχολήσουν τριών ειδών καµπύλες παλινδρόµησης, οι οποίες εφαρµόζονται σ'ένα µεγάλο αριθµό προβληµάτων. Πρόκειται για την ευθεία, την εκθετική καµπύλη και τη λογαριθµική καµπύλη. Το µεγάλο πλεονέκτηµα των συναρτήσεων αυτών είναι η σχετική απλότητα των υπολογισµών. Ταυτόχρονα, είναι εύκολο να δοθούν οδηγίες για το πότε χρησιµοποιούµε την κάθε µια απ'αυτές.
Γ.1.6. Ευθύγραµµη παλινδρόµηση (ευθεία ελ.τετραγώνων).
Η πιο απλή καµπύλη παλινδρόµησης δεν θα µπορούσε να είναι άλλη από
την ευθεία, η εξίσωση της οποίας είναι η ψ=f(χ)=αχ+β. Πρέπει όµως να βρεθεί
ένας τρόπος να ορισθούν οι παράµετροι α και β, έτσι ώστε η ευθεία να προσεγγίζει τα σηµεία (Χi,Yi) των δεδοµένων, όσο το δυνατόν καλύτερα. Σαν την καλύτερα προσαρµοσµένη ευθεία στα δεδοµένα µας επιλέγουµε την ευθεία των
ελαχίστων τετραγώνων.
119
i) Το πρόβληµα της ευθείας των ελαχίστων τετραγώνων.
∆ίνονται οι συντεταγµένες ν-σηµείων του επιπέδου Οχy, έστω οι:
(χ1,ψ1), (χ2,ψ2), (χ3,ψ3),... ,(χν,ψν).
τα οποία φαίνονται στην επόµενη γραφική παράσταση. Μαζί µ'αυτά έχει χαραχθεί µία ευθεία που προσεγγίζει τα ν δοσµένα σηµεία. Η εξίσωσή της είναι φυσικά η ψ=αχ+β, της οποίας όµως τις παραµέτρους α και β προς το παρόν αγνοούµε!... Οπως µπορούµε να παρατηρήσουµε στο σχήµα Γ.6. σε κάθε σηµείο
χi αντιστοιχούν δύο τιµές:
1η) η ψi του i-οστού σηµείου των δεδοµένων
2η) η Υi που είναι η τιµή που παίρνει η ευθεία ε στο σηµείο
χi, δηλαδή Υi = αχi+β.
ψ
*
dν
*
*
ψ2
*
*
d2
Υ2 = αx2+β
d3
*
d1
ε
*
χ1
χ2
χ3
χ4 χ5
.....
χν-1 xν
x
Σχ.Γ.6. Τα ν σηµεία των δεδοµένων (χi,ψi) και οι αποστάσεις di του
i-οστού σηµείου από την ευθεία των ελαχίστων τετραγώνων.
Ορίζουµε σαν "απόσταση" του κάθε σηµείου από την ευθεία, το µήκος
του ευθύγραµµου τµήµατος που συνδέει το σηµείο µε την ευθεία, ενώ είναι παράλληλο µε τον άξονα των ψ(*). Άρα η απόσταση του i-οστού σηµείου από την
ευθεία θα είναι ίση µε:
di = ψi - Yi = ψi - (αχi+β)
(*)
Λέµε πως ορίζουµε την "απόσταση" διότι, για λόγους ευκολίας, δεν ορίζουµε την Ευκλείδεια
απόσταση, η οποία φέρνεται κάθετα προς την ευθεία.
120
Ορισµός Γ.5.
Η ευθεία (ψ=αχ+β) που διέρχεται ανάµεσα από τα ν σηµεία (χi,ψi), για
την οποία ελαχιστοποιείται το άθροισµα
Α = d12 + d22 + ... + dν2
των τετραγώνων των "αποστάσεων" του κάθε σηµείου από την ευθεία, λέγεται
ευθεία των ελαχίστων τετραγώνων.
Προσπαθούµε δηλαδή να ελαχιστοποιήσουµε την ποσότητα:
ν
ν
2
Α(α,β) = Σ (ψi-Υi) = Σ (ψi-αχi-β)2
i=1
i=1
Παρατηρούµε πως η ποσότητα Α εξαρτάται από τις παραµέτρους α και
β, άρα είναι µία συνάρτηση των α και β. Αντιµετωπίζουµε λοιπόν ένα τυπικό
πρόβληµα προσδιορισµού των τιµών για τα α και β, στα οποία η συνάρτηση δύο
µεταβλητών Α(α,β), παίρνει ακρότατη (ελάχιστη) τιµή.
ii) Υπολογισµός των παραµέτρων α και β της ευθείας των
ελαχίστων τετραγώνων.
Βέβαια ο υπολογισµός µεγίστων και ελαχίστων οδηγεί τη σκέψη µας στις
παραγώγους. Πράγµατι µε τη βοήθεια των παραγώγων των συναρτήσεων δύο
µεταβλητών (µερικών παραγώγων), φθάνουµε σ'ένα γραµµικό σύστηµα δύο εξισώσεων µε δύο αγνώστους, τα α και β(*). Το σύστηµα αυτό είναι γνωστό σαν
σύστηµα των κανονικών εξισώσεων για την ευθύγραµµη παλινδρόµηση:
α Σ(χi) + βν = Σ(ψi)
α Σ(χi2) + β Σ(χi) = Σ(χiψi)
όπου όλα τα αθροίσµατα Σ "πηγαίνουν" από i=1 έως i=ν.
(*)
Παρ'όλον ότι οι πράξεις της παραγώγησης είναι ιδιαίτερα εύκολες, δεν θα τις αναφέρουµε
µια και η έννοια της µερικής παραγώγισης είναι άγνωστη σε κάποιους απ'τους αναγνώστες.
121
Το σύστηµα των κανονικών εξισώσεων λύνεται εύκολα(*), είτε χρησιµοποιώντας τη µέθοδο των οριζουσών, είτε κλασσικά, λύνοντας τη µια εξίσωση
ως προς τον έναν άγνωστο και αντικαθιστώντας τον στη δεύτερη. Στο τέλος των
πράξεων βρίσκουµε πως η ελάχιστη τιµή του αθροίσµατος Α(α,β), επιτυγχάνεται για τις παρακάτω τιµές των α και β:
(Σχi)*(Σψi) - ν*Σ(χi*ψi)
α = -------------------------------[Σχi]2 - ν*Σ(χi2)
(Σχi)*(Σχiψi) - Σ(χi2)*Σ(ψi)
1
β = ------------------------------------ = --[Σχi]2 - ν*Σ(χi2)
ν
(Σψi) - α(Σχi)
όπου, και πάλι, όλα τα αθροίσµατα Σ "πηγαίνουν" από i=1 έως i=ν.
Να παρατηρήσουµε πως η λύση των κανονικών εξισώσεων µας οδηγεί
στον προσδιορισµό ελάχιστου, µια και µέγιστο δεν µπορεί να υπάρξει (η ευθεία
ε µπορεί να αποµακρυνθεί οσοδήποτε, και έτσι η ποσότητα Α µπορεί να γίνει
οσοδήποτε µεγάλη).
iii) Παράδειγµα Γ.2.
Να υπολογισθεί η ευθεία των ελαχίστων τετραγώνων που προσεγγίζει τα σηµεία του διπλανού πίνακα και να γίνει η
γραφική παράσταση των σηµείων, καθώς
και της ευθείας των ελαχ.τετραγώνων.
(*)
χκ
ψκ
1 2 2 3 3 5 7 7
5 6 4 2 3 3 1 2
Στο σύστηµα αυτό οι µοναδικές άγνωστοι είναι οι παράµετροι α και β. Σκεφθείτε πως τα χi
και τα ψi είναι γνωστά (τα δεδοµένα µας), οπότε όλες οι ποσότητες που εµφανίζονται στο σύστηµα είναι συγκεκριµµένες τιµές, που υπολογίζονται εύκολα.
122
Λύση: Για να υπολογίσουµε τα αθροίσµατα που συναντούµε στους τύπους των
παραµέτρων α και β, δηµιουργούµε το διπλανό πίνακα. Από τα αποτελέσµατά του
έχουµε για τα α και β:
(Σχi)*(Σψi) - n*Σ(χi*ψi)
α = ------------------------------ =
[Σχi]2 - n*Σ(χi2)
30*26 - 8*76
172
= ----------------- = ------ = -0.57333
-300
302 - 8*150
Χκ
Ψκ
Χκ2
ΧκΨκ
1
2
2
3
3
5
7
7
5
6
4
2
3
3
1
2
1
4
4
9
9
25
49
49
5
12
8
6
9
15
7
14
30
26
150
76
και
(Σχi)*(Σχiψi) - Σ(χi2)*Σ(ψi)
30*76 - 150*26 -1620
β = ----------------------------------- = -------------------- = ------- = 5.4
302 - 8*150
-300
[Σχi]2 - n*Σ(χi2)
οπότε η εξίσωση της ευθείας των
ελαχίστων τετραγώνων είναι η:
6
ψ = αχ+β ⇒
Yi
4
ψ = -0.573333*χ + 5.4
2
Στο διπλανό σχήµα έχουµε τη
γραφική παράσταση των 8 σηµείων
των δεδοµένων και την ευθεία των
ελαχ. τετραγώνων. Την χαράξαµε
µε τη βοήθεια δύο σηµείων της.
Πήραµε:
για χ=0 , ψ = 5.4
για χ=7 , ψ = 1.38667
0
0
2
4
6
8
Xi
Σχ.Γ.7. Η γραφική παράσταση των δεδοµένων
και της ευθείας ελαχίστων τετραγώνων.
123
Γ.2. ΣΥΣΧΕΤΙΣΗ.
Γ.2.1. Συνδιακύµανση δύο τυχαίων µεταβλητών.
Με τη συνδιακύµανση δύο τυχαίων µεταβλητών θα επιχειρήσουµε µια
πρώτη προσπάθεια να διερευνήσουµε το πρόβληµα της αλληλοεξάρτησης δύο
τυχαίων µεταβλητών.
Ορισµός Γ.6.
Εστω οι τυχαίες µεταβλητές Xi και Yi, στα ν στοιχεία κάποιου πληθυσµού, µε µέσες τιµές τις µχ και µψ αντίστοιχα. Ονοµάζουµε συνδιακύµανση των
δύο αυτών τυχ.µεταβλητών την ποσότητα:
(X1-µχ)(Υ1-µψ) + (X2-µχ)(Υ2-µψ) + ... + (Xν-µχ)(Υν-µψ)
Cov(X,Y) = --------------------------------------------------------------------ν
ή συνοπτικότερα:
1 ν
Cov(X,Y) = --- Σ (Xi-µχ)(Υi-µψ)
ν i=1
Ιδιότητες της συνδιακύµανσης.
i) Cov(X,Y) = Cov(Y,X)
ii) Cov(X,X) = σx2
iii) Εάν η µία (ή και οι δύο) τυχαία µεταβλητή είναι σταθερή τότε η συνδιακύµανση είναι ίση µε το µηδέν(*). ∆ηλαδή:
Cov(c,Y) = 0
(*)
Οι τρείς αυτές ιδιότητες αποδεικνύονται πολύ εύκολα, µε τη βοήθεια του τύπου της συνδιακύµανσης και της διακύµανσης σ2.
124
iv) Ενας ακόµη τύπος για την συνδιακύµανση είναι και ο
Σ(ΧiYi)
νΣ(ΧiYi) - Σ(Χi)Σ(Yi)
Cov(X,Y) = ----------- - µxµψ = ----------------------------ν
ν2
που προκύπτει από τον προηγούµενο τύπο µε πράξεις(*), και χρησιµοποιείται
πολύ συχνά.
Γεωµετρική ερµηνεία της συνδιακύµανσης.
α) Αρχικά να εκφράσουµε την ερµηνεία της Αλγεβρικής σχέσης που εκφράζει τη συνδιακύµανση. Εάν θεωρήσουµε πως τα Χi και Ψi είναι οι µετρήσεις
των δύο τ.µ. Χ και Ψ στο i-οστό άτοµο του πληθυσµού, τότε οι ποσότητες:
Αi = (Χi-µχ) και Bi = (Ψi-µψ)
ορίζουν τις αλγεβρικές "αποστάσεις" της κάθε µιας µέτρησης από τον αντίστοιχο µέσο όρο της κάθε τ.µ.. Η συνδιακύµανση Cov(X,Ψ) είναι ο µέσος όρος του
γινοµένου αυτών των Αλγεβρικών αποστάσεων Αi*Bi.
β) Ας εξετάσουµε τώρα τις τιµές που µπορεί να πάρει η συνδιακύµανση
Cov(Χ,Ψ), και στο τί σηµαίνουν οι τιµές αυτές.
Η διαφορά (Χi-µx) είναι θετική, όταν το Χi είναι µεγαλύτερο της µέσης
τιµής µx. Το ίδιο συµβαίνει και µε τη διαφορά (Υi-µψ). Εποµένως το γινόµενο
(Χi-µx)(Υi-µψ) θα είναι θετικό όταν οι δύο διαφορές είναι οµόσηµες, όταν δηλαδή η κάθε µια από τις δύο τιµές του i-οστού στοιχείου του πληθυσµού είναι ταυτόχρονα µεγαλύτερες ή µικρότερες από τον αντίστοιχο µέσο όρο.
(*)
Οι πράξεις αυτές, όπως και άλλες, θα σηµειωθούν στο τέλος του κεφαλαίου για να επιτρέπουν
την απρόσκοπτη ανάγνωση του κειµένου από τον αναγνώστη που δεν ενδιαφέρεται για τις Μαθηµατικές αποδείξεις. Η παραποµπή για τις συγκεκριµένες πράξεις είναι η [1].
125
Ακριβώς το αντίθετο συµβαίνει όταν οι δύο διαφορές (Χi-µx) και (Υi-µψ)
είναι ετερόσηµες. Τότε έχουµε πως η τιµή της µιας µεταβλητής στο i-οστό άτοµο είναι µεγαλύτερη του µέσου όρου της, ενώ η άλλη είναι µικρότερη.
Όταν λοιπόν οι περισσότερες διαφορές (Χi-µx) και (Υi-µψ) είναι οµόσηµες
συµπεραίνουµε πως υπάρχει µια γενική τάση σύµφωνα µε την οποία τα στοιχεία
του πληθυσµού µε µικρές τιµές στα Χ να έχουν µικρές τιµές και στα Υ, ενώ τα
στοιχεία µε µεγάλα Χ να έχουν και µεγάλα Υ. Τα αντίθετα ισχύουν όταν οι περισσότερες διαφορές είναι ετερόσηµες.
Εποµένως, όταν οι οµόσηµες διαφορές είναι περισσότερες και µεγαλύτερες σε απόλυτη τιµή από τις ετερόσηµες, τότε η τιµή της συνδιακύµανσης είναι
θετική. Αντίθετα, όταν οι ετερόσηµες διαφορές είναι περισσότερες και µεγαλύτερες σε απόλυτη τιµή από τις οµόσηµες, τότε η τιµή της συνδιακύµανσης είναι
αρνητική.
γ) Ύστερα απ'όλα αυτά γίνεται φανερό το γιατί µπορούµε να θεωρήσουµε
την συνδιακύµανση σαν ένα δείκτη για την συµµεταβολή των τυχ.µεταβλητών
Χ και Υ. Το τελικό συµπέρασµα παρουσιάζεται στον επόµενο πίνακα:
Συνδιακύµανση
Παρατηρήσεις
Cov(X,Y) > 0
Υπάρχει µια γενική τάση σύµφωνα µε την
οποία όταν η τ.µ. Χ αυξάνεται, η τ.µ Υ να µεταβάλλεται σαν αύξουσα συνάρτησή της.
Cov(X,Y) = 0
∆εν υπάρχει κάποιας µορφής συσχέτιση ανάµεσα στις δύο τ.µ., ή η µία από τις δύο είναι
σταθερή.
Cov(X,Y) < 0
Υπάρχει µια γενική τάση σύµφωνα µε την
οποία όταν η τ.µ. Χ αυξάνεται, η τ.µ Υ να µεταβάλλεται σαν φθίνουσα συνάρτησή της.
126
Παρατήρηση:
Η τιµή της συνδιακύµανσης δεν αποτελεί απόλυτο κριτήριο για το βαθµό
συσχέτισης των δύο τυχ.µεταβλητών, αλλά µια ένδειξη τάσης. Ας υποθέσουµε,
για παράδειγµα πως η τιµή αυτή είναι θετική µεν, αλλά αρκετά µικρή, ενώ οι
διακυµάνσεις των δύο τυχαίων µεταβλητών σx και σψ είναι αισθητά µεγαλύτερες. Στην περίπτωση αυτή αντιλαµβανόµαστε πως η τιµή της συνδιακύµανσης
δείχνει πως σε κάποια άτοµα του πληθυσµού οι τιµές των τυχαίων µεταβλητών
µεταβάλλονται παρόµοια (αυξάνονται ή µειώνονται και οι δύο), ενώ σε κάποια
άλλα συµβαίνει το ακριβώς αντίθετο, µόνο που το πρώτο φαινόµενο είναι κάπως ισχυρότερο (ή συχνότερο). Εδώ λοιπόν η θετική τιµή της συνδιακύµανσης
δεν δηλώνει τίποτε άλλο πέρα από µια ασθενή τάση.
Εάν τέλος η τιµή της συνδιακύµανσης είναι κοντά στο µηδέν (και εφ'όσον
οι διακυµάνσεις της κάθε µιας τυχ.µεταβλητής δεν είναι πολύ µικρές) µπορούµε
να µιλούµε για ασυσχέτιστες τυχαίες µεταβλητές.
Παράδειγµα Γ.2. (2η συνέχεια...)
Ξαναγυρνώντας στο παράδειγµα
της προηγούµενης παραγράφου,
θα υπολογίσουµε την συνδιακύµανση των τιµών Χi και Υi του
διπλανού πίνακα.
χκ
ψκ
1 2 2 3 3 5 7 7
5 6 4 2 3 3 1 2
Λύση: Πριν υπολογίσουµε την τιµή της συνδιακύµανσης, παρατη-ρούµε
τη γραφική παράσταση του σχήµατος Γ.7. Αµέσως αντιλαµβανό-µαστε πως
υπάρχει µια φθίνουσα τάση στις τιµές της Υ όταν αυξάνονται οι τιµές των Χ.
Περιµένουµε λοιπόν τη συνδιακύµανση αρνητική και µάλιστα όχι κοντά στο
µηδέν. Ιδωµεν...
Από τον πίνακα του προηγούµενου παραδείγµατος έχουµε πως:
Σχi = 30 , Σψi = 26 , Σ(χiψi) = 76
οπότε:
νΣ(ΧiYi) - Σ(Χi)Σ(Yi)
Cov(X,Y) = ---------------------------- =
ν2
127
8*76 - 30*26
-172
= ------------------ = ------- = -2.6875
82
64
Οι τυπικές αποκλίσεις σx και σψ αποδεικνύεται πως είναι ίσες µε:
σx = 2.165 και σψ = 1.561
οπότε η τιµή της συνδιακύµανσης δείχνει αυτό που παρατηρήσαµε από τη γραφική παράσταση των δεδοµένων (Σχ.Γ.7), ότι δηλαδή οι τιµές Χi και Yi έχουν
σηµαντικό βαθµό συσχέτισης.
Γ.2.2. Συντελεστής γραµµικής συσχέτισης.
Σύµφωνα µε τα όσα είπαµε στην παρατήρηση της προηγούµενης παραγράφου για τη συνδιακύµανση, η τιµή της είναι µόνο ένας σχετικός δείκτης για
την εξάρτηση των τιµών µιας τυχ.µεταβλητής, απ'αυτές µιας άλλης. Οταν µάλιστα η τιµή της συνδιακύµανσης είναι σαφώς µικρότερη απ'αυτές των τυπικών
αποκλίσεων των τιµών Χ και Υ, τότε η σηµασία της είναι ελάχιστη. Ο επόµενος λοιπόν ορισµός είναι ένα λογικό επακόλουθο των προηγουµένων.
Ορισµός Γ.7.
Έστω οι δύο τυχαίες µεταβλητές Χi και Υi στα ν στοιχεία ενός πληθυσµού, µε τυπικές αποκλίσεις τις σx και σψ. Ο βαθµός γραµµικής εξάρτησης της
µιας µεταβλητής από την άλλη δίνεται από τον συντελεστή γραµµικής συσχέτισης:
Cov(X,Y)
rxψ = --------------σx σψ
128
Αντικαθιστώντας τους τύπους της συνδιακύµανσης, της τυπικής απόκλισης και της µέσης τιµής στον τύπο του συντελεστή γραµµικής συσχέτισης, έχουµε τον τύπο υπολογισµού του r:
νΣ(ΧiYi) - Σ(Χi)Σ(Yi)
---------------------------Cov(X,Y)
ν2
rxψ = ------------- = ------------------------------------------ΣxΣψ
Σ(Χi2)
Σ(Υi2)
-------- - µx2
-------- - µψ2
ν
ν
⇒
ν(Σχiψi) - (Σχi)(Σψi)
rxψ = ---------------------------------------------[ν(Σχi2) - (Σχi)2]*[ν(Σψi2) - (Σψi)2]
όπου όλα τα αθροίσµατα (Σ) "πηγαίνουν" από i=1 έως ν.
Ιδιότητες του συντελεστή γραµµικής συσχέτισης:
i) Ο συντελεστής γραµµικής συσχέτισης r είναι καθαρός αριθµός, δεν
εξαρτάται εποµένως από τις µονάδες των τυχ.µεταβλητών Χ και Υ.
ii) Αποδεικνύεται[2] πως ο r µπορεί να πάρει τιµές από το -1 έως το 1.
iii) Το πρόσηµο του r δηλώνει µόνο την κλίση της ευθείας ελαχίστων τετραγώνων που ορίζεται από τα σηµεία (Χi,Yi). Είναι εποµένως το r οµόσηµο µε
τον συντελεστή διεύθυνσης της ευθείας ελαχίστων τετραγώνων, α.
iv) Το r παίρνει ακριβώς την τιµή 1 (ή -1), όταν όλα τα δεδοµένα (Χi,Υi)
βρίσκονται ακριβώς πάνω στην ευθεία των ελαχίστων τετραγώνων, που είναι
αύξουσα (φθίνουσα). Στην περίπτωση αυτή µιλάµε βέβαια για συναρτησιακή
εξάρτηση και µάλιστα γραµµική.
v) Όσο η απόλυτη τιµή του r είναι κοντά στη µονάδα, τόσο πιό κοντά
στην ευθεία των ελαχίστων τετραγώνων βρίσκονται τα δεδοµένα (Χi,Υi). Τόσο
ισχυρότερη είναι λοιπόν η γραµµική συσχέτιση που υπάρχει ανάµεσα στις µεταβλητές Χ και Υ.
129
vi) Αντίθετα, όσο πιο κοντά στο µηδέν είναι η τιµή του r, τόσο λιγότερο
καλά προσεγγίζει η ευθεία των ελαχίστων τετραγώνων τα σηµεία (Χi,Υi). Τότε
λέµε πως δεν υπάρχει γραµµική εξάρτηση, ή γραµµική συσχέτιση ανάµεσα στις
µεταβλητές Χ και Υ.
vii) Η ύπαρξη συσχέτισης ανάµεσα στις µεταβλητές Χ και Υ δεν εξαρτάται µόνον από την τιµή του r, αλλά και από το πλήθος ν των στοιχείων του πληθυσµού. Έτσι, µία τιµή του r µπορεί να µην εξασφαλίζει την ύπαρξη συσχέτισης για ν=8, αλλά να εξασφαλίζει την ύπαρξη συσχέτισης σ'έναν πληθυσµό µε
ν=30. Παρατηρούµε δηλαδή πως όσο το πλήθος των δεδοµένων ν είναι µεγαλύτερο, τόσο µικρότερη είναι η οριακή τιµή του r, η οποία δηλώνει την ύπαρξη
συσχέτισης. Ο επόµενος πίνακας δίνει µια αντιστοιχία ανάµεσα στην τιµή του r,
στον χαρακτηρισµό της συσχέτισης και στο πλήθος ν.
Χαρακτηρισµός
της συσχέτισης:
ν=10
ν=20
ν=40
Απόλυτη
Ισχυρότατη
Ισχυρή
Μέτρια
Ασθενής
1
0.95 - 0.99
0.85 - 0.95
0.70 - 0.85
0.55 - 0.70
1
0.90 - 0.99
0.75 - 0.90
0.55 - 0.75
0.40 - 0.55
1
0.85 - 0.99
0.65 - 0.85
0.40 - 0.65
0.30 - 0.40
Απίθανη η ύπαρξη
συσχέτισης...
r < 0.55
r < 0.40
r < 0.30
Πίνακας Γ.4. Η αντιστοιχία ανάµεσα στο χαρακτηρισµό της συσχέτισης
και στην τιµή του συντελεστή γραµµικής συσχέτισης, σε
σχέση µε το πλήθος ν των στοιχείων (Xi,Yi).
Στα επόµενα σχεδιαγράµµατα παρατηρούµε τέσσερις διαφορετικές περιπτώσεις όπου η συσχέτιση των δύο τυχαίων µεταβλητών ανήκει σε διαφορετικές
κατηγορίες.
130
ψ
ψ
**
***
*
* *
* **
* *
* **
*
*
*
*
*
x
x
Α:απόλυτη συσχέτιση (r=-1)
B:ισχυρή συσχέτιση (r=0.9)
ψ
ψ
* *
* * *
*
* *
*
* *
*
* * * *
**
* * * *
**
**
** ** *
* * * *
* *
**
**
*
* *
*
*
* *
*
* **
*
* *
**
*
x
Γ:χαλαρή συσχέτιση (r=-0.6)
x
∆:δεν υπάρχει συσχέτιση (r=-0.2)
Σχ.Γ.8. Τέσσερα διαφορετικά ζεύγη τυχ.µεταβλητών και οι γραµµικές
συσχετίσεις τους.
iix) Είναι, νοµίζουµε προφανές πως εάν αλλάξουµε αµοιβαία στους άξονες τις τιµές των χ και των ψ, η ευθεία ελαχίστων τετραγώνων µετα-βάλλεται
τελείως. Συµβαίνει όµως να µεταβάλλεται και ο συντελεστής γραµµικής συσχέτισης. Αυτό οφείλεται στον τρόπο µε τον οποίο ορίζουµε τις "αποστάσεις" των
σηµείων των δεδοµένων από την ευθεία των ελαχίστων τετραγώνων (παράλληλα προς τον άξονα των ψ).
Η προσέγγιση των δεδοµένων µε τη
βοήθεια της ευθείας ελαχίστων τετραγώνων,
µε τον τρόπο αυτό του ορισµού των αποστάσεων, υπονοεί πως το σηµείο των δεδοµένων
(Xi,Yi) θα έπρεπε να βρίσκεται πάνω στην
ευθεία, οπότε η απόσταση di, µπορεί να θεωρηθεί σαν σφάλµα της τιµής Υi, θεωρώντας
ταυτόχρονα τη µέτρηση Χi, ακριβή.
ψ
*
*
*
*
* * *
*
* *
di *
*
131
Συµπέρασµα: Βάζουµε στον άξονα των Χi, εκείνη από τις δύο τυχαίες
µεταβλητές της οποίας τις τιµές τις θεωρούµε ακριβέστερες.
Παράδειγµα Γ.2. (3η συνέχεια...)
Ξαναγυρίζουµε, για τελευταία
φορά στα δεδοµένα του παραδείγµατος
Γ.2, προσπαθώντας να υπολογίσουµε
τον συντελεστή γραµµικής συσχέτισης.
χκ
ψκ
1 2 2 3 3 5 7 7
5 6 4 2 3 3 1 2
1ος τρόπος:
Για να µπορέσουµε να εφαρµόσουµε
τον τύπο του r µε τα διάφορα αθροίσµατα,
θα πρέπει να προσθέσουµε στον πίνακα
που δηµιουργήσαµε για τον υπολογισµό της
ευθείας ελαχίστων τετραγώνων, µία ακόµη
κολόνα, όπου θα αθροίζονται τα ψ2. Με τη
βοήθεια λοιπόν του διπλανού πίνακα ο τύπος
του r δίνει τα εξής:
Σχ=30 , Σχ2=150 , Σχψ=76 ,
και
Σψ=26 , Σψ2=104.
χκ
χκ2
ψκ
ψ κ2
χκψκ
1
2
2
3
3
5
7
7
1
4
4
9
9
25
49
49
5
6
4
2
3
3
1
2
25
36
16
4
9
9
1
4
5
12
8
6
9
15
7
14
30
150
26
104
76
ν(Σχiψi) - (Σχi)(Σψi)
8*76 - 30*26
rxψ = --------------------------------------------- = --------------------------------- =
[ν(Σχi2) - (Σχi)2]*[ν(Σψi2) - (Σψi)2]
(8*150-302)(8*104-262)
-172
= -------------- = -0.795
300*156
132
2ος τρόπος:
Στη 2η συνέχεια του παραδείγµατος υπολογίσαµε πως:
Cov(X,Y) = -2.5294 , σx = 2.165 και σψ = 1.561
Αντικαθιστώντας τις τιµές αυτές στον τύπο του ορισµού του συντελεστή γραµµικής συσχέτισης r, έχουµε:
Cov(X,Y)
-2.6875
rxψ = -------------- = --------------- = -0.795
σxσψ
2.165*1.561
Σύµφωνα µε τον πίνακα Γ.4, ο συντελεστής συσχέτισης που µόλις υπολογίσαµε δείχνει την ύπαρξη µιας µέτριας γραµµικής συσχέτισης ανάµεσα στις
τιµές Χ και Υ.
Γ.2.3. Επίδραση των γραµµικών µετασχηµατισµών στην
τιµή της συνδιακύµανσης και του συντελεστή
γραµµικής συσχέτισης.
Στο µάθηµα της Στατιστικής Ι αντιµετωπίσαµε τους µετασχηµατισµούς
µιας τυχαίας µεταβλητής Χi, και την επίδρασή τους στις παραµέτρους µ (µέση
τιµή) και σ (τυπική απόκλιση). Είδαµε επίσης πόσο οι µετασχηµατισµοί µπορούν να απλοποιήσουν τις πράξεις κατά τους υπολογισµούς. Στην παράγραφο
αυτή θα γνωρίσουµε την επίδραση των γραµµικών µετασχηµατισµών στην τιµή
της συνδιακύµανσης και του συντελεστή γραµ.συσχέτισης.
Έστω λοιπόν οι τυχ.µεταβλητές Xi και Yi, για i=1,2,..,ν, µε τις παρακάτω
παραµέτρους:
Μέση τιµή: µx και µψ,
τυπική απόκλιση: σx και σψ και
συνδιακύµανση: Var(X,Y).
Εάν τα a, b, c και d είναι τέσσερις πραγµατικές σταθερές, οι παράµετροι
των τυχαίων µεταβλητών:
Ti = aXi + b
και
133
Ρi = cYi + d
δίνονται από τον πίνακα:
Τυχαία
µεταβλητή
µέσος όρος
τυπική
απόκλιση
συνδιακύµανση
και συντ.συσχ.: r
Ti = aXi+b
Ρi = cYi+d
µτ = aµx+b
µp = cµψ+d
στ = aσx
σp = cσx
Cov(T,P) = acCov(X,Y)
rτp = rxψ
Οι σχέσεις που αφορούν στο µέσο όρο και την τυπική απόκλιση έχουν
αποδειχθεί στη Στατιστική Ι. Η απόδειξη της σχέσης για το r είναι προφανής,
εάν δεχθούµε τις σχέσεις της συνδιακύµανσης και της τυπικής απόκλισης. Αποµένει εποµένως η απόδειξη για τη συνδιακύµανση, που υπάρχει στο τέλος του
κεφαλαίου[3].
Αν τέλος δεχθούµε τα προηγούµενα, εύκολα µπορούµε να υπολογίσουµε
τις παραµέτρους του πιο συνηθισµένου µετασχηµατισµού:
Yi-d
Xi-b
ZXi = -------- και ZΥi = --------a
c
όπου έχουµε:
Cov(ZX,ZY) = Cov(X,Y)/(ac)
και
rzx,zψ = rxψ
Εφαρµογή:
Όλα τα προηγούµενα µπορούν, όταν τα δεδοµένα το επιτρέπουν, να απλοποιήσουν τους τύπους των παραµέτρων α και β της ευθείας των ελαχίστων
τετραγώνων, καθώς και τον τύπο του συντελεστή r της γραµµικής συσχέτισης.
Μπορούµε να απλοποιήσουµε τους τύπους αυτούς όταν τα δεδοµένα του
άξονα των χ είναι ισαπέχοντα. Στην περίπτωση αυτή εκτελούµε έναν από τους
παρακάτω δύο µετασχηµατισµούς:
134
1ος) Οταν το πλήθος ν των σηµείων των δεδοµένων είναι περιττό, εκτελούµε τον, πολύ γνωστό από τη Στατιστική Ι, µετασχηµατισµό:
Xi - µ
Ζi = --------ε
όπου,
µ : η µεσαία τιµή από τις ν τιµές των Χi,
ε : Xi+1 - Xi , δηλ. η απόσταση ανάµεσα σε δύο διαδοχικά Χ, η οποία
είναι σταθερή, µια και όπως έχουµε ήδη πεί, οι τιµές του άξονα
των χ είναι διαδοχικές και ισαπέχουσες.
2ος) Οταν το πλήθος ν των σηµείων των δεδοµένων είναι άρτιο, εκτελούµε τον µετασχηµατισµό:
Xi - µ'
Ζi = ---------ε/2
όπου,
µ': το ηµιάθροισµα των δύο µεσαίων τιµών από τις ν τιµές των Χi,
ε : Xi+1 - Xi , και πάλι δηλαδή η απόσταση ανάµεσα σε δύο διαδοχικά Χ. Εχουµε λοιπόν, κατά την περίπτωση αυτή, στον παρονοµαστή το µισό της απόστασης δύο διαδοχικών Χ.
Το τελικό αποτέλεσµα των δύο αυτών µετασχηµατισµών είναι πως το άθροισµα Σ(Ζi) είναι πάντα ίσο µε το µηδέν. Εάν λοιπόν στους τύπους που δίνουν τους συντελεστές α, β και r για τα νέα δεδοµένα (Ζi,Yi), αντικαταστήσουµε
το εν λόγω άθροισµα µε το µηδέν, καταλήγουµε εύκολα στους τύπους:
Σ(zi*ψi)
α = -----------Σ(zi2)
Σ(ψi)
β = ---------ν
και
(Σziψi)
rzψ = -----------------------------------(Σzi2)*[(Σψi2) - (Σψi)2/ν]
135
Παράδειγµα:
Ο ετήσιος τζίρος µιας οικογενειακής επιχείρησης, σε εκατοµµύρια δραχµές, από το έτος ίδρυσής
της (1988), έως το προηγούµενο οικονοµικό έτος
(1993) δίνεται από τον διπλανό πίνακα.
Θέλουµε να υπολογίσουµε την τιµή των παραµέτρων α,β και r της γραµµικής παλινδρόµησης και συσχέτισης.
Έτος
Τζίρος
1988
1989
1990
1991
1992
1993
21.8
51.3
49.4
55.6
60.3
57.9
Λύση: Παρατηρούµε πως οι τιµές που θα
τοποθετηθούν στον άξονα των χ είναι ισαπέχουσες, ενώ το πλήθος τους είναι
άρτιο (ν=6). Σύµφωνα µε τα παραπάνω αξίζει να κάνουµε τον µετασχηµατισµό:
Xi - 1990.5
Ζi = ---------------1/2
Με τον τρόπο αυτό δηµιουργούµε τον επόµενο πίνακα, στον
οποίο υπολογίζονται όλες οι ποσότητες που απαιτούνται για την εύρεση
των τιµών των συντελεστών α, β, r.
Έχουµε λοιπόν:
Σ(zi*ψi)
213.7
α = ------------ = --------- = 3.053
Σ(zi2)
70
Σ(ψi)
Xi
Zi
Zi2
Yi
Yi2
ΖiYi
1988
1989
1990
1991
1992
1993
-5
-3
-1
1
3
5
25
9
1
1
9
25
21.8
51.3
49.4
55.6
60.3
57.9
475.24
2631.69
2440.36
3091.36
3636.09
3352.41
-109.0
-153.9
-49.4
55.6
180.9
289.5
Σύν.
0
70 290.3 15627.15 213.7
296.3
β = --------- = -------- = 49.383
ν
6
(Σziψi)
213.7
rzψ = --------------------------------- = ---------------------------------- =
(Σzi2)*[(Σψi2) - (Σψi)2/ν]
70*(15627.15 - 296.32/6)
= 213.7/263.895 = 0.8098
136
Τα παραπάνω αποτελέσµατα γίνονται φανερά και από την παρακάτω
γραφική παράσταση. Παρατηρείστε πως η ευθεία ελαχίστων τετραγώνων χαράσσεται µε τη βοήθεια δύο σηµείων Σ1 και Σ2, τα οποία µπορούν να αντιστοιχούν στις τιµές της ευθείας για δύο οποιαδήποτε z. Συνήθως (για µεγαλύτερη
ακρίβεια στη χάραξη) διαλέγουµε τα δύο πιο αποµακρυσµένα z (εδώ το -5 και
το 5). Έχουµε λοιπόν τον πίνακα τιµών:
-5
34.118
z
ψ = 3.053*z+49.383
5
64.648
και στη γραφική παράσταση:
75
50
25
0
-6
-4
-2
0
2
4
6
-25
Σχ.Γ.9: Ο ετήσιος τζίρος µιας οικογενειακής επιχείρησης από το
1988 έως το 1993 και η ευθεία των ελαχίστων τετραγώνων
που προσαρµόζεται στα δεδοµένα αυτά.
Γ.2.4. Παράδειγµα Γ.3.
Ο κάθε οδηγός διαλέγει συνήθως το αυτοκίνητό του έτσι ώστε να τον ικανοποιεί σε κάποιες προσωπικές του ανάγκες, επιλογές και προτεραιότητες.
Όµως η ενηµέρωση του κάθε καταναλωτή, σ'ένα τόσο σηµαντικό ζήτηµα, γίνεται πάντα µε σωστό κατά βάση τρόπο; Επίσης από τις πληροφορίες, που τον κατακλύζουν από τον έντυπα και ηλεκτρονικά µέσα µαζικής ενηµέρωσης, θα µπορέσει να ξεχωρίσει αυτές που τον ενδιαφέρουν πραγµατικά και ανταποκρίνονται
στις ιεραρχήσεις του;
137
Οι περισσότεροι οδηγοί δηλώνουν πως αναζητούν ένα αυτοκίνητο που να
έχει καλή οδική συµπεριφορά, καλές επιδόσεις, να είναι αξιόπιστο, να είναι ξεκούραστο και άνετο κατά την οδήγηση και να έχει καλή ποιότητα κατασκευής.
Οι περισσότεροι όµως οδηγοί, όταν ζητούν καλές επιδόσεις, ζητούν από το αυτοκίνητό τους να προσπερνά µε άνεση και ασφάλεια. ∆ιαλέγουν λοιπόν ένα αυτοκίνητο µε βάση την ιπποδύναµή του, την επιτάχυνσή του από στάση(*) και την
τελική του ταχύτητα. Άλλωστε, τα στοιχεία αυτά βρίσκονται συνήθως στα διαφηµιστικά φυλλάδια των αντιπροσωπειών. Βέβαια, η επιτάχυνση από στάση
ενός αυτοκινήτου δείχνει, κυρίως, την ικανότητά του να ξεφεύγει µπροστά από
τα άλλα αυτοκίνητα στον... "αγώνα των φωτεινών σηµατοδοτών". Κάτι τέτοιο
όµως δεν αποτελεί την πρώτη προτεραιότητα των περισσοτέρων οδηγών.
Εµείς, θεωρούµε πως ο βασικός δείκτης για το πώς προσπερνά ένα αυτοκίνητο στις Ελληνικές συνθήκες(**) είναι η εν κινήσει επιτάχυνσή του από τα 80
στα 110 µε την τέταρτη ταχύτητα. Πρόκειται για έναν δείκτη που δεν αναφέρεται συνήθως στα διαφηµιστικά φυλλάδια των αντιπροσωπειών αυτοκινήτων.
Τίθεται εποµένως το ερώτηµα του κατά πόσο η εν κινήσει επιτάχυνση ενός αυτοκινήτου, είναι κάτι που µπορεί να συναχθεί από τις συνηθισµένες παραµέτρους: ιπποδύναµη, επιτάχυνση από στάση και ροπή στρέψης (την οποία σπάνια
προσέχουµε). Την απάντηση στο ερώτηµα αυτό µπορεί να µας την δώσει ο συντελεστής της ευθύγραµµης συσχέτισης.
Το πρόβληµα:
∆ιαλέξαµε λοιπόν 15 αυτοκίνητα της µεσαίας κατηγορίας, µε κινητήρα
ίδιου κυβισµού 1.6 lit. Βέβαια κάποιοι θα αναρωτηθούν γιατί δεν επιλέξαµε αυτοκίνητα διαφορετικού κυβισµού, έτσι ώστε να µελετήσουµε και την εξάρτηση
της άνεσης στην προσπέραση από τον κυβισµό του κινητήρα. ∆υστυχώς όµως η
Ελληνική νοµοθεσία επιβαρύνει υπερβολικά τα αυτοκίνητα µε µεγάλο κυβισµό,
καθιστώντας δυσπρόσιτα στην πλειοψηφία των Ελλήνων καταναλωτών. Για το
λόγο αυτό διαλέξαµε (µε εξαίρεση το Rover) τον µικρότερο κινητήρα που διατίθεται από την κάθε εταιρεία, για το συγκεκριµένο αµάξωµα. Στον επόµενο πίνακα υπάρχουν τα στοιχεία για την ισχύ του κινητήρα, καθώς και µετρήσεις των
επιδόσεών τους, από το περιοδικό 4 Τροχοί.
(*)
Συνήθως πρόκειται για το χρόνο που απαιτείται για να φθάσει το αυτο-κίνητο από στάση,
στην ταχύτητα των 100 Km/h.
(**)
Μιλούµε για τις συνθήκες που επικρατούν στο µεγαλύτερο κοµµάτι του οδικού δικτύου της
χώρας µας, αλλά και τις συνήθειες των Ελλήνων οδηγών.
138
Μάρκα-Τύπος
ALFA ROMEΟ 75 1.6
AUDI 80 1.6
BMW 316i
CITROEN XANTIA 1.6
FIAT TEMPRA 1.6
FORD MONDEO 1.6
HYNDAI LANTRA 1.6
LANCIA DEDRA 1.6
MAZDA XEDOS 1.6
NISSAN PRΙMERA 1.6
OPEL VECTRA 1.6
PEUGEOT 405 1.6
ROVER 216 GTI
SUBARU LEGACY 1.6
TOYOTA CARINA 1.6
Iσχύς
Hp-DIN
Ροπή
(kg/m)
0-120 km/h
(sec)
80-110
4n (sec)
Τελική
ταχύτητα
107
100
102
89
80
90
114
90
113
102
75
89
122
95
115
14.0
13.3
15.3
13.5
13.0
14.1
14.2
13.0
14.1
13.9
12.7
13.0
14.3
13.0
15.0
18.4
18.3
16.7
21.9
22.5
19.1
15.8
18.3
14.9
17.3
21.4
17.8
14.3
20.5
14.1
10.6
9.0
9.3
11.4
9.9
9.6
9.2
12.1
10.0
10.7
11.1
9.6
9.2
11.7
9.4
172
183
200
180
169
187
186
176
197
185
180
176
200
170
195
Πίνακας Γ.5. Οι παράµετροι του κινητήρα και οι επιδόσεις 15 αυτοκινήτων της
µεσαίας κλάσης (διαλέξαµε την επιτάχυνση 0-120 Km/h,
αντί της κλασσικής 0-100, γιατί πιστεύουµε πως στα
σύγχρονα αυτοκίνητα είναι πιο χαρακτηριστική).
Το πρόβληµα που θα αντιµετωπίσουµε είναι να υπολογίσουµε την ύπαρξη ή όχι συσχέτισης ανάµεσα στις διάφορες µετρήσεις. Το πιο ενδιαφέρον όµως
στοιχείο του παραδείγµατος αυτού θα είναι ο σχολιασµός των αποτελεσµάτων,
µια και ο τρόπος λύσης της άσκησης θα είναι παρόµοιος µ'αυτόν των δύο προηγουµένων. ∆υστυχώς όµως καµιά από τις παραµέτρους δεν έχει τιµές διαδοχικές
και ισαπέχουσες, µε αποτέλεσµα να µην µπορούµε να χρησιµοποιήσουµε τον
µετασχηµατισµό της προηγούµενης παραγράφου.
i) Αρχικά θα υπολογίσουµε το συντελεστή γραµµικής συσχέτισης ανάµεσα στα µεγέθη της ιπποδύναµης του κινητήρα και της επιτάχυνσης 0-120. Θέτουµε λοιπόν:
Χi = ιπποδύναµη του i-οστού αυτοκινήτου και
Yi = επιτάχυνση 0-120 του i-οστού αυτοκινήτου.
Από τον πίνακα υπολογίζουµε:
ΣXi = 1483.00 ΣXi2 = 149223.00
ΣYi = 271.30 ΣYi2 = 5007.19 και ΣXiYi = 26369.60
139
οπότε οι συντελεστές α και β της ευθείας ελαχίστων τετραγώνων και ο συντελεστής συσχέτισης r είναι ίση µε:
και
ψ = αχ+β = -0.17395*χ + 35.28489
r = -.88640
24
20
sec
16
12
70
90
110
130
Ch(Din)
Σχ.Γ.10. Η επιτάχυνση 0-120 σαν συνάρτηση της ιπποδύναµης του
κινητήρα.
Το συµπέρασµα είναι το ίδιο, είτε βασιστούµε στο συντελεστή r, είτε εµπιστευτούµε την εικόνα της γραφικής παράστασης. ∆ιαπιστώνουµε µια ισχυρή
αρνητική συσχέτιση των δύο αυτών µεγεθών, πράγµα που σηµαίνει πως δεν είναι απαραίτητο να γνωρίζουµε και τις δύο αυτές τιµές, µια και η πρώτη (ιπποδύναµη) µας δίνει αρκετές πληροφορίες για τη δεύτερη (επιτάχυνση).
ii) Θα επιλέξουµε τώρα σαν Χi την ιπποδύναµη του κινητήρα και σαν Yi
την επιτάχυνση 80-110 (µε 4η). Έχουµε τώρα πως:
και
ΣΧi = 1483.00 ΣXi2 = 149223.00
ΣYi = 152.80 ΣYi2 = 1570.78
ΣXiYi = 15014.40
⇒
r = -0.47970
Το αποτέλεσµα αυτό µας δηλώνει πως αν υπάρχει κάποια συσχέτιση της
επιτάχυνσης εν κινήσει (80-110) µε την ιπποδύναµη, αυτή θα είναι πολύ χαλαρή. Άρα κάποιος που θέλει κατά βάση ένα αυτοκίνητο που να προσπερνά άνετα
και εύκολα, και αγοράζει ένα αυτοκίνητο µε βάση την ιπποδύναµη του κινητήρα, έχει τελικά µεγάλη πιθανότητα να πέσει έξω!...
140
iii) Μήπως όµως η επιτάχυνση (0-120) είναι ικανοποιητικός δείκτης για
την ικανότητα του αυτοκινήτου στο προσπέρασµα; Ας δούµε. Επιλέγουµε Xi
την επιτάχυνση (0-120) και Yi τις επιταχύνσεις (80-110), και βρίσκουµε:
και
ΣΧi = 271.30 ΣXi2 = 5007.19
ΣYi = 152.80 ΣYi2 = 1570.78
ΣXiYi = 2784.09
⇒
r = 0.54077
Κι εδώ η συσχέτιση είναι τόσο χαλαρή που δεν θα'ταν φρόνιµο να βασιστεί κανείς επάνω της. Καταλαβαίνετε λοιπόν πόσο λανθασµένη επιλογή µπορούµε να κάνουµε, βασιζόµενοι στις ενδείξεις των διαφηµιστικών φυλλαδίων.
iv) Η τελευταία παράµετρος απ'αυτές που συνηθίζονται στα διαφηµιστικά
φυλλάδια, είναι η τελική ταχύτητα. ∆ιαλέγουµε λοιπόν Χi την επιτάχυνση (80110) και Yi την τελική ταχύτητα. Έχουµε:
και
ΣXi = 152.80
ΣXi2 = 1570.78
ΣYi = 2756.00 ΣYi2 = 507910.00
ΣXiYi = 27990.40
⇒
r = -0.56706
Παρατηρούµε πως ούτε και η τελική ταχύτητα ενός αυτοκινήτου δεν
µπορεί να δώσει σηµαντικές πληροφορίες για την άνεση µε την οποία προσπερνά ένα αυτοκίνητο, µια και ο συντελεστής r δείχνει την ύπαρξη µιας χαλαρής
συσχέτισης ανάµεσα στα δύο µεγέθη...
210
190
170
150
9
10
11
12
Σχ.Γ.11. Το σχεδιάγραµµα αυτό είναι χαρακτηριστικό, για τις
µεταβλητές που έχουν µια χαλαρή συσχέτιση.
141
v) Κάποιοι γνώστες θα µιλήσουν για τη σηµασία της ροπής. Τοποθετώντας λοιπόν τη ροπή του κάθε κινητήρα στον άξονα των χ και την επιτάχυνση εν
κινήσει (80-100 µε 4η) στον άξονα των ψ. Τα αποτελέσµατα έχουν ως εξής:
ΣΧi = 206.40
ΣYi = 152.80
και
ΣXi2 = 2848.48
ΣYi2 = 1570.78
⇒
r = -0.55487
ΣXiYi = 2096.45
Παρατηρούµε πως ούτε και η ροπή είναι ένα µέγεθος που δίνει σίγουρες
πληροφορίες για τον τρόπο µε τον οποίο προσπερνά ένα αυτοκίνητο.
Το τελικό συµπέρασµα είναι πως το µέγεθος που µας ενδιαφέρει αποδεικνύεται ιδιαίτερα περίπλοκο, µια και εξαρτάται από πολλούς παράγοντες, από
τους οποίους οι πιο σηµαντικοί είναι:
α) το µέγεθος της ροπής του κάθε κινητήρα,
β) το όριο των στροφών στις οποίες εµφανίζεται η µέγιστη ροπή,
γ) την κλιµάκωση των σχέσεων του κιβωτίου ταχυτήτων (ειδικά της 4ης),
δ) το βάρος του αυτοκινήτου,
ε) τις αεροδυναµικές παραµέτρους του αυτοκινήτου,
στ) τις διαστάσεις των ελαστικών, κ.λ.π.
Για το λόγο αυτό η συγκεκριµένη παράµετρος (επιτάχυνση 80-110 µε 4η)
είναι ένα µέγεθος που δεν συνάγεται από τα δεδοµένα των διαφηµιστικών φυλλαδίων...
Γ.2.5. Συσχέτιση ανάµεσα σε µεγέθη που δίνονται µε
πίνακα διπλής εισόδου.
Εξετάζουµε τώρα την περίπτωση κατά την οποία τα στατιστικά δεδοµένα
των τυχαίων µεταβλητών Χi και Yi έχουν καταταγεί σε κλάσεις και εµφανίζονται σε έναν πίνακα διπλής εισόδου. Η µεθοδολογία που ακολουθείται για τον
υπολογισµό της ευθείας ελαχίστων τετραγώνων και του συντελεστή συσχέτισης,
είναι παρόµοια µ’αυτήν που αναπτύχθηκε στην προηγούµενη παράγραφο. Η
λογική µε την οποία προκύπτουν οι τύποι, θυµίζει έντονα τους τύπους για την
µέση τιµή και την τυπική απόκλιση, όταν είχαµε τα δεδοµένα σε κλάσεις.
142
Έστω λοιπόν πως θέλουµε να υπολογίσουµε την ευθεία ελαχίστων τετραγώνων και το συντελεστή συσχέτισης που συνδέουν τις τυχαίες µεταβλητές Χi
και Yi, οι τιµές των οποίων δίνονται µε τον παρακάτω πίνακα:
Ψ
Ψ1
Ψ2
...
Ψκ-1
Ψκ
Σύνολο
Χ1
...
Χλ
f1,1
...
fλ,1
f1,2
...
fλ,2
...
...
...
f1,κ-1
...
fλ,κ-1
f1,κ
...
fλ,κ
Σf1,j
...
Σfλ,j
Σύνολο
Σfi,1
Σfi,2
...
Σfi,κ-1
Χ
Σfi,κ
Σfi,j=ν
Για να γραφούν οι τύποι της ευθύγραµµης παλινδρόµησης και συσχέτισης, πρέπει να υπολογισθούν τα αθροίσµατα που εµφανίζονται στους τύπους
των αναλυτικών δεδοµένων. Παρατηρώντας προσεκτικά τον πίνακα διπλής
εισόδου καταλήγουµε στις παρακάτω αντιστοιχίες:
ν
λ
κ
κ
κ
κ
Σxi
Σ ( Σfi,j ) xi = (Σf1,j) x1 + (Σf2,j) x2 +...+ (Σfλ,j) xλ
i=1
i=1 j=1
ν
λ
Σxi
2
i=1
j=1
κ
j=1
κ
2
j=1
κ
κ
Σ ( Σfi,j ) xi = (Σf1,j) x1 + (Σf2,j) x2 +...+ (Σfλ,j) xλ2
i=1 j=1
2
j=1
j=1
λ
λ
j=1
ν
κ
Σψi
Σ ( Σfi,j ) ψj = (Σfi,1) ψ1 + (Σfi,2) ψ2 +...+ (Σfi,λ) ψκ
i=1
j=1 i=1
ν
κ
Σψi
λ
2
2
i=1
i=1
λ
i=1
λ
2
λ
i=1
λ
λ
Σ ( Σfi,j ) ψi = (Σfi,1) ψ1 + (Σfi,2) ψ2 +...+ (Σfi,λ) ψκ2
j=1 i=1
2
i=1
2
i=1
i=1
ν
λ
Σxiψi
Σ ( Σ (fi,j xiψj))= f1,1 x1ψ1 + f1,2 x1ψ2 +...+ f1,κ x1ψκ +
i=1
κ
i=1 j=1
+ f2,1 x2ψ1 + f2,2 x2ψ2 +...+ f2,κ x2ψκ +
...............................................
+ fλ,1 xλψ1 + fλ,2 xλψ2 +...+ fλ,κ xλψκ
143
Πιστεύουµε πως θα πρέπει να µελετήσετε µε προσοχή τις πιο πάνω αντιστοιχίες, και ιδιαίτερα τις αναλύσεις των αθροισµάτων. Εµείς εδώ θα παρατηρήσουµε (υπενθυµίσουµε) πως:
όλα τα αθροίσµατα της µορφής: Σfi,j,
εµφανίζονται στο δεξί και στο κάτω περιθώριο
του πίνακα διπλής εισόδου.
Αντικαθιστώντας τα αντίστοιχα αθροίσµατα στους τύπους των παραµέτρων α και β της ευθείας ελαχίστων τετραγώνων (ψ=αx+β), φθάνουµε στους
επόµενους τύπους, οι οποίοι όµως δεν είναι και τόσο χρήσιµοι, µια και φαίνονται ιδιαίτερα περίπλοκοι. Συχνά είναι προτιµότερο να εφαρµόζουµε τους τύπους των παραγράφων Γ.1.6 και Γ.2.2, αντιστοιχίζοντας στα απλά αθροίσµατα
τα κατάλληλα σύνθετα που δίνονται στον πίνακα διπλής εισόδου. Για το λόγο
αυτό δεν αναφέρεται ο αντίστοιχος τύπος για το συντελεστή συσχέτισης, η εµφάνιση του οποίου πανικοβάλλει, µάλλον αδικαιολόγητα...
κ
κ
κ
λ
λ
κ
Σ( Σfi,j )xi * Σ( Σfi,j ) ψj - ν*Σ( Σ (fi,j xiψj))
i=1 j=1
j=1 i=1
i=1 j=1
α = --------------------------------------------------------λ
κ
λ
κ
2
[ Σ( Σfi,j )xi ] - ν* Σ ( Σfi,j ) xi2
i=1 j=1
λ
i=1 j=1
κ
λ
κ
λ
κ
κ
λ
2
Σ( Σfi,j )xi * Σ( Σ (fi,j xiψj)) - Σ ( Σfi,j ) xi * Σ( Σfi,j )ψj
i=1 j=1
i=1 j=1
i=1 j=1
j=1 i=1
β = -------------------------------------------------------------------------- =
λ
κ
λ
κ
2
[ Σ( Σfi,j )xi ] - ν* Σ ( Σfi,j ) xi2
i=1 j=1
=
i=1 j=1
1 κ λ
λ κ
--- Σ( Σfi,j )ψj - α*Σ( Σfi,j )xi
ν j=1 i=1
i=1 j=1
144
Γ.2.6. Παράδειγµα.
Μετρήσαµε τα ύψη
και τα βάρη 150 νέων
γυναικών, και τις µετρήσεις (κατά κλάσεις) τις τοποθετήσαµε στο διπλανό
πίνακα διπλής εισόδου.
Y
45 50 55 60 65 70 75 80 85 90
X
155
160
165
170
175
180
185
Σfi,j
j
1
3
10
1
17 12 5
12 20 28
2 6
1
8
7
3
2
4
3
1
i) Να δηµιουργήσετε
δύο πίνακες, µε τις συχνότητες που αντιστοιχούν
στο ύψος των 150 γυναιΣfi,j 1 13 30 34 39 19 10
i
κών (ανεξαρτήτως του
βάρους τους), και στο βάρος τους (ανεξαρτήτως του ύψους).
5
45
70
20
7
2
1
1
1
1
1
2
1
1
150
ii) Nα υπολογισθεί η εξίσωση της ευθεία ελαχίστων τετραγώνων και ο συντελεστής γραµµικής συσχέτισης.
Λύση: (i) Οι δύο πίνακες συχνοτήτων στην
πραγµατικότητα υπάρχουν ήδη στον πίνακα διπλής
εισόδου (στο δεξί και στο κάτω περιθώριο. Έτσι, η
συχνότητα της κλάσης Χ3=165 Kg είναι 70, πράγµα
που σηµαίνει πως οι 70 από τις 150 γυναίκες έχουν
ύψος 165 cm, ανεξάρτητα από το τί βάρος έχει η κάθε
µία απ’αυτές.
(ii) Παρ’όλον ότι η χρήση µετασχηµατισµών διευκολύνει τις αριθµητικές πράξεις, εδώ θα τους αποφύγουµε, µια και ο κύριος στόχος της παραγράφου
είναι η παλινδρόµηση και η συσχέτιση σε δεδοµένα
Χi
fi
Yi
fi
155 5
160 45
165 70
170 20
175 7
180 2
185 1
45
50
55
60
65
70
75
80
85
90
1
13
30
34
39
19
10
2
1
1
ενός πίνακα διπλής εισόδου.
Έχουµε λοιπόν:
Σ(f*x) = 155*5 +160*45 +165*70 +170*20 +175*7 +180*2 +185 =
= 24695
Σ(f*x2) = 1552*5 +1602*45 +1652*70 +1702*20 +1752*7 +1802*2 +1852 =
= 4069275
145
Σ(f*ψ) = 45 +50*13 +55*30 +60*34 + 65*39 +70*19 +75*10 +80*2 +
+ 85 + 90 = 9335
Σ(f*ψ2) = 452 +502*13 +552*30 +602*34 + 652*39 +702*19 +752*10 +
+ 802*2 + 852 + 902 = 589925
Σ(f*x*ψ) = 155*45*1 +155*50*3 +155*55*1 +
+160*50*10 +160*55*17 +160*60*12 +160*65*5 +160*70 +
+165*55*12 +165*60*20 +165*65*28 +165*70*8 +165*75*2 +
+170*60*2 +170*65*6 +170*70*7 +170*75*4 +170*80 +
+175*70*3 +175*75*3 +175*80 +
+180*75 +180*85 + 185*90 = 1541275
Αντικαθιστώντας στους τύπους της ευθείας ελαχίστων τετραγώνων και
του συντελεστή συσχέτισης έχουµε:
24695*9335 - 150*1541275
(Σfx)*(Σfψ) - ν*Σ(fχ*ψ)
α = -------------------------------- = ----------------------------------- =
[Σfχ]2 - ν*Σ(fχ2)
246952 - 150*4069275
= (-663425)/(-528225) = 1.21
1
β = --ν
9335 - 1.21*24695
(Σfψ) - α(Σfχ) = ------------------------- = -136.97
150
ν(Σfχψ) - (Σfχ)(Σfψ)
rxψ = --------------------------------------------------- =
[ν(Σfχ2) - (Σfχ)2]*[ν(Σfψ2) - (Σfψ)2]
150*1541275 - 24695*9335
= ---------------------------------------------------------------- =
(150*4069275 - 246952)(150*589925 - 93352)
= (663425)/(859184.9) = 0.772
146
Ψ
90
1
1
80
1
70
60
1
50
3
1
1
2
4
3
1
5
8
28
7
6
3
12
17
20
12
2
1
10
x
.
160
.
170
.
180
.
190
Ο συντελεστής συσχέτισης (r=0.772), αλλά και η γραφική παράσταση,
δηλώνουν την ύπαρξη µιας γνωστής (θετικής) συσχέτισης, ανάµεσα στο ύψος
και το βάρος των ανθρώπων, σύµφωνα µε την οποία οι ψηλότεροι άνθρωποι
είναι και βαρύτεροι...
Γ.2.7. Εκθετική και λογαριθµική συσχέτιση.
Όπως είδαµε στην παράγραφο της παλινδρόµησης, η καµπύλη της παλινδρόµησης δεν είναι απαραίτητο να είναι ευθεία, µα µπορεί να είναι µια οποιαδήποτε συνάρτηση. Στην παράγραφο αυτή θα ασχοληθούµε µε δυο άλλες καµπύλες παλινδρόµησης, που στηρίζονται στην εκθετική και τη λογαριθµική συνάρτηση. Η επιλογή των συναρτήσεων αυτών έγινε για δύο λόγους:
α) Καλύπτουν ένα µεγάλο φάσµα προβληµάτων.
β) Μετά από έναν απλούστατο µετασχηµατισµό, χρησιµοποιούν αυτούσιους τους τύπους της γραµµικής συσχέτισης.
i) Εκθετική συσχέτιση:
Την χρησιµοποιούµε όταν η γραφική παράσταση των δεδοµένων µας
πλησιάζει τις δύο επόµενες:
147
Ψ
Ψ
* *
* * *
* *
* *
*
* * *
*
* * * *
* *
* * *
* *
*
* *
* *
* *
*
*
x
x
Σχ.Γ.11. ∆εδοµένα που ακολουθούν την εκθετική καµπύλη ψ = eαχ+β.
Στην περίπτωση αυτή προσπαθούµε να προσεγγίσουµε τα δεδοµένα µε
την συνάρτηση:
ψ = eαx+β
Προσπαθούµε δηλαδή, όπως και στην περίπτωση της ευθύγραµµης συσχέτισης, να υπολογίσουµε τις παραµέτρους α και β µε τέτοιο τρόπο, ώστε η
εκθετική καµπύλη να προσεγγίζει όσο το δυνατό καλύτερα τα δεδοµένα.
Λογαριθµώντας την πιο πάνω σχέση, έχουµε:
lnψ = ln(eαχ+β) = (αχ+β)*lne = αχ+β(*)
⇒
lnψ = αχ + β
Η τελευταία σχέση λέει πως εάν στη θέση των τιµών της τυχαίας µεταβλητής ψ, πάρουµε τους λογαρίθµους τους (πράγµα που σηµαίνει πως µεταφερόµαστε από το σύστηµα συντεταγµένων Οχ,ψ, στο σύστηµα Οχ,lnψ), τότε τα
σηµεία των δεδοµένων µας διατάσσονται κατά το µήκος µιας ευθείας, ενώ η εκθετική καµπύλη που τα προσέγγιζε, γίνεται ευθεία:
(*)
Χρησιµοποιήθηκαν οι ιδιότητες των Νεπέρειων λογαρίθµων:
ln(ab) = lna + lnb , lnab = blna και lne = 1
148
Ψ
lnΨ
* *
* *
** *
* * *
* *
* *
* *
*** * *
* *
* *
*
**** * *
** **
x
** **
x
Σχ.Γ.12. Η εκθετική καµπύλη "µετατρέπεται" σε ευθεία όταν λογαριθµούµε τον άξονα των ψ. Προσοχή! Οι τιµές των ψ θα πρέπει να είναι όλες µεγαλύτερες του µηδενός, έτσι ώστε να µπορούν να λογαριθµηθούν.
Συµπέρασµα: Όταν ο τρόπος µε τον οποίο είναι κατανεµηµένα τα σηµεία
των δεδοµένων στο επίπεδο Οχψ, µας θυµίζει τη µορφή µιας εκθετικής καµπύλης, µπορούµε να λογαριθµήσουµε τις τιµές της δεύτερης τυχ. µεταβλητής (αυτής που τοποθετείται στον άξονα των ψ) και να χρησιµοποιήσουµε αυτούσιους
τους τύπους της γραµµικής συσχέτισης.
ii) Λογαριθµική συσχέτιση.
Την χρησιµοποιούµε όταν η γραφική παράσταση των δεδοµένων µας
πλησιάζει τις επόµενες δύο:
Ψ
Ψ
**
**
*
* *
* *
*
* *
* *
***
* * *
*
* *
x
**
* **
** *
* *
*
**
*
**
**
x
Σχ.Γ.13. ∆εδοµένα που ακολουθούν την λογαριθµικκή καµπύλη:
ψ = αlnx + β.
149
Στην περίπτωση αυτή προσπαθούµε να προσεγγίσουµε τα δεδοµένα µε
την συνάρτηση:
ψ = αlnx + β
Προσπαθούµε δηλαδή, όπως στην περίπτωση της ευθύγραµµης και της
εκθετικής συσχέτισης, να υπολογίσουµε τις παραµέτρους α και β µε τέτοιο τρόπο, ώστε η λογαριθµική καµπύλη να προσεγγίζει όσο το δυνατό καλύτερα τα
δεδοµένα.
Η τελευταία σχέση λέει πως εάν στη θέση των τιµών της τυχαίας µεταβλητής Χ πάρουµε τους λογαρίθµους τους (πράγµα που σηµαίνει πως µεταφερόµαστε από το σύστηµα συντεταγµένων Οχ,ψ, στο σύστηµα Οlnχ,ψ), τότε τα
σηµεία των δεδοµένων µας διατάσσονται κατά το µήκος µιας ευθείας, ενώ η λογαριθµική καµπύλη που τα προσέγγιζε, γίνεται ευθεία:
Ψ
Ψ
***
* * *
** *
* *
*
**
*
**
**
***
***
* **
**
x
*
**
*
**
**
Σχ.Γ.14. Η λογαριθµική καµπύλη "µετατρέπεται" σε ευθεία
όταν λογαριθµούµε τον άξονα των χ. Προσοχή! Οι τιµές Χi
θα πρέπει να είναι όλες µεγαλύτερες του µηδενός,
έτσι ώστε να µπορούν να λογαριθµηθούν.
lnx
150
Συµπέρασµα: Όταν η διάταξη των σηµείων των δεδοµένων στο επίπεδο
Οχψ θυµίζει τη λογαριθµική καµπύλη, µπορούµε να λογαριθµήσουµε τις τιµές
της πρώτης τυχ.µεταβλητής (αυτής που τοποθετείται στον άξονα των χ) και να
χρησιµοποιήσουµε αυτούσιους τους τύπους της γραµµικής συσχέτισης.
Στο επόµενο παράδειγµα θα δούµε πως χρησιµοποιείται η εκθετική συσχέτιση. Παρόµοια είναι και η µέθοδος εφαρµογής της λογαριθµικής.
Γ.2.8. Παράδειγµα.
Ο διπλανός πίνακας δίνει τον πληθυσµό
της Χιλής, έτσι όπως καταγράφηκε σε διαδοχικές απογραφές, από το 1835, µέχρι το
1960.
i) Να υπολογισθεί η εξίσωση της ευθείας ελαχίστων τετραγώνων που προσεγγίζει
τα δεδοµένα, καθώς και ο συντελεστής γραµµικής συσχέτισης.
ii) Nα γίνει η γραφική παράσταση του
πληθυσµού (άξονας των ψ), σαν συνάρτηση
της χρονολογίας, και της ευθείας των ελαχίστων τετραγώνων.
Χρονολογία
απογραφής
Πληθυσµός
(εκατοµµύρια)
1835
1843
1854
1865
1875
1885
1895
1907
1920
1930
1940
1952
1960
1,010
1,084
1,439
1,819
2,076
2,507
2,696
3,231
3,730
4,287
5,024
5,933
7,374
iii) Παρατηρώντας τη γραφική παράσταση των δεδοµένων να αποφασισθεί εάν
θα χρησιµοποιηθεί η εκθετική ή η λογαριθµική συσχέτιση, για καλύτερα αποτελέσµατα.
Έτσι, να ξαναγίνουν οι υπολογισµοί της αντίστοιχης ευθείας ελαχίστων τετραγώνων και ο νέος συντελεστής συσχέτισης.
iv) Με τη βοήθεια των δύο συναρτήσεων που προσαρµόσθηκαν στα δεδοµένα, να γίνει µια πρόβλεψη για τον πληθυσµό της Χιλής το 1980. Να συγκριθούν οι δύο προβλέψεις µε τον πραγµατικό πληθυσµό της Χιλής το 1980,
που είναι 11100000 κάτοικοι.
151
Απαντήσεις:
i) Για να µην κάνουµε πράξεις µε ποΧρον-1834
Πληθυσµός
λύ µεγάλα νούµερα, µετασχηµατίζουµε την
χρονολογία της απογραφής, αφαιρώντας από
1
1,010
κάθε τιµή το 1834. ∆εν χρησιµοποιούµε
1,084
9
20
1,439
τον γνωστό Ζ-µετασχηµατισµό (Ζ=(Χ-α)/β),
31
1,819
διότι οι διαδοχικές χρονολογίες (που θα το41
2,076
ποθετηθούν -σαν ακριβέστερες- στον άξονα
2,507
51
των Χ) δεν ισαπέχουν.
61
2,696
Ο µετασχηµατισµός αυτός αφήνει α73
3,231
µετάβλητες τις τιµές του συντελεστή διεύ86
3,730
96
4,287
θυνσης α και το συντελεστή συσχέτισης r.
106
5,024
Ο σταθερός όρος β της ευθείας µεταβάλλε118
5,933
ται κατά 1834, κάτι που όπως θα δούµε δεν
7,374
126
µας ενοχλεί.
Με τον τρόπο αυτό προκύπτει ο προηγούµενος πίνακας, για τον οποίο
έχουµε τα επόµενα αποτελέσµατα:
ΣΧi = 819
ΣΧi2 = 72423
ΣΥi = 42.21
ΣΥi2 = 182.98545
ΣΧiYi = 3603.321
οπότε οι συντελεστές α, β και r είναι ίσοι µε:
(Σχi)(Σψi) - ν(Σχiψi) 819*42.21 - 13*3603.321 -12273.183
α = ---------------------------- = -------------------------------- = ------------- =
(Σχi ) 2 - ν ( Σχi 2 )
8192 - 13*72423
-270738
= 0.045332
(Σχi)(Σχiψi) - (Σχi2)(Σψi) 819*3603.321 - 72423*42.21
β = ---------------------------------- = ------------------------------------ = 0.39099
(Σχi ) 2 - ν ( Σχi 2 )
-270738
ν(Σχiψi) - (Σχi)(Σψi)
r = ---------------------------------------------- =
[ν(Σχi2) - (Σχi)2]*[ν(Σψi2) - (Σψi)2]
152
13*3603.321 - 819*42.21
12273.183
= ------------------------------------------------ = ------------- = 0.965276
(13*72423-8192)(13*182.985-42.212)
12714.689
Εποµένως η ευθεία των ελαχίστων τετραγώνων είναι η:
ψ = 0.04533χ + 0.391
µε συντελεστή γραµµικής συσχέτισης το: r = 0.965.
ii) Η γραφική παράσταση των δεδοµένων και της ευθείας των ελαχ. τετραγώνων έρχεται να επιβεβαιώσει την πολύ καλή τιµή του συντελεστή συσχέτισης.
Πληθυσµός
9
6
3
0
0
50
100
150
Χρον.-1834
Σχ.Γ.15. Η γραφική παράσταση της µετασχηµατισµένης χρονολογίας
µε τον πληθυσµό (σε εκατοµµύρια κατοίκους)
153
iii) Παρατηρώντας την προηγούµενη
γραφική παράσταση,
αντιλαµβανόµαστε
πως θα επιτύχουµε ακόµη καλύτερα αποτελέσµατα εάν χρησιµοποιήσουµε την εκθετική συσχέτιση. Πράγµατι, η διάταξη των σηµείων θυµίζει έντονα το δεξί σχεδιάγραµµα
του Σχ.11. Θα λογαριθµήσουµε λοιπόν τον
άξονα των ψ και θα ξαναπάρουµε τους τύπους της γραµµικής συσχέτισης. Μετά τη
λογαρίθµηση φθάνουµε στο διπλανό πίνακα.
Χρον-1834
Ln(Πληθυσµού)
1
9
20
31
41
51
61
73
86
96
106
118
126
0,00995
0,08066
0,36395
0,59829
0,73044
0,91908
0,99177
1,17279
1,31641
1,45349
1,61423
1,78053
1,99796
Οι τιµές των αθροισµάτων:
ΣΧi = 819
ΣΧi2 = 72423
ΣΥi = 13.0295
ΣΥi2 = 17.8477
ΣΧiYi = 1135.194
Εφαρµόζοντας τους τύπου ακριβώς όπως και την προηγούµενη φορά, έχουµε:
α = 0.01509 , β = 0.051384 και r = 0.995
οπότε έχουµε την εξίσωση της ευθείας στο επίπεδο Οχ,lnψ:
lnψ = 0.01509χ + 0.051384
Ln(Πληθυσµού)
2,5
2
1,5
1
0,5
0
0
50
100
150
Χρον.-1834
Σχ.Γ.16. Η γραφική παράσταση της µετασχηµατισµένης χρονολογίας
µε τον λογάριθµο του πληθυσµού.
154
iv) Η πρόβλεψη που µας ζητά το παράδειγµα δεν µπορεί παρά να στηρίζεται στις δύο καµπύλες παλινδρόµησης. Θα θεωρήσουµε δηλαδή ότι ο πληθυσµός της Χιλής δίνεται από τις δύο συναρτήσεις, στις οποίες εµείς θα βάλουµε
στη θέση του χ την τιµή που αντιστοιχεί στη χρονολογία 1980.
Στην ευθύγραµµη συσχέτιση η καµπύλη παλινδρόµησης ήταν η ευθεία:
ψ = 0.04533χ + 0.391
στην οποία θα θέσουµε χ = 1980-1834 = 146, οπότε βρίσκουµε:
ψ = 0.04533*146 +0.391 = 7.009 (εκατ.κατοίκους)
Στην εκθετική συσχέτιση η καµπύλη παλινδρόµησης στο επίπεδο Οχ,lnψ,
ήταν η ευθεία:
lnψ = 0.01509χ + 0.051384
στην οποία θα θέσουµε χ = 146, οπότε βρίσκουµε:
lnψ = 0.01509*146 + 0.051384 = 2.2545
Βρήκαµε τον λογάριθµο του πληθυσµού, άρα ο πληθυσµός υπολογίζεται
µε την ύψωση του e στην τιµή του lnψ. Έχουµε λοιπόν:
Πληθυσµός της Χιλής = e2.2545 = 9.531 (εκατ.κάτοικοι)
Παρατήρηση: Ήταν φανερό από την γραφική παράσταση (Σχ.Γ.15) ότι
η γραµµική συσχέτιση θα µας έδινε πολύ µικρότερο πληθυσµό από τον πραγµατικό. ∆εν περιµέναµε όµως ότι θα έπεφτε τόσο έξω και η εκθετική συσχέτιση.
Το γεγονός αυτό δηλώνει κάτι ιδιαίτερα σηµαντικό: Οι µέθοδοι της συσχέτισης
πρέπει να χρησιµοποιούνται µε πολλή προσοχή όταν θέλουµε να επιχειρήσουµε
προβλέψεις, ιδιαίτερα µάλιστα όταν αυτές οι προβλέψεις αντιστοιχούν σε τιµές
του χ που είναι αρκετά µετά το τελευταίο σηµείο των δεδοµένων (εδώ 20 χρόνια
µετά).