104 Γ) ΠΑΛΙΝ∆ΡΟΜΗΣΗ ΚΑΙ ΣΥΣΧΕΤΙΣΗ Γ.1. ΠΑΛΙΝ∆ΡΟΜΗΣΗ. Γ.1.1. Η εξίσωση της ευθείας. Η εξίσωση της ευθείας είναι ένα βασικό εργαλείο για το κεφάλαιο της παλινδρόµησης και της συσχέτισης. Για το λόγο αυτό κρίνουµε απαραίτητο να ασχοληθούµε περιληπτικά µ'αυτήν. i) Η εξίσωση ψ = αχ+β. Η εξίσωση ψ = f(x) = αχ+β είναι µία πολυωνυµική συνάρτηση 1ου βαθµού, όπου το χ είναι η ανεξάρτητη µεταβλητή και το ψ η εξαρτηµένη, ενώ τα α και β είναι δύο παράµετροι. Προσπαθώντας να κάνουµε την γραφική της παράσταση, µε δοσµένες βέβαια τιµές για τα α και β, δηµιουργούµε τον παρακάτω πίνακα τιµών, δίνοντας κάποιες αυθαίρετες τιµές στο χ και υπολογίζοντας από τη συνάρτηση την αντίστοιχη τιµή του ψ. χκ ψκ χ0 χ1 ψ0 ψ1 χ2 ... ψ2 ... χν ψν ψ ε ψν Τοποθετώντας τα ζεύγη τιµών (χκ,ψκ) στο Καρτεσιανό σύστηµα συντεταγµένων, παρατηρούµε (Σχ.Γ.1) πως όλα τα σηµεία είναι τοποθετηµένα πάνω σε µία ευθεία, την ε, πράγµα που συµβαίνει για οποιαδήποτε δυάδα τιµών των παραµέτρων α και β. Έτσι φθάνουµε στον παρακάτω ορισµό: ψ1 x0 x1 .... xν ψ0 Σχ.Γ.1. Η γραφική παράσταση της συνάρτησης ψ=αχ+β. x 105 Ορισµός Γ.1. Η πρωτοβάθµια πολυωνυµική συνάρτηση ψ = f(χ) = αχ+β είναι η εξίσωση της ευθείας στο Καρτεσιανό επίπεδο. Κάθε δυάδα τιµών, των παραµέτρων α και β, οδηγεί σε µια νέα ευθεία, ενώ υπάρχει πάντα µια δυάδα τιµών (α,β), για κάθε ευθεία του επιπέδου Οχψ (µε εξαίρεση τις ευθείες που είναι κάθετες στον άξονα των χ). ii) Ερµηνεία των συντελεστών α και β. Ως γνωστό, δύο σηµεία ορίζουν τη θέση µιας ευθείας. Ποιά λοιπόν είναι η εξίσωση της ευθείας που διέρχεται από τα σηµεία Σ1(χ1,ψ1) και Σ2(χ2,ψ2); Στο ερώτηµα αυτό θα απαντήσουµε µε δύο τρόπους. Ο καθένας µπορεί να διαλέξει όποιον θέλει, ή σωστότερα, όποιον ταιριάζει στο πρόβληµα που αντιµετωπίζει. Λύση 1η: Έστω πως η ευθεία που ορίζεται από τα σηµεία Σ1 και Σ2, είναι η ε : ψ=αχ+β. Εφ’όσον όµως τα σηµεία αυτά ανήκουν στην ε, θα πρέπει οι συντεταγµένες τους να επαληθεύουν την εξίσωσή της. Άρα, θα ισχύουν οι σχέσεις: ψ1 = αχ1 + β ψ2 = αχ2 + β Πρόκειται για ένα γραµµικό σύστηµα δύο εξισώσεων µε δύο αγνώ-στους, τις παραµέτρους α και β. Λύνοντάς το, υπολογίζουµε τις τιµές των α και β, έτσι ώστε η εξίσωση ψ=αχ+β να ορίζει την ευθεία που διέρχεται από τα σηµεία Σ1 και Σ2: ψ2 - ψ1 χ2ψ1 - χ1ψ2 α = ---------- και β = ---------------χ2 - χ1 χ2 - χ1 Λύση 2η: Η εξίσωση της ευθείας ε, που διέρχεται από τα σηµεία Σ1 και Σ2 είναι η εξής: χ - χ1 ψ - ψ1 --------- = ---------χ2 - χ1 ψ2 - ψ1 ψ ψ2 ψ Σχέση η οποία εκφράζει την αναλογία που προκύπτει από τα όµοια τρίγωνα του διπλανού σχήµατος. ψ1 ε χ1 χ χ2 χ 106 Γεωµετρική ερµηνεία. ψ Η παράµετρος α, που ονοµάζεται συντελεστής διεύθυνσης ή κλίση της ευθείας ε, είναι ίση µε την εφαπτοµένη της γωνίας φ, η οποία ορίζεται από την θετική κατεύθυνση του άξονα των χ και την ευθεία ε (Σχ.Γ.2.). ψ2 ε φ x1 β x2 x ψ1 α = (ψ2-ψ1)/(χ2-χ1) = = εφ φ = συντελεστής διεύθυνσης της ε = κλίση της ε Το σηµείο (0,β) είναι το σηµείο του άξονα των ψ στο οποίο τέµνει η ε τον άξονα των ψ (Σχ.Γ.2.). Σχ.Γ.2. Η ερµηνεία των παραµέτρων α και β. iii) Παραδείγµατα. 1ο) Οι ευθείες ψ=2χ+4 και ψ=2χ-2 είναι δύο ευθείες µε τον ίδιο συντελεστή διεύθυνσης και διαφορετικό β. Πρόκειται εποµένως για δύο ευθείες παράλληλες, µε κλίση α=2. Η πρώτη τέµνει τον άξονα των ψ στο σηµείο ψ=4 ενώ η δεύτερη στο ψ=-2. Από την κλίση µπορούµε να υπολογίσουµε την γωνία φ που σχηµατίζουν η ευθείες µε την θετική κατεύθυνση του άξονα των χ. α = 2 = εφ φ ⇒ φ = Τοξεφ2 = tan-1(2) = 63.435 ° (µοίρες) (= 1.10715 rad) Να παρατηρήσουµε εδώ πως η αντίστροφη συνάρτηση της ψ=εφ(χ), δηλαδή η ψ=Τοξεφ(χ), δεν πρέπει να σας προβληµατίζει, µια και δίνεται από τον υπολογιστή τσέπης µε το πλήκτρο που αντιστοιχεί στην ένδειξη tan-1. Oι µονάδες στις οποίες θα είναι η γωνία εξαρτώνται από την επιλογή σας. Εάν στην οθόνη υπάρχει η ένδειξη DEG τότε το αποτέλεσµα θα είναι σε µοίρες. Εάν στην οθόνη υπάρχει η ένδειξη RAD, τότε το αποτέλεσµα θα είναι σε ακτίνια, ενώ εάν υπάρχει η ένδειξη GRA, τότε το αποτέλεσµα θα είναι σε βαθµούς. 107 2ο) Η εξίσωση ψ=3 αντιστοιχεί σε µία ευθεία µε κλίση µηδέν (α=0), σε µία ευθεία εποµένως που θα είναι παράλληλη µε τον άξονα των χ και διέρχεται από το σηµείο ψ=3 του άξονα των ψ. Άλλωστε η εξίσωση ψ=3 δηλώνει πως περιλαµβάνει όλα τα σηµεία, των οποίων η τεταγµένη (η συντεταγµένη ψ) είναι σταθερά ίση µε 3, ανεξάρτητα από την τιµή του χ. Η εξίσωση χ=4 αντιστοιχεί σε µία ευθεία κάθετη στον άξονα των χ στο σηµείο χ=4 (άρα παράλληλη του άξονα των ψ, οπότε η κλίση της θα είναι η εφ(90), δηλ. άπειρη), και όµοια, περιλαµβάνει τα σηµεία µε τετµηµένη σταθερή (=4). 3ο) Στην επόµενη γραφική παράσταση, εµφανίζονται οι ευθείες που αντιστοιχούν στις εξισώσεις: ε1 : ψ = f1(x) = x ε2 : ψ = f2(x) = 2x ε3 : ψ = f3(x) = 3x ε4 : ψ = f4(x) = -x ε5 : ψ = f5(x) = -3x Είναι εξισώσεις 5 ευθειών που διέρχονται από το κέντρο των αξόνων (0,0), διότι το β είναι µηδέν για όλες τους. Να παρατηρήσουµε πως οι ευθείες που αντιστοιχούν σε θετικούς συντελεστές διεύθυνσης είναι αύξουσες, ενώ αυτές που αντιστοιχούν σε αρνητικά α είναι φθίνουσες. Να παρατηρήσουµε επίσης πως ο συντελεστής α κάθε µιας απ'τις ευθείες είναι ίσος µε την µεταβολή της τιµής του ψ, όταν το χ µεταβάλλεται κατά µία µονάδα. Για παράδειγµα εάν πάρουµε την τιµή του ψ της ευθείας ψ=3χ, για χ=3 και για χ=4, έχουµε τις τιµές: ψ(3)=9 και ψ(4)=12. ψ ε3 ε2 ε1 2 1 x 1 ε4 -3 ε5 Σχ.Γ.3. Η γραφική παράσταση των πέντε ευθειών. Η µεταβολή του ψ που αντιστοιχεί σε µεταβολή του χ κατά µία µονάδα είναι ίση µε το 3 (ίση δηλ. µε το συντελεστή α της ευθείας). 108 Γ.1.2. Ταυτόχρονη καταµέτρηση δύο τυχαίων µεταβλητών. Είναι πολύ συχνό το φαινόµενο της ταυτόχρονης καταµέτρησης δύο ή περισσότερων τυχαίων µεταβλητών στα ν-στοιχεία ενός πληθυσµού. Στη συνέχεια θα ασχοληθούµε µε την περίπτωση της καταµέτρησης δύο µόνο τυχ.µεταβλητών. Κατά την περίπτωση αυτή το βασικό Στατιστικό δεδοµένο είναι η δυάδα (χi,ψi), η µέτρηση δηλαδή των τιµών των δύο τ.µ. Χ και Ψ στο iοστό άτοµο του πληθυσµού. Εποµένως το σύνολο των δεδοµένων αποτελείται από ν δυάδες: (X1,Ψ1), (X2,Ψ2), (X3,Ψ3), ..., (Xν,Ψν). όπου βέβαια είναι δυνατό η ίδια δυάδα να εµφανίζεται περισσότερες από µία φορές. Ένα κλασσικό παράδειγµα είναι οι µετρήσεις του ύψους και του βάρους ενός πληθυσµού ατόµων. Γενικά δύο τέτοιες µεταβλητές λέγονται ανεξάρτητες, µια και η γνώση της τιµής της µιας σε κάποιο άτοµο του πληθυσµού δεν επαρκεί για τον καθορισµό της τιµής της δεύτερης (στο ίδιο πάντα άτοµο). Πράγµατι, δεν µπορούµε να καθορίσουµε το βάρος ενός άνδρα, εάν γνωρίζουµε πως έχει ύψος 185 cm. Η δυσκολία της "ανάγνωσης" και της κατανόησης των δεδοµένων αυτών επιβάλλει την επεξεργασία τους και την εµφάνισή τους κατά τρόπο παραστατικό και συνοπτικό. Στη συνέχεια θα αναφερθούν κάποιες µέθοδοι συστηµατοποίησης και συνοπτικότερης παρουσίασης των δεδοµένων αυτών. Γ.1.3. Γραφικές παραστάσεις. Η πρώτη µας προσπάθεια αφορά στην παραστατική εµφάνιση των διπλών αυτών µετρήσεων µε τη βοήθεια µιας γραφικής παράστασης (µια εικόνα αξίζει όσο χίλιες λέξεις). 109 Η γραφική παράσταση γίνεται σ'ένα ψ Καρτεσιανό σύστηµα συντεταγµένων * όπου στον άξονα των Χ θέτουµε την * * * πρώτη τυχ.µεταβλητή (έστω την Xi, * * * * i=1,2,..,ν), ενώ στον άξονα των Ψ θέτου* * * * µε τη δεύτερη τυχ.µεταβλητή (την Ψi, * * ** * * * * * i=1,2,..,ν). Τότε έχουµε το διπλανό σχεδιά* * * * γραµµα, το οποίο συχνά µας επιτρέπει να * * * * εξάγουµε κάποια πρώτα συµπεράσµατα. x Έτσι για παράδειγµα, από το σχ.Γ.4 συµπεραίνουµε πως στα στοιχεία του πληθυσµού στα οποία η τιµή της µεΣχ.Γ.4. ∆ιάγραµµα διασποράς ταβλητής Χ είναι µεγάλη, υπάρχει µία των ν-µετρήσεων (Χi,Yi). χαλαρή τάση για µεγάλες τιµές και στην τιµή της µεταβλητής Ψ, και αντίστροφα, οι µικρές τιµές στα Χ συνδυάζονται µε µικρές, κατά βάση, τιµές στα Ψ. Για λόγους που θα εξηγηθούν αργότερα, προσπαθούµε να τοποθετούµε στον άξονα των Χ την τυχαία µεταβλητή για την οποία, κατά κανόνα, έχουµε ακριβέστερες ή πιο αξιόπιστες µετρήσεις. Συχνά, η µία από τις δύο µετρήσεις θεωρείται σαν ανεξάρτητη µεταβλητή, ενώ η δεύτερη θεωρείται εξαρτηµένη από την τιµή της πρώτης. Για παράδειγµα εάν µετρούµε την απόσταση που χρειάζεται για να ακινητοποιηθεί ένα αυτοκίνητο, το οποίο κινείται µε διάφορες ταχύτητες, τότε έχουµε µια σειρά διπλών µετρήσεων: ( Ταχύτητα , Απόσταση ακινητοποίησης ) όπου κατανοούµε πως η δεύτερη µέτρηση είναι συνέπεια της πρώτης. Βέβαια, ακριβολογώντας, δεν µπορούµε παρά να τη θεωρούµε ανεξάρτητη µεταβλητή, µια και η απόσταση ακινητοποίησης από κάποια συγκεκριµένη ταχύτητα εξαρτάται από το αυτοκίνητο, την επιλογή ελαστικών, την κατάσταση των αµορτισέρ, του οδηγού (εάν το αυτοκίνητο δεν έχει ABS), το οδόστρωµα κ.λ.π.. Ταυτόχρονα, ακόµη και εάν κρατήσουµε σταθερές όλες τις παραµέτρου είναι απίθανο (πιθανότητα µηδέν) να επαναληφθεί η ίδια ακριβώς µέτρηση. Παρ’όλα αυτά, στο προηγούµενο πρόβληµα θεωρούµε την ταχύτητα σαν την ανεξάρτητη µεταβλητή και την τοποθετούµε στον άξονα των χ, ενώ η απόσταση ακινητοποίησης σαν την εξαρτηµένη, τοποθετώντας την στον άξονα των ψ. 110 Γ.1.4. Πίνακες διπλής εισόδου. Η προσπάθεια για συνοπτική παρουσίαση των δεδοµένων, γίνεται µε τη βοήθεια Στατιστικών πινάκων, στους οποίους εµφανίζονται ταυτόχρονα οι δύο τυχ.µεταβλητές, και ονοµάζονται πίνακες διπλής εισόδου. Στους πίνακες αυτούς οι µετρήσεις της κάθε τυχαίας µεταβλητής εµφανίζονται µε τη βοήθεια κλάσεων, εκτός κι'αν είναι λιγοστές οι τιµές που µπορούν να πάρουν οι τυχ.µεταβλητές. Η µορφή των πινάκων αυτών είναι η παρακάτω: Ψ Ψ1 Ψ2 Ψ3 Χ1 Χ2 Χ3 ... Χλ-1 Χλ f1,1 f2,1 f3,1 ... fλ-1,1 fλ,1 f1,2 f2,2 f3,2 ... fλ-1,2 fλ,2 f1,3 ... f2,3 ... f3,3 ... ... ... fλ-1,3 ... fλ,3 ... f1,κ-1 f2,κ-1 f3,κ-1 ... fλ-1,κ-1 fλ,κ-1 Σύνολο Σfi,1 Σfi,2 Σfi,3 Σfi,κ-1 ... Ψκ-1 Ψκ Σύνολο Χ ... f1,κ f2,κ f3,κ ... fλ-1,κ fλ,κ Σfi,κ Σf1,j Σf2,j Σf3,j ... Σfλ-1,j Σfλ,j ΣΣfi,j=ν Πίνακας Γ.1: Η γενική µορφή ενός πίνακα διπλής εισόδου. Κατά την εξήγηση του πιο πάνω πίνακα πρέπει να ξεχωρίσουµε την περίπτωση κατά την οποία οι τυχ. µεταβλητές Χi και Ψi δίνονται σε κλάσεις. Τότε οι µεν τιµές των Χ κατανέµονται σε λ κλάσεις, ενώ αυτές των Ψ σε κ κλάσεις. Αντίθετα, όταν τα δεδοµένα δίνονται σε αναλυτικές τιµές, τότε το πλήθος όλων των διαφορετικών τιµών του Χ είναι ίσο µε το πλήθος των τιµών του Ψ, οπότε ισχύει η ισότητα κ=λ (=ν όπου ν είναι το πλήθος των στοιχείων του πληθυσµού). Με την έκφραση fi,j συµβολίζουµε το πλήθος των στοιχείων του πληθυσµού, των οποίων η µέτρηση Χ είναι ίση µε το Χi (ή ανήκει στην Χi κλάση), ενώ ταυτόχρονα η µέτρηση Ψ είναι ίση µε το Ψj (ή ανήκει στην Ψj κλάση). 111 Αξίζει να παρατηρήσουµε πως στην κάτω γραµµή γράφονται τα αθροίσµατα των συχνοτήτων της κάθε στήλης. Ισχύει για παράδειγµα η σχέση: λ Σfi,3 = Σ fi,3 = f1,3 + f2,3 + f3,3 + ... + fλ,3 i=1 η οποία δίνει το άθροισµα της τρίτης στήλης. Πρόκειται δηλαδή για το πλήθος των στοιχείων του πληθυσµού, των οποίων η τιµή της τυχ.µεταβλητής Ψ είναι ίση µε Ψ3, ανεξάρτητα από την τιµή της τυχ.µεταβλητής Χ. Είναι εποµένως η "γενική" συχνότητα της τιµής Ψ3. Όµοια, στην τελευταία στήλη εµφανίζονται τα µερικά αθροίσµατα της κάθε σειράς. Ισχύει και εδώ (για παράδειγµα) η σχέση: κ Σf3,j = Σ f3,j = f3,1 + f3,2 + f3,3 + ... + f3,κ j=1 η οποία δίνει το άθροισµα της τρίτης γραµµής. Πρόκειται δηλαδή για το πλήθος των στοιχείων του πληθυσµού, των οποίων η τιµή της τυχ.µεταβλητής Χ είναι ίση µε Χ3, ανεξάρτητα από την τιµή της τυχ.µεταβλητής Ψ. Είναι εποµένως η "γενική" συχνότητα της τιµής Χ3. Τέλος στο τελευταίο (άκρο δεξιό) τετράγωνο της κάτω γραµµής υπάρχει το άθροισµα όλων των µερικών αθροισµάτων. Η τιµή είναι ακριβώς η ίδια, είτε προσθέσουµε τα µερικά αθροίσµατα της τελευταίας στήλης, ή αυτά της τελευταίας γραµµής. Ισχύει τώρα η σχέση: λ κ κ κ κ ΣΣfi,j = Σ Σ fi,j = Σ f1,j + Σ f2,j + ... + Σ fλ,j = ν i=1 j=1 j=1 j=1 j=1 η οποία δίνει τελικά το συνολικό πλήθος των (διπλών -(Χi,Yi)-) µετρήσεων που συµπεριλαµβάνονται στον πίνακα διπλής εισόδου. Παράδειγµα Γ.1. Ο επόµενος πίνακας δίνει τους βαθµούς στο µάθηµα των Αρχαίων Ελληνικών (Χi) και στο µάθηµα της Άλγεβρας (Ψi) 24 µαθητών της Β' Λυκείου ενός Λυκείου της Θεσσαλονίκης. 112 Xi Ψi 11 11 12 12 12 13 13 13 13 14 14 15 10 14 13 13 17 14 16 16 17 18 19 10 Xi Ψi 15 15 16 16 16 16 17 17 17 17 18 19 16 19 12 12 13 14 13 14 18 19 15 18 Πίνακας Γ.2. Η βαθµολογία στα Αρχαία Ελληνικά (Χi) και στην Άλγεβρα (Ψi), 24 µαθητών της Β' Λυκείου. Ο προηγούµενος πίνακας δεδοµένων γίνεται ο επόµενος πίνακας διπλής εισόδου. Αξίζει να παρατηρήσουµε πως ένας πίνακας διπλής εισόδου έχει κάτι από την παραστατικότητα µιας γραφικής παράστασης. Συνήθως, οριζόντια τοποθετείται ο άξονας των Ψ ενώ στον κατακόρυφο άξονα, όπου έχουµε τις τιµές των Χ, οι τιµές αυτές αυξάνουν από πάνω προς τα κάτω. Ψ 10 11 12 13 14 15 16 17 18 19 Σύνολο Χ 1 11 12 13 14 15 16 17 18 19 1 Σύνολο 2 1 2 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 0 2 4 4 1 3 2 3 3 2 3 4 2 3 4 4 1 1 24 Πίνακας Γ.3. Η βαθµολογία των 24 µαθητών στα Αρχαία και στην Αλγεβρα σε πίνακα διπλής εισόδου. 113 Στο παράδειγµα αυτό, στους άξονες Χ και Ψ τοποθετούνται οι καταµετρηµένες τιµές, οι οποίες όµως θα µπορούσαν να θεωρηθούν και κλάσεις. Αυτό συµβαίνει διότι οι τιµές που µπορούν να πάρουν οι τυχ. µεταβλητές Χ και Ψ είναι ακέραιες, µε αποτέλεσµα τη συχνή επανάληψή τους. Θα µπορούσαµε όµως να πούµε πως συνήθως χρησιµοποιούµε πίνακες διπλής εισόδου όταν οι τιµές των τ.µ. Χ και Ψ είναι κατανεµηµένες σε κλάσεις. Τα προηγούµενα δεδοµένα τα τοποθετούµε σε ορθογώνιο σύστηµα συντεταγµένων, οπότε έχουµε την παρακάτω γραφική παράσταση. Αξίζει να παρατηρήσουµε την διαφορετική αίσθηση που µας δίνει αυτή σε σχέση µε τον πίνακα διπλής εισόδου, όπου, όπως τονίστηκε ήδη, ο άξονας των Χ αυξάνεται προς τα κάτω. Όµως, περιστρέφοντας τον πίνακα διπλής εισόδου κατά 90 µοίρες (θετική φορά - αντίθετα από τους δείκτες του ρολογιού), τότε έχουµε ταύτιση των αξόνων. ψ 1 18 1 1 1 1 16 1 1 1 2 1 1 14 1 1 1 2 12 10 1 1 1 2 1 1 11 12 13 14 15 16 17 18 19 Χ Σχ.Γ.5: Γραφική παράσταση της βαθµολογίας 24 µαθητών, στα µαθήµατα Αρχαία (Χ) και Άλγεβρα (Ψ). Με (1) συµβολίζουµε την ύπαρξη ενός µαθητή µε τη συγκεκριµένη δυάδα τιµών, ενώ µε (2) συµβολίζουµε την ύπαρξη 2 µαθητών στο εν λόγω σηµείο. 114 Γ.1.5. Εξάρτηση των τυχαίων µεταβλητών. Επανερχόµαστε και πάλι στις µετρήσεις των τυχαίων µεταβλητών Χ και Ψ, στα ν στοιχεία ενός πληθυσµού. Αναρωτιόµαστε τώρα για το εάν υπάρχει κάποια σχέση ανάµεσα στις τιµές που παίρνει η τυχ. µεταβλητή Χ, και σ'αυτές που παίρνει, στα ίδια άτοµα, η τυχ.µεταβλητή Ψ. Η αναζήτηση µιας τέτοιας σχέσης (εξάρτησης) ανάµεσα σε δύο τυχ. µεταβλητές είναι ιδιαίτερα σηµαντική. Εάν καταλήξουµε στην ύπαρξη µιας τέτοιας εξάρτησης, τότε, γνωρίζοντας την µέτρηση Χ ενός στοιχείου του πληθυσµού, µπορούµε να έχουµε µια ιδέα για την τιµή που θα πάρει η τ.µ. Ψ στο ίδιο άτοµο. (i) Συναρτησιακή εξάρτηση. Η ύπαρξη απόλυτης εξάρτησης ανάµεσα στις τ.µεταβλητές Χ και Ψ, σηµαίνει πως µετρώντας την τιµή Χ ενός στοιχείου του πληθυσµού, γνωρίζουµε αυτόµατα και την τιµή Ψ του ίδιου στοιχείου. Αυτό συµβαίνει γιατί υπάρχει µια συνάρτηση της µορφής Ψ=f(Χ) που τις συνδέει και που εκφράζει την φυσική εξάρτηση που υπάρχει ανάµεσα στα δύο Φυσικά µεγέθη Χ και Ψ. Σαν παράδειγµα, θα αναφερθούµε στην ελεύθερη πτώση ενός σώµατος στο κενό κάτω από την επίδραση της επιτάχυνσης της Βαρύτητας, g. Εάν αφήσουµε ένα σώµα µάζας m να πέσει ελεύθερα από το σηµείο Α, και αρχίσουµε να καταγράφουµε σε κάποιες τυχαίες χρονικές στιγµές: α) τις τιµές της απόστασης που έχει διανύσει το σώµα m, και β) τις τιµές της στιγµιαίας ταχύτητάς του v, Α S m V θα παρατηρήσουµε πως η µία µέτρηση µπορεί να συναχθεί από την άλλη. Εάν καταµετρήσουµε την ταχύτητα σε κάποια χρονική στιγµή t, τότε το διάστηµα s που το σώµα έχει διανύσει δίνεται από τη σχέση: v2 S(v) = ---2g 115 ενώ, εάν µετρήσουµε το διάστηµα s, µπορούµε να υπολογίσουµε την στιγµιαία ταχύτητα απ'τη σχέση: v(S) = 2gS 20 Ταχύτητα (m/sec) Εάν λοιπόν καταµετρήσουµε τις διανυθείσες αποστάσεις και την ταχύτητα που αντιστοιχεί σ’ αυτές, τότε προκύπτει η διπλανή γραφική παράσταση, όπου οι µετρήσεις ακολουθούν πιστά την θεωρητική καµπύλη, µη έχοντας καµία σχέση µε το νέφος των σηµείων της προηγούµενης γραφικής παράστασης. 15 10 5 0 0 5 10 15 20 ∆ιανυθείσα απόσταση (m) Ελεύθερη πτώση σε κενό. Μετρήσεις της απόστασης και της ταχύτητας του σώµατος που πέφτει. Η Θεωρητική καµπύλη. Ορισµός Γ.2 Στις περιπτώσεις (σαν την προηγούµενη) της απόλυτης αµοιβαίας εξάρτησης δύο τυχαίων µεταβλητών, µιλάµε για συναρτησιακή εξάρτηση. Συχνά µάλιστα µιλάµε για συναρτησιακή εξάρτηση χωρίς να µπορούµε να διατυπώσουµε τον ακριβή Μαθηµατικό τύπο µε τον οποίο ορίζεται αυτή η εξάρτηση. Στην περίπτωση αυτή συνήθως πρόκειται για πειραµατικά δεδοµένα. Επιστρέφοντας στο παράδειγµα όπου µετρούµε το διάστηµα s που χρειάζεται για να φρενάρει ένα συγκεκριµένο αυτοκίνητο που κινείται µε κάποια ταχύτητα, διαπιστώνουµε την ύπαρξη µιας εξάρτησης (η οποία θα µπορούσε προσεγγιστικά να θυµίζει Μαθηµατική συνάρτηση), ανάµεσα στις δύο αυτές µεταβλητές (εφ' όσον δεν έχουµε αλλοίωση των ελαστικών του αυτοκινήτου ή των υλικών τριβής). Εκτελώντας µερικές φορές το πείραµα αυτό, δηµιουργούµε έναν πίνακα τιµών, από τον οποίο (µε τη βοήθεια κάποιων Μαθηµατικών µεθόδων) έχουµε τη δυνατότητα να υπολογίσουµε µε αρκετή ακρίβεια τις οποιεσδήποτε ενδιάµεσες τιµές. 116 (ii) Στοχαστική εξάρτηση. Το παράδειγµα της ελεύθερης πτώσης ενός σώµατος της προηγουµένης παραγράφου, αναφέρεται σε ένα πρόβληµα που επ'ουδενί δεν θα µπορούσε να ονοµαστεί πρόβληµα τύχης, µια και το αποτέλεσµά του είναι πολύ καλά µελετηµένο και εποµένως γνωστό εκ των προτέρων. Όµως τα περισσότερα σύγχρονα προβλήµατα των διαφόρων Επιστηµών όπως η Βιολογία, η Ιατρική, η Οικονοµία, η Κοινωνιολογία, η Ψυχολογία κ.λ.π., δεν αντιµετωπίζουν ποσότητες που να συνδέονται συναρτησιακά µεταξύ τους. Παρ’όλα αυτά είναι δυνατό να υπάρχει κάποια (πολλές φορές ισχυρότατη) εξάρτηση ανάµεσα σε δύο µεταβλητές, χωρίς αυτή να είναι συναρτησιακή. Την εξάρτηση αυτής της µορφής την λέµε Στοχαστική. Ένας πιο πλήρης ορισµός είναι ο επόµενος (εάν δεν τον καλοκαταλάβετε ξαναδιαβάστε τον, αφού πρώτα διαβάσετε το παράδειγµα που ακολουθεί!...). Ορισµός Γ.3. Έστω δύο τυχαίες µεταβλητές Χi και Yi, που αναφέρονται στα ν στοιχεία ενός πληθυσµού Ω. Λέγεται πως ανάµεσα στις δύο αυτές τυχαίες µεταβλητές υπάρχει Στοχαστική εξάρτηση, όταν η γνώση της τιµής Xj στο j-οστό άτοµο του πληθυσµού, µεταβάλλει την πιθανότητα που έχει η τιµή Yj να ανήκει σε κάποιο διάστηµα. Ο προηγούµενος ορισµός λέει ουσιαστικά πως σε δύο µεταβλητές που συνδέονται στοχαστικά, η γνώση της τιµής της µιας τυχ.µεταβλητής σε κάποιο άτοµο του πληθυσµού, δίνει σηµαντικές πληροφορίες για την τιµή που θα πάρει η άλλη τυχαία µεταβλητή στο ίδιο άτοµο. Παράδειγµα: Ένα από τα πιο κλασσικά παραδείγµατα στοχαστικής εξάρτησης είναι αυτής που συνδέει το ύψος µε το βάρος των ανθρώπων, ιδιαίτερα του ίδιου φύλου. Μελετώντας το βάρος 1000 ενηλίκων ανδρών φθάσαµε στο συµπέρασµα πως η πιθανότητα του διαστήµατος(*) (110,120), εάν δεν ληφθεί υπ' όψην το (*) Οπως αναφέρθηκε στην παρατήρηση της παραγράφου Β.2.1, έχουµε τις τρείς εκφράσεις της ίδιας ουσιαστικά έννοιας: "η πιθανότητα ενός διαστήµατος" ή "η πιθανότητα η µέτρηση Χ να ανήκει σε κάποιο συγκεκριµένο διάστηµα" ή "το ποσοστό του συνολικού πληθυσµού που ανήκει στο συγκεκριµένο διάστηµα". 117 ύψος του, είναι 5 τοις εκατό. Παίρνουµε στη συνέχεια κάποιο άτοµο στην τύχη, ελέγχουµε το ύψος του, και βρίσκουµε πως είναι 2 µέτρα. Τώρα όµως αλλάζει ριζικά η πιθανότητα για να ανήκει το βάρος του συγκεκριµένου άνδρα στο διάστηµα (110,120). Σύµφωνα µάλιστα µε τις µετρήσεις που έχουµε κάνει, βρίσκουµε πως η πιθανότητα του διαστήµατος αυτού είναι ίση µε το 60 τοις εκατό. Η διαπίστωση της στοχαστικής εξάρτησης λοιπόν ανάµεσα στο βάρος και στο ύψος ενός άνδρα δηλώνει σε τελική ανάλυση πως η γενική τάση που επικρατεί στον πληθυσµό είναι πως "τα µεγάλα ύψη αντιστοιχούν κατά βάση και σε µεγάλα βάρη". Η ύπαρξη εξάρτησης ανάµεσα σε δύο τυχ.µεταβλητές, γίνεται εύκολα φανερή από την γραφική τους παράσταση. Βάζουµε τις τιµές της πρώτης τυχ. µεταβλητής (Χi) στον άξονα των χ, και της δεύτερης (Υi) στον άξονα των ψ. Τα ζεύγη των τιµών (Xi,Yi), που αντιστοιχούν στα ν στοιχεία του πληθυσµού, δηµιουργούν τη γραφική παράστασή τους. Αν υποθέσουµε πως στη διπλανή γραφική παράσταση βάλαµε το ύψος στον άξονα των χ και το βάρος στα ψ, τότε παρατηρούµε την γενική τάση που αναφέρθηκε πιο πάνω, σύµφωνα µε την οποία οι πιο ψηλοί άνδρες έχουν και µεγαλύτερο βάρος. Βάρος * ** * *** ** * * ** * * * * ** * * * ** * * * * * * Ύψος Εδώ θα µπορούσε να τεθεί το ερώτηµα: "∆εν είναι δυνατό να βρεθεί µια συνάρτηση που να συνδέει αυτά τα δεδοµένα, της οποίας δηλαδή η καµπύλη να διέρχεται από τα χίλια σηµεία (ύψος, βάρος) των δεδοµένων:" Μια τέτοια συνάρτηση θα µπορούσε πράγµατι να βρεθεί, εφ' όσον βέβαια δεν θα υπάρχουν δύο άτοµα που να έχουν ίδιο ύψος (ίδιο χ) και διαφορετικό βάρος. Όµως η φυσική της σηµασία θα ήταν µικρή ενώ ταυτόχρονα δεν θα µπορούσαµε να µιλήσουµε για συναρτησιακή εξάρτηση, µια και η συνάρτηση αυτή θα ίσχυε µόνο για τους συγκεκριµένους άνδρες. Είναι σίγουρο πως τα δεδοµένα του πρώτου άνδρα έξω από τον πληθυσµό των χιλίων θά'ταν έξω από την καµπύλη που µε τόσο κόπο χαράξαµε. Τα ερωτήµατα που θα µας απασχολήσουν στη συνέχεια έχουν να κάνουν µε το εάν υπάρχει στοχαστική εξάρτηση ανάµεσα σε δύο τυχ. µεταβλητές, και µε το πόσο ισχυρή είναι η εξάρτηση αυτή. 118 iii) Καµπύλες παλινδρόµησης. Ορισµός Γ.4. Ονοµάζουµε καµπύλη παλινδρόµησης µια Μαθηµατική συνάρτηση ψ=f(χ), η οποία προσπαθεί να προσεγγίσει τα δεδοµένα (τις µετρήσεις) δύο τυχ.µεταβλητών Χi και Yi, στα στοιχεία ενός πληθυσµού, ή ενός δείγµατος. Σύµφωνα λοιπόν µε τον πιο πάνω ορισµό η καµπύλη παλινδρόµησης είναι ένα Μαθηµατικό µοντέλο το οποίο προσπαθούµε να προσαρµόσου-µε στα αριθµητικά δεδοµένα ενός προβλήµατος στοχαστικής εξάρτησης. Το ερώτηµα που αµέσως έρχεται στα χείλη µας αφορά στη µορφή της συνάρτησης µε την οποία θα προσπαθήσουµε να προσεγγίσουµε τα δεδοµένα µας. Πρόκειται για ένα σηµαντικότατο πρόβληµα, στο οποίο η απάντηση είναι εντελώς σχετική. Συνήθως έχουµε να διαλέξουµε ανάµεσα από κάποια µοντέλα, από τα οποία θα πρέπει να επιλέξουµε το καταλληλότερο. Την επιλογή θα κάνει κάποιος που έχει υπ'όψην του τις γραφικές παραστάσεις των Μαθηµατικών συναρτήσεων που εµφανίζονται στα διαθέσιµα µοντέλα, παρατηρώντας τη γραφική παράσταση των δεδοµένων (των σηµείων (χi,ψi)). Στη συνέχεια θα µας απασχολήσουν τριών ειδών καµπύλες παλινδρόµησης, οι οποίες εφαρµόζονται σ'ένα µεγάλο αριθµό προβληµάτων. Πρόκειται για την ευθεία, την εκθετική καµπύλη και τη λογαριθµική καµπύλη. Το µεγάλο πλεονέκτηµα των συναρτήσεων αυτών είναι η σχετική απλότητα των υπολογισµών. Ταυτόχρονα, είναι εύκολο να δοθούν οδηγίες για το πότε χρησιµοποιούµε την κάθε µια απ'αυτές. Γ.1.6. Ευθύγραµµη παλινδρόµηση (ευθεία ελ.τετραγώνων). Η πιο απλή καµπύλη παλινδρόµησης δεν θα µπορούσε να είναι άλλη από την ευθεία, η εξίσωση της οποίας είναι η ψ=f(χ)=αχ+β. Πρέπει όµως να βρεθεί ένας τρόπος να ορισθούν οι παράµετροι α και β, έτσι ώστε η ευθεία να προσεγγίζει τα σηµεία (Χi,Yi) των δεδοµένων, όσο το δυνατόν καλύτερα. Σαν την καλύτερα προσαρµοσµένη ευθεία στα δεδοµένα µας επιλέγουµε την ευθεία των ελαχίστων τετραγώνων. 119 i) Το πρόβληµα της ευθείας των ελαχίστων τετραγώνων. ∆ίνονται οι συντεταγµένες ν-σηµείων του επιπέδου Οχy, έστω οι: (χ1,ψ1), (χ2,ψ2), (χ3,ψ3),... ,(χν,ψν). τα οποία φαίνονται στην επόµενη γραφική παράσταση. Μαζί µ'αυτά έχει χαραχθεί µία ευθεία που προσεγγίζει τα ν δοσµένα σηµεία. Η εξίσωσή της είναι φυσικά η ψ=αχ+β, της οποίας όµως τις παραµέτρους α και β προς το παρόν αγνοούµε!... Οπως µπορούµε να παρατηρήσουµε στο σχήµα Γ.6. σε κάθε σηµείο χi αντιστοιχούν δύο τιµές: 1η) η ψi του i-οστού σηµείου των δεδοµένων 2η) η Υi που είναι η τιµή που παίρνει η ευθεία ε στο σηµείο χi, δηλαδή Υi = αχi+β. ψ * dν * * ψ2 * * d2 Υ2 = αx2+β d3 * d1 ε * χ1 χ2 χ3 χ4 χ5 ..... χν-1 xν x Σχ.Γ.6. Τα ν σηµεία των δεδοµένων (χi,ψi) και οι αποστάσεις di του i-οστού σηµείου από την ευθεία των ελαχίστων τετραγώνων. Ορίζουµε σαν "απόσταση" του κάθε σηµείου από την ευθεία, το µήκος του ευθύγραµµου τµήµατος που συνδέει το σηµείο µε την ευθεία, ενώ είναι παράλληλο µε τον άξονα των ψ(*). Άρα η απόσταση του i-οστού σηµείου από την ευθεία θα είναι ίση µε: di = ψi - Yi = ψi - (αχi+β) (*) Λέµε πως ορίζουµε την "απόσταση" διότι, για λόγους ευκολίας, δεν ορίζουµε την Ευκλείδεια απόσταση, η οποία φέρνεται κάθετα προς την ευθεία. 120 Ορισµός Γ.5. Η ευθεία (ψ=αχ+β) που διέρχεται ανάµεσα από τα ν σηµεία (χi,ψi), για την οποία ελαχιστοποιείται το άθροισµα Α = d12 + d22 + ... + dν2 των τετραγώνων των "αποστάσεων" του κάθε σηµείου από την ευθεία, λέγεται ευθεία των ελαχίστων τετραγώνων. Προσπαθούµε δηλαδή να ελαχιστοποιήσουµε την ποσότητα: ν ν 2 Α(α,β) = Σ (ψi-Υi) = Σ (ψi-αχi-β)2 i=1 i=1 Παρατηρούµε πως η ποσότητα Α εξαρτάται από τις παραµέτρους α και β, άρα είναι µία συνάρτηση των α και β. Αντιµετωπίζουµε λοιπόν ένα τυπικό πρόβληµα προσδιορισµού των τιµών για τα α και β, στα οποία η συνάρτηση δύο µεταβλητών Α(α,β), παίρνει ακρότατη (ελάχιστη) τιµή. ii) Υπολογισµός των παραµέτρων α και β της ευθείας των ελαχίστων τετραγώνων. Βέβαια ο υπολογισµός µεγίστων και ελαχίστων οδηγεί τη σκέψη µας στις παραγώγους. Πράγµατι µε τη βοήθεια των παραγώγων των συναρτήσεων δύο µεταβλητών (µερικών παραγώγων), φθάνουµε σ'ένα γραµµικό σύστηµα δύο εξισώσεων µε δύο αγνώστους, τα α και β(*). Το σύστηµα αυτό είναι γνωστό σαν σύστηµα των κανονικών εξισώσεων για την ευθύγραµµη παλινδρόµηση: α Σ(χi) + βν = Σ(ψi) α Σ(χi2) + β Σ(χi) = Σ(χiψi) όπου όλα τα αθροίσµατα Σ "πηγαίνουν" από i=1 έως i=ν. (*) Παρ'όλον ότι οι πράξεις της παραγώγησης είναι ιδιαίτερα εύκολες, δεν θα τις αναφέρουµε µια και η έννοια της µερικής παραγώγισης είναι άγνωστη σε κάποιους απ'τους αναγνώστες. 121 Το σύστηµα των κανονικών εξισώσεων λύνεται εύκολα(*), είτε χρησιµοποιώντας τη µέθοδο των οριζουσών, είτε κλασσικά, λύνοντας τη µια εξίσωση ως προς τον έναν άγνωστο και αντικαθιστώντας τον στη δεύτερη. Στο τέλος των πράξεων βρίσκουµε πως η ελάχιστη τιµή του αθροίσµατος Α(α,β), επιτυγχάνεται για τις παρακάτω τιµές των α και β: (Σχi)*(Σψi) - ν*Σ(χi*ψi) α = -------------------------------[Σχi]2 - ν*Σ(χi2) (Σχi)*(Σχiψi) - Σ(χi2)*Σ(ψi) 1 β = ------------------------------------ = --[Σχi]2 - ν*Σ(χi2) ν (Σψi) - α(Σχi) όπου, και πάλι, όλα τα αθροίσµατα Σ "πηγαίνουν" από i=1 έως i=ν. Να παρατηρήσουµε πως η λύση των κανονικών εξισώσεων µας οδηγεί στον προσδιορισµό ελάχιστου, µια και µέγιστο δεν µπορεί να υπάρξει (η ευθεία ε µπορεί να αποµακρυνθεί οσοδήποτε, και έτσι η ποσότητα Α µπορεί να γίνει οσοδήποτε µεγάλη). iii) Παράδειγµα Γ.2. Να υπολογισθεί η ευθεία των ελαχίστων τετραγώνων που προσεγγίζει τα σηµεία του διπλανού πίνακα και να γίνει η γραφική παράσταση των σηµείων, καθώς και της ευθείας των ελαχ.τετραγώνων. (*) χκ ψκ 1 2 2 3 3 5 7 7 5 6 4 2 3 3 1 2 Στο σύστηµα αυτό οι µοναδικές άγνωστοι είναι οι παράµετροι α και β. Σκεφθείτε πως τα χi και τα ψi είναι γνωστά (τα δεδοµένα µας), οπότε όλες οι ποσότητες που εµφανίζονται στο σύστηµα είναι συγκεκριµµένες τιµές, που υπολογίζονται εύκολα. 122 Λύση: Για να υπολογίσουµε τα αθροίσµατα που συναντούµε στους τύπους των παραµέτρων α και β, δηµιουργούµε το διπλανό πίνακα. Από τα αποτελέσµατά του έχουµε για τα α και β: (Σχi)*(Σψi) - n*Σ(χi*ψi) α = ------------------------------ = [Σχi]2 - n*Σ(χi2) 30*26 - 8*76 172 = ----------------- = ------ = -0.57333 -300 302 - 8*150 Χκ Ψκ Χκ2 ΧκΨκ 1 2 2 3 3 5 7 7 5 6 4 2 3 3 1 2 1 4 4 9 9 25 49 49 5 12 8 6 9 15 7 14 30 26 150 76 και (Σχi)*(Σχiψi) - Σ(χi2)*Σ(ψi) 30*76 - 150*26 -1620 β = ----------------------------------- = -------------------- = ------- = 5.4 302 - 8*150 -300 [Σχi]2 - n*Σ(χi2) οπότε η εξίσωση της ευθείας των ελαχίστων τετραγώνων είναι η: 6 ψ = αχ+β ⇒ Yi 4 ψ = -0.573333*χ + 5.4 2 Στο διπλανό σχήµα έχουµε τη γραφική παράσταση των 8 σηµείων των δεδοµένων και την ευθεία των ελαχ. τετραγώνων. Την χαράξαµε µε τη βοήθεια δύο σηµείων της. Πήραµε: για χ=0 , ψ = 5.4 για χ=7 , ψ = 1.38667 0 0 2 4 6 8 Xi Σχ.Γ.7. Η γραφική παράσταση των δεδοµένων και της ευθείας ελαχίστων τετραγώνων. 123 Γ.2. ΣΥΣΧΕΤΙΣΗ. Γ.2.1. Συνδιακύµανση δύο τυχαίων µεταβλητών. Με τη συνδιακύµανση δύο τυχαίων µεταβλητών θα επιχειρήσουµε µια πρώτη προσπάθεια να διερευνήσουµε το πρόβληµα της αλληλοεξάρτησης δύο τυχαίων µεταβλητών. Ορισµός Γ.6. Εστω οι τυχαίες µεταβλητές Xi και Yi, στα ν στοιχεία κάποιου πληθυσµού, µε µέσες τιµές τις µχ και µψ αντίστοιχα. Ονοµάζουµε συνδιακύµανση των δύο αυτών τυχ.µεταβλητών την ποσότητα: (X1-µχ)(Υ1-µψ) + (X2-µχ)(Υ2-µψ) + ... + (Xν-µχ)(Υν-µψ) Cov(X,Y) = --------------------------------------------------------------------ν ή συνοπτικότερα: 1 ν Cov(X,Y) = --- Σ (Xi-µχ)(Υi-µψ) ν i=1 Ιδιότητες της συνδιακύµανσης. i) Cov(X,Y) = Cov(Y,X) ii) Cov(X,X) = σx2 iii) Εάν η µία (ή και οι δύο) τυχαία µεταβλητή είναι σταθερή τότε η συνδιακύµανση είναι ίση µε το µηδέν(*). ∆ηλαδή: Cov(c,Y) = 0 (*) Οι τρείς αυτές ιδιότητες αποδεικνύονται πολύ εύκολα, µε τη βοήθεια του τύπου της συνδιακύµανσης και της διακύµανσης σ2. 124 iv) Ενας ακόµη τύπος για την συνδιακύµανση είναι και ο Σ(ΧiYi) νΣ(ΧiYi) - Σ(Χi)Σ(Yi) Cov(X,Y) = ----------- - µxµψ = ----------------------------ν ν2 που προκύπτει από τον προηγούµενο τύπο µε πράξεις(*), και χρησιµοποιείται πολύ συχνά. Γεωµετρική ερµηνεία της συνδιακύµανσης. α) Αρχικά να εκφράσουµε την ερµηνεία της Αλγεβρικής σχέσης που εκφράζει τη συνδιακύµανση. Εάν θεωρήσουµε πως τα Χi και Ψi είναι οι µετρήσεις των δύο τ.µ. Χ και Ψ στο i-οστό άτοµο του πληθυσµού, τότε οι ποσότητες: Αi = (Χi-µχ) και Bi = (Ψi-µψ) ορίζουν τις αλγεβρικές "αποστάσεις" της κάθε µιας µέτρησης από τον αντίστοιχο µέσο όρο της κάθε τ.µ.. Η συνδιακύµανση Cov(X,Ψ) είναι ο µέσος όρος του γινοµένου αυτών των Αλγεβρικών αποστάσεων Αi*Bi. β) Ας εξετάσουµε τώρα τις τιµές που µπορεί να πάρει η συνδιακύµανση Cov(Χ,Ψ), και στο τί σηµαίνουν οι τιµές αυτές. Η διαφορά (Χi-µx) είναι θετική, όταν το Χi είναι µεγαλύτερο της µέσης τιµής µx. Το ίδιο συµβαίνει και µε τη διαφορά (Υi-µψ). Εποµένως το γινόµενο (Χi-µx)(Υi-µψ) θα είναι θετικό όταν οι δύο διαφορές είναι οµόσηµες, όταν δηλαδή η κάθε µια από τις δύο τιµές του i-οστού στοιχείου του πληθυσµού είναι ταυτόχρονα µεγαλύτερες ή µικρότερες από τον αντίστοιχο µέσο όρο. (*) Οι πράξεις αυτές, όπως και άλλες, θα σηµειωθούν στο τέλος του κεφαλαίου για να επιτρέπουν την απρόσκοπτη ανάγνωση του κειµένου από τον αναγνώστη που δεν ενδιαφέρεται για τις Μαθηµατικές αποδείξεις. Η παραποµπή για τις συγκεκριµένες πράξεις είναι η [1]. 125 Ακριβώς το αντίθετο συµβαίνει όταν οι δύο διαφορές (Χi-µx) και (Υi-µψ) είναι ετερόσηµες. Τότε έχουµε πως η τιµή της µιας µεταβλητής στο i-οστό άτοµο είναι µεγαλύτερη του µέσου όρου της, ενώ η άλλη είναι µικρότερη. Όταν λοιπόν οι περισσότερες διαφορές (Χi-µx) και (Υi-µψ) είναι οµόσηµες συµπεραίνουµε πως υπάρχει µια γενική τάση σύµφωνα µε την οποία τα στοιχεία του πληθυσµού µε µικρές τιµές στα Χ να έχουν µικρές τιµές και στα Υ, ενώ τα στοιχεία µε µεγάλα Χ να έχουν και µεγάλα Υ. Τα αντίθετα ισχύουν όταν οι περισσότερες διαφορές είναι ετερόσηµες. Εποµένως, όταν οι οµόσηµες διαφορές είναι περισσότερες και µεγαλύτερες σε απόλυτη τιµή από τις ετερόσηµες, τότε η τιµή της συνδιακύµανσης είναι θετική. Αντίθετα, όταν οι ετερόσηµες διαφορές είναι περισσότερες και µεγαλύτερες σε απόλυτη τιµή από τις οµόσηµες, τότε η τιµή της συνδιακύµανσης είναι αρνητική. γ) Ύστερα απ'όλα αυτά γίνεται φανερό το γιατί µπορούµε να θεωρήσουµε την συνδιακύµανση σαν ένα δείκτη για την συµµεταβολή των τυχ.µεταβλητών Χ και Υ. Το τελικό συµπέρασµα παρουσιάζεται στον επόµενο πίνακα: Συνδιακύµανση Παρατηρήσεις Cov(X,Y) > 0 Υπάρχει µια γενική τάση σύµφωνα µε την οποία όταν η τ.µ. Χ αυξάνεται, η τ.µ Υ να µεταβάλλεται σαν αύξουσα συνάρτησή της. Cov(X,Y) = 0 ∆εν υπάρχει κάποιας µορφής συσχέτιση ανάµεσα στις δύο τ.µ., ή η µία από τις δύο είναι σταθερή. Cov(X,Y) < 0 Υπάρχει µια γενική τάση σύµφωνα µε την οποία όταν η τ.µ. Χ αυξάνεται, η τ.µ Υ να µεταβάλλεται σαν φθίνουσα συνάρτησή της. 126 Παρατήρηση: Η τιµή της συνδιακύµανσης δεν αποτελεί απόλυτο κριτήριο για το βαθµό συσχέτισης των δύο τυχ.µεταβλητών, αλλά µια ένδειξη τάσης. Ας υποθέσουµε, για παράδειγµα πως η τιµή αυτή είναι θετική µεν, αλλά αρκετά µικρή, ενώ οι διακυµάνσεις των δύο τυχαίων µεταβλητών σx και σψ είναι αισθητά µεγαλύτερες. Στην περίπτωση αυτή αντιλαµβανόµαστε πως η τιµή της συνδιακύµανσης δείχνει πως σε κάποια άτοµα του πληθυσµού οι τιµές των τυχαίων µεταβλητών µεταβάλλονται παρόµοια (αυξάνονται ή µειώνονται και οι δύο), ενώ σε κάποια άλλα συµβαίνει το ακριβώς αντίθετο, µόνο που το πρώτο φαινόµενο είναι κάπως ισχυρότερο (ή συχνότερο). Εδώ λοιπόν η θετική τιµή της συνδιακύµανσης δεν δηλώνει τίποτε άλλο πέρα από µια ασθενή τάση. Εάν τέλος η τιµή της συνδιακύµανσης είναι κοντά στο µηδέν (και εφ'όσον οι διακυµάνσεις της κάθε µιας τυχ.µεταβλητής δεν είναι πολύ µικρές) µπορούµε να µιλούµε για ασυσχέτιστες τυχαίες µεταβλητές. Παράδειγµα Γ.2. (2η συνέχεια...) Ξαναγυρνώντας στο παράδειγµα της προηγούµενης παραγράφου, θα υπολογίσουµε την συνδιακύµανση των τιµών Χi και Υi του διπλανού πίνακα. χκ ψκ 1 2 2 3 3 5 7 7 5 6 4 2 3 3 1 2 Λύση: Πριν υπολογίσουµε την τιµή της συνδιακύµανσης, παρατη-ρούµε τη γραφική παράσταση του σχήµατος Γ.7. Αµέσως αντιλαµβανό-µαστε πως υπάρχει µια φθίνουσα τάση στις τιµές της Υ όταν αυξάνονται οι τιµές των Χ. Περιµένουµε λοιπόν τη συνδιακύµανση αρνητική και µάλιστα όχι κοντά στο µηδέν. Ιδωµεν... Από τον πίνακα του προηγούµενου παραδείγµατος έχουµε πως: Σχi = 30 , Σψi = 26 , Σ(χiψi) = 76 οπότε: νΣ(ΧiYi) - Σ(Χi)Σ(Yi) Cov(X,Y) = ---------------------------- = ν2 127 8*76 - 30*26 -172 = ------------------ = ------- = -2.6875 82 64 Οι τυπικές αποκλίσεις σx και σψ αποδεικνύεται πως είναι ίσες µε: σx = 2.165 και σψ = 1.561 οπότε η τιµή της συνδιακύµανσης δείχνει αυτό που παρατηρήσαµε από τη γραφική παράσταση των δεδοµένων (Σχ.Γ.7), ότι δηλαδή οι τιµές Χi και Yi έχουν σηµαντικό βαθµό συσχέτισης. Γ.2.2. Συντελεστής γραµµικής συσχέτισης. Σύµφωνα µε τα όσα είπαµε στην παρατήρηση της προηγούµενης παραγράφου για τη συνδιακύµανση, η τιµή της είναι µόνο ένας σχετικός δείκτης για την εξάρτηση των τιµών µιας τυχ.µεταβλητής, απ'αυτές µιας άλλης. Οταν µάλιστα η τιµή της συνδιακύµανσης είναι σαφώς µικρότερη απ'αυτές των τυπικών αποκλίσεων των τιµών Χ και Υ, τότε η σηµασία της είναι ελάχιστη. Ο επόµενος λοιπόν ορισµός είναι ένα λογικό επακόλουθο των προηγουµένων. Ορισµός Γ.7. Έστω οι δύο τυχαίες µεταβλητές Χi και Υi στα ν στοιχεία ενός πληθυσµού, µε τυπικές αποκλίσεις τις σx και σψ. Ο βαθµός γραµµικής εξάρτησης της µιας µεταβλητής από την άλλη δίνεται από τον συντελεστή γραµµικής συσχέτισης: Cov(X,Y) rxψ = --------------σx σψ 128 Αντικαθιστώντας τους τύπους της συνδιακύµανσης, της τυπικής απόκλισης και της µέσης τιµής στον τύπο του συντελεστή γραµµικής συσχέτισης, έχουµε τον τύπο υπολογισµού του r: νΣ(ΧiYi) - Σ(Χi)Σ(Yi) ---------------------------Cov(X,Y) ν2 rxψ = ------------- = ------------------------------------------ΣxΣψ Σ(Χi2) Σ(Υi2) -------- - µx2 -------- - µψ2 ν ν ⇒ ν(Σχiψi) - (Σχi)(Σψi) rxψ = ---------------------------------------------[ν(Σχi2) - (Σχi)2]*[ν(Σψi2) - (Σψi)2] όπου όλα τα αθροίσµατα (Σ) "πηγαίνουν" από i=1 έως ν. Ιδιότητες του συντελεστή γραµµικής συσχέτισης: i) Ο συντελεστής γραµµικής συσχέτισης r είναι καθαρός αριθµός, δεν εξαρτάται εποµένως από τις µονάδες των τυχ.µεταβλητών Χ και Υ. ii) Αποδεικνύεται[2] πως ο r µπορεί να πάρει τιµές από το -1 έως το 1. iii) Το πρόσηµο του r δηλώνει µόνο την κλίση της ευθείας ελαχίστων τετραγώνων που ορίζεται από τα σηµεία (Χi,Yi). Είναι εποµένως το r οµόσηµο µε τον συντελεστή διεύθυνσης της ευθείας ελαχίστων τετραγώνων, α. iv) Το r παίρνει ακριβώς την τιµή 1 (ή -1), όταν όλα τα δεδοµένα (Χi,Υi) βρίσκονται ακριβώς πάνω στην ευθεία των ελαχίστων τετραγώνων, που είναι αύξουσα (φθίνουσα). Στην περίπτωση αυτή µιλάµε βέβαια για συναρτησιακή εξάρτηση και µάλιστα γραµµική. v) Όσο η απόλυτη τιµή του r είναι κοντά στη µονάδα, τόσο πιό κοντά στην ευθεία των ελαχίστων τετραγώνων βρίσκονται τα δεδοµένα (Χi,Υi). Τόσο ισχυρότερη είναι λοιπόν η γραµµική συσχέτιση που υπάρχει ανάµεσα στις µεταβλητές Χ και Υ. 129 vi) Αντίθετα, όσο πιο κοντά στο µηδέν είναι η τιµή του r, τόσο λιγότερο καλά προσεγγίζει η ευθεία των ελαχίστων τετραγώνων τα σηµεία (Χi,Υi). Τότε λέµε πως δεν υπάρχει γραµµική εξάρτηση, ή γραµµική συσχέτιση ανάµεσα στις µεταβλητές Χ και Υ. vii) Η ύπαρξη συσχέτισης ανάµεσα στις µεταβλητές Χ και Υ δεν εξαρτάται µόνον από την τιµή του r, αλλά και από το πλήθος ν των στοιχείων του πληθυσµού. Έτσι, µία τιµή του r µπορεί να µην εξασφαλίζει την ύπαρξη συσχέτισης για ν=8, αλλά να εξασφαλίζει την ύπαρξη συσχέτισης σ'έναν πληθυσµό µε ν=30. Παρατηρούµε δηλαδή πως όσο το πλήθος των δεδοµένων ν είναι µεγαλύτερο, τόσο µικρότερη είναι η οριακή τιµή του r, η οποία δηλώνει την ύπαρξη συσχέτισης. Ο επόµενος πίνακας δίνει µια αντιστοιχία ανάµεσα στην τιµή του r, στον χαρακτηρισµό της συσχέτισης και στο πλήθος ν. Χαρακτηρισµός της συσχέτισης: ν=10 ν=20 ν=40 Απόλυτη Ισχυρότατη Ισχυρή Μέτρια Ασθενής 1 0.95 - 0.99 0.85 - 0.95 0.70 - 0.85 0.55 - 0.70 1 0.90 - 0.99 0.75 - 0.90 0.55 - 0.75 0.40 - 0.55 1 0.85 - 0.99 0.65 - 0.85 0.40 - 0.65 0.30 - 0.40 Απίθανη η ύπαρξη συσχέτισης... r < 0.55 r < 0.40 r < 0.30 Πίνακας Γ.4. Η αντιστοιχία ανάµεσα στο χαρακτηρισµό της συσχέτισης και στην τιµή του συντελεστή γραµµικής συσχέτισης, σε σχέση µε το πλήθος ν των στοιχείων (Xi,Yi). Στα επόµενα σχεδιαγράµµατα παρατηρούµε τέσσερις διαφορετικές περιπτώσεις όπου η συσχέτιση των δύο τυχαίων µεταβλητών ανήκει σε διαφορετικές κατηγορίες. 130 ψ ψ ** *** * * * * ** * * * ** * * * * * x x Α:απόλυτη συσχέτιση (r=-1) B:ισχυρή συσχέτιση (r=0.9) ψ ψ * * * * * * * * * * * * * * * * ** * * * * ** ** ** ** * * * * * * * ** ** * * * * * * * * * ** * * * ** * x Γ:χαλαρή συσχέτιση (r=-0.6) x ∆:δεν υπάρχει συσχέτιση (r=-0.2) Σχ.Γ.8. Τέσσερα διαφορετικά ζεύγη τυχ.µεταβλητών και οι γραµµικές συσχετίσεις τους. iix) Είναι, νοµίζουµε προφανές πως εάν αλλάξουµε αµοιβαία στους άξονες τις τιµές των χ και των ψ, η ευθεία ελαχίστων τετραγώνων µετα-βάλλεται τελείως. Συµβαίνει όµως να µεταβάλλεται και ο συντελεστής γραµµικής συσχέτισης. Αυτό οφείλεται στον τρόπο µε τον οποίο ορίζουµε τις "αποστάσεις" των σηµείων των δεδοµένων από την ευθεία των ελαχίστων τετραγώνων (παράλληλα προς τον άξονα των ψ). Η προσέγγιση των δεδοµένων µε τη βοήθεια της ευθείας ελαχίστων τετραγώνων, µε τον τρόπο αυτό του ορισµού των αποστάσεων, υπονοεί πως το σηµείο των δεδοµένων (Xi,Yi) θα έπρεπε να βρίσκεται πάνω στην ευθεία, οπότε η απόσταση di, µπορεί να θεωρηθεί σαν σφάλµα της τιµής Υi, θεωρώντας ταυτόχρονα τη µέτρηση Χi, ακριβή. ψ * * * * * * * * * * di * * 131 Συµπέρασµα: Βάζουµε στον άξονα των Χi, εκείνη από τις δύο τυχαίες µεταβλητές της οποίας τις τιµές τις θεωρούµε ακριβέστερες. Παράδειγµα Γ.2. (3η συνέχεια...) Ξαναγυρίζουµε, για τελευταία φορά στα δεδοµένα του παραδείγµατος Γ.2, προσπαθώντας να υπολογίσουµε τον συντελεστή γραµµικής συσχέτισης. χκ ψκ 1 2 2 3 3 5 7 7 5 6 4 2 3 3 1 2 1ος τρόπος: Για να µπορέσουµε να εφαρµόσουµε τον τύπο του r µε τα διάφορα αθροίσµατα, θα πρέπει να προσθέσουµε στον πίνακα που δηµιουργήσαµε για τον υπολογισµό της ευθείας ελαχίστων τετραγώνων, µία ακόµη κολόνα, όπου θα αθροίζονται τα ψ2. Με τη βοήθεια λοιπόν του διπλανού πίνακα ο τύπος του r δίνει τα εξής: Σχ=30 , Σχ2=150 , Σχψ=76 , και Σψ=26 , Σψ2=104. χκ χκ2 ψκ ψ κ2 χκψκ 1 2 2 3 3 5 7 7 1 4 4 9 9 25 49 49 5 6 4 2 3 3 1 2 25 36 16 4 9 9 1 4 5 12 8 6 9 15 7 14 30 150 26 104 76 ν(Σχiψi) - (Σχi)(Σψi) 8*76 - 30*26 rxψ = --------------------------------------------- = --------------------------------- = [ν(Σχi2) - (Σχi)2]*[ν(Σψi2) - (Σψi)2] (8*150-302)(8*104-262) -172 = -------------- = -0.795 300*156 132 2ος τρόπος: Στη 2η συνέχεια του παραδείγµατος υπολογίσαµε πως: Cov(X,Y) = -2.5294 , σx = 2.165 και σψ = 1.561 Αντικαθιστώντας τις τιµές αυτές στον τύπο του ορισµού του συντελεστή γραµµικής συσχέτισης r, έχουµε: Cov(X,Y) -2.6875 rxψ = -------------- = --------------- = -0.795 σxσψ 2.165*1.561 Σύµφωνα µε τον πίνακα Γ.4, ο συντελεστής συσχέτισης που µόλις υπολογίσαµε δείχνει την ύπαρξη µιας µέτριας γραµµικής συσχέτισης ανάµεσα στις τιµές Χ και Υ. Γ.2.3. Επίδραση των γραµµικών µετασχηµατισµών στην τιµή της συνδιακύµανσης και του συντελεστή γραµµικής συσχέτισης. Στο µάθηµα της Στατιστικής Ι αντιµετωπίσαµε τους µετασχηµατισµούς µιας τυχαίας µεταβλητής Χi, και την επίδρασή τους στις παραµέτρους µ (µέση τιµή) και σ (τυπική απόκλιση). Είδαµε επίσης πόσο οι µετασχηµατισµοί µπορούν να απλοποιήσουν τις πράξεις κατά τους υπολογισµούς. Στην παράγραφο αυτή θα γνωρίσουµε την επίδραση των γραµµικών µετασχηµατισµών στην τιµή της συνδιακύµανσης και του συντελεστή γραµ.συσχέτισης. Έστω λοιπόν οι τυχ.µεταβλητές Xi και Yi, για i=1,2,..,ν, µε τις παρακάτω παραµέτρους: Μέση τιµή: µx και µψ, τυπική απόκλιση: σx και σψ και συνδιακύµανση: Var(X,Y). Εάν τα a, b, c και d είναι τέσσερις πραγµατικές σταθερές, οι παράµετροι των τυχαίων µεταβλητών: Ti = aXi + b και 133 Ρi = cYi + d δίνονται από τον πίνακα: Τυχαία µεταβλητή µέσος όρος τυπική απόκλιση συνδιακύµανση και συντ.συσχ.: r Ti = aXi+b Ρi = cYi+d µτ = aµx+b µp = cµψ+d στ = aσx σp = cσx Cov(T,P) = acCov(X,Y) rτp = rxψ Οι σχέσεις που αφορούν στο µέσο όρο και την τυπική απόκλιση έχουν αποδειχθεί στη Στατιστική Ι. Η απόδειξη της σχέσης για το r είναι προφανής, εάν δεχθούµε τις σχέσεις της συνδιακύµανσης και της τυπικής απόκλισης. Αποµένει εποµένως η απόδειξη για τη συνδιακύµανση, που υπάρχει στο τέλος του κεφαλαίου[3]. Αν τέλος δεχθούµε τα προηγούµενα, εύκολα µπορούµε να υπολογίσουµε τις παραµέτρους του πιο συνηθισµένου µετασχηµατισµού: Yi-d Xi-b ZXi = -------- και ZΥi = --------a c όπου έχουµε: Cov(ZX,ZY) = Cov(X,Y)/(ac) και rzx,zψ = rxψ Εφαρµογή: Όλα τα προηγούµενα µπορούν, όταν τα δεδοµένα το επιτρέπουν, να απλοποιήσουν τους τύπους των παραµέτρων α και β της ευθείας των ελαχίστων τετραγώνων, καθώς και τον τύπο του συντελεστή r της γραµµικής συσχέτισης. Μπορούµε να απλοποιήσουµε τους τύπους αυτούς όταν τα δεδοµένα του άξονα των χ είναι ισαπέχοντα. Στην περίπτωση αυτή εκτελούµε έναν από τους παρακάτω δύο µετασχηµατισµούς: 134 1ος) Οταν το πλήθος ν των σηµείων των δεδοµένων είναι περιττό, εκτελούµε τον, πολύ γνωστό από τη Στατιστική Ι, µετασχηµατισµό: Xi - µ Ζi = --------ε όπου, µ : η µεσαία τιµή από τις ν τιµές των Χi, ε : Xi+1 - Xi , δηλ. η απόσταση ανάµεσα σε δύο διαδοχικά Χ, η οποία είναι σταθερή, µια και όπως έχουµε ήδη πεί, οι τιµές του άξονα των χ είναι διαδοχικές και ισαπέχουσες. 2ος) Οταν το πλήθος ν των σηµείων των δεδοµένων είναι άρτιο, εκτελούµε τον µετασχηµατισµό: Xi - µ' Ζi = ---------ε/2 όπου, µ': το ηµιάθροισµα των δύο µεσαίων τιµών από τις ν τιµές των Χi, ε : Xi+1 - Xi , και πάλι δηλαδή η απόσταση ανάµεσα σε δύο διαδοχικά Χ. Εχουµε λοιπόν, κατά την περίπτωση αυτή, στον παρονοµαστή το µισό της απόστασης δύο διαδοχικών Χ. Το τελικό αποτέλεσµα των δύο αυτών µετασχηµατισµών είναι πως το άθροισµα Σ(Ζi) είναι πάντα ίσο µε το µηδέν. Εάν λοιπόν στους τύπους που δίνουν τους συντελεστές α, β και r για τα νέα δεδοµένα (Ζi,Yi), αντικαταστήσουµε το εν λόγω άθροισµα µε το µηδέν, καταλήγουµε εύκολα στους τύπους: Σ(zi*ψi) α = -----------Σ(zi2) Σ(ψi) β = ---------ν και (Σziψi) rzψ = -----------------------------------(Σzi2)*[(Σψi2) - (Σψi)2/ν] 135 Παράδειγµα: Ο ετήσιος τζίρος µιας οικογενειακής επιχείρησης, σε εκατοµµύρια δραχµές, από το έτος ίδρυσής της (1988), έως το προηγούµενο οικονοµικό έτος (1993) δίνεται από τον διπλανό πίνακα. Θέλουµε να υπολογίσουµε την τιµή των παραµέτρων α,β και r της γραµµικής παλινδρόµησης και συσχέτισης. Έτος Τζίρος 1988 1989 1990 1991 1992 1993 21.8 51.3 49.4 55.6 60.3 57.9 Λύση: Παρατηρούµε πως οι τιµές που θα τοποθετηθούν στον άξονα των χ είναι ισαπέχουσες, ενώ το πλήθος τους είναι άρτιο (ν=6). Σύµφωνα µε τα παραπάνω αξίζει να κάνουµε τον µετασχηµατισµό: Xi - 1990.5 Ζi = ---------------1/2 Με τον τρόπο αυτό δηµιουργούµε τον επόµενο πίνακα, στον οποίο υπολογίζονται όλες οι ποσότητες που απαιτούνται για την εύρεση των τιµών των συντελεστών α, β, r. Έχουµε λοιπόν: Σ(zi*ψi) 213.7 α = ------------ = --------- = 3.053 Σ(zi2) 70 Σ(ψi) Xi Zi Zi2 Yi Yi2 ΖiYi 1988 1989 1990 1991 1992 1993 -5 -3 -1 1 3 5 25 9 1 1 9 25 21.8 51.3 49.4 55.6 60.3 57.9 475.24 2631.69 2440.36 3091.36 3636.09 3352.41 -109.0 -153.9 -49.4 55.6 180.9 289.5 Σύν. 0 70 290.3 15627.15 213.7 296.3 β = --------- = -------- = 49.383 ν 6 (Σziψi) 213.7 rzψ = --------------------------------- = ---------------------------------- = (Σzi2)*[(Σψi2) - (Σψi)2/ν] 70*(15627.15 - 296.32/6) = 213.7/263.895 = 0.8098 136 Τα παραπάνω αποτελέσµατα γίνονται φανερά και από την παρακάτω γραφική παράσταση. Παρατηρείστε πως η ευθεία ελαχίστων τετραγώνων χαράσσεται µε τη βοήθεια δύο σηµείων Σ1 και Σ2, τα οποία µπορούν να αντιστοιχούν στις τιµές της ευθείας για δύο οποιαδήποτε z. Συνήθως (για µεγαλύτερη ακρίβεια στη χάραξη) διαλέγουµε τα δύο πιο αποµακρυσµένα z (εδώ το -5 και το 5). Έχουµε λοιπόν τον πίνακα τιµών: -5 34.118 z ψ = 3.053*z+49.383 5 64.648 και στη γραφική παράσταση: 75 50 25 0 -6 -4 -2 0 2 4 6 -25 Σχ.Γ.9: Ο ετήσιος τζίρος µιας οικογενειακής επιχείρησης από το 1988 έως το 1993 και η ευθεία των ελαχίστων τετραγώνων που προσαρµόζεται στα δεδοµένα αυτά. Γ.2.4. Παράδειγµα Γ.3. Ο κάθε οδηγός διαλέγει συνήθως το αυτοκίνητό του έτσι ώστε να τον ικανοποιεί σε κάποιες προσωπικές του ανάγκες, επιλογές και προτεραιότητες. Όµως η ενηµέρωση του κάθε καταναλωτή, σ'ένα τόσο σηµαντικό ζήτηµα, γίνεται πάντα µε σωστό κατά βάση τρόπο; Επίσης από τις πληροφορίες, που τον κατακλύζουν από τον έντυπα και ηλεκτρονικά µέσα µαζικής ενηµέρωσης, θα µπορέσει να ξεχωρίσει αυτές που τον ενδιαφέρουν πραγµατικά και ανταποκρίνονται στις ιεραρχήσεις του; 137 Οι περισσότεροι οδηγοί δηλώνουν πως αναζητούν ένα αυτοκίνητο που να έχει καλή οδική συµπεριφορά, καλές επιδόσεις, να είναι αξιόπιστο, να είναι ξεκούραστο και άνετο κατά την οδήγηση και να έχει καλή ποιότητα κατασκευής. Οι περισσότεροι όµως οδηγοί, όταν ζητούν καλές επιδόσεις, ζητούν από το αυτοκίνητό τους να προσπερνά µε άνεση και ασφάλεια. ∆ιαλέγουν λοιπόν ένα αυτοκίνητο µε βάση την ιπποδύναµή του, την επιτάχυνσή του από στάση(*) και την τελική του ταχύτητα. Άλλωστε, τα στοιχεία αυτά βρίσκονται συνήθως στα διαφηµιστικά φυλλάδια των αντιπροσωπειών. Βέβαια, η επιτάχυνση από στάση ενός αυτοκινήτου δείχνει, κυρίως, την ικανότητά του να ξεφεύγει µπροστά από τα άλλα αυτοκίνητα στον... "αγώνα των φωτεινών σηµατοδοτών". Κάτι τέτοιο όµως δεν αποτελεί την πρώτη προτεραιότητα των περισσοτέρων οδηγών. Εµείς, θεωρούµε πως ο βασικός δείκτης για το πώς προσπερνά ένα αυτοκίνητο στις Ελληνικές συνθήκες(**) είναι η εν κινήσει επιτάχυνσή του από τα 80 στα 110 µε την τέταρτη ταχύτητα. Πρόκειται για έναν δείκτη που δεν αναφέρεται συνήθως στα διαφηµιστικά φυλλάδια των αντιπροσωπειών αυτοκινήτων. Τίθεται εποµένως το ερώτηµα του κατά πόσο η εν κινήσει επιτάχυνση ενός αυτοκινήτου, είναι κάτι που µπορεί να συναχθεί από τις συνηθισµένες παραµέτρους: ιπποδύναµη, επιτάχυνση από στάση και ροπή στρέψης (την οποία σπάνια προσέχουµε). Την απάντηση στο ερώτηµα αυτό µπορεί να µας την δώσει ο συντελεστής της ευθύγραµµης συσχέτισης. Το πρόβληµα: ∆ιαλέξαµε λοιπόν 15 αυτοκίνητα της µεσαίας κατηγορίας, µε κινητήρα ίδιου κυβισµού 1.6 lit. Βέβαια κάποιοι θα αναρωτηθούν γιατί δεν επιλέξαµε αυτοκίνητα διαφορετικού κυβισµού, έτσι ώστε να µελετήσουµε και την εξάρτηση της άνεσης στην προσπέραση από τον κυβισµό του κινητήρα. ∆υστυχώς όµως η Ελληνική νοµοθεσία επιβαρύνει υπερβολικά τα αυτοκίνητα µε µεγάλο κυβισµό, καθιστώντας δυσπρόσιτα στην πλειοψηφία των Ελλήνων καταναλωτών. Για το λόγο αυτό διαλέξαµε (µε εξαίρεση το Rover) τον µικρότερο κινητήρα που διατίθεται από την κάθε εταιρεία, για το συγκεκριµένο αµάξωµα. Στον επόµενο πίνακα υπάρχουν τα στοιχεία για την ισχύ του κινητήρα, καθώς και µετρήσεις των επιδόσεών τους, από το περιοδικό 4 Τροχοί. (*) Συνήθως πρόκειται για το χρόνο που απαιτείται για να φθάσει το αυτο-κίνητο από στάση, στην ταχύτητα των 100 Km/h. (**) Μιλούµε για τις συνθήκες που επικρατούν στο µεγαλύτερο κοµµάτι του οδικού δικτύου της χώρας µας, αλλά και τις συνήθειες των Ελλήνων οδηγών. 138 Μάρκα-Τύπος ALFA ROMEΟ 75 1.6 AUDI 80 1.6 BMW 316i CITROEN XANTIA 1.6 FIAT TEMPRA 1.6 FORD MONDEO 1.6 HYNDAI LANTRA 1.6 LANCIA DEDRA 1.6 MAZDA XEDOS 1.6 NISSAN PRΙMERA 1.6 OPEL VECTRA 1.6 PEUGEOT 405 1.6 ROVER 216 GTI SUBARU LEGACY 1.6 TOYOTA CARINA 1.6 Iσχύς Hp-DIN Ροπή (kg/m) 0-120 km/h (sec) 80-110 4n (sec) Τελική ταχύτητα 107 100 102 89 80 90 114 90 113 102 75 89 122 95 115 14.0 13.3 15.3 13.5 13.0 14.1 14.2 13.0 14.1 13.9 12.7 13.0 14.3 13.0 15.0 18.4 18.3 16.7 21.9 22.5 19.1 15.8 18.3 14.9 17.3 21.4 17.8 14.3 20.5 14.1 10.6 9.0 9.3 11.4 9.9 9.6 9.2 12.1 10.0 10.7 11.1 9.6 9.2 11.7 9.4 172 183 200 180 169 187 186 176 197 185 180 176 200 170 195 Πίνακας Γ.5. Οι παράµετροι του κινητήρα και οι επιδόσεις 15 αυτοκινήτων της µεσαίας κλάσης (διαλέξαµε την επιτάχυνση 0-120 Km/h, αντί της κλασσικής 0-100, γιατί πιστεύουµε πως στα σύγχρονα αυτοκίνητα είναι πιο χαρακτηριστική). Το πρόβληµα που θα αντιµετωπίσουµε είναι να υπολογίσουµε την ύπαρξη ή όχι συσχέτισης ανάµεσα στις διάφορες µετρήσεις. Το πιο ενδιαφέρον όµως στοιχείο του παραδείγµατος αυτού θα είναι ο σχολιασµός των αποτελεσµάτων, µια και ο τρόπος λύσης της άσκησης θα είναι παρόµοιος µ'αυτόν των δύο προηγουµένων. ∆υστυχώς όµως καµιά από τις παραµέτρους δεν έχει τιµές διαδοχικές και ισαπέχουσες, µε αποτέλεσµα να µην µπορούµε να χρησιµοποιήσουµε τον µετασχηµατισµό της προηγούµενης παραγράφου. i) Αρχικά θα υπολογίσουµε το συντελεστή γραµµικής συσχέτισης ανάµεσα στα µεγέθη της ιπποδύναµης του κινητήρα και της επιτάχυνσης 0-120. Θέτουµε λοιπόν: Χi = ιπποδύναµη του i-οστού αυτοκινήτου και Yi = επιτάχυνση 0-120 του i-οστού αυτοκινήτου. Από τον πίνακα υπολογίζουµε: ΣXi = 1483.00 ΣXi2 = 149223.00 ΣYi = 271.30 ΣYi2 = 5007.19 και ΣXiYi = 26369.60 139 οπότε οι συντελεστές α και β της ευθείας ελαχίστων τετραγώνων και ο συντελεστής συσχέτισης r είναι ίση µε: και ψ = αχ+β = -0.17395*χ + 35.28489 r = -.88640 24 20 sec 16 12 70 90 110 130 Ch(Din) Σχ.Γ.10. Η επιτάχυνση 0-120 σαν συνάρτηση της ιπποδύναµης του κινητήρα. Το συµπέρασµα είναι το ίδιο, είτε βασιστούµε στο συντελεστή r, είτε εµπιστευτούµε την εικόνα της γραφικής παράστασης. ∆ιαπιστώνουµε µια ισχυρή αρνητική συσχέτιση των δύο αυτών µεγεθών, πράγµα που σηµαίνει πως δεν είναι απαραίτητο να γνωρίζουµε και τις δύο αυτές τιµές, µια και η πρώτη (ιπποδύναµη) µας δίνει αρκετές πληροφορίες για τη δεύτερη (επιτάχυνση). ii) Θα επιλέξουµε τώρα σαν Χi την ιπποδύναµη του κινητήρα και σαν Yi την επιτάχυνση 80-110 (µε 4η). Έχουµε τώρα πως: και ΣΧi = 1483.00 ΣXi2 = 149223.00 ΣYi = 152.80 ΣYi2 = 1570.78 ΣXiYi = 15014.40 ⇒ r = -0.47970 Το αποτέλεσµα αυτό µας δηλώνει πως αν υπάρχει κάποια συσχέτιση της επιτάχυνσης εν κινήσει (80-110) µε την ιπποδύναµη, αυτή θα είναι πολύ χαλαρή. Άρα κάποιος που θέλει κατά βάση ένα αυτοκίνητο που να προσπερνά άνετα και εύκολα, και αγοράζει ένα αυτοκίνητο µε βάση την ιπποδύναµη του κινητήρα, έχει τελικά µεγάλη πιθανότητα να πέσει έξω!... 140 iii) Μήπως όµως η επιτάχυνση (0-120) είναι ικανοποιητικός δείκτης για την ικανότητα του αυτοκινήτου στο προσπέρασµα; Ας δούµε. Επιλέγουµε Xi την επιτάχυνση (0-120) και Yi τις επιταχύνσεις (80-110), και βρίσκουµε: και ΣΧi = 271.30 ΣXi2 = 5007.19 ΣYi = 152.80 ΣYi2 = 1570.78 ΣXiYi = 2784.09 ⇒ r = 0.54077 Κι εδώ η συσχέτιση είναι τόσο χαλαρή που δεν θα'ταν φρόνιµο να βασιστεί κανείς επάνω της. Καταλαβαίνετε λοιπόν πόσο λανθασµένη επιλογή µπορούµε να κάνουµε, βασιζόµενοι στις ενδείξεις των διαφηµιστικών φυλλαδίων. iv) Η τελευταία παράµετρος απ'αυτές που συνηθίζονται στα διαφηµιστικά φυλλάδια, είναι η τελική ταχύτητα. ∆ιαλέγουµε λοιπόν Χi την επιτάχυνση (80110) και Yi την τελική ταχύτητα. Έχουµε: και ΣXi = 152.80 ΣXi2 = 1570.78 ΣYi = 2756.00 ΣYi2 = 507910.00 ΣXiYi = 27990.40 ⇒ r = -0.56706 Παρατηρούµε πως ούτε και η τελική ταχύτητα ενός αυτοκινήτου δεν µπορεί να δώσει σηµαντικές πληροφορίες για την άνεση µε την οποία προσπερνά ένα αυτοκίνητο, µια και ο συντελεστής r δείχνει την ύπαρξη µιας χαλαρής συσχέτισης ανάµεσα στα δύο µεγέθη... 210 190 170 150 9 10 11 12 Σχ.Γ.11. Το σχεδιάγραµµα αυτό είναι χαρακτηριστικό, για τις µεταβλητές που έχουν µια χαλαρή συσχέτιση. 141 v) Κάποιοι γνώστες θα µιλήσουν για τη σηµασία της ροπής. Τοποθετώντας λοιπόν τη ροπή του κάθε κινητήρα στον άξονα των χ και την επιτάχυνση εν κινήσει (80-100 µε 4η) στον άξονα των ψ. Τα αποτελέσµατα έχουν ως εξής: ΣΧi = 206.40 ΣYi = 152.80 και ΣXi2 = 2848.48 ΣYi2 = 1570.78 ⇒ r = -0.55487 ΣXiYi = 2096.45 Παρατηρούµε πως ούτε και η ροπή είναι ένα µέγεθος που δίνει σίγουρες πληροφορίες για τον τρόπο µε τον οποίο προσπερνά ένα αυτοκίνητο. Το τελικό συµπέρασµα είναι πως το µέγεθος που µας ενδιαφέρει αποδεικνύεται ιδιαίτερα περίπλοκο, µια και εξαρτάται από πολλούς παράγοντες, από τους οποίους οι πιο σηµαντικοί είναι: α) το µέγεθος της ροπής του κάθε κινητήρα, β) το όριο των στροφών στις οποίες εµφανίζεται η µέγιστη ροπή, γ) την κλιµάκωση των σχέσεων του κιβωτίου ταχυτήτων (ειδικά της 4ης), δ) το βάρος του αυτοκινήτου, ε) τις αεροδυναµικές παραµέτρους του αυτοκινήτου, στ) τις διαστάσεις των ελαστικών, κ.λ.π. Για το λόγο αυτό η συγκεκριµένη παράµετρος (επιτάχυνση 80-110 µε 4η) είναι ένα µέγεθος που δεν συνάγεται από τα δεδοµένα των διαφηµιστικών φυλλαδίων... Γ.2.5. Συσχέτιση ανάµεσα σε µεγέθη που δίνονται µε πίνακα διπλής εισόδου. Εξετάζουµε τώρα την περίπτωση κατά την οποία τα στατιστικά δεδοµένα των τυχαίων µεταβλητών Χi και Yi έχουν καταταγεί σε κλάσεις και εµφανίζονται σε έναν πίνακα διπλής εισόδου. Η µεθοδολογία που ακολουθείται για τον υπολογισµό της ευθείας ελαχίστων τετραγώνων και του συντελεστή συσχέτισης, είναι παρόµοια µ’αυτήν που αναπτύχθηκε στην προηγούµενη παράγραφο. Η λογική µε την οποία προκύπτουν οι τύποι, θυµίζει έντονα τους τύπους για την µέση τιµή και την τυπική απόκλιση, όταν είχαµε τα δεδοµένα σε κλάσεις. 142 Έστω λοιπόν πως θέλουµε να υπολογίσουµε την ευθεία ελαχίστων τετραγώνων και το συντελεστή συσχέτισης που συνδέουν τις τυχαίες µεταβλητές Χi και Yi, οι τιµές των οποίων δίνονται µε τον παρακάτω πίνακα: Ψ Ψ1 Ψ2 ... Ψκ-1 Ψκ Σύνολο Χ1 ... Χλ f1,1 ... fλ,1 f1,2 ... fλ,2 ... ... ... f1,κ-1 ... fλ,κ-1 f1,κ ... fλ,κ Σf1,j ... Σfλ,j Σύνολο Σfi,1 Σfi,2 ... Σfi,κ-1 Χ Σfi,κ Σfi,j=ν Για να γραφούν οι τύποι της ευθύγραµµης παλινδρόµησης και συσχέτισης, πρέπει να υπολογισθούν τα αθροίσµατα που εµφανίζονται στους τύπους των αναλυτικών δεδοµένων. Παρατηρώντας προσεκτικά τον πίνακα διπλής εισόδου καταλήγουµε στις παρακάτω αντιστοιχίες: ν λ κ κ κ κ Σxi Σ ( Σfi,j ) xi = (Σf1,j) x1 + (Σf2,j) x2 +...+ (Σfλ,j) xλ i=1 i=1 j=1 ν λ Σxi 2 i=1 j=1 κ j=1 κ 2 j=1 κ κ Σ ( Σfi,j ) xi = (Σf1,j) x1 + (Σf2,j) x2 +...+ (Σfλ,j) xλ2 i=1 j=1 2 j=1 j=1 λ λ j=1 ν κ Σψi Σ ( Σfi,j ) ψj = (Σfi,1) ψ1 + (Σfi,2) ψ2 +...+ (Σfi,λ) ψκ i=1 j=1 i=1 ν κ Σψi λ 2 2 i=1 i=1 λ i=1 λ 2 λ i=1 λ λ Σ ( Σfi,j ) ψi = (Σfi,1) ψ1 + (Σfi,2) ψ2 +...+ (Σfi,λ) ψκ2 j=1 i=1 2 i=1 2 i=1 i=1 ν λ Σxiψi Σ ( Σ (fi,j xiψj))= f1,1 x1ψ1 + f1,2 x1ψ2 +...+ f1,κ x1ψκ + i=1 κ i=1 j=1 + f2,1 x2ψ1 + f2,2 x2ψ2 +...+ f2,κ x2ψκ + ............................................... + fλ,1 xλψ1 + fλ,2 xλψ2 +...+ fλ,κ xλψκ 143 Πιστεύουµε πως θα πρέπει να µελετήσετε µε προσοχή τις πιο πάνω αντιστοιχίες, και ιδιαίτερα τις αναλύσεις των αθροισµάτων. Εµείς εδώ θα παρατηρήσουµε (υπενθυµίσουµε) πως: όλα τα αθροίσµατα της µορφής: Σfi,j, εµφανίζονται στο δεξί και στο κάτω περιθώριο του πίνακα διπλής εισόδου. Αντικαθιστώντας τα αντίστοιχα αθροίσµατα στους τύπους των παραµέτρων α και β της ευθείας ελαχίστων τετραγώνων (ψ=αx+β), φθάνουµε στους επόµενους τύπους, οι οποίοι όµως δεν είναι και τόσο χρήσιµοι, µια και φαίνονται ιδιαίτερα περίπλοκοι. Συχνά είναι προτιµότερο να εφαρµόζουµε τους τύπους των παραγράφων Γ.1.6 και Γ.2.2, αντιστοιχίζοντας στα απλά αθροίσµατα τα κατάλληλα σύνθετα που δίνονται στον πίνακα διπλής εισόδου. Για το λόγο αυτό δεν αναφέρεται ο αντίστοιχος τύπος για το συντελεστή συσχέτισης, η εµφάνιση του οποίου πανικοβάλλει, µάλλον αδικαιολόγητα... κ κ κ λ λ κ Σ( Σfi,j )xi * Σ( Σfi,j ) ψj - ν*Σ( Σ (fi,j xiψj)) i=1 j=1 j=1 i=1 i=1 j=1 α = --------------------------------------------------------λ κ λ κ 2 [ Σ( Σfi,j )xi ] - ν* Σ ( Σfi,j ) xi2 i=1 j=1 λ i=1 j=1 κ λ κ λ κ κ λ 2 Σ( Σfi,j )xi * Σ( Σ (fi,j xiψj)) - Σ ( Σfi,j ) xi * Σ( Σfi,j )ψj i=1 j=1 i=1 j=1 i=1 j=1 j=1 i=1 β = -------------------------------------------------------------------------- = λ κ λ κ 2 [ Σ( Σfi,j )xi ] - ν* Σ ( Σfi,j ) xi2 i=1 j=1 = i=1 j=1 1 κ λ λ κ --- Σ( Σfi,j )ψj - α*Σ( Σfi,j )xi ν j=1 i=1 i=1 j=1 144 Γ.2.6. Παράδειγµα. Μετρήσαµε τα ύψη και τα βάρη 150 νέων γυναικών, και τις µετρήσεις (κατά κλάσεις) τις τοποθετήσαµε στο διπλανό πίνακα διπλής εισόδου. Y 45 50 55 60 65 70 75 80 85 90 X 155 160 165 170 175 180 185 Σfi,j j 1 3 10 1 17 12 5 12 20 28 2 6 1 8 7 3 2 4 3 1 i) Να δηµιουργήσετε δύο πίνακες, µε τις συχνότητες που αντιστοιχούν στο ύψος των 150 γυναιΣfi,j 1 13 30 34 39 19 10 i κών (ανεξαρτήτως του βάρους τους), και στο βάρος τους (ανεξαρτήτως του ύψους). 5 45 70 20 7 2 1 1 1 1 1 2 1 1 150 ii) Nα υπολογισθεί η εξίσωση της ευθεία ελαχίστων τετραγώνων και ο συντελεστής γραµµικής συσχέτισης. Λύση: (i) Οι δύο πίνακες συχνοτήτων στην πραγµατικότητα υπάρχουν ήδη στον πίνακα διπλής εισόδου (στο δεξί και στο κάτω περιθώριο. Έτσι, η συχνότητα της κλάσης Χ3=165 Kg είναι 70, πράγµα που σηµαίνει πως οι 70 από τις 150 γυναίκες έχουν ύψος 165 cm, ανεξάρτητα από το τί βάρος έχει η κάθε µία απ’αυτές. (ii) Παρ’όλον ότι η χρήση µετασχηµατισµών διευκολύνει τις αριθµητικές πράξεις, εδώ θα τους αποφύγουµε, µια και ο κύριος στόχος της παραγράφου είναι η παλινδρόµηση και η συσχέτιση σε δεδοµένα Χi fi Yi fi 155 5 160 45 165 70 170 20 175 7 180 2 185 1 45 50 55 60 65 70 75 80 85 90 1 13 30 34 39 19 10 2 1 1 ενός πίνακα διπλής εισόδου. Έχουµε λοιπόν: Σ(f*x) = 155*5 +160*45 +165*70 +170*20 +175*7 +180*2 +185 = = 24695 Σ(f*x2) = 1552*5 +1602*45 +1652*70 +1702*20 +1752*7 +1802*2 +1852 = = 4069275 145 Σ(f*ψ) = 45 +50*13 +55*30 +60*34 + 65*39 +70*19 +75*10 +80*2 + + 85 + 90 = 9335 Σ(f*ψ2) = 452 +502*13 +552*30 +602*34 + 652*39 +702*19 +752*10 + + 802*2 + 852 + 902 = 589925 Σ(f*x*ψ) = 155*45*1 +155*50*3 +155*55*1 + +160*50*10 +160*55*17 +160*60*12 +160*65*5 +160*70 + +165*55*12 +165*60*20 +165*65*28 +165*70*8 +165*75*2 + +170*60*2 +170*65*6 +170*70*7 +170*75*4 +170*80 + +175*70*3 +175*75*3 +175*80 + +180*75 +180*85 + 185*90 = 1541275 Αντικαθιστώντας στους τύπους της ευθείας ελαχίστων τετραγώνων και του συντελεστή συσχέτισης έχουµε: 24695*9335 - 150*1541275 (Σfx)*(Σfψ) - ν*Σ(fχ*ψ) α = -------------------------------- = ----------------------------------- = [Σfχ]2 - ν*Σ(fχ2) 246952 - 150*4069275 = (-663425)/(-528225) = 1.21 1 β = --ν 9335 - 1.21*24695 (Σfψ) - α(Σfχ) = ------------------------- = -136.97 150 ν(Σfχψ) - (Σfχ)(Σfψ) rxψ = --------------------------------------------------- = [ν(Σfχ2) - (Σfχ)2]*[ν(Σfψ2) - (Σfψ)2] 150*1541275 - 24695*9335 = ---------------------------------------------------------------- = (150*4069275 - 246952)(150*589925 - 93352) = (663425)/(859184.9) = 0.772 146 Ψ 90 1 1 80 1 70 60 1 50 3 1 1 2 4 3 1 5 8 28 7 6 3 12 17 20 12 2 1 10 x . 160 . 170 . 180 . 190 Ο συντελεστής συσχέτισης (r=0.772), αλλά και η γραφική παράσταση, δηλώνουν την ύπαρξη µιας γνωστής (θετικής) συσχέτισης, ανάµεσα στο ύψος και το βάρος των ανθρώπων, σύµφωνα µε την οποία οι ψηλότεροι άνθρωποι είναι και βαρύτεροι... Γ.2.7. Εκθετική και λογαριθµική συσχέτιση. Όπως είδαµε στην παράγραφο της παλινδρόµησης, η καµπύλη της παλινδρόµησης δεν είναι απαραίτητο να είναι ευθεία, µα µπορεί να είναι µια οποιαδήποτε συνάρτηση. Στην παράγραφο αυτή θα ασχοληθούµε µε δυο άλλες καµπύλες παλινδρόµησης, που στηρίζονται στην εκθετική και τη λογαριθµική συνάρτηση. Η επιλογή των συναρτήσεων αυτών έγινε για δύο λόγους: α) Καλύπτουν ένα µεγάλο φάσµα προβληµάτων. β) Μετά από έναν απλούστατο µετασχηµατισµό, χρησιµοποιούν αυτούσιους τους τύπους της γραµµικής συσχέτισης. i) Εκθετική συσχέτιση: Την χρησιµοποιούµε όταν η γραφική παράσταση των δεδοµένων µας πλησιάζει τις δύο επόµενες: 147 Ψ Ψ * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * x x Σχ.Γ.11. ∆εδοµένα που ακολουθούν την εκθετική καµπύλη ψ = eαχ+β. Στην περίπτωση αυτή προσπαθούµε να προσεγγίσουµε τα δεδοµένα µε την συνάρτηση: ψ = eαx+β Προσπαθούµε δηλαδή, όπως και στην περίπτωση της ευθύγραµµης συσχέτισης, να υπολογίσουµε τις παραµέτρους α και β µε τέτοιο τρόπο, ώστε η εκθετική καµπύλη να προσεγγίζει όσο το δυνατό καλύτερα τα δεδοµένα. Λογαριθµώντας την πιο πάνω σχέση, έχουµε: lnψ = ln(eαχ+β) = (αχ+β)*lne = αχ+β(*) ⇒ lnψ = αχ + β Η τελευταία σχέση λέει πως εάν στη θέση των τιµών της τυχαίας µεταβλητής ψ, πάρουµε τους λογαρίθµους τους (πράγµα που σηµαίνει πως µεταφερόµαστε από το σύστηµα συντεταγµένων Οχ,ψ, στο σύστηµα Οχ,lnψ), τότε τα σηµεία των δεδοµένων µας διατάσσονται κατά το µήκος µιας ευθείας, ενώ η εκθετική καµπύλη που τα προσέγγιζε, γίνεται ευθεία: (*) Χρησιµοποιήθηκαν οι ιδιότητες των Νεπέρειων λογαρίθµων: ln(ab) = lna + lnb , lnab = blna και lne = 1 148 Ψ lnΨ * * * * ** * * * * * * * * * * *** * * * * * * * **** * * ** ** x ** ** x Σχ.Γ.12. Η εκθετική καµπύλη "µετατρέπεται" σε ευθεία όταν λογαριθµούµε τον άξονα των ψ. Προσοχή! Οι τιµές των ψ θα πρέπει να είναι όλες µεγαλύτερες του µηδενός, έτσι ώστε να µπορούν να λογαριθµηθούν. Συµπέρασµα: Όταν ο τρόπος µε τον οποίο είναι κατανεµηµένα τα σηµεία των δεδοµένων στο επίπεδο Οχψ, µας θυµίζει τη µορφή µιας εκθετικής καµπύλης, µπορούµε να λογαριθµήσουµε τις τιµές της δεύτερης τυχ. µεταβλητής (αυτής που τοποθετείται στον άξονα των ψ) και να χρησιµοποιήσουµε αυτούσιους τους τύπους της γραµµικής συσχέτισης. ii) Λογαριθµική συσχέτιση. Την χρησιµοποιούµε όταν η γραφική παράσταση των δεδοµένων µας πλησιάζει τις επόµενες δύο: Ψ Ψ ** ** * * * * * * * * * * *** * * * * * * x ** * ** ** * * * * ** * ** ** x Σχ.Γ.13. ∆εδοµένα που ακολουθούν την λογαριθµικκή καµπύλη: ψ = αlnx + β. 149 Στην περίπτωση αυτή προσπαθούµε να προσεγγίσουµε τα δεδοµένα µε την συνάρτηση: ψ = αlnx + β Προσπαθούµε δηλαδή, όπως στην περίπτωση της ευθύγραµµης και της εκθετικής συσχέτισης, να υπολογίσουµε τις παραµέτρους α και β µε τέτοιο τρόπο, ώστε η λογαριθµική καµπύλη να προσεγγίζει όσο το δυνατό καλύτερα τα δεδοµένα. Η τελευταία σχέση λέει πως εάν στη θέση των τιµών της τυχαίας µεταβλητής Χ πάρουµε τους λογαρίθµους τους (πράγµα που σηµαίνει πως µεταφερόµαστε από το σύστηµα συντεταγµένων Οχ,ψ, στο σύστηµα Οlnχ,ψ), τότε τα σηµεία των δεδοµένων µας διατάσσονται κατά το µήκος µιας ευθείας, ενώ η λογαριθµική καµπύλη που τα προσέγγιζε, γίνεται ευθεία: Ψ Ψ *** * * * ** * * * * ** * ** ** *** *** * ** ** x * ** * ** ** Σχ.Γ.14. Η λογαριθµική καµπύλη "µετατρέπεται" σε ευθεία όταν λογαριθµούµε τον άξονα των χ. Προσοχή! Οι τιµές Χi θα πρέπει να είναι όλες µεγαλύτερες του µηδενός, έτσι ώστε να µπορούν να λογαριθµηθούν. lnx 150 Συµπέρασµα: Όταν η διάταξη των σηµείων των δεδοµένων στο επίπεδο Οχψ θυµίζει τη λογαριθµική καµπύλη, µπορούµε να λογαριθµήσουµε τις τιµές της πρώτης τυχ.µεταβλητής (αυτής που τοποθετείται στον άξονα των χ) και να χρησιµοποιήσουµε αυτούσιους τους τύπους της γραµµικής συσχέτισης. Στο επόµενο παράδειγµα θα δούµε πως χρησιµοποιείται η εκθετική συσχέτιση. Παρόµοια είναι και η µέθοδος εφαρµογής της λογαριθµικής. Γ.2.8. Παράδειγµα. Ο διπλανός πίνακας δίνει τον πληθυσµό της Χιλής, έτσι όπως καταγράφηκε σε διαδοχικές απογραφές, από το 1835, µέχρι το 1960. i) Να υπολογισθεί η εξίσωση της ευθείας ελαχίστων τετραγώνων που προσεγγίζει τα δεδοµένα, καθώς και ο συντελεστής γραµµικής συσχέτισης. ii) Nα γίνει η γραφική παράσταση του πληθυσµού (άξονας των ψ), σαν συνάρτηση της χρονολογίας, και της ευθείας των ελαχίστων τετραγώνων. Χρονολογία απογραφής Πληθυσµός (εκατοµµύρια) 1835 1843 1854 1865 1875 1885 1895 1907 1920 1930 1940 1952 1960 1,010 1,084 1,439 1,819 2,076 2,507 2,696 3,231 3,730 4,287 5,024 5,933 7,374 iii) Παρατηρώντας τη γραφική παράσταση των δεδοµένων να αποφασισθεί εάν θα χρησιµοποιηθεί η εκθετική ή η λογαριθµική συσχέτιση, για καλύτερα αποτελέσµατα. Έτσι, να ξαναγίνουν οι υπολογισµοί της αντίστοιχης ευθείας ελαχίστων τετραγώνων και ο νέος συντελεστής συσχέτισης. iv) Με τη βοήθεια των δύο συναρτήσεων που προσαρµόσθηκαν στα δεδοµένα, να γίνει µια πρόβλεψη για τον πληθυσµό της Χιλής το 1980. Να συγκριθούν οι δύο προβλέψεις µε τον πραγµατικό πληθυσµό της Χιλής το 1980, που είναι 11100000 κάτοικοι. 151 Απαντήσεις: i) Για να µην κάνουµε πράξεις µε ποΧρον-1834 Πληθυσµός λύ µεγάλα νούµερα, µετασχηµατίζουµε την χρονολογία της απογραφής, αφαιρώντας από 1 1,010 κάθε τιµή το 1834. ∆εν χρησιµοποιούµε 1,084 9 20 1,439 τον γνωστό Ζ-µετασχηµατισµό (Ζ=(Χ-α)/β), 31 1,819 διότι οι διαδοχικές χρονολογίες (που θα το41 2,076 ποθετηθούν -σαν ακριβέστερες- στον άξονα 2,507 51 των Χ) δεν ισαπέχουν. 61 2,696 Ο µετασχηµατισµός αυτός αφήνει α73 3,231 µετάβλητες τις τιµές του συντελεστή διεύ86 3,730 96 4,287 θυνσης α και το συντελεστή συσχέτισης r. 106 5,024 Ο σταθερός όρος β της ευθείας µεταβάλλε118 5,933 ται κατά 1834, κάτι που όπως θα δούµε δεν 7,374 126 µας ενοχλεί. Με τον τρόπο αυτό προκύπτει ο προηγούµενος πίνακας, για τον οποίο έχουµε τα επόµενα αποτελέσµατα: ΣΧi = 819 ΣΧi2 = 72423 ΣΥi = 42.21 ΣΥi2 = 182.98545 ΣΧiYi = 3603.321 οπότε οι συντελεστές α, β και r είναι ίσοι µε: (Σχi)(Σψi) - ν(Σχiψi) 819*42.21 - 13*3603.321 -12273.183 α = ---------------------------- = -------------------------------- = ------------- = (Σχi ) 2 - ν ( Σχi 2 ) 8192 - 13*72423 -270738 = 0.045332 (Σχi)(Σχiψi) - (Σχi2)(Σψi) 819*3603.321 - 72423*42.21 β = ---------------------------------- = ------------------------------------ = 0.39099 (Σχi ) 2 - ν ( Σχi 2 ) -270738 ν(Σχiψi) - (Σχi)(Σψi) r = ---------------------------------------------- = [ν(Σχi2) - (Σχi)2]*[ν(Σψi2) - (Σψi)2] 152 13*3603.321 - 819*42.21 12273.183 = ------------------------------------------------ = ------------- = 0.965276 (13*72423-8192)(13*182.985-42.212) 12714.689 Εποµένως η ευθεία των ελαχίστων τετραγώνων είναι η: ψ = 0.04533χ + 0.391 µε συντελεστή γραµµικής συσχέτισης το: r = 0.965. ii) Η γραφική παράσταση των δεδοµένων και της ευθείας των ελαχ. τετραγώνων έρχεται να επιβεβαιώσει την πολύ καλή τιµή του συντελεστή συσχέτισης. Πληθυσµός 9 6 3 0 0 50 100 150 Χρον.-1834 Σχ.Γ.15. Η γραφική παράσταση της µετασχηµατισµένης χρονολογίας µε τον πληθυσµό (σε εκατοµµύρια κατοίκους) 153 iii) Παρατηρώντας την προηγούµενη γραφική παράσταση, αντιλαµβανόµαστε πως θα επιτύχουµε ακόµη καλύτερα αποτελέσµατα εάν χρησιµοποιήσουµε την εκθετική συσχέτιση. Πράγµατι, η διάταξη των σηµείων θυµίζει έντονα το δεξί σχεδιάγραµµα του Σχ.11. Θα λογαριθµήσουµε λοιπόν τον άξονα των ψ και θα ξαναπάρουµε τους τύπους της γραµµικής συσχέτισης. Μετά τη λογαρίθµηση φθάνουµε στο διπλανό πίνακα. Χρον-1834 Ln(Πληθυσµού) 1 9 20 31 41 51 61 73 86 96 106 118 126 0,00995 0,08066 0,36395 0,59829 0,73044 0,91908 0,99177 1,17279 1,31641 1,45349 1,61423 1,78053 1,99796 Οι τιµές των αθροισµάτων: ΣΧi = 819 ΣΧi2 = 72423 ΣΥi = 13.0295 ΣΥi2 = 17.8477 ΣΧiYi = 1135.194 Εφαρµόζοντας τους τύπου ακριβώς όπως και την προηγούµενη φορά, έχουµε: α = 0.01509 , β = 0.051384 και r = 0.995 οπότε έχουµε την εξίσωση της ευθείας στο επίπεδο Οχ,lnψ: lnψ = 0.01509χ + 0.051384 Ln(Πληθυσµού) 2,5 2 1,5 1 0,5 0 0 50 100 150 Χρον.-1834 Σχ.Γ.16. Η γραφική παράσταση της µετασχηµατισµένης χρονολογίας µε τον λογάριθµο του πληθυσµού. 154 iv) Η πρόβλεψη που µας ζητά το παράδειγµα δεν µπορεί παρά να στηρίζεται στις δύο καµπύλες παλινδρόµησης. Θα θεωρήσουµε δηλαδή ότι ο πληθυσµός της Χιλής δίνεται από τις δύο συναρτήσεις, στις οποίες εµείς θα βάλουµε στη θέση του χ την τιµή που αντιστοιχεί στη χρονολογία 1980. Στην ευθύγραµµη συσχέτιση η καµπύλη παλινδρόµησης ήταν η ευθεία: ψ = 0.04533χ + 0.391 στην οποία θα θέσουµε χ = 1980-1834 = 146, οπότε βρίσκουµε: ψ = 0.04533*146 +0.391 = 7.009 (εκατ.κατοίκους) Στην εκθετική συσχέτιση η καµπύλη παλινδρόµησης στο επίπεδο Οχ,lnψ, ήταν η ευθεία: lnψ = 0.01509χ + 0.051384 στην οποία θα θέσουµε χ = 146, οπότε βρίσκουµε: lnψ = 0.01509*146 + 0.051384 = 2.2545 Βρήκαµε τον λογάριθµο του πληθυσµού, άρα ο πληθυσµός υπολογίζεται µε την ύψωση του e στην τιµή του lnψ. Έχουµε λοιπόν: Πληθυσµός της Χιλής = e2.2545 = 9.531 (εκατ.κάτοικοι) Παρατήρηση: Ήταν φανερό από την γραφική παράσταση (Σχ.Γ.15) ότι η γραµµική συσχέτιση θα µας έδινε πολύ µικρότερο πληθυσµό από τον πραγµατικό. ∆εν περιµέναµε όµως ότι θα έπεφτε τόσο έξω και η εκθετική συσχέτιση. Το γεγονός αυτό δηλώνει κάτι ιδιαίτερα σηµαντικό: Οι µέθοδοι της συσχέτισης πρέπει να χρησιµοποιούνται µε πολλή προσοχή όταν θέλουµε να επιχειρήσουµε προβλέψεις, ιδιαίτερα µάλιστα όταν αυτές οι προβλέψεις αντιστοιχούν σε τιµές του χ που είναι αρκετά µετά το τελευταίο σηµείο των δεδοµένων (εδώ 20 χρόνια µετά).
© Copyright 2024 Paperzz