Α Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών Α.1 Εισαγωγικά Το παρόν παράρτημα δεν έχει σαν στόχο να καλύψει αναλυτικά την ύλη της Θεωρίας Πιθανοτήτων και Στοχαστικών Διαδικασιών. Υπάρχει στη βιβλιογραφία πληθώρα σχετικών συγγραμμάτων όπου οι δύο περιοχές αναπτύσσονται εκτεταμένα και με διαφορετικό βαθμό δυσκολίας και έμφασης1 . Έτσι, περιοριζόμαστε σε συνοπτική παρουσίαση των βασικών εννοιών και αποτελεσμάτων που είναι απαραίτητα για την κατανόηση του αντικειμένου του παρόντος βιβλίου. Α.2 Χώρος πιθανότητας Καλούμε χώρο πιθανότητας μια τριάδα οντοτήτων, που θα συμβολίσουμε με (Θ, F , P), με τις παρακάτω ιδιότητες Το Θ είναι ένα οποιοδήποτε σύνολο στοιχείων, το οποίο καλείται δειγματοχώρος. Το F είναι ένα σύνολο από υποσύνολα του Θ, τα οποία συνιστούν μια σ-άλγεβρα. Συγκεκριμένα, τα στοιχεία του F πρέπει να ικανοποιούν τις ακόλουθες ιδιότητες. Τα δύο σύνολα Θ και ∅ είναι στοιχεία του F . Εάν A ∈ F , τότε και Ac ∈ F , όπου Ac το συμπληρωματικό του A. Εάν A1 , A2 ∈ F , τότε και A1 ∪ A2 ∈ F . Εάν μια ακολουθία από σύνολα A1 , A2 , . . . ∈ F , τότε και ∪∞ i=1 Ai ∈ F . Τα στοιχεία του F καλούνται γεγονότα. 1 Σαν καταλληλότερο σύγγραμμα για Μηχανικούς προτείνεται το βιβλίο [PA1999] το οποίο διακρίνεται για τη μαθηματική του αυστηρότητα παράλληλα με την απλότητα παρουσίασης της ύλης. 152 Α.3 Τυχαίες μεταβλητές 153 Το P είναι μια απεικόνιση από το σύνολο F στο διάστημα [0,1] με τις εξής ιδιότητες. P(∅) = 0, P(Θ) = 1. Εάν A1 , A2 ∈ F και A1 ∩ A2 = ∅, τότε P(A1 ∪ A2 ) = P(A1 ) + P(A2 ). Εάν μια ακολουθία από σύνολα A1 , A2 , . . . ∈ F και κάθε Ai ∩ Aj = ∅ για i ̸= j, τότε ∑∞ P(∪∞ i=1 Ai ) = i=1 P(Ai ). Η συνάρτηση P καλείται συνάρτηση πιθανότητας και, όπως παρατηρούμε, ορίζει πιθανότητες μόνο για τα στοιχεία του συνόλου F , δηλαδή τα γεγονότα. Α.3 Τυχαίες μεταβλητές Είναι δυνατό να ορίσουμε συναρτήσεις που να απεικονίζουν στοιχεία του δειγματοχώρου Θ στους πραγματικούς αριθμούς. Έστω χ(θ) μια τέτοια συνάρτηση, δηλαδή θ ∈ Θ και χ(θ) ∈ R. Η πλέον στοιχειώδης πράξη στους πραγματικούς αριθμούς είναι η πράξη της σύγκρισης. Εάν επομένως x ∈ R, μας ενδιαφέρει να διαπιστώσουμε πότε συμβαίνει χ(θ) ≤ x, με άλλα λόγια να ανακαλύψουμε το σύνολο (υποσύνολο του Θ) Ax = {θ : χ(θ) ≤ x}, το οποίο επιθυμούμε να “μετρήσουμε” με τη βοήθεια της συνάρτησης πιθανότητας P. Για να μπορέσουμε να δώσουμε πιθανότητα στο εν λόγω σύνολο είναι απαραίτητο το Ax ∈ F , αφού το F , εξ ορισμού, περιέχει όλα τα δυνατά σύνολα στα οποία μπορούμε να δώσουμε πιθανότητα. Έχουμε επομένως τον ακόλουθο ορισμό. Μια συνάρτηση χ(θ) από το Θ στους πραγματικούς αριθμούς, θα καλείται μετρήσιμη ή τυχαία μεταβλητή, εάν για κάθε πραγματικό x το σύνολο Ax = {θ : χ(θ) ≤ x} ∈ F , δηλαδή το Ax είναι ένα γεγονός. Για μια τυχαία μεταβλητή χ(θ) μια πολύ σημαντική ποσότητα είναι η συνάρτηση Fχ (x) = P(χ(θ) ≤ x), η οποία καλείται συνάρτηση κατανομής της χ(θ) και είναι αύξουσα ως προς x με ιδιότητες Fχ (−∞) = 0, Fχ (∞) = 1. Η παράγωγος της συνάρτησης κατανομής (όταν ορίζεται) καλείται συνάρτηση πυκνότητας πιθανότητας και ικανοποιεί ∫ ∞ dFχ (x) fχ (x) = ≥ 0, fχ (x)dx = 1. dx −∞ Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών 154 Ένας τρόπος ο οποίος είναι ενίοτε χρήσιμος για να βλέπουμε την πυκνότητα πιθανότητας είναι σαν πιθανότητα με τον ακόλουθο τρόπο P(x − dx < χ ≤ x) = Fχ (x) − Fχ (x − dx) = fχ (x) dx. (Α.1) Με άλλα λόγια η πυκνότητα πιθανότητας fχ (x) επί το διαφορικό dx εκφράζει ουσιαστικά την πιθανότητα η τυχαία μας μεταβλητή να πάρει τιμή μέσα στο διαφορικό διάστημα (x − dx, x], που είναι φυσικά ένας άλλος τρόπος να πούμε ότι παίρνει την τιμή x. Ο τρόπος που προτείνεται με τη Σχέση (Α.1) ουσιαστικά χρησιμοποιεί και την πυκνότητα πιθανότητας σαν (διαφορική) πιθανότητα. Α.3.1 Πείραμα Με τις τυχαίες μεταβλητές μοντελοποιούμε φαινόμενα τα οποία είναι δύσκολο να περιγράψουμε με ντετερμινιστικό τρόπο, είτε διότι είναι εξαιρετικά πολύπλοκα, είτε διότι δεν υπάρχει η απαραίτητη πληροφορία. Θα επιχειρήσουμε να δώσουμε στις τυχαίες μεταβλητές, πέρα από το μαθηματικό ορισμό, κάποια φυσική σημασία, η οποία να είναι σύμφωνη με τον τρόπο που οι οντότητες αυτές χρησιμοποιούνται στην πράξη. Όπως είδαμε, μια τυχαία μεταβλητή χ(θ) είναι ουσιαστικά μια συνάρτηση από τον δειγματοχώρο στους πραγματικούς. Υπάρχει επομένως μια διαδικασία επιλογής στοιχείων του δειγματοχώρου και απεικόνισής τους στους πραγματικούς. Η διαδικασία αυτή καλείται πείραμα και ο πραγματικός αριθμός χ(θ) που προκύπτει καλείται υλοποίηση της τυχαίας μεταβλητής. Στα περισσότερα πρακτικά προβλήματα για τα πειράματα και τις υλοποιήσεις θεωρείται ότι ευθύνεται η “Φύση” ή η “Τυχαιότητα”, αφού ο μελετητής δεν έχει συνήθως κανένα έλεγχο. Επιπλέον, ο μελετητής είναι δυνατό να μην γνωρίζει τον δειγματοχώρο αλλά ούτε και τη συνάρτηση χ(·). Π.χ. στη διαδικασία ρίψης ενός ζαριού η Φύση επιλέγει τις συνθήκες κάτω από τις οποίες εκτελείται η ρίψη και το αποτέλεσμα είναι ένας ακέραιος από ένα έως έξι. Στο παράδειγμα αυτό παρατηρούμε ότι είναι άγνωστος ο δειγματοχώρος καθώς και ο τρόπος αντιστοίχισης με τους πραγματικούς αριθμούς (που στο συγκεκριμένο παράδειγμα είναι μόνο το σύνολο {1, 2, . . . , 6}). Προφανώς η Φύση μπορεί να επαναλάβει το ίδιο πείραμα πολλές φορές (π.χ. τη ρίψη ζαριού) και κάθε φορά να επιλέγει διαφορετικό στοιχείο του δειγματοχώρου, το οποίο απεικονίζεται σε διαφορετικό πραγματικό αριθμό. Αποτελέσματα πειραμάτων, δηλαδή διαφορετικές υλοποιήσεις, θα τα συμβολίζουμε με χ(θ1 ), χ(θ2 ), . . ., ώστε να γίνεται σαφής η διαφορετική επιλογή της Φύσης στα στοιχεία θ του δειγματοχώρου. Α.3.2 Μέσος όρος και διασπορά Καλούμε στοχαστικό μέσον όρο της τυχαίας μεταβλητής χ το ολοκλήρωμα2 ∫ ∞ χ ¯ = E[χ] = xfχ (x)dx −∞ 2 Στο εξής η εξάρτηση από την μεταβλητή θ θα προσδιορίζεται εφόσον είναι απολύτως αναγκαίο. Α.3 Τυχαίες μεταβλητές 155 και διασπορά ∫ σχ2 = E[(χ − χ) ¯ ]= 2 ∞ −∞ (x − χ) ¯ 2 fχ (x)dx. Ο στοχαστικός μέσος όρος, είναι η αντιπροσωπευτικότερη τιμή της συνάρτησης χ, ενώ η διασπορά υποδηλώνει το πόσο “παίζει” η συνάρτηση χ γύρω από την αντιπροσωπευτική της τιμή χ. ¯ Παρατηρούμε ότι, όταν σχ = 0, τότε η τυχαία μεταβλητή είναι μια σταθερή συνάρτηση (ίση προς τη μέση της τιμή χ). ¯ Ο παραπάνω ορισμός του μέσου όρου προϋποθέτει γνώση της συνάρτησης κατανομής της τυχαίας μεταβλητής. Ένας άλλος τρόπος υπολογισμού, ή ακριβέστερα εκτίμησης, του μέσου όρου είναι ο αριθμητικός μέσος όρος χ ¯≈ χ(θ1 ) + χ(θ2 ) + · · · + χ(θn ) , n ο οποίος απαιτεί πολλαπλές υλοποιήσεις της τυχαίας μεταβλητής. Οι έννοιες που ορίσαμε για μια τυχαία μεταβλητή εύκολα επεκτείνονται και σε περισσότερες. Εάν χ1 , χ2 δύο τυχαίες μεταβλητές (δηλαδή για κάθε επιλογή του θ μας διατίθενται δύο πραγματικοί αριθμοί), τότε είναι δυνατό να ορίσουμε την από κοινού συνάρτηση κατανομής Fχ1 ,χ2 (x1 , x2 ) = P(χ1 ≤ x1 , χ2 ≤ x2 ), την πιθανότητα δηλαδή να έχουμε συγχρόνως χ1 ≤ x1 και χ2 ≤ x2 . Είναι πολύ εύκολο να διαπιστώσουμε ότι εάν χi , i = 1, 2, είναι μετρήσιμες, τότε η εν λόγω πιθανότητα υπάρχει (γιατί;). Η μερική παράγωγος της (από κοινού) συνάρτησης κατανομής Fχ1 ,χ2 (x1 , x2 ) ως προς x1 και x2 ∂ 2 Fχ1 ,χ2 (x1 , x2 ) fχ1 ,χ2 (x1 , x2 ) = ∂x1 ∂x2 καλείται από κοινού συνάρτηση πυκνότητας πιθανότητας. Για τις δύο συναρτήσεις ισχύουν οι εξής ιδιότητες Fχ1 (x1 ) = Fχ1 ,χ2 (x1 , ∞), Fχ2 (x2 ) = Fχ1 ,χ2 (∞, x2 ), ∫ fχ1 (x1 ) = fχ1 ,χ2 (x1 , x2 ) ≥ 0 ∞ ∫ ∞ fχ1 ,χ2 (x1 , x2 )dx2 , fχ2 (x2 ) = fχ1 ,χ2 (x1 , x2 )dx1 −∞ −∞ ∫∫ ∞ fχ1 ,χ2 (x1 , x2 )dx1 dx2 = 1. −∞ Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών 156 Δύο τυχαίες μεταβλητές χ1 , χ2 θα καλούνται ανεξάρτητες όταν Fχ1 ,χ2 (x1 , x2 ) = Fχ1 (x1 )Fχ2 (x2 ) ή fχ1 ,χ2 (x1 , x2 ) = fχ1 (x1 )fχ2 (x2 ). Καλούμε συσχέτιση δύο τυχαίων μεταβλητών χ1 , χ2 την ποσότητα cov{χ1 , χ2 } = E[(χ1 − χ ¯1 )(χ2 − χ ¯2 )] ∫∫ = (x1 − χ ¯1 )(x2 − χ ¯2 )fχ1 ,χ2 (x1 , x2 )dx1 dx2 = E[χ1 χ2 ] − χ ¯1 χ ¯2 . Όταν η συσχέτιση δύο τυχαίων μεταβλητών είναι μηδέν, τότε οι τυχαίες μεταβλητές καλούνται ασυσχέτιστες. Οι παραπάνω ορισμοί επεκτείνονται φυσικά σε περισσότερες από δύο τυχαίες μεταβλητές κατά τον προφανή τρόπο. Στην περίπτωση των περισσοτέρων της μιας τυχαίων μεταβλητών είναι προτιμότερο να θεωρούμε τις τυχαίες μεταβλητές σαν όρους ενός (τυχαίου) διανύσματος. Για την περίπτωση επομένως K τυχαίων μεταβλητών μπορούμε να γράψουμε X = [χ1 χ2 · · · χK ]t και να ορίσουμε το μέσο διάνυσμα σαν ∫ X¯ = E[X ] = XfX (X)dX και την μήτρα συνδιασποράς ΣX = E[(X − X¯ )(X − X¯ )t ] = E[X X t ] − X¯ X¯ t . Από τον ορισμό εύκολα διαπιστώνουμε ότι το στοιχείο i, j της μήτρας συνδιασποράς είναι ίσο προς τη συσχέτιση των τυχαίων μεταβλητών χi , χj , ως εκ τούτου η μήτρα ΣX είναι συμμετρική. Το i-οστό διαγώνιο στοιχείο της μήτρας είναι ίσο προς τη διασπορά της τυχαίας μεταβλητής χi . Τέλος η μήτρα συνδιασποράς, μπορεί εύκολα να αποδειχθεί ότι είναι μη αρνητικά ορισμένη, μια σημαντική και πολύ χρήσιμη ιδιότητα. Ένα κλασικό και πρακτικά χρήσιμο παράδειγμα από κοινού συνάρτησης πυκνότητας πιθανότητας αποτελεί η περίπτωση K Gaussian τυχαίων μεταβλητών. Εάν X¯ , ΣX το διάνυσμα των μέσων όρων και η μήτρα συνδιασποράς των εν λόγω μεταβλητών τότε fX (X) = √ 1 (2π)K |ΣX | ¯ t Σ −1 (X−X¯ ) X e− 2 (X−X ) 1 , όπου X = [x1 x2 · · · xK ]t (διάνυσμα πραγματικών τυχαίων μεταβλητών) και |ΣX | συμβολίζει την ορίζουσα της μήτρας ΣX . Α.4 Δεσμευμένη ή υπό συνθήκη πιθανότητα 157 Ιδιότητες Gaussian μεταβλητών : Οι Gaussian μεταβλητές διαθέτουν τις ακόλου- θες δύο πολύ σημαντικές ιδιότητες Αποτελεί ενδιαφέρουσα (και απλή) άσκηση η απόδειξη της πρότασης ότι όταν Gaussian τυχαίες μεταβλητές είναι ασυσχέτιστες είναι υποχρεωτικά και ανεξάρτητες. Αποτελεί ενδιαφέρουσα (και όχι ιδιαίτερα δύσκολη) άσκηση η απόδειξη της πρότασης ότι γραμμικός συνδυασμός από Gaussian τυχαίες μεταβλητές δημιουργεί πάλι Gaussian τυχαίες μεταβλητές. Η δεύτερη ιδιότητα είναι εξαιρετικά χρήσιμη επειδή, ως γνωστόν, για να καθοριστούν οι Gaussian τυχαίες μεταβλητές αρκεί να υπολογιστούν οι μέσοι όροι και η μήτρα συνδιασποράς, πράγμα απλό για την περίπτωση των γραμμικών συνδυασμών. Α.4 Δεσμευμένη ή υπό συνθήκη πιθανότητα Η έννοια της δεσμευμένης πιθανότητας αποτελεί σημαντική ανακάλυψη για τη θεωρία πιθανοτήτων. Έστω γεγονός B ∈ F με P(B) > 0 τότε θα καλούμε δεσμευμένη (ή υπό συνθήκη) πιθανότητα ενός γεγονότος A ∈ F με δεδομένο το B την εξής ποσότητα: P(A|B) = P(A · B) , P(B) όπου για ευκολία συμβολίζουμε την τομή A ∩ B των δύο συνόλων σαν το “γινόμενο” A · B. Από τον ορισμό της δεσμευμένης πιθανότητας προκύπτει ότι P(A · B) = P(A|B)P(B) = P(B|A)P(A). (Α.2) Α.4.1 Δεσμευμένη πυκνότητα πιθανότητας Εάν έχουμε μια τυχαία μεταβλητή χ(θ) με πυκνότητα πιθανότητας fχ (x), τότε μπορούμε στην περίπτωση αυτή να ορίσουμε τη δεσμευμένη πυκνότητα πιθανότητας fχ (x|χ ∈ B). Με άλλα λόγια ενδιαφερόμαστε να δούμε με ποιο τρόπο αλλάζει η πυκνότητα πιθανότητας της τυχαίας μεταβλητής όταν μας δίνεται η επιπλέον πληροφορία ότι η τυχαία μεταβλητή παρατηρήθηκε στο εσωτερικό ενός συνόλου B. Προκειμένου να χρησιμοποιήσουμε τον ορισμό της δεσμευμένης πιθανότητας, κάνουμε χρήση της (Α.1), συγκεκριμένα fχ (x|χ ∈ B)dx = P(x − dx < χ ≤ x|χ ∈ B) = fχ (x)1B (x) dx , = ∫ x∈B fχ (x) dx P(x − dx < χ ≤ x & χ ∈ B) P(χ ∈ B) από τη οποία συμπεραίνουμε ότι fχ (x|χ ∈ B) = ∫ fχ (x) 1B (x). x∈B fχ (x) dx Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών 158 Α.4.2 Βασικές ισότητες για γεγονότα Με τη βοήθεια της δεσμευμένης πιθανότητας και συγκεκριμένα με χρήση της (Α.2) είναι δυνατό να αποδειχθεί ένας αριθμός από πολύ ενδιαφέρουσες ισότητες οι οποίες παρατίθενται στη συνέχεια. Άμεση γενίκευση της (Α.2) αποτελεί η εξής περίπτωση: έστω γεγονότα A1 , A2 , . . . , AK ∈ F , τότε Ισότητα 1: P(AK · AK−1 · · · A1 ) = P(AK |AK−1 · · · A1 )P(AK−1 · · · A1 ) = · · · = P(AK |AK−1 · · · A1 )P(AK−1 |AK−2 · · · A1 ) · · · P(A2 |A1 )P(A1 ). Η πρώτη ισότητα είναι ουσιαστικά η (Α.2) με B = AK−1 · · · A1 . Στη συνέχεια επαναλαμβάνεται η ισότητα αυτή για K − 1, K − 2, . . . , 2. (Ολική Πιθανότητα) Έστω γεγονότα A1 , A2 , . . . , AK ∈ F για τα οποία ισχύει A1 ∪ A2 ∪ · · · ∪ AK = Θ με Ai · Aj = ∅ για i ̸= j, καθώς και γεγονός B ∈ F , τότε Ισότητα 2: P(B) = P(B · Θ) = P(B · ∪K i=1 Ai ) = P(∪K i=1 (B · Ai )) = K ∑ P(B · Ai ) i=1 = K ∑ P(B|Ai )P(Ai ), i=1 όπου η πρώτη ισότητα της τελευταίας σχέσης προκύπτει από το γεγονός ότι τα σύνολα B · Ai είναι μεταξύ τους ξένα. Ισότητα 3: Με χρήση της προηγούμενης ισότητας μπορούμε να δείξουμε για γεγονότα A1 , . . . , AK , B όπως παραπάνω ότι ισχύει P(Ai |B) = P(B|Ai )P(Ai ) P(B|Ai )P(Ai ) = ∑K . P(B) i=1 P(B|Ai )P(Ai ) Οι πιθανότητες P(Ai ) καλούνται εκ των προτέρων (ή αρχικές) πιθανότητες των γεγονότων Ai , ενώ οι P(Ai |B) εκ των υστέρων με δεδομένο το γεγονός B. Οι εκ των προτέρων πιθανότητες εκφράζουν την αρχική γνώση που υπάρχει για τα γεγονότα Ai ενώ οι εκ των υστέρων το πως διαμορφώνονται οι πιθανότητες μετά την εμφάνιση του γεγονότος B. Α.4.3 Βασικές ισότητες για πυκνότητες πιθανότητας Οι ισότητες που παρουσιάστηκαν για γεγονότα έχουν τα ισοδύναμά τους και στην περίπτωση των πυκνοτήτων πιθανότητας τυχαίων μεταβλητών. Έστω δύο τυχαία διανύσματα X , Y με αντίστοιχη από κοινού πυκνότητα πιθανότητας fX ,Y (X, Y ), τότε η πυκνότητα πιθανότητας του X με δεδομένο ότι Y ∈ B είναι ∫ ∫ fX ,Y (X, Y ) dY fX ,Y (X, Y ) dY Y ∈B ∫ fX |Y ∈B (X|Y ∈ B) = = ∫ ∞ ∫Y ∈B . Y ∈B fY (Y ) dY −∞ Y ∈B fX ,Y (X, Y ) dY dX Α.4 Δεσμευμένη ή υπό συνθήκη πιθανότητα 159 Είναι επίσης δυνατό να θεωρήσουμε για το Y το διαφορικό γεγονός Y = Y (δηλαδή Y ≤ Y < Y + dY ), οπότε η δεσμευμένη πυκνότητα πιθανότητας γράφεται fX |Y =Y (X|Y ) = fX ,Y (X, Y ) fX ,Y (X, Y ) = ∫∞ . fY (Y ) −∞ fX ,Y (X, Y ) dX Εύκολα διαπιστώνουμε ότι η συνάρτηση fX |Y =Y (X|Y ) αποτελεί όντως πυκνότητα πιθανότητας αφού είναι μη αρνητική και εάν ολοκληρωθεί ως προς X το αποτέλεσμα είναι μονάδα. Η παραπάνω σχέση αποτελεί το ισοδύναμο της δεσμευμένης πιθανότητας για συναρτήσεις πυκνότητας πιθανότητας. Κατ’ αναλογία με την (Α.2) μπορούμε επίσης να γράψουμε fX ,Y (X, Y ) = fX |Y =Y (X|Y )fY (Y ). Από την ύπαρξη της υπό συνθήκη πυκνότητας πιθανότητας απορρέει και η ύπαρξη της υπό συνθήκη μέσης τιμής ∫ ∞ E[X |Y = Y ] = XfX |Y =Y (X|Y = Y ) dX = G(Y ) −∞ το οποίο είναι φυσικά μια (διανυσματική) συνάρτηση του Y . Για την υπό συνθήκη πυκνότητα πιθανότητα ισχύει ένας αριθμός από ενδιαφέρουσες ισότητες η απόδειξη των οποίων είναι απλή και επαφίεται στον αναγνώστη. Το ισοδύναμο της Ισότητας 1 για πυκνότητες πιθανότητας είναι η ακόλουθη σχέση. Ισότητα 4: Έστω τυχαίες μεταβλητές χ1 , χ2 , . . . , χn τότε fχn ,...,χ1 (xn , . . . , x1 ) = fχn |χn−1 ,...,χ1 (xn |xn−1 , . . . , x1 ) × fχn−1 |χn−2 ,...,χ1 (xn−1 |xn−2 , . . . , x1 ) × · · · × fχ2 |χ1 (x2 |x1 ) × fχ1 (x1 ). Για την ειδική περίπτωση που fχn |χn−1 ,...,χ1 (xn |xn−1 , . . . , x1 ) = fχn |χn−1 (xn |xn−1 ) τότε η ακολουθία χ1 , χ2 , . . . , χn καλείται Markov. Συνδυασμός γεγονότων και πυκνοτήτων πιθανότητας οδηγεί στην ακόλουθη ισότητα. Ισότητα 5: Έστω τυχαία διανύσματα X , Y και ας υποθέσουμε ότι το Y παίρνει τιμές μέσα στο σύνολο Ω όπου υποθέτουμε ότι P(Y ∈ Ω} = 1. Έστω επίσης ότι ισχύει Ω = ∪K i=1 Ai , όπου τα γεγονότα Ai είναι ανά δύο ξένα μεταξύ τους. Τότε fX (X) = fX ,Y (X, Y ∈ Ω) = fX ,Y (X, Y ∈ ∪K i=1 Ai ) = K ∑ i=1 = K ∑ i=1 fX |Y (X|Y ∈ Ai )P(Y ∈ Ai ). fX ,Y (X, Y ∈ Ai ) Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών 160 Ισότητα 6: Το αντίστοιχο της Ισότητας 3 με την βοήθεια της Ισότητας 5, γράφεται fX |Y (X|Y ∈ Ai )P(Y ∈ Ai ) fX (X) fX |Y (X|Y ∈ Ai )P(Y ∈ Ai ) = ∑K , i=1 fX |Y (X|Y ∈ Ai )P(Y ∈ Ai ) P(Y ∈ Ai |X = X) = όπου ισχύουν οι υποθέσεις της προηγούμενης ισότητας. Η ισότητα αυτή χρησιμοποιείται για τον υπολογισμό της εκ των υστέρων πιθανότητας του Ai με δεδομένο ότι το τυχαίο διάνυσμα X έλαβε τη τιμή X = X. Α.4.4 Ιδιότητα της κλιμάκωσης του μέσου όρου Μια εξαιρετικά χρήσιμη ιδιότητα η οποία βασίζεται στην υπό συνθήκη μέση τιμή είναι η εξής. Έστω G(X, Y ) συνάρτηση των διανυσμάτων X, Y, τότε μπορούμε να γράψουμε ∫∫ ∞ E[G(X , Y )] = G(X, Y )fX ,Y (X, Y ) dX dY −∞ } ∫ ∞ {∫ ∞ = G(X, Y )fX |Y (X|Y ) dX fY (Y ) dY −∞ −∞ [ [ ( ) ]] = E E G X , Y |Y . (Α.3) Με άλλα λόγια ο μέσος όρος μιας τυχαίας ποσότητας είναι δυνατό να υπολογιστεί κλιμακωτά, υπολογίζοντας δηλαδή αρχικά τον υπό συνθήκη μέσος όρο ως προς κάποιες τυχαίες μεταβλητές και κατόπιν, τον μέσο όρο της τυχαίας ποσότητας που προκύπτει. Παράδειγμα Α.1 : Έστω δύο στοχαστικά διανύσματα X , Y τα οποία είναι από κοινού Gaussian με μέσες τιμές X¯ , Y¯ , μήτρες συνδυασποράς E[(X − X¯ )(X − X¯ )t )] = ΣX , E[(Y − Y¯ )(Y − Y¯ )t )] = ΣY και μήτρα ετεροσυσχέτισης E[(X − X¯ )(Y − Y¯ )t )] = ΣX ,Y . Δείξτε ότι η δεσμευμένη πυκνότητα πιθανότητας fX |Y (X|Y ) είναι Gaussian με μέση τιμή και διασπορά που δίνονται από τις σχέσεις ¯ E[X |Y ] = X¯ + ΣX ,Y Σ−1 Y (Y − Y ) t E[(X − E[X |Y ])(X − E[X |Y ])t |Y ] = ΣX |Y = ΣX − ΣX ,Y Σ−1 Y ΣX ,Y . Για την απόδειξη της πρότασης αρκεί να υπολογίσουμε τη συνάρτηση fX |Y (X|Y ) = fX ,Y (X, Y )/fY (Y ). Για ευκολία θα θεωρήσουμε ότι οι δύο μέσοι όροι είναι μηδέν. Έχουμε τότε ότι (βλέπε Εδάφιο B.2) t t −1 t 1 1 fX ,Y (X, Y ) = √ e− 2 [X Y ]Σ [X N +N x y (2π) |Σ| t −1 1 1 fY (Y ) = √ e− 2 Y ΣY Y N (2π) y |ΣY | Y t ]t Α.5 Ιδιότητα της αλλαγής μέτρου 161 όπου Nx , Ny τα μήκη των διανυσμάτων X , Y αντίστοιχα, Σ = [ΣX ΣX ,Y ; ΣtX ,Y ΣY ] είναι η μήτρα συνδυασποράς του εννιαίου διανύσματος [X t Y t ]t και |A| συμβολίζει την ορίζουσα της μήτρας A. Χρησιμοποιώντας τις δύο αυτές σχέσεις υπολογίζεται ότι t 1 1 fX |Y (X|Y ) = √ e− 2 [X |Σ| N (2π) x |ΣY | Y t ]Σ−1 [X t Y t ]t + 12 Y t Σ−1 Y Y . (Α.4) Με τη βοήθεια της ταυτότητας αντιστροφής του Shur ]−1 [ ] [ ] [ ΣX ΣX ,Y I 0 0 = Σ−1 + t X |Y [I − ΦX ,Y ] ΣY −Φ ΣtX ,Y 0 Σ−1 X ,Y Y όπου ΦX ,Y = ΣX ,Y Σ−1 Y , και την ταυτότητα ορίζουσας μητρών σε μπλοκ μορφή [ ] ΣX ΣX ,Y = |ΣY ||ΣX |Y |, ΣtX ,Y ΣY μετά από αντικατάσταση στη Σχέση (Α.4), καταλήγουμε 1 − 1 (X−ΦX |Y Y )t Σ−1 (X−ΦX |Y Y ) X |Y fX |Y (X|Y ) = √ e 2 . N (2π) x |ΣX |Y | Από την προηγούμενη σχέση συμπεραίνουμε ότι η δεσμευμένη πιθανότητα της X είναι όντως Gaussian με τον ζητούμενο μέσον όρο και μήτρα συνδιασπορά. Α.5 Ιδιότητα της αλλαγής μέτρου Στη συνέχεια θα αναφερθούμε σε μια πολύ ενδιαφέρουσα ιδιότητα του μέσου όρου την οποία θα χρησιμοποιήσουμε σε επόμενο εδάφιο. Έστω τυχαίο διάνυσμα X το οποίο έχει πυκνότητα πιθανότητας fX (X). Ας υποθέσουμε επίσης ότι f˜X (X) αποτελεί εναλλακτική πυκνότητα πιθανότητας για το ίδιο τυχαία διάνυσμα. Μπορούμε τώρα να ορίσουμε το λόγο πιθανοφάνειας L (X) = ff˜X (X) X (X) το οποίο είναι βαθμωτή ποσότητα και αποτελεί ένα (εν γένει μη γραμμικό) μετασχηματισμό του διανύσματος X. Έστω τέλος μη γραμμική συνάρτηση G(X) για την οποία ενδιαφερόμαστε να υπολογίσουμε τον μέσο όρο E[G(X )] όπου E[·] συμβολίζει μέσον όρο ως προς την πυκνότητα πιθανότητας fX (X). Έχουμε τον εξής απλό υπολογισμό3 ∫ ∫ fX (X) ˜ E[G(X )] = G(X)fX (X) dX = G(X) fX (X) dX f˜X (X) ∫ = G(X)L (X)f˜X (X) dX ˜ = E[G(X )L (X )], 3 Στην ανάλυση που ακολουθεί έχουν παραληφθεί ορισμένες τεχνικές λεπτομέρειες. Π.χ. θεωρούμε ότι στα σημεία X για τα οποία f˜X (X) = 0, πρέπει να ισχύει ότι fX (X) = 0. Με τον περιορισμό αυτό αποφεύγεται ο λόγος πιθανοφάνειας να παίρνει άπειρη τιμή. Το γεγονός ότι η τιμή του λόγου πιθανοφάνειας είναι απροσδιόριστη δεν αποτελεί πρόβλημα αφού η συνεισφορά των σημείων αυτών στο συνολικό ολοκλήρωμα είναι μηδενική (γιατί;). 162 Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών ˜ συμβολίζει μέσον όρο ως προς την εναλλακτική πυκνότητα πιθανότητας f˜X (X). όπου E[·] Παρατηρούμε ότι μπορούμε να υπολογίσουμε τον μέσον όρο μιας τυχαίας ποσότητας αλλάζοντας (μέτρο) πυκνότητα πιθανότητας, αρκεί να κάνουμε τη σχετική διόρθωση με τη βοήθεια του λόγου πιθανοφάνειας. Η σχετικά προφανής ιδιότητα της αλλαγής μέτρου έχει πολλές και σημαντικές εφαρμογές στη θεωρία πιθανοτήτων και στατιστική. Α.6 Στοχαστικά ή τυχαία σήματα Επεκτείνοντας την ιδέα του συνδυασμού πεπερασμένου πλήθους τυχαίων μεταβλητών σε άπειρη ακολουθία, δηλαδή {χn , −∞ < n < ∞}, προκύπτει μια στοχαστική διαδικασία. Εάν ο δείκτης n αναφέρεται σε χρόνο, τότε τη διαδικασία την καλούμε ειδικότερα στοχαστικό σήμα διακριτού χρόνου. Με άλλα λόγια, με κάθε επιλογή της Φύσης σε θ μας διατίθεται ένα σήμα στο χρόνο. Ωστόσο σε κάθε χρονική στιγμή n0 η συμπεριφορά του σήματος είναι τυχαία, το χn0 είναι δηλαδή μια τυχαία μεταβλητή. Είναι επίσης δυνατό να ορίσουμε διαδικασίες {χ(t), −∞ < t < ∞} που να εξαρτώνται από τη μεταβλητή t η οποία είναι συνεχής. Εάν το t αναφέρεται σε αναλογικό χρόνο, τότε το χ(t) είναι ένα στοχαστικό σήμα συνεχούς χρόνου. Για κάθε χρονική στιγμή t = t0 , η συνάρτηση χ(t0 ) είναι μετρήσιμη συνάρτηση (δηλαδή τυχαία μεταβλητή), ενώ για κάθε επιλογή του θ είναι συνάρτηση του χρόνου4 . Τα στοχαστικά σήματα περιγράφονται πλήρως μέσω των κατανομών πεπερασμένης τάξης. Εάν n1 , n2 , . . . , nK (αντίστοιχα t1 , t2 , . . . , tK ) K χρονικές στιγμές, τότε η K τάξης κατανομή του σήματος ορίζεται σαν Fχ (x1 , . . . , xK , n1 , n2 , . . . , nK ) = P(χn1 ≤ x1 , . . . , χnK ≤ xK ) Fχ (x1 , . . . , xK , t1 , t2 , . . . , tK ) = P(χ(t1 ) ≤ x1 , . . . , χ(tK ) ≤ xK ). Όπως παρατηρούμε οι κατανομές, εκτός από συναρτήσεις των μεταβλητών xi , είναι επίσης συναρτήσεις των χρονικών στιγμών στις οποίες αναφέρονται. Αυτό οφείλεται στο γεγονός ότι δεν είναι απαραίτητο η τυχαία μεταβλητή που αντιστοιχεί στη χρονική στιγμή n1 να έχει την ίδια κατανομή με την τυχαία μεταβλητή της χρονικής στιγμής n2 . Α.6.1 Στατιστικές πρώτης και δεύτερης τάξης Στην επεξεργασία σημάτων η πληροφορία που είναι συνήθως απαραίτητη είναι ο τρόπος με τον οποίο εξελίσσεται η κατανομή της χn στο χρόνο καθώς και η από κοινού κατανομή των χn1 , χn2 που αναφέρεται σε δύο χρονικές στιγμές, δηλαδή Fχ (x1 , n1 ) = P(χn1 ≤ x1 ) και η Fχ (x1 , x2 , n1 , n2 ) = P(χn1 ≤ x1 , χn2 ≤ x2 ). Ωστόσο στην πράξη ακόμη και αυτή η περιορισμένη πληροφορία είναι αρκετά δύσκολο να εκτιμηθεί. Για το λόγο αυτό καταφεύγουμε στις λεγόμενες στατιστικές πρώτης και δεύτερης τάξης. 4 Υπενθυμίζεται ότι οι συναρτήσεις αυτές είναι επίσης και συναρτήσεις του θ, δηλαδή της επιλογής της φύσης. Α.6 Στοχαστικά ή τυχαία σήματα 163 Στατιστική πρώτης τάξης ενός στοχαστικού σήματος είναι το ντετερμινιστικό σήμα που προκύπτει παίρνοντας το στοχαστικό μέσον όρο σε κάθε χρονική στιγμή. Δηλαδή χ ¯n = E[χn ] ή χ(t) ¯ = E[χ(t)]. Στατιστική δεύτερης τάξης αποτελεί η συσχέτιση του σήματος με τον εαυτό του σε δύο διαφορετικές χρονικές στιγμές, δηλαδή Rχ (n1 , n2 ) = E[(χn1 − χ ¯n1 )(χn2 − χ ¯n2 )] ή Rχ (t1 , t2 ) = E[{χ(t1 ) − χ(t ¯ 1 )}{χ(t2 ) − χ(t ¯ 2 )}]. Η συνάρτηση Rχ (n1 , n2 ) (αντίστοιχα Rχ (t1 , t2 )) καλείται συνάρτηση αυτοσυσχέτισης (ή απλά αυτοσυσχέτιση) του σήματος χ. Κατά ανάλογο τρόπο ορίζουμε τη συνάρτηση ετεροσυσχέτισης (ή ετεροσυσχέτιση) μεταξύ δύο διαφορετικών σημάτων {χn }, {ςn } σαν Rχ,ς (n1 , n2 ) = E[(χn1 − χ ¯n1 )(ςn2 − ς¯n2 )]. Η συνάρτηση ετεροσυσχέτισης υποδηλώνει, κατά μέσον όρο, πόσο συσχετισμένο είναι το σήμα {χn } τη χρονική στιγμή n1 με το σήμα {ςn } τη χρονική στιγμή n2 . Όπως θα διαπιστώσουμε, οι στατιστικές πρώτης και δεύτερης τάξης είναι δυνατό να εκτιμηθούν στην πράξη αρκετά εύκολα. Στο σημείο αυτό κρίνεται σκόπιμο να ορισθεί ένα πολύ ιδιαίτερο σήμα όσον αφορά στις στατιστικές δεύτερης τάξης. Ένα στοχαστικό σήμα {χn } καλείται λευκός θόρυβος, όταν ο μέσος όρος του σε κάθε χρονική στιγμή είναι μηδέν και η συνάρτηση αυτοσυσχέτισης είναι της μορφής Rχ (n1 , n2 ) = Rχ (n1 , n1 )δn1 −n2 ή Rχ (t1 , t2 ) = Rχ (t1 , t1 )δ(t1 − t2 ), όπου δn (αντίστοιχα δ(t)) η συνάρτηση δέλτα. Με άλλα λόγια, στο λευκό θόρυβο τα δείγματα του σήματος συσχετίζονται μόνον με τον εαυτό τους ενώ είναι ασυσχέτιστα με τα δείγματα οποιασδήποτε άλλης χρονικής στιγμής. Α.6.2 Στασιμότητα και εργοδικότητα Η στασιμότητα είναι ιδιότητα που αναφέρεται σε συγκεκριμένο χαρακτηριστικό ενός σήματος. Είναι επομένως δυνατόν ορισμένα χαρακτηριστικά να είναι στάσιμα και άλλα όχι. Η πλέον ισχυρή μορφή στασιμότητας αναφέρεται στη συνάρτηση κατανομής ενός σήματος. Έστω οι χρονικές στιγμές ni , i = 1, . . . , K. Ένα σήμα {χn } θα καλείται ισχυρώς στάσιμο K τάξης, εάν η συνάρτηση κατανομής ικανοποιεί Fχ (x1 , . . . , xK , n1 , n2 , . . . , nK ) = Fχ (x1 , . . . , xK , n2 − n1 , . . . , nK − n1 ). 164 Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών Με άλλα λόγια, εάν η συνάρτηση κατανομής δεν εξαρτάται από τις απόλυτες χρονικές στιγμές αλλά μόνο από τις σχετικές, έχουμε ισχυρή στασιμότητα. Για παράδειγμα, ένα σήμα {χn } είναι ισχυρώς στάσιμο πρώτης τάξης, όταν η συνάρτηση κατανομής του δεν εξαρτάται από το χρόνο, δηλαδή Fχ (x1 , n1 ) = Fχ (x1 , 0), ενώ είναι ισχυρώς στάσιμο δεύτερης τάξης, όταν Fχ (x1 , x2 , n1 , n2 ) = Fχ (x1 , x2 , n2 − n1 ). Η ισχυρή στασιμότητα είναι πολύ περιοριστική και, τουλάχιστον για τις εφαρμογές που μας ενδιαφέρουν, όχι αναγκαία. Για το σκοπό αυτό είναι δυνατό να ορίσουμε την έννοια της στασιμότητας μόνο για μεγέθη που χρησιμοποιούμε, όπως για παράδειγμα στατιστικές πρώτης και δεύτερης τάξης. Ένα σήμα {χn } θα καλείται ασθενώς στάσιμο πρώτης τάξης, όταν χ ¯n = E[χn ] = χ, ¯ δηλαδή ο στοχαστικός μέσος όρος είναι μια σταθερά ανεξάρτητη του χρόνου. Ένα σήμα θα καλείται ασθενώς στάσιμο δεύτερης τάξης, όταν είναι ασθενώς στάσιμο πρώτης τάξης και επιπλέον η συνάρτηση αυτοσυσχέτισης ικανοποιεί τη σχέση Rχ (n1 , n2 ) = Rχ (n2 − n1 ) = E[(χn1 − χ)(χ ¯ n2 − χ)]. ¯ Τέλος, δύο σήματα {χn }, {ϕn } θα καλούνται από κοινού ασθενώς στάσιμα, δεύτερης τάξης όταν αυτά είναι ασθενώς στάσιμα δεύτερης τάξης και επιπλέον η συνάρτηση ετεροσυσχέτισης ικανοποιεί τη σχέση Rχ,ς (n1 , n2 ) = Rχ,ς (n2 − n1 ) = E[(χn1 − χ)(ς ¯ n2 − ς¯)]. Από σύμβαση, στην αυτοσυσχέτιση και την ετεροσυσχέτιση, θεωρούμε σαν όρισμα τη διαφορά των χρονικών στιγμών του δεύτερου όρου του γινομένου μείον του πρώτου. Οι συναρτήσεις αυτοσυσχέτισης και ετεροσυσχέτισης στάσιμων σημάτων έχουν τις ακόλουθες ενδιαφέρουσες συμμετρίες Rχ (−n) = Rχ (n) (Α.5) Rχ,ς (−n) = Rς,χ (n). (Α.6) Από την πρώτη συμπεραίνουμε ότι η συνάρτηση αυτοσυσχέτισης είναι άρτια συνάρτηση του n. Όπως αναφέρθηκε σε προηγούμενο εδάφιο, στην πράξη χρησιμοποιούμε πολύ συχνά αριθμητικούς μέσους όρους για να προσεγγίσουμε τους στοχαστικούς μέσους όρους. Για παράδειγμα, εάν χ είναι τυχαία μεταβλητή και χ(θ1 ), . . . , χ(θK ) είναι K υλοποιήσεις της, τότε χ(θ1 ) + χ(θ2 ) + · · · + χ(θK ) χ ¯ = E[χ] ≈ . K Το σημείο που πρέπει να τονισθεί στην προηγούμενη εκτίμηση είναι η ανάγκη για πολλαπλές υλοποιήσεις της τυχαίας μεταβλητής. Επεκτείνοντας την ιδέα αυτή σε ένα τυχαίο σήμα {χn }, είναι φανερό ότι, για να εκτιμηθεί ο στοχαστικός μέσος όρος {χ ¯n } του Α.6 Στοχαστικά ή τυχαία σήματα 165 σήματος, είναι απαραίτητο να υπάρχουν διαθέσιμες πολλαπλές υλοποιήσεις του στοχαστικού σήματος, {χn (θ1 )}, {χn (θ2 )}, . . ., δηλαδή πολλαπλά σήματα. Στην περίπτωση αυτή η εφαρμογή του αριθμητικού μέσου όρου για κάθε χρονική στιγμή καταλήγει σε προσέγγιση του στοχαστικού μέσου όρου του σήματος ως εξής χ ¯n = E[χn ] ≈ χn (θ1 ) + χn (θ2 ) + · · · + χn (θK ) . K (Α.7) Η ανάγκη για πολλαπλά σήματα είναι εν γένει ανεπιθύμητη, αφού στην πράξη συνήθως διατίθεται ένα και μοναδικό σήμα (μια μόνον υλοποίηση). Στην περίπτωση που το σήμα μας είναι ασθενώς στάσιμο πρώτης τάξης (με αποτέλεσμα ο στοχαστικός μέσος όρος να είναι κοινός σε κάθε χρονική στιγμή), είναι λογικό να αναρωτηθεί κανείς εάν είναι δυνατό να χρησιμοποιηθούν τα διαφορετικά χρονικά δείγματα μιας υλοποίησης, ώστε να εκτιμηθεί ο κοινός στοχαστικός μέσος όρος όλων των δειγμάτων, δηλαδή εάν μπορούμε να γράψουμε χ ¯≈ χ1 (θ) + χ2 (θ) + · · · + χK (θ) . K (Α.8) Παρατηρούμε τη σημαντική διαφορά μεταξύ των δύο προσεγγίσεων. Η (Α.7) αναφέρεται σε μια χρονική στιγμή και χρησιμοποιεί διαφορετικές υλοποιήσεις (διαφορετικά σήματα λόγω των θi ), ενώ η (Α.8) αναφέρεται σε μια υλοποίηση (ένα σήμα λόγω του μοναδικού θ) αλλά σε διαφορετικές χρονικές στιγμές. Στάσιμα σήματα τα οποία ικανοποιούν χ ¯ = lim K→∞ χ1 + χ2 + · · · + χK K καλούνται εργοδικά πρώτης τάξης. Συνθήκες κάτω από τις οποίες ένα σήμα είναι εργοδικό υπάρχουν, ωστόσο, επειδή ξεφεύγουν του σκοπού του παρόντος βιβλίου δεν θα παρουσιαστούν. Ένα εύκολο παράδειγμα μη εργοδικού σήματος είναι η περίπτωση που προκύπτει από την άπειρη επανάληψη μιας τυχαίας μεταβλητής, δηλαδή χn = χ, όπου χ οποιαδήποτε τυχαία μεταβλητή. Στην περίπτωση αυτή ο κοινός στοχαστικός μέσος όρος κάθε χρονικής στιγμής δεν συμπίπτει με τον χρονικό αριθμητικό μέσο όρο (γιατί;). Κατά ανάλογο τρόπο είναι δυνατό να ορίσουμε την εργοδικότητα δεύτερης τάξης ενός στάσιμου σήματος δεύτερης τάξης. Ενδιαφερόμαστε δηλαδή να εκτιμήσουμε στατιστικές δεύτερης τάξης από χρονικούς αριθμητικούς μέσους όρους, συγκεκριμένα K 1 ∑ (χn − χ)(χ ¯ k+n − χ). ¯ K→∞ K Rχ (k) = Rχ (n + k − n) = lim n=1 Παρατηρούμε και πάλι ότι για τον υπολογισμό της συνάρτησης αυτοσυσχέτισης, όταν έχουμε εργοδικότητα, είναι αρκετό ένα μόνο σήμα. Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών 166 Α.6.3 Πυκνότητα φάσματος ισχύος στοχαστικού σήματος Στην επεξεργασία σημάτων έχει πολύ μεγάλη σημασία το συχνοτικό περιεχόμενο (μετασχηματισμός Fourier) ενός σήματος. Έχει επομένως ενδιαφέρον να εξετάσουμε με ποιο τρόπο η έννοια αυτή είναι δυνατό να επεκταθεί στην περίπτωση των στοχαστικών σημάτων. Ας θεωρήσουμε για ευκολία ένα στοχαστικό σήμα διακριτού χρόνου {χn }, το οποίο είναι στάσιμο, με μέση τιμή μηδέν και με συνάρτηση αυτοσυσχέτισης Rχ (n). Εάν εφαρμόσουμε τον Διακριτό Μετασχηματισμός Fourier5 (ΔΜF) σε L χρονικά δείγματα τότε L−1 1 ∑ jω XL (e ) = √ χn e−jnω . L n=0 Επειδή τα χn είναι τυχαίες μεταβλητές συμπεραίνουμε ότι για κάθε συχνότητα ω = ω0 η ποσότητα XL (ejω0 ) είναι επίσης τυχαία μεταβλητή. Με άλλα λόγια η συνάρτηση XL (ejω ) είναι μια στοχαστική διαδικασία αφού εξαρτάται από τη συχνότητα ω και για κάθε τιμή της είναι τυχαία μεταβλητή. Στα σήματα μεγάλη σημασία έχει η κατανομή ενέργειας ανά συχνότητα. Στην περίπτωση του στοχαστικού σήματος της προηγουμένης παραγράφου, αυτό εκφράζεται μέσω του |XL (ejω )|2 . Επειδή η ποσότητα αυτή είναι τυχαία, προκειμένου να προκύψει μια ντετερμινιστική συνάρτηση της συχνότητας η οποία να είναι πρακτικά χρήσιμη εφαρμόζεται στοχαστικός μέσος όρος και υπολογίζεται το όριο για L → ∞. Προτείνεται συνεπώς η χρήση της ντετερμινιστικής συνάρτησης limL→∞ E[|XL (ejω )|2 ] για την περιγραφή της μέσης ενέργειας ανά συχνότητα (δηλαδή τον μέσον όρο της ενέργειας ανά συχνότητα για όλα τα διαφορετικά σήματα/υλοποιήσεις που αντιπροσωπεύει το στοχαστικό σήμα). Καλούμε πυκνότητα φάσματος ισχύος ενός στάσιμου σήματος {χn } τη συνάρτηση που προκύπτει από το ακόλουθο όριο  2  L−1 ∑ [ ] 1 χn e−jnω  Φχ (ejω ) = lim E |XL (ejω )|2 = lim E  L→∞ L→∞ L n=0 = ∞ ∑ Rχ (n)e−jnω = F {Rχ (n)}, (Α.9) n=−∞ όπου με F {·} συμβολίζουμε τον μετασχηματισμό Fourier. Η πυκνότητα φάσματος ισχύος, αφού αποτελεί τον Μετασχηματισμό Fourier της συνάρτησης αυτοσυσχέτισης, εξαρτάται αποκλειστικά από στατιστικές δεύτερης τάξης του τυχαίου σήματος {χn }. Κατ’ αντιστοιχία, για δύο από κοινού στάσιμα (πραγματικά) σήματα {χn }, {ςn }, √ Ο ΔΜF ορίζεται με ένα συντελεστή κανονικοποίησης 1/ L προκειμένου το σήμα στο χρόνο και στη συχνότητα να έχει την ίδια ακριβώς ενέργεια. 5 Α.7 Επίδραση γραμμικού συστήματος σε στατιστικές σήματος 167 έχουμε το όριο [ ] Φχ,ς (ejω ) = lim E XL (ejω )SL∗ (ejω ) L→∞ [ (L−1 ) (L−1 )] ∑ 1 ∑ = lim E χn e−jnω ςn ejnω L→∞ L n=0 = ∞ ∑ n=0 Rχ,ς (n)e−jnω = F {Rχ,ς (n)}, n=−∞ όπου με Φχ,ς (ejω ) συμβολίζουμε το Μετασχηματισμό Fourier της συνάρτησης ετεροσυσχέτισης. Η συνάρτηση Φχ,ς (ejω ) καλείται συνάρτηση ετεροφάσματος. Για τη συνάρτηση πυκνότητας φάσματος ισχύος, σαν συνέπεια της (Α.5), έχουμε τις ακόλουθες ιδιότητες Φχ (ejω ) ∈ R, Φχ (ejω ) ≥ 0, Φχ (e−jω ) = Φχ (ejω ), είναι δηλαδή μια πραγματική, άρτια, μη αρνητική συνάρτηση της συχνότητας ω. Για τη συνάρτηση ετεροφάσματος, από την (Α.6), ισχύει Φχ,ς (e−jω ) = Φ∗χ,ς (ejω ), Φχ,ς (e−jω ) = Φς,χ (ejω ). Α.7 Επίδραση γραμμικού συστήματος σε στατιστικές σήματος Έστω στοχαστικό σήμα {χn }, το οποίο είναι είσοδος σε ένα γραμμικό, χρονικά σταθερό σύστημα με κρουστική απόκριση {hn }. Η έξοδος του συστήματος είναι επίσης στοχαστικό σήμα και ισχύει ςn = hn ∗ χn = ∞ ∑ hk χn−k . (Α.10) k=−∞ Πρέπει να σημειώσουμε ότι το {hn } είναι μια ντετερμινιστική ακολουθία, σε αντίθεση με την είσοδο και την έξοδο που είναι στοχαστικές διαδικασίες. Εφαρμόζοντας στοχαστικό μέσον όρο στην (Α.10), υπολογίζουμε τις στατιστικές πρώτης τάξης της εξόδου συναρτήσει των αντίστοιχων στατιστικών της εισόδου, ς¯n = hn ∗ χ ¯n . Δηλαδή η ακολουθία των μέσων όρων της εξόδου είναι η συνέλιξη της κρουστικής απόκρισης με την ακολουθία των μέσων όρων της εισόδου. Συμπεραίνουμε επομένως ότι, όταν η είσοδος έχει μέση τιμή μηδέν, το ίδιο θα ισχύει και για την έξοδο. Ας υποθέσουμε ότι το σήμα εισόδου {χn } είναι μηδενικής μέσης τιμής και ασθενώς στάσιμο δεύτερης τάξης με συνάρτηση αυτοσυσχέτισης Rχ (n) και πυκνότητα φάσματος Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών 168 Φχ (ejω ). Επιθυμούμε να υπολογίσουμε τις αντίστοιχες συναρτήσεις για το σήμα εξόδου. Ισχύουν οι παρακάτω σχέσεις Rς,χ (n) = h−n ∗ Rχ (n) Rς (n) = hn ∗ Rς,χ (n) = hn ∗ h−n ∗ Rχ (n) Φς (ejω ) = |H(ejω )|2 Φχ (ejω ). (Α.11) Η απόδειξη των σχέσεων αυτών είναι εύκολη. Από την (Α.10) πολλαπλασιάζοντας με χl , εφαρμόζοντας στοχαστικό μέσον όρο και χρησιμοποιώντας στασιμότητα, καταλήγουμε Rς,χ (l − n) = E[ςn χl ] = ∞ ∑ ∞ ∑ hk E[χn−k χl ] = k=−∞ hk Rχ (l − n + k). k=−∞ Αντικαθιστώντας στην προηγούμενη σχέση όπου l − n το n και όπου k το −k, αποδεικνύεται η πρώτη σχέση. Για να αποδείξουμε τη δεύτερη χρησιμοποιούμε πάλι την (Α.10) αλλά πολλαπλασιάζουμε αυτή τη φορά με ςl , και μετά εφαρμόζουμε μέσον όρο. Η τρίτη αποτελεί συνδυασμό της πρώτης και της δεύτερης και αποδεικνύεται με τα ακόλουθα βήματα Φς (ejω ) = F {Rς (n)} = F {hn ∗ h−n ∗ Rχ (n)} = F {hn }F {h−n }F {Rχ (n)} = H(ejω )H(e−jω )Φχ (ejω ) = |H(ejω )|2 Φχ (ejω ), όπου η τελευταία ισότητα οφείλεται στη γνωστή ιδιότητα του Μετασχηματισμού Fourier πραγματικών ακολουθιών H(e−jω ) = H∗ (ejω ). Παρατηρούμε ότι η πυκνότητα φάσματος της εξόδου είναι το γινόμενο της πυκνότητας φάσματος της εισόδου επί το μέτρο στο τετράγωνο της απόκρισης συχνότητας του γραμμικού φίλτρου. Η σχέση αυτή ουσιαστικά αντικαθιστά τη σχέση S(ejω ) = H(ejω )X(ejω ) των ντετερμινιστικών σημάτων που αποτελεί τη βάση στη θεωρία σχεδιασμού φίλτρων. Μια πολύ σημαντική συνέπεια της Σχέσης (Α.11) είναι η παρακάτω πρόταση6 . Σχέση στοχαστικών σημάτων και γραμμικών συστημάτων : συνθήκες η πυκνότητα φάσματος Φχ {χn } αναλύεται ως εξής Κάτω από πολύ γενικές (ejω ) ενός τυχαίου, στάσιμου σήματος Φχ (ejω ) = |Uχ (ejω )|2 = Uχ (ejω )Uχ (e−jω ), όπου Uχ (ejω ) είναι ο Μετασχηματισμός Fourier μιας αιτιατής, απόλυτα αθροίσιμης ακολουθίας. 6 Η απόδειξη της πρότασης υπάρχει στο βιβλίο [WH1985]. Περισσότερες λεπτομέρειες υπάρχουν επίσης στο Εδάφιο 6.3.2. Α.8 Όρια στοχαστικών ακολουθιών 169 Ως εκ τούτου, όσον αφορά στις στατιστικές δεύτερης τάξης, κάτω από πολύ γενικές συνθήκες, ένα σήμα {χn } μπορεί να θεωρηθεί σαν έξοδος ενός γραμμικού, αιτιατού, χρονικά σταθερού, ευσταθούς συστήματος με απόκριση συχνότητας Uχ (ejω ) και είσοδο λευκό θόρυβο. Α.8 Όρια στοχαστικών ακολουθιών Με δεδομένο ότι μια τυχαία μεταβλητή είναι μια συνάρτηση της επιλογής θ της Φύσης, γίνεται κατανοητό ότι σύγκλιση σε στοχαστικές ακολουθίες ισοδυναμεί με σύγκλιση ακολουθίας συναρτήσεων. Δυστυχώς, όπως είναι γνωστό από την Ανάλυση, οι έννοια αυτή δεν είναι μονοσήμαντα ορισμένη. Θα αναφερθούμε στα σπουδαιότερα είδη σύγκλισης, ορισμένα από τα οποία χρησιμοποιούνται στην κυρίως ύλη του βιβλίου. Έστω ακολουθία τυχαίων μεταβλητών {χn } και τυχαία μεταβλητή χ. Παρουσιάζουμε στη συνέχεια διαφορετικές μορφές σύγκλισης της ακολουθίας {χn } προς τη χ. Σύγκλιση υπό την έννοια της κατανομής: όταν ∀ x ∈ R, ισχύει lim P(χn ≤ x) = P(χ ≤ x). n→∞ Σύγκλιση υπό την έννοια της πιθανότητας: όταν ∀ ϵ > 0, ισχύει ότι lim P(|χn − χ| > ϵ) = 0. n→∞ Μέση τετραγωνική σύγκλιση: όταν lim E[(χn − χ)2 ] = 0. n→∞ Γενίκευση της έννοιας αυτής αποτελεί η σύγκλιση κατά την p-οστή ροπή lim E[|χn − χ|p ] = 0, n→∞ όπου p ≥ 1. Σχεδόν βέβαιη, ή με πιθανότητα 1, σύγκλιση: όταν ∀ ϵ > 0, ισχύει ότι lim P (∪m≥n {|χm − χ| > ϵ}) = 0. n→∞ Η σύγκλιση υπό την έννοια της κατανομής είναι η πλέον αδύναμη αφού όλες οι υπόλοιπες μορφές τη συνεπάγονται. Η δεύτερη πιο αδύναμη σύγκλιση είναι υπό την έννοια της πιθανότητας την οποία συνεπάγονται οι επόμενες δύο δηλαδή η μέση τετραγωνική και η σχεδόν βέβαιη. Τέλος για τις άλλες δύο δεν υπάρχει προκαθορισμένη διάταξη. Είναι δυνατό μια στοχαστική ακολουθία να παρουσιάζει μέση τετραγωνική σύγκλιση και όχι σχεδόν βέβαιη και το αντίστροφο. Ωστόσο η σχεδόν βέβαιη σύγκλιση, όπως δηλώνει και το όνομά της, θεωρείται το αντίστοιχο της ντετερμινιστικής σύγκλισης. 170 Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών Α.9 Αθροίσματα τυχαίων μεταβλητών Στη συνέχεια θα εξεταστεί η στατιστική συμπεριφορά αθροίσματος τυχαίων μεταβλητών. Συγκεκριμένα θα παρουσιαστούν τρεις τρόποι ανάλυσης αθροισμάτων οι οποίοι διαφέρουν στο είδος της κανονικοποίησης που εφαρμόζεται στα αθροίσματα. Τα αποτελέσματα που απορρέουν από τις αντίστοιχες αναλύσεις διαφέρουν σημαντικά με συνέπεια να απαιτείται ιδιαίτερη προσοχή κατά την εφαρμογή τους ώστε να μην οδηγηθούμε σε λάθος συμπεράσματα. Α.9.1 Νόμος των μεγάλων αριθμών Έστω ακολουθία τυχαίων μεταβλητών7 {χn } της οποίας διαμορφώνουμε τον αριθμητικό μέσον όρο των n πρώτων όρων της χ ¯n = χ1 + χ2 + · · · + χn . n Είναι φανερό ότι η ακολουθία {χ ¯n } είναι επίσης στοχαστική διαδικασία. Εκ των όσων έχουν αναφερθεί στα προηγούμενα εδάφια, καθώς το n αυξάνει, αναμένεται το χ ¯n να συγκλίνει σε μια ντετερμινιστική σταθερά. Όπως διαπιστώσαμε στο προηγούμενο εδάφιο η έννοια της σύγκλισης δεν είναι μονοσήμαντη. Εδώ θα αναφερθούμε μόνο στην μέση τετραγωνική που είναι η απλούστερη από άποψη κατανόησης, ωστόσο ο νόμος των μεγάλων αριθμών ισχύει και για την περίπτωση της σχεδόν βέβαιης σύγκλισης. Νόμος των μεγάλων αριθμών (ΝΜΑ) : Έστω ακολουθία τυχαίων μεταβλητών {χn } με όρους που είναι ανεξάρτητες και της ίδιας κατανομής τυχαίες μεταβλητές με κοινό στοχαστικό μέσον όρο µ και πεπερασμένη διασπορά σ 2 , τότε χ1 + · · · + χn lim χ ¯n = lim = µ, n→∞ n→∞ n υπό την έννοια της μέσης τετραγωνικής σύγκλισης, δηλαδή [( )2 ] (χ − µ) + · · · + (χ − µ) 1 n lim E[(χ ¯n − µ)2 ] = lim E = 0. n→∞ n→∞ n Η απόδειξη της πρότασης είναι εξαιρετικά απλή, αφού, λόγω ανεξαρτησίας των τυχαίων μεταβλητών συμπεραίνουμε ότι E[χ ¯n ] = µ και E[(χ ¯n − µ)2 ] = σ2 . n Η συγκεκριμένη μορφή του ΝΜΑ μας δηλώνει ότι στο όριο ο αριθμητικός μέσος όρος χ ¯n έχει μέση τιμή µ και μηδενική διασπορά, πράγμα που σημαίνει ότι δεν διαφέρει από 7 Η ακολουθία μπορεί να αναφέρεται σε διαφορετικές χρονικές στιγμές μιας υλοποίησης ενός τυχαίου σήματος ή σε ακολουθία διαφορετικών υλοποιήσεων της ίδιας τυχαίας μεταβλητής. Α.9 Αθροίσματα τυχαίων μεταβλητών 171 μια σταθερά. Λόγω της σύγκλισης αυτής ο αριθμητικός μέσος όρος χ ¯n είναι δυνατό να χρησιμοποιηθεί σαν εκτιμητής του (κοινού) στοχαστικού μέσου όρου µ των τυχαίων μεταβλητών χn . Η υπόθεση ότι οι τυχαίες μεταβλητές είναι ανεξάρτητες και της ίδιας κατανομής παρατηρούμε ότι εξασφαλίζει εργοδικότητα πρώτης τάξης στο σήμα {χn }. Θα πρέπει ωστόσο να σημειωθεί ότι η υπόθεση αυτή δεν είναι αναγκαία, αφού στην πραγματικότητα ο ΝΜΑ ισχύει κάτω από πολύ γενικότερες συνθήκες8 . Άμεση γενίκευση του ΝΜΑ αποτελεί η περίπτωση της ακολουθίας {χn } με όρους ανεξάρτητους αλλά όχι της ίδιας κατανομής. Εάν {µn } είναι η ακολουθία των μέσων όρων και σ 2 +···+σ 2 {σn2 } των διασπορών και ισχύει limn→∞ 1 n2 n = 0, τότε Παράδειγμα Α.2 : χ1 + · · · + χn µ1 + · · · + µn − → 0, n n όπου η σύγκλιση είναι μέση τετραγωνική. Σημειώνεται ότι η γενίκευση αναφέρεται στη διαφορά n των δύο ποσοτήτων ότι συγκλίνει στο μηδέν ακόμη και εάν ο λόγος µ ¯n = µ1 +···+µ δεν συγκλίn νει. Όταν µ ¯n → µ τότε μπορούμε επίσης να γράψουμε την κλασική μορφή του ΝΜΑ, δηλαδή χ ¯n → µ. Η απόδειξη είναι απλή και επαφίεται σαν άσκηση στον αναγνώστη. Α.9.2 Κεντρικό οριακό θεώρημα Υπό κάποια έννοια, το δεύτερο θεώρημα που θα παρουσιάσουμε εκτιμά τη μορφή του σφάλματος του προηγούμενου θεωρήματος. Όπως είδαμε από τον ΝΜΑ, η διαφορά μεταξύ χ ¯n και µ τείνει στο μηδέν. Εάν το χ ¯n θεωρηθεί σαν εκτιμητής του μέσου όρου µ, η τυχαία μεταβλητή χ ¯n − µ τότε εκφράζει το σφάλμα εκτίμησης του µ. Το Κεντρικό Οριακό Θεώρημα (ΚΟΘ) προσδιορίζει τη μορφή της συνάρτησης κατανομής του εν λόγω σφάλματος. Έστω ακολουθία ανεξάρτητων και της ίδιας κατανομής τυχαίων μεταβλητών {χn } με κοινό στοχαστικό μέσον όρο µ και πεπερασμένη διασπορά σ 2 > 0 τότε, υπό κατάλληλες συνθήκες9 , για κάθε πεπερασμένο πραγματικό αριθμό x ισχύει ότι Κεντρικό οριακό θεώρημα (ΚΟΘ) : ) n (χ ¯n − µ) ≤ x = σ ( ) (χ1 − µ) + · · · + (χn − µ) √ lim P ≤ x = Φ(x), n→∞ σ n (√ lim P n→∞ όπου Φ(x) η συνάρτηση κατανομής μιας κανονικοποιημένης Gaussian τυχαίας μεταβλητής N (0, 1) με μέση τιμή μηδέν και διασπορά μονάδα. 8 Ενδιαφέρουσες γενικεύσεις του ΝΜΑ καθώς και του ΚΟΘ που βασίζονται στις έννοιες των martingales περιέχονται στο βιβλίο [HH1980]. 9 Για να ισχύει το ΚΟΘ απαιτείται μια επιπλέον συνθήκη που αφορά τη συμπεριφορά της κοινής πυκνότητας πιθανότητας για μεγάλες τιμές του ορίσματός της. Βασικά η πυκνότητα πιθανότητας δεν πρέπει να Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών 172 √ Με άλλα λόγια η ακολουθία των τυχαίων μεταβλητών { σn (χ ¯n − µ)} συγκλίνει, υπό την έννοια της κατανομής, σε μια κανονικοποιημένη Gaussian. Μολονότι η λεπτομερής απόδειξη του ΚΟΘ ξεφεύγει από τα πλαίσια του βιβλίου, θεωρείται σκόπιμο να παρουσιαστεί η κεντρική ιδέα επειδή παρουσιάζει ιδιαίτερο ενδιαφέρον λόγω της απλότητάς της. Εάν καλέσουμε F (jΩ) = E[ejΩ(χk −µ) ] τη χαρακτηριστική συνάρτηση της τυχαίας μεταβλητής χk − µ, τότε με ανάπτυγμα Tailor της εκθετικής συνάρτησης έχουμε ότι jΩ (jΩ)2 (jΩ)3 E[χk − µ] + E[(χk − µ)2 ] + E[(χk − µ)3 ] + · · · 1! 2! 3! Ω3 Ω2 2 σ −j E[(χk − µ)3 ] + · · · =1− 2 6 Από τη σχέση αυτή συμπεραίνουμε ότι ( ) ( ) χ −µ jΩ Ω2 1 jΩ √knσ E[e ]=F √ =1− +o 2n n nσ F (jΩ)= 1 + πράγμα που αποδίδει [ j √Ω nσ E e Pn k=1 (χk −µ) ] [ n ∏ =E ] j √Ω (χk −µ) nσ e k=1 ( )]n n [ √Ω ] [ ∏ 1 Ω2 j nσ (χk −µ) E e +o = = 1− 2n n k=1 → e− 2 Ω . 1 2 Το τελευταίο όριο αποτελεί τη χαρακτηριστική συνάρτηση μιας κανονικοποιημένης τυχαίας Gaussian μεταβλητής. Η δυσκολία της απόδειξης έγκειται στον κατάλληλο έλεγχο του όρου που συμβολίσαμε σαν o( n1 ) ώστε να εξασφαλιστεί η ορθότητα του ορίου. Ο έλεγχος αυτός επιτυγχάνεται με τη συνθήκη του Lindeberg. Εάν η ακολουθία {χn } έχει όρους που είναι ανεξάρτητοι αλλά όχι της ίδιας κατανομής και {µn } είναι η ακολουθία των μέσων όρων, {σn2 } η ακολουθία των διασπορών τότε η αντίστοιχη μορφή του ΚΟΘ γίνεται ) ( (χ1 − µ1 ) + · · · + (χn − µn ) √ ≤ x = Φ(x). lim P n→∞ σ12 + · · · + σn2 Ικανή συνθήκη για την ισχύ της γενικευμένης μορφής του ΚΟΘ αποτελεί η συνθήκη Lindeberg ∑n 2 n o √ k=1 E[(χk − µk ) 1 |χk −µk |≥ϵ Pn σ 2 ] i=1 i ∑n → 0, 2 k=1 σk έχει υπερβολικά παχιές “ουρές” και αυτό εξασφαλίζεται με τη βοήθεια της συνθήκης του Lindeberg (βλέπε [HH1980] και παρακάτω στη γενίκευση του ΚΟΘ). Α.9 Αθροίσματα τυχαίων μεταβλητών 173 η οποία πρέπει να ισχύει για κάθε ϵ > 0. Ικανή συνθήκη η οποία εξασφαλίζει την ισχύ της προηγούμενης σχέσηςPείναι να υπάρχουν θετικές σταθερές c, δ τέτοιες, ώστε n σ2 k=1 √ k → ∞. E[|χn |2+δ ] ≤ c για κάθε n και 1+δ n Υπάρχουν φυσικά γενικεύσεις για περιπτώσεις τυχαίων μεταβλητών που δεν είναι κατ’ ανάγκην ανεξάρτητες. Η πλέον ενδιαφέρουσα γενίκευση αναφέρεται στις martingales. Πρέπει ωστόσο να σημειώσουμε ότι η ισχύς του ΚΟΘ είναι σαφώς πιο περιορισμένη από ό,τι του ΝΜΑ. Πρέπει τέλος να επισημάνουμε ότι η ιδιότητα αυτή του να αθροίζουμε τυχαίες μεταβλητές με πρακτικά αυθαίρετη κατανομή και να καταλήγουμε σε Gaussian είναι πραγματικά θαυμαστή. Η προσέγγιση μάλιστα είναι πολύ ικανοποιητική ακόμη και για μικρά n. Επειδή δε σε πολλές εφαρμογές τα περισσότερα σήματα ενδιαφέροντος προέρχονται από άθροιση άλλων τυχαίων σημάτων, αυτό έχει σαν αποτέλεσμα η Gaussian να αποτελεί το πλέον διαδεδομένο και δημοφιλές μοντέλο περιγραφής σημάτων στην πράξη. Α.9.3 Φράγμα Chernoff Ο υπολογισμός της συνάρτησης κατανομής αθροίσματος τυχαίων μεταβλητών υπεισέρχεται συχνά στον υπολογισμό της απόδοσης συστημάτων ανίχνευσης όπως στον υπολογισμό της πιθανότητας ανίχνευσης και λανθασμένου συναγερμού. Είναι επομένως απαραίτητο να αναπτυχθούν εύκολοι τρόποι προσέγγισης των εν λόγω πιθανοτήτων. Το ΚΟΘ αποτελεί δίχως άλλο μια δυνατή μεθοδολογία προς την κατεύθυνση αυτή. Στη συνέχεια θα παρουσιάσουμε ένα δεύτερο τρόπο υπολογισμού πιθανοτήτων της μορφής αυτής. Φράγμα Chernoff : Έστω ακολουθία ανεξάρτητων και της ίδιας κατανομής τυ- χαίων μεταβλητών {χn } με κοινό στοχαστικό μέσον όρο µ, καθώς και σταθερά δ > 0 τότε 1 log P n→∞ n lim ( ) (χ1 − µ) + · · · + (χn − µ) ≥δ = n min {−s(µ + δ) + log (E[esχ1 ])} . s≥0 Αποδεικνύεται εύκολα, με τη βοήθεια της ανισότητας Chebyshev (βλέπε επόμενο εδάφιο), ότι η δεύτερη ποσότητα αποτελεί άνω φράγμα της πρώτης για κάθε n. Το γεγονός ότι αποτελεί επίσης και το όριό της είναι γνωστό σαν Θεώρημα Crammer. Δυστυχώς η απόδειξη του εν λόγω θεωρήματος ξεφεύγει από τα στενά όρια του παρόντος παραρτήματος. Αξίζει να σημειωθεί ότι αποτελέσματα της μορφής αυτής κατατάσσονται στην περιοχή των Μεγάλων Αποκλίσεων (Large Deviations) και ο ενδιαφερόμενος αναγνώστης μπορεί να ανακαλύψει τις απαραίτητες λεπτομέρειες της απόδειξης καθώς και ικανό αριθμό άλλων σημαντικών αποτελεσμάτων στο βιβλίο [ST1984]. Παράρτημα Α : Στοιχεία Πιθανοτήτων και Στοχαστικών Διαδικασιών 174 Όπως αναφέρθηκε στην αρχή του εδαφίου, το Φράγμα Chernoff επιχειρεί, όπως και το ΚΟΘ να προσεγγίσει την κατανομή αθροίσματος α.ι.κ. τυχαίων μεταβλητών. Συγκρίνοντας όμως τις δύο περιπτώσεις διαπιστώνουμε ουσιαστική διαφορά στον τρόπο κανονικοποίησης του αθροίσματος. Στη μεν περίπτωση του ΚΟΘ η κανονικοποίηση γίνεται √ με n ενώ στο Φράγμα Chernoff με n. Το Φράγμα Chernoff είναι ίσος περισσότερο γνωστό με την ακόλουθη μορφή lim n→∞ 1 log P (χ1 + · · · + χn ≥ n r) = min {−s r + log (E[esχ1 ])} = c < 0, s≥0 n όπου r > µ, και βασικά ισχυρίζεται10 ότι P(χ1 + · · · + χn ≥ n r) ∼ enc . Αφού c < 0 (γιατί;), συμπεραίνουμε ότι η πιθανότητα την οποία επιχειρούμε να εκτιμήσουμε συγκλίνει εκθετικά γρήγορα στο μηδέν και το Φράγμα Chernoff προσδιορίζει τον εκθετικό ρυθμό σύγκλισης c. Με βάση το προηγούμενο αποτέλεσμα είναι επίσης εύκολο να αποδειχθεί ότι lim n→∞ 1 log (1 − P (χ1 + · · · + χn ≥ n r)) = n { ( )} min s r + log E[e−sχ1 ] < 0, για r < µ. s≥0 Δηλαδή όταν r < µ τότε έχουμε εκθετικά γρήγορη σύγκλιση της πιθανότητας ενδιαφέροντος στη μονάδα. Α.10 Σημαντικές ανισότητες Στο παρόν εδάφιο θα παρουσιάσουμε έναν αριθμό από ενδιαφέρουσες και χρήσιμες ανισότητες που συναντώνται στη θεωρία πιθανοτήτων. Α.10.1 Ανισότητα Chebyshev Έστω θετική τυχαία μεταβλητή ψ τότε ισχύει ότι P(ψ ≥ y) ≤ Η απόδειξη είναι εξαιρετικά απλή ∫ ∞ ∫ P(ψ ≥ y) = fψ (z) dz ≤ y 10 y ∞ E[ψ] , ψ, y ≥ 0. y z fψ (z) dz ≤ y ∫ 0 ∞ z E[ψ] fψ (z) dz = . y y Θα πρέπει να τονιστεί ότι από το Φράγμα Chernoff δεν απορρέει ότι η πιθανότητα ενδιαφέροντος είναι της τάξης O(ecn ). Είναι δυνατόν οι δύο ποσότητες να διαφέρουν σε τάξη και παρ’ όλα αυτά το Φράγμα Chernoff να ισχύει! Π.χ. διαπιστώστε ότι εάν η πιθανότητα ενδιαφέροντος είναι ίση προς nd ecn , όπου d σταθερά, το Φράγμα Chernoff ισχύει αλλά οι δύο ποσότητες δεν είναι της ίδιας τάξης αφού ο λόγος τους τείνει στο 0 όταν d < 0 και στο ∞ όταν d > 0. Συνεπώς προσεγγίζοντας την πιθανότητα ενδιαφέροντος με ecn είναι δυνατό να οδηγήσει σε σημαντική υπερεκτίμηση ή υποεκτίμησή της! Α.10 Σημαντικές ανισότητες 175 Υπάρχουν πολλές γνωστές ανισότητες που αποτελούν άμεση απόρροια της ανισότητας Chebyshev. Αναφέρουμε ενδεικτικά, δίχως απόδειξη, μερικές, όπου χ όχι απαραίτητα θετική τυχαία μεταβλητή E[|χ|p ] xp 1 P(|χ − µ| ≥ νσχ ) ≤ 2 ν P(χ ≥ x) ≤ min E[es(χ−x) ]. P(|χ| ≥ x) ≤ s≥0 Η τελευταία ανισότητα χρησιμοποιείται για την απόδειξη του Φράγματος Chernoff. Α.10.2 Ανισότητα Cauchy-Schwarz Έστω δύο τυχαίες μεταβλητές χ, ψ τότε (E[χψ])2 ≤ E[χ2 ]E[ψ 2 ]. Ισότητα έχουμε εάν και μόνον εάν χ = αψ, όπου α βαθμωτή σταθερά. Παρατηρούμε ότι μπορούμε να ορίσουμε το εσωτερικό γινόμενο ≺ χ, ψ ≻= E[χψ] και κατόπιν να εφαρμόσουμε τη γενική ανισότητα των Cauchy-Schwarz για χώρο εσωτερικού γινομένου (≺ χ, ψ ≻)2 ≤≺ χ, χ ≻≺ ψ, ψ ≻. Α.10.3 Ανισότητα Jensen Έστω συνάρτηση g(x) η οποία είναι κυρτή (κοίλη) και τυχαία μεταβλητή χ, τότε E[g(χ)] ≥ (≤)g(E[χ]). Ισότητα έχουμε όταν και μόνον όταν g(χ) = αχ + β με πιθανότητα ένα. Εάν η συνάρτηση είναι αυστηρώς κυρτή (κοίλη) τότε ισότητα έχουμε όταν και μόνον όταν η τυχαία μεταβλητή χ είναι ίση προς μια σταθερά με πιθανότητα ένα. Η απόδειξη της ανισότητας του Jensen είναι ενδιαφέρουσα και όχι ιδιαίτερα δύσκολη. Θα την παρουσιάσουμε για την περίπτωση της κυρτής συνάρτησης. Λόγω κυρτότητας η συνάρτηση g(x) βρίσκεται πάντοτε στο πάνω μέρος οποιασδήποτε εφαπτομένης στην καμπύλη y = g(x). Έστω a = E[χ] τότε η εφαπτομένη στην καμπύλη στο σημείο x = a έχει εξίσωση g(a) + g ′ (a)[x − a] και λόγω κυρτότητας g(x) ≥ g(a) + g ′ (a)[x − a]. (Α.12) Η ανισότητα προκύπτει άμεσα με αντικατάσταση του x με χ και εφαρμογή του μέσου όρου. Παρατηρούμε ότι εάν μετά την αντικατάσταση έχουμε ισότητα στην (Α.12) με πιθανότητα ένα (περίπτωση της γραμμικότητας) τότε ισχύει η ισότητα στην ανισότητα Jensen. Εάν ωστόσο στην (Α.12) η ισότητα ισχύει μόνο για το σημείο x = a και για όλα τα άλλα σημεία έχουμε αυστηρή ανισότητα (περίπτωση αυστηρώς κυρτής συνάρτησης) τότε έχουμε ισότητα στην ανισότητα Jensen μόνον όταν η τυχαία μεταβλητή χ είναι ίση προς τη μέση της τιμή a με πιθανότητα ένα. B Βοηθήματα για εξομοιώσεις B.1 Εισαγωγικά Πολύ συχνά στην πράξη, είναι απαραίτητο για την αξιολόγηση ενός συστήματος ή μιας τεχνικής επεξεργασίας να απαιτείται εξομοίωση. Οι εξομοιώσεις έχουν σαν βασικό τους συστατικό τη δημιουργία υλοποιήσεων τυχαίων μεταβλητών με συγκεκριμένη κατανομή. Το πρόβλημα αυτό θα μας απασχολήσει στη συνέχεια και θα προταθούν συγκεκριμένες και απλές μεθοδολογίες δημιουργίας δεδομένων. Ένα δεύτερο πολύ συχνό πρόβλημα που εμφανίζεται στις εξομοιώσεις (ειδικά Ψηφιακών Τηλεπικοινωνιακών συστημάτων) είναι η ανάγκη υπολογισμού της πιθανότητας ενός σπάνιου (με μικρή πιθανότητα εμφάνισης) γεγονότος. Υπολογισμοί του τύπου αυτού απαιτούν συνήθως εξαιρετικά μεγάλο αριθμό επαναλήψεων των πειραμάτων, προκειμένου να επιτευχθεί ικανοποιητικός αριθμός εμφανίσεων του σπάνιου γεγονότος που να επιτρέπει την αξιόπιστη εκτίμηση της αντίστοιχης πιθανότητας. Θα παρουσιαστεί στη συνέχεια μια ενδιαφέρουσα τεχνική επιτάχυνσης των εκτιμήσεων μικρών πιθανοτήτων, η οποία βασίζεται στη δυνατότητα αλλαγής μέτρου του Εδαφίου Α.5. B.2 Κατάλογος κατανομών Στο παρόν εδάφιο θα αναφερθεί ένας αριθμός από ενδιαφέρουσες κατανομές τυχαίων μεταβλητών οι οποίες εμφανίζονται συχνά σε προβλήματα εφαρμογών. Gaussian ή Κανονική Η τυχαία μεταβλητή χ θα καλείται Gaussian ή κανονική με μέση τιμή µ και διασπορά σ 2 και θα συμβολίζουμε N (µ, σ 2 ) όταν η πυκνότητα πιθανότητας είναι της μορφής fχ (x) = √ 1 2πσ 2 e− 2σ2 (x−µ) . 1 2 Γενικότερα ένα διάνυσμα X μήκους N θα καλείται Gaussian με μέση τιμή X¯ και μήτρα συνδυασποράς ΣX και θα συμβολίζουμε N (X¯ , ΣX ) όταν η από κοινού πυκνότητα 176 B.2 Κατάλογος κατανομών 177 πιθανότητας είναι της μορφής fX (X) = √ 1 1 ¯ t −1 ¯ e− 2 (X−X ) ΣX (X−X ) , (2π)N |Σχ | όπου |Σχ | συμβολίζει την ορίζουσα της μήτρας. Ομοιόμορφη Η τυχαία μεταβλητή χ καλείται ομοιόμορφη στο διάστημα [α, β] όταν η πυκνότητα πιθανότητας είναι της μορφής { 1 β−α για α ≤ x ≤ β fχ (x) = 0 αλλού. Ισχύει ότι E[χ] = α+β 2 , Διασπ{χ} = (β−α)2 12 . Εκθετική Η πυκνότητα πιθανότητας ορίζεται για µ > 0 fχ (x) = µe−µx u(x), όπου u(x) η μοναδιαία βηματική συνάρτηση1 . Ισχύει ότι E[χ] = µ1 , Διασπ{χ} = 1 . µ2 Laplace Η πυκνότητα πιθανότητας ορίζεται για µ > 0 µ fχ (x) = e−µ|x| . 2 Ισχύει ότι E[χ] = 0, Διασπ{χ} = 2 . µ2 Reyleigh Η πυκνότητα πιθανότητας ορίζεται fχ (x) = √ Ισχύει ότι E[χ] = πλ 2 , x − x2 e 2λ u(x), λ > 0. λ Διασπ{χ} = 2λ. Cauchy Η πυκνότητα πιθανότητας ορίζεται fχ (x) = σ 1 . 2 π σ + x2 Ισχύει ότι E[χ] = 0, Διασπ{χ} = ∞. Η μοναδιαία βηματική συνάρτηση u(x) ορίζεται να είναι ίση προς τη μονάδα για x ≥ 0 και μηδέν αλλού. 1 Παράρτημα B : Βοηθήματα για εξομοιώσεις 178 Student’s-t Η πυκνότητα πιθανότητας ορίζεται fχ (x) = √ ν Γ( ν+1 2 )σ νπΓ( ν2 )(σ 2 + x2 ν+1 2 ν ) . ν Ισχύει ότι E[χ] = 0, Διασπ{χ} = σ 2 ν−2 όταν ν > 2 και Διασπ{χ} = ∞ για ν ≤ 2. Είναι φανερό ότι η Cauchy αποτελεί ειδική περίπτωση της student’s-t με επιλογή ν = 1. Κεντρική χ-τετράγωνο Η τυχαία μεταβλητή χ2 θα καλείται κεντρική χ-τετράγωνο με N βαθμούς ελευθερίας εάν χ2 = χ21 + χ22 + · · · + χ2N όπου χn είναι ανεξάρτητες Gaussian με χn ∼ N (0, 1). Έχουμε επίσης ότι E[χ2 ] = N , Διασπ{χ2 } = 2N . Μη κεντρική χ-τετράγωνο Η τυχαία μεταβλητή χ2 θα καλείται μη κεντρική χ-τετράγωνο με N βαθμούς ελευθερίας και συντελεστή μη κεντρικότητας c2 , όταν χ2 = χ21 + χ22 + · · · + χ2N όπου χn είναι ανεξάρτητες Gaussian μεταβλητές με χn ∼ N (µn , 1) και ο συντελεστής μη κεντρικότητας ορίζεται σαν c2 = µ21 + µ22 + · · · + µ2N . Έχουμε επίσης ότι E[χ2 ] = c2 + N , Διασπ{χ2 } = 2N + 4c2 . Γενικευμένη Gaussian Η τυχαία μεταβλητή χ θα καλείται γενικευμένη Gaussian με μέση τιμή µ και διασπορά σ 2 , εάν η πυκνότητα πιθανότητας είναι της μορφής ( ) x − µ β ω(β) fχ (x) = exp −c(β) σ σ όπου ( c(β) = Γ( β3 ) Γ( β1 ) )β/2 √ Γ( β3 ) , , ω(β) = √ 2 1.5 Γ( β1 ) β και β, σ > 0. Σημειώνεται ότι, όταν ο εκθέτης β είναι μικρότερος του 2 η κατανομή καλείται υπερ-Gaussian ενώ όταν είναι μεγαλύτερος υπο-Gaussian (όταν φυσικά είναι ίσος με 2 καλείται. . .Gaussian). B.3 Μέθοδοι υλοποίησης τυχαίων μεταβλητών 179 Κατανομή Poisson Η εν λόγω κατανομή αναφέρεται σε τυχαία μεταβλητή ν η οποία παίρνει ακέραιες, μη αρνητικές τιμές. Επομένως στην περίπτωση αυτή δεν έχουμε πυκνότητα πιθανότητας αλλά ορίζουμε την πιθανότητα P(ν = n) = λn −λ e , n = 0, 1, 2, . . . n! όπου λ > 0. Ισχύει ότι E{ν} = Διασπ{ν} = λ. Η κατανομή Poisson χρησιμοποιείται κυρίως στη μοντελοποίηση ουρών αναμονής. Στην περίπτωση αυτή λέμε ότι έχουμε π.χ. αφίξεις Poisson με ρυθμό ρ, γεγονός που υποδηλώνει ότι σε οποιοδήποτε χρονικό διάστημα T ο αριθμός ν των αφίξεων έχει κατανομή Poisson με παράμετρο λ = ρT . Πολύ σημαντικό επίσης χαρακτηριστικό για την περίπτωση αυτή αποτελεί η ιδιότητα ότι οι χρόνοι μεταξύ διαδοχικών αφίξεων είναι ανεξάρτητοι και της ίδιας κατανομής η οποία είναι εκθετική με παράμετρο µ = ρ. B.3 Μέθοδοι υλοποίησης τυχαίων μεταβλητών Θα παρουσιαστούν τρεις διαφορετικοί τρόποι παραγωγής υλοποιήσεων τυχαίων μεταβλητών δύο από τους οποίους είναι γενικές μεθοδολογίες ενώ η τρίτη αναφέρεται στη δημιουργία Gaussian μεταβλητών. Σε όλες τις περιπτώσεις ενδιαφερόμαστε για τη δημιουργία υλοποιήσεων μιας τυχαίας μεταβλητής χ με γνωστή πυκνότητα πιθανότητας fχ (x). B.3.1 Μέθοδος της αντίστροφης συνάρτησης κατανομής Υπάρχει ένα ενδιαφέρον αποτέλεσμα της Θεωρίας Πιθανοτήτων στο οποίο βασίζεται η ∫x πρώτη μέθοδος που θα παρουσιασθεί. Έστω Fχ (x) = −∞ fχ (τ ) dτ η συνάρτηση κατανομής της τυχαίας μεταβλητής χ. Εάν ζ τυχαία μεταβλητή, ομοιόμορφα κατανεμημένη στο διάστημα [0, 1] και εφαρμόσουμε το μετασχηματισμό χ = Fχ−1 (ζ) όπου Fχ−1 (·) η αντίστροφη συνάρτηση της Fχ (·), τότε η τυχαία μεταβλητή χ έχει συνάρτηση κατανομής Fχ (x) και ως εκ τούτου πυκνότητα πιθανότητας fχ (x). Η απόδειξη είναι εξαιρετικά απλή, παρατηρούμε ότι P(χ ≤ x) = P(Fχ−1 (ζ) ≤ x) = P(ζ ≤ Fχ (x)) = Fχ (x), όπου η τελευταία ισότητα ισχύει επειδή η τυχαία μεταβλητή ζ είναι ομοιόμορφη με συνάρτηση κατανομής P(ζ ≤ z) = z για z ∈ [0, 1]. Η απλή αυτή διαπίστωση προσφέρεται για άμεση δημιουργία υλοποιήσεων της χ. Εάν με τη βοήθεια γεννήτριας τυχαίων αριθμών (π.χ. στη Matlab με την εντολή rand) δημιουργήσουμε υλοποιήσεις {z1 , . . . , zn } της ομοιόμορφης τυχαίας μεταβλητής ζ και Παράρτημα B : Βοηθήματα για εξομοιώσεις 180 κατόπιν εφαρμόσουμε το μετασχηματισμό xn = Fχ−1 (zn ) τότε, σύμφωνα με τα όσα ειπώθηκαν, τα {x1 , . . . , xn } αποτελούν υλοποιήσεις της τυχαίας μεταβλητής χ. Η μέθοδος που μόλις περιγράψαμε δημιουργεί, με κάθε υλοποίηση zn της ομοιόμορφης τυχαίας μεταβλητής, μια υλοποίηση xn της τυχαίας μεταβλητής χ. Για να είναι ωστόσο αυτό δυνατό απαιτείται ο υπολογισμός του Fχ−1 (zn ), κάτι που δεν είναι πάντοτε εύκολο, ακόμη και όταν είναι γνωστή η συνάρτηση κατανομής Fχ (·). Υλοποίηση Gaussian τυχαίων μεταβλητών Η προηγούμενη μέθοδος προσφέρεται για ένα πολύ ενδιαφέροντα τρόπο υλοποίησης Gaussian τυχαίων μεταβλητών από ομοιόμορφες (εκτός φυσικά από τον κλασικό τρόπο χρήσης του ΝΜΑ). Εάν χ1 , χ2 ανεξάρτητες Gaussian τυχαίες μεταβλητές N (0, 1) και γράψουμε χ1 = ρ cos(ζ), χ2 = ρ sin(ζ) τότε οι ρ, ζ είναι επίσης ανεξάρτητες και η μεν ρ έχει πυr2 κνότητα πιθανότητας fρ (r) = re− 2 u(r) (Reyleigh) ενώ η ζ είναι ομοιόμορφη στο r2 [0, 2π] (γιατί;). Η συνάρτηση κατανομής της ρ γράφεται Fρ (r) = 1 − e− 2 από όπου συμπεραίνουμε ότι για z ∈ [0, 1] η αντίστροφη συνάρτηση ικανοποιεί την εξίσωση √ −1 Fρ (z) = −2 log(1 − z). Εάν επομένως z1 , z2 δύο ανεξάρτητες υλοποιήσεις μιας ομοιόμορφης στο [0, 1] τότε δημιουργούνται δύο ανεξάρτητες υλοποιήσεις μιας Gaussian ως εξής √ √ x1 = −2 log(z1 ) cos(2πz2 ), x2 = −2 log(z1 ) sin(2πz2 ). Ο λόγος για τον οποίο χρησιμοποιείται το 2 log(z1 ) στις προηγούμενες εξισώσεις αντί του 2 log(1 − z1 ) που αρχικά είχε προταθεί, οφείλεται στο γεγονός ότι, όταν μια τυχαία μεταβλητή ζ είναι ομοιόμορφη στο [0, 1] το ίδιο ισχύει και για την 1 − ζ. B.3.2 Μέθοδος της απόρριψης/αποδοχής Ένας εναλλακτικός τρόπος δημιουργίας υλοποιήσεων ο οποίος χρησιμοποιεί μόνον τις πυκνότητες πιθανότητες είναι η μέθοδος απόρριψης/αποδοχής. Έστω ότι είμαστε σε θέση να δημιουργήσουμε υλοποιήσεις {zn } μιας τυχαίας μεταβλητής ζ με πυκνότητα πιθανότητας fζ (z) καθώς και ανεξάρτητες υλοποιήσεις tn μιας ομοιόμορφης τυχαίας μεταβλητής τ στο διάστημα [0, 1]. Έστω επίσης ότι υπάρχει σταf (x) θερά L που ικανοποιεί fχζ (x) ≤ L < ∞, ∀x ∈ R, δηλαδή αποτελεί (πεπερασμένο) άνω φράγμα στο λόγο πιθανοφάνειας. Η μέθοδος δημιουργίας δεδομένων είναι τότε η ακόλουθη: δημιουργούμε ζεύγος (zn , tn ) και επιλέγουμε xn = zn , εφόσον fχ (zn ) ≥ tn L, fζ (zn ) σε διαφορετική περίπτωση το ζευγάρι (zn , tn ) απορρίπτεται και επαναλαμβάνεται η διαδικασία. Τα xn που επιλέγονται με τον τρόπο αυτό αποτελούν υλοποιήσεις της τυχαίας μεταβλητής χ με πυκνότητα πιθανότητας fχ (x). B.4 Εκτίμηση πιθανότητας εμφάνισης σπάνιων γεγονότων 181 Είναι ενδιαφέρουσα (και απλή) η απόδειξη της πρότασης. Λόγω ανεξαρτησίας των ζ, τ, έχουμε ότι ( ) ( ) P ζ ≤ x και fχ (ζ) ≥ τ f (ζ) Lfζ (ζ) χ ( ) P(χ ≤ x) = P ζ ≤ x ≥ τL = f (ζ) fζ (ζ) P χ ≥τ Lfζ (ζ) ∫x ∫ = fχ (z) Lfζ (z) −∞ 0 ∫∞ ∫ ∫−∞ x = −∞ fχ (z) Lfζ (z) 0 fζ (z) dt dz fζ (z) dt dz ∫x 1 L fχ (z) dz 1 −∞ L fχ (z) dz = ∫−∞ ∞ fχ (z) dz, που σημαίνει ότι η συνάρτηση κατανομής των δειγμάτων xn που δημιουργούνται είναι η επιθυμητή. Σημειώνεται ότι η διαδικασία δημιουργίας δεδομένων απορρίπτει ζευγάρια (zn , tn ), f (z ) αφού η υλοποίηση zn γίνεται αποδεκτή μόνον εφόσον ικανοποιείται η ανισότητα fχζ (znn) f (ζ) ≥ tn L. Όπως είδαμε στην απόδειξη το γεγονός αυτό συμβαίνει σε ποσοστό P( Lfχζ (ζ) ≥ τ ) = L1 . Συνεπώς, τα zn χρησιμοποιούνται μόνον ένα κάθε L δείγματα, σε αντίθεση με την προηγούμενη μέθοδο στην οποία χρησιμοποιούνται όλα2 . Από την άλλη πλευρά βέβαια, ο παρών τρόπος βασίζεται αποκλειστικά στις πυκνότητες πιθανότητας και όχι στις (αντίστροφες) συναρτήσεις κατανομών, για το λόγο αυτό είναι εφαρμόσιμος σε μεγαλύτερο αριθμό περιπτώσεων. Θα πρέπει τέλος να τονιστεί ότι η μέθοδος της απόρριψης/αποδοχής ισχύει δίχως καμία αλλαγή ακόμη και όταν οι συναρτήσεις fχ (x), fζ (z) δεν είναι κανονικοποιημένες ώστε το ολοκλήρωμά τους να αποδίδει μονάδα (γιατί;). Αυτό είναι ιδιαίτερα χρήσιμο σε περιπτώσεις κατά τις οποίες η ολοκλήρωση των εν λόγω συναρτήσεων είναι αδύνατο να γίνει αναλυτικά. B.4 Εκτίμηση πιθανότητας εμφάνισης σπάνιων γεγονότων Έστω τυχαίο διάνυσμα X με πυκνότητα πιθανότητας fX (X) και γεγονός A. Ας υποθέσουμε για την πιθανότητα εμφάνισης του γεγονότος αυτού ότι είναι μικρή δηλαδή p = P(X ∈ A) = E[1A (X )] ≪ 1, (B.1) όπου θυμίζουμε ότι το 1A (X) συμβολίζει τη συνάρτηση δείκτη του συνόλου A. Ο κλασικός τρόπος εκτίμησης της πιθανότητας p, συνίσταται στη δημιουργία N ανεξάρτητων 2 Το άνω φράγμα L του λόγου πιθανοφάνειας δεν μπορεί να είναι μικρότερο της μονάδος (γιατί;), ως εκ τούτου το L1 μπορεί να αποτελέσει πιθανότητα. Παράρτημα B : Βοηθήματα για εξομοιώσεις 182 υλοποιήσεων X1 , X2 , . . . , XN του τυχαίου διανύσματος X που να έχουν πυκνότητα πιθανότητας fX (X) και υπολογισμού του ποσοστού των υλοποιήσεων που ανήκουν στο σύνολο A, δηλαδή N 1 ∑ pˆ = 1A (Xn ). N n=1 Παρατηρούμε ότι αφού τα Xn είναι ανεξάρτητα, έχουμε E[ˆ p] = p 1 1 p Διασπ{ˆ p} = E[(1A (Xn ) − p)2 ] = (p − p2 ) ≈ , N N N όπου στην τελευταία προσέγγιση χρησιμοποιήθηκε το γεγονός ότι p ≪ 1. Εάν επιθυμούμε στην εκτίμησή μας να έχουμε ακρίβεια ενός δεκαδικού ψηφίου θα πρέπει η√ τυπική απόκλιση να είναι τουλάχιστον 10 φορές μικρότερη από τον μέσον όρο, δηλαδή p N ∼ p 10 από το οποίο συμπεραίνουμε ότι ο αριθμός των ανεξάρτητων υλοποι- ήσεων N πρέπει να είναι της τάξεως N ∼ 100 p . Εάν για παράδειγμα η πιθανότητα p που επιθυμούμε να εκτιμήσουμε είναι της τάξεως του 10−5 , συμπεραίνουμε ότι απαιτούνται περί τις 107 υλοποιήσεις για ακρίβεια μόλις ενός δεκαδικού ψηφίου! Φυσικά ο αριθμός αυτός αυξάνει εάν το p είναι πολύ μικρότερο. Ας υποθέσουμε τώρα ότι είναι δυνατή η επιλογής μιας εναλλακτικής πυκνότητας πιθανότητας f˜X (X) για την οποία ισχύει ότι f˜X (X) ≫ fX (X) όταν X ∈ A. Με άλλα λόγια το τυχαίο διάνυσμα X με πυκνότητα πιθανότητας την εναλλακτική συνάρτηση f˜X (X) εμφανίζει πολύ πιο συχνά το γεγονός A από ό,τι με την αρχική πυκνότητα. Σύμφωνα με το Εδάφιο Α.5 έχουμε ότι ˜ (X )1A (X )] p = E[1A (X )] = E[L όπου L (X) = fX (X) f˜X (X) είναι ο λόγος πιθανοφάνειας των δύο πυκνοτήτων. Η σχέση αυτή προτρέπει στον ακόλουθο εναλλακτικό τρόπο3 εκτίμησης της p N 1 ∑ pˆ = L (Xn )1A (Xn ). N n=1 Υπάρχει βεβαίως μια σημαντική διαφορά στην προηγούμενη εκτίμηση σε σχέση με την κλασική (B.1). Τα Xn αποτελούν υλοποιήσεις του X με την εναλλακτική πυκνότητα πιθανότητας f˜X (X) και όχι με την αρχική fX (X) που χρησιμοποιεί η κλασική τεχνική. Αυτό φυσικά συνεπάγεται πολύ συχνότερες εμφανίσεις του γεγονότος A. Εξ αιτίας της απλής αυτής ιδιότητας δημιουργείται ένα σημαντικό κέρδος στο αριθμό των απαιτούμενων υλοποιήσεων. Προκειμένου να σχηματίσουμε μια εικόνα για το μέγεθος του 3 Η εναλλακτική αυτή μέθοδος καλείται Importance Sampling. B.4 Εκτίμηση πιθανότητας εμφάνισης σπάνιων γεγονότων 183 κέρδους, ας υπολογίσουμε και πάλι τον μέσον όρο και τη διασπορά της νέας εκτίμησης. Με χρήση της ιδιότητας της αλλαγής μέτρου μπορούμε να γράψουμε N N ∑ ∑ ˜ p] = 1 ˜ (Xn )1A (Xn )] = 1 E[ˆ E[L E[1A (Xn )] = p N N n=1 n=1 ) 1˜ 1 (˜ 2 2 Διασπ{ˆ p} = E[{L (Xn )1A (Xn ) − p} ] = E[L (Xn )1A (Xn )] − p2 . N N Επειδή υποθέσαμε ότι η επιλογή της εναλλακτικής πυκνότητας έγινε έτσι, ώστε f˜X (X) ≫ fX (X) για X ∈ A, θα θεωρήσουμε για ευκολία ότι L (X) ≤ t ≪ 1 για X ∈ A. Η διασπορά τότε γράφεται ) 1 (˜ 2 Διασπ{ˆ p} = E[L (Xn )1A (Xn )] − p2 N 1˜ t tp ≤ E[tL (Xn )1A (Xn )] = E[1A (Xn )] = . N N N Παρατηρούμε ότι η διασπορά της εναλλακτικής εκτίμησης είναι μικρότερη κατά ένα συντελεστή ο οποίος είναι τουλάχιστον ίσος προς t. Αυτό έχει σαν αποτέλεσμα ο αριθμός των απαιτούμενων υλοποιήσεων να γίνει της τάξης N ∼ t 100 p δηλαδή τουλάχιστον t φορές μικρότερος από ό,τι ο κλασικός τρόπος. Ας σημειωθεί ότι στις περισσότερες περιπτώσεις το κέρδος αυτό μπορεί να είναι τεράστιο! Παράδειγμα B.1 : Προκειμένου να διαπιστωθεί η δυνατότητα της μεθόδου στο να επιταχύνει τις εκτιμήσεις πιθανοτήτων σπάνιων γεγονότων ας εξετάσουμε τον κανόνα απόφασης του Παρα2 δείγματος 2.4 για την περίπτωση K = 4 και ΛΣΘ= A σ 2 = 100. Η πιθανότητα σφάλματος, χρησιμοποιώντας το άνω και κάτω φράγμα από τη Σχέση (2.31), είναι ίση προς 1.5375×10−12 (η διαφορά των δύο φραγμάτων είναι εξαιρετικά μικρή και γίνεται εμφανής σε δεκαδικά ψηφία πολύ πέραν των τεσσάρων που παρουσιάζονται!), αντιστοιχεί επομένως σε ένα (εξαιρετικά) σπάνιο γεγονός. Ας αναφερθούμε αρχικά στην εκτίμηση της πιθανότητας με τον κλασικό τρόπο. Έστω οι ονομαστικές κατανομές χ1 ∼ N (10, 1) και χ2 ∼ N (0, 1) που αντιστοιχούν σε επιλογή σ 2 = 1 και A = 10, δηλαδή ΛΣΘ=100. Η ονομαστική πυκνότη1 − 12 {(x1 −A)2 +x22 } τα πιθανότητας γίνεται fX (x1 , x2 ) = 2π e και η πιθανότητα σφάλματος (ΠΣ) εκτιμάται με τη βοήθεια της σχέσης ΠΣ ≈ N 1 ∑ 1{x1 (n)<|x2 (n)|} , (γιατί;) N n=1 όπου (x1 (n), x2 (n)), n = 1, . . . , N, τα ζευγάρια υλοποιήσεων που πρέπει να είναι κατανεμημένα σύμφωνα με την ονομαστική πυκνότητα πιθανότητας. Για ακρίβεια ενός δεκαδικού ψηφίου, με τον παραπάνω τρόπο απαιτούνται περί τις 1014 υλοποιήσεις ζευγαριών (x1 , x2 ). Εάν αντί της ονομαστικής κατανομής επιλέξουμε χ1 ∼ N (10, σ 2 ) και χ2 ∼ N (0, σ 2 ), όπου σ 2 > 1 (γεγονός που αντιστοιχεί σε ΛΣΘ < 100), τότε η εναλλακτική πυκνότητα πιθανό− 2σ12 {(x1 −A)2 +x22 } 1 , με αποτέλεσμα τητας γίνεται f˜X (x1 , x2 ) = 2πσ 2e L (x1 , x2 ) = 2 2 1 1 fX (x1 , x2 ) = σ 2 e− 2 (1− σ2 ){(x1 −A) +x2 } ˜ fX (x1 , x2 ) Παράρτημα B : Βοηθήματα για εξομοιώσεις 184 και η πιθανότητα σφάλματος να εκτιμάται σύμφωνα με τον τύπο ΠΣ ≈ N 1 ∑ 2 − 12 (1− 12 ){(x1 (n)−A)2 +x2 (n)2 } σ σ e 1{x1 (n)<|x2 (n)|} . N n=1 Ας υπολογίσουμε κατ’ αρχάς τη μέγιστη τιμή του λόγου πιθανοφάνειας L (x1 , x2 ) όταν τα x1 , x2 ικανοποιούν τη σχέση x1 ≤ |x2 |. Διακρίνοντας τις δύο περιπτώσεις x1 ≥ 0 και x1 ≤ 0 καταA2 λήγουμε για μεν την πρώτη ότι ο λόγος φράσσεται από πάνω από σ 2 e− 2 (1− σ2 ) 2 ενώ για τη 2 2 1 1 1 1 δεύτερη από σ 2 e− 2 (1− σ2 )A . Συμπεραίνουμε επομένως ότι t = σ 2 e− 4 (1− σ2 )A . Στη συνέχεια θα επιλέξουμε το σ 2 έτσι, ώστε να ελαχιστοποιήσουμε την τιμή του t που υπολογίσαμε. 2 Είναι εύκολο να διαπιστώσουμε ότι το ελάχιστο εμφανίζεται για σ 2 = A4 = 25 (που αντιστοιχεί σε ΛΣΘ=4) και για την τιμή αυτή προκύπτει t ≈ 10−9 . Χρησιμοποιώντας επομένως μόλις N = 100 000 ζευγάρια υλοποιήσεων (x1 , x2 ) κατανεμημένα σύμφωνα με την εναλλακτική πυκνότητα πιθανότητας (με άλλα λόγια 109 φορές λιγότερες υλοποιήσεις από ό,τι με τον κλασικό τρόπο!), καταλήγουμε στην εξαιρετικά καλή εκτίμηση ΠΣ = (1.53 ± 0.07) × 10−12 . 1 1 Από το προηγούμενο παράδειγμα συμπεραίνουμε ότι η πρακτική σημασία της μεθόδου που προτάθηκε είναι αδιαμφισβήτητη. Δυστυχώς όμως, η επιλογή εναλλακτικής πυκνότητας πιθανότητας ικανής να αποφέρει σημαντική επιτάχυνση στις εξομοιώσεις πολύπλοκων συστημάτων, δεν είναι πάντοτε προφανής και προϋποθέτει προσεκτική ανάλυση του εκάστοτε προβλήματος. Η δυνατότητα, βεβαίως, εφαρμογής της ιδέας της αλλαγής μέτρου προσθέτει, το δίχως άλλο, ένα δυναμικό και ελπιδοφόρο εργαλείο στη φαρέτρα των τεχνικών του Ερευνητή για αποδοτική αντιμετώπιση προβλημάτων που απαιτούν χρονοβόρες και υπολογιστικά εντατικές εξομοιώσεις.