ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ – ΤΜΗΜΑ ΦΥΣΙΚΗΣ ∆ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ∆ΩΝ ΣΤΗΝ ΙΑΤΡΙΚΗ ΦΥΣΙΚΗ ∆ΙΕΥΘΥΝΤΗΣ: Καθ. ΓΕΩΡΓΙΟΣ ΝΙΚΗΦΟΡΙ∆ΗΣ «ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΥΠΟΣΤΗΡΙΞΗΣ ΙΑΤΡΙΚΩΝ ΑΠΟΦΑΣΕΩΝ ΜΕΣΩ ∆ΙΚΤΥΩΝ ΠΕΠΟΙΘΗΣΗΣ ΓΙΑ ΤΗΝ ΠΡΟΓΝΩΣΗ ΑΣΘΕΝΩΝ ΜΕ ΚΡΑΝΙΟΕΓΚΕΦΑΛΙΚΕΣ ΚΑΚΩΣΕΙΣ» ΓΕΩΡΓΙΟΣ Χ. ΣΑΚΕΛΛΑΡΟΠΟΥΛΟΣ ∆Ι∆ΑΚΤΟΡΙΚΗ ∆ΙΑΤΡΙΒΗ ΠΑΤΡΑ 2000 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ – ΤΜΗΜΑ ΦΥΣΙΚΗΣ ∆ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ∆ΩΝ ΣΤΗΝ ΙΑΤΡΙΚΗ ΦΥΣΙΚΗ ∆ΙΕΥΘΥΝΤΗΣ: Καθ. ΓΕΩΡΓΙΟΣ ΝΙΚΗΦΟΡΙ∆ΗΣ «ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΥΠΟΣΤΗΡΙΞΗΣ ΙΑΤΡΙΚΩΝ ΑΠΟΦΑΣΕΩΝ ΜΕΣΩ ∆ΙΚΤΥΩΝ ΠΕΠΟΙΘΗΣΗΣ ΓΙΑ ΤΗΝ ΠΡΟΓΝΩΣΗ ΑΣΘΕΝΩΝ ΜΕ ΚΡΑΝΙΟΕΓΚΕΦΑΛΙΚΕΣ ΚΑΚΩΣΕΙΣ» ΓΕΩΡΓΙΟΣ Χ. ΣΑΚΕΛΛΑΡΟΠΟΥΛΟΣ ∆Ι∆ΑΚΤΟΡΙΚΗ ∆ΙΑΤΡΙΒΗ ΠΑΤΡΑ 2000 ΤΡΙΜΕΛΗΣ ΣΥΜΒΟΥΛΕΥΤΙΚΗ ΕΠΙΤΡΟΠΗ 1. 2. 3. Γεώργιος Νικηφορίδης, Καθηγητής (1) Γεώργιος ∆άσιος, Καθηγητής (Επιβλέπων Καθηγητής) (2) Νικόλαος Παπαδάκης, Καθηγητής (Μέλος Τριµελούς Επιτροπής) (1) (Μέλος Τριµελούς Επιτροπής) ΕΠΤΑΜΕΛΗΣ ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ 1. 2. Γεώργιος Νικηφορίδης, Καθηγητής (1) Γεώργιος ∆άσιος, Καθηγητής (Μέλος Τριµελούς Επιτροπής) (1) 3. Νικόλαος Παπαδάκης, Καθηγητής 4. Παναγιώτης Πιντέλας, Καθηγητής (3) 5. 6. 7. (Επιβλέπων Καθηγητής) (2) Αθανάσιος Τσακαλίδης, Καθηγητής (Μέλος Τριµελούς Επιτροπής) (Μέλος Επταµελούς Εξεταστικής Επιτροπής) (4) Αθανάσιος Σκόδρας, Αναπλ. Καθηγητής (Μέλος Επταµελούς Εξεταστικής Επιτροπής) (5) (Μέλος Επταµελούς Εξεταστικής Επιτροπής) Βασίλειος Αναστασόπουλος, Επικ. Καθηγητής (5) (Μέλος Επταµελούς Εξεταστικής Επιτροπής) (1) : Τµήµα Ιατρικής (2) : Τµήµα Χηµικών Μηχανικών (3) : Τµήµα Μαθηµατικών (4) : Τµήµα Ηλεκτρολόγων Μηχανικών (5) : Τµήµα Φυσικής Στη µητέρα µου και στη µνήµη του πατέρα µου ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΕΙΣΑΓΩΓΗ ..................................................................................................................3 ΓΕΝΙΚΟ ΜΕΡΟΣ ........................................................................................................7 1. ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ..............................................................7 2. ΤΕΧΝΙΚΕΣ ΑΝΑΛΥΣΗΣ ΑΠΟΦΑΣΕΩΝ ΣΤΗΝ ΙΑΤΡΙΚΗ ................................23 3. ΓΡΑΦΙΚΑ ΜΟΝΤΕΛΑ – ΓΡΑΦΗΜΑΤΑ ΑΝΕΞΑΡΤΗΣΙΑΣ ...............................59 4. ΛΟΓΑΡΙΘΜΙΚΑ-ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ .........................................................73 5. ∆ΙΚΤΥΑ ΚΑTΑ BAYES ......................................................................................107 ΕΙ∆ΙΚΟ ΜΕΡΟΣ .....................................................................................................117 6. ΕΜΠΕΙΡΟ ΣΥΣΤΗΜΑ ΓΙΑ ΠΡΟΓΝΩΣΗ ΑΣΘΕΝΩΝ ΜΕ ΚΕΚ .......................117 7. ΣΥΜΠΕΡΑΣΜΑΤΑ ..............................................................................................149 8. ΠΕΡΙΛΗΨΗ ...........................................................................................................151 9. SUMMARY...........................................................................................................153 10. ΠΑΡΑΡΤΗΜΑ: ΜΑΘΗΣΗ ∆ΟΜΗΣ ΚΑΙ ΠΑΡΑΜΕΤΡΩΝ .............................155 11. ΑΝΑΦΟΡΕΣ ........................................................................................................185 2 ΕΙΣΑΓΩΓΗ Η καλή ιατρική πράξη στηρίζεται στη σωστή ιατρική απόφαση, και αυτή µε την σειρά της στηρίζεται στην εκµετάλλευση όλων των πληροφοριών που έχει ο γιατρός στη διάθεσή του. Στο παρελθόν, οι διαθέσιµες πληροφορίες ήσαν περιορισµένες και είχαν σχέση κυρίως µε τα στοιχεία της φυσικής εξέτασης (συµπτώµατα, σηµεία κ.λ.π.). και µε κάποια απλά εργαστηριακά ευρήµατα. Σήµερα τα πράγµατα έχουν αλλάξει, υπάρχει ένα µεγάλο πλήθος εργαστηριακών µεταβλητών, σηµάτων, εικόνων κ.λ.π. που θα πρέπει να ληφθούν υπόψη από το γιατρό συνδυαστικά. Η κατάσταση αυτή δηµιουργεί την αναγκαιότητα ενός νέου τύπου διαχείρισης της πληροφορίας καθώς επίσης πιο σύνθετες προσεγγίσεις στη λήψη της ιατρικής απόφασης που χρησιµοποιούν την µοντέρνα µεθοδολογία και τεχνολογία της πληροφορικής. Η ώθηση που έχει δώσει η πληροφορική στην κλινική έρευνα, µε τη σχεδίαση σχεσιακών βάσεων δεδοµένων και µε τα συστήµατα στατιστικής ανάλυσης, είναι καθοριστική. Εξελιγµένα εργαλεία στήριξης αποφάσεων άρχισαν να αναπτύσσονται στα ερευνητικά εργαστήρια και είναι σχεδόν βέβαιο ότι θα έχουν βαθιά επίδραση στον τρόπο εξάσκησης της Ιατρικής, στο µέλλον. Η παρούσα διατριβή ασχολείται µε την ανάπτυξη ενός έµπειρου συστήµατος, βασιζόµενου σε ∆ίκτυο Πεποίθησης, στο χώρο της Ιατρικής και συγκεκριµένα στην πρόγνωση των ασθενών µε κρανιοεγκεφαλικές κακώσεις. Το σύστηµα αυτό βασίζεται τόσο σε κλινικά όσο και εργαστηριακά ευρήµατα και κάνει εκτίµηση της πορείας του ασθενή, σύµφωνα µε την Κλίµακα Έκβασης της Γλασκώβης. Με γνώµονα τις επιδόσεις ενός συστήµατος που επιτελεί κατηγοριοποίηση (classification) υπό καθεστώς αβεβαιότητας, θα µπορούσε κανείς να επιλέξει από τεχνικές που είναι γνωστό ότι είναι ιδιαίτερα επιτυχείς. Τα Νευρωνικά ∆ίκτυα, για παράδειγµα, που θεωρητικά προσοµοιώνουν λειτουργίες του ανθρώπινου εγκεφάλου, θα ήταν προτιµητέα, µια που έχουν ως πλεονέκτηµα τη δυνατότητα της µάθησης από την εµπειρία που αποκτούν. Τα Νευρωνικά ∆ίκτυα εκπαιδεύονται µε ένα ποσό πληροφορίας και την αξιοποιούν για να βελτιώσουν την επίδοσή τους στην πρόβλεψη νέων περιστατικών. Η υλοποίησή τους είναι σχετικά εύκολη ενώ τα ποσοστά επιτυχών προβλέψεών τους είναι υψηλά. Το µοντέλο όµως που ακολουθούν για την οικοδόµηση και λειτουργία τους, είναι ξένο προς την ιατρική σκέψη. Τα Νευρωνικά ∆ίκτυα αντιµετωπίζονται από το χρήστη ως «µαύρα κουτιά». Επιτυγχάνουν µεν σωστές κατηγοριοποιήσεις, αλλά ο τρόπος είναι αδιαφανής ή πάντως όχι αντιληπτός από τον χρήστη. Ως αποτέλεσµα, δεν τυγχάνουν της εµπιστοσύνης του ιατρού-χρήστη και τελικώς δεν καταφέρνουν να γίνουν εργαλείο στην καθηµερινή κλινικί πρακτική του Μια άλλη διαδεδοµένη µεθοδολογία για αντίστοιχους στόχους κατηγοριοποίησης είναι τα συστήµατα που βασίζονται σε κανόνες (rule-based systems). Είναι συστήµατα (βλ. Κεφ. 2) µε µεγάλη ιστορία στο χώρο της Τεχνητής Νοηµοσύνης και ευρεία χρήση σε συστήµατα διάγνωσης µηχανικών και ηλεκτρονικών σφαλµάτων. Σε αντίθεση µε τα Νευρωνικά ∆ίκτυα, ο τρόπος διαχείρισης της πληροφορίας και η διαδικασία κατηγοριοποίησης είναι διαφανής στο χρήστη. Με την εφαρµογή µιας σειράς κανόνων, οι οποίοι εισάγονται από ειδικούς του πεδίου εφαρµογής του συτήµατος, καταφέρνουν και αυτά να έχουν υψηλές επιδόσεις. 3 Έχει όµως αποδειχθεί ότι η φύση της ιατρικής πληροφορίας έχει ιδιαιτερότητες και η διαχείριση της µε µια σειρά από κανόνες είναι –µε την εξαίρεση κάποιων περιπτώσεων– αδύνατη. Πέρα από τη γενικά παραδεκτή πολυπλοκότητα των µηχανισµών οι οποίοι εµπλέκονται σε κάθε ιατρικό πρόβληµα, το καθεστώς αβεβαιότητας κάτω από το οποίο συλλέγεται η ιατρική πληροφορία, καθιστά τέτοιου είδους συστήµατα είτε µη αποτελεσµατικά, είτε ανελαστικά στις παραδοχές που υιοθετούν. Η επιλογή της συγκεκριµένης µεθοδολογίας, των ∆ικτύων Πεποίθησης ή Bayesian Networks, δε βασίστηκε τόσο σε επιχειρήµατα επίδοσης –σε όρους επιτυχών προβλέψεων– όσο στο ότι είναι απόλυτα συµβατή µε τον τρόπο σκέψης του τελικού αποδέκτη και χρήστη ενός τέτοιου συστήµατος, δηλαδή του ιατρού. Κατά την διαδικασία της διάγνωσης, τα βήµατα της ιατρικής σκέψης, είναι τα ακόλουθα: Αρχικά, η εµπειρία του ιατρού, του δίνει µια –έστω και ποιοτική– εκτίµηση της σπανιότητας κάθε νόσου από την οποία ίσως πάσχει ο υπό εξέταση ασθενής. Με τα πρώτα δεδοµένα που λαµβάνει, ως κλινικά σηµεία και συµπτώµατα, διατυπώνει µια υπόθεση εργασίας, αναφορικά µε την πιθανή νόσο. Στη συνέχεια, τα υπόλοιπα δεδοµένα αξιοποιούνται από τον ιατρό, προκειµένου είτε να επιβεβαιώσει/απόρρίψει την υπόθεση εργασίας, είτε να διατυπώσει νέες υποθέσεις. Μέσα από τα δεδοµένα που λαµβάνει, η πεποίθηση που έχει για τη νόσο, τροποποιείται συνεχώς και αναζητά νέες εξετάσεις, κατά προτίµηση εκείνες που έχουν την µεγαλύτερη αξία πληροφορίας, που θα τον βοηθήσουν πιο εύκολα να φτάσει σε µια υψηλή πεποίθηση για την αληθεια ή το ψεύδος της υπόθεσής του. Στην καθηµερινή του κλινική πράξη, ο ιατρός κάνει χρήση εννοιών όπως «ευαισθησία», «ειδικότητα» και «προβλεπτική αξία» ενός τεστ. Ουσιαστικά, µεταχειρίζεται έναν µηχανισµό µε τον οποίο τα αποτελέσµατα των εξετάσεων που διατάσσει, συνδυάζονται µε τον καλύτερο τρόπο ώστε να τροποποιήσουν την πεποίθησή του. Αυτός ο µηχανισµός, ο κανόνας του Bayes, που ο ιατρός είναι εκπαιδευµένος να εφαρµόζει, αποτελεί το βασικό στοιχείο της µεθοδολογίας των ∆ικτύων Πεποίθησης. Σε αντίθεση µε τις άλλες τεχνικές που αναφέρθηκαν παραπάνω, τα δίκτυα πεποίθησης διαχειρίζονται την αβεβαιότητα µε έναν σαφή και ρητό τρόπο. Λαµβάνουν υπ’ όψιν τους την εξάρτηση µεταξύ των µεταβλητών του προβλήµατος, και όχι µόνο προσφέρουν µια κατανοµή πιθανότητας στις διάφορες κατηγορίες αλλά και επιτρέπουν την εισαγωγή υποκειµενικής (αβέβαιας) πληροφορίας την οποία και συνυπολογίζουν. Είναι λοιπόν σαφές ότι ένα σύστηµα που εφαρµόζει την ίδια µε τον ιατρό µεθοδολογική προσέγγιση στο πρόβληµα, κερδίζει την εµπιστοσύνη του και µπορεί στα χέρια του όχι µόνο να αποτελέσει εργαλείο υποστηρικτικό του λειτουργήµατός του, αλλά και αφορµή για κωδικοποίηση της σκέψης του. Αν επιπλέον ένα τέτοιο σύστηµα µπορεί να αξιοποιήσει τη συσσωρευµένη πληροφορία που υπάρχει σε βάσεις δεδοµένων και να εκπαιδευτεί από αυτή, τότε θα µπορεί να λειτουργήσει και ως ένα σύστηµα µεταφοράς της εµπειρίας αυτής σε αποµακρυσµένα κλινικά περιβάλλοντα. Στο Γενικό Μέρος περιγράφεται η φύση της Ιατρικής πληροφορίας, δίνονται οι βασικές έννοιες της πιθανοκρατικής συλλογιστικής και αναπτύσσονται οι τεχνικές ανάλυσης αποφασεων στην Ιατρική. Το υπόλοιπο του Γενικού Μέρους έχει σαν 4 αντικείµενο την µοντελοποίηση της Ιατρικής πληροφορίας µε επικέντρωση στα γραφικά µοντέλα αναπαράστασης της πληροφορίας και ιδιαίτερα στα γραφικά λογαριθµικά-γραµµικά µοντέλα. Γίνεται µια προσπάθεια διαφορετικής προσέγγισης των πολυπαραγοντικών προβληµάτων που συναντώνται στην Ιατρική πράξη και που συνήθως αντιµετωπίζονται µε τις κλασσικές στατιστικές τεχνικές της Multivariate Analysis. Τα ∆ίκτυα Πεποίθησης εισάγονται στο Γενικό Μέρος και αναλύονται στο Ειδικό Μέρος µέσω της µελέτης του συγκεκριµένου προβλήµατος,δηλαδή της πρόγνωσης ασθενών µε ΚΕΚ. Ξεχωριστά συστήµατα αναπτύχθηκαν αναφορικά µε τους ασθενείς των Εξωτερικων Ιατρείων και της Μονάδας Εντατικής Θεραπείας. Οι επιδόσεις τους, συγκρινόµενες τόσο µε αυτές έµπειρων ιατρών αλλά και άλλων τεχνικών αναφέρονται αναλυτικά. Η πρώτη µου επαφή µε το χώρο των ∆ικτύων Πεποίθησης έγινε το Καλοκαίρι του 1994, στο πλαίσιο της διπλωµατικής µου εργασίας για το Μεταπτυχιακό ∆ίπλωµα Ειδίκευσης στην Ιατρική Φυσική. Σε αυτή µου την εξαετή (συνολικά) προσπάθεια, είχα τη βοήθεια πολλών, τόσο σε επιστηµονικό αλλά και ψυχολογικό επίπεδο. Οι καθηµερινές επαφές µε τον Επιβλέποντα Καθηγητή µου κ. Γεώργιο Νικηφορίδη αποτέλεσαν πηγή έµπνευσης, ιδίως τις δύσκολες εκείνες µέρες που όλοι οι υποψηφίοι διδάκτορες κάποτε περνούν, τότε που νοµίζουν ότι φτάνουν σε αδιέξοδο. Από το χώρο της Νευροχειρουργικής, έτυχα της αµέριστης συµπαράστασης όλων ανεξαίρετα των Ιατρών, και ιδίως του κου Κωνσταντίνου Κωνσταντογιάννη, του οποίου η συνδροµή στη διαδικασία συλλογής των δεδοµένων υπήρξε αποφασιστική. Ο Καθηγητής κ. Νικόλαος Παπαδάκης συνέβαλε καταλυτικά στην κατανόηση από µέρους µου εκείνων των εννοιών της Νευροχειρουργικής που ήταν απαραίτητες για την έρευνα αυτή. Η συνεισφορά του Καθηγητή κου Γεώργιου ∆άσιου ήταν ιδιαίτερα σηµαντική, καθώς οι µαθηµατικές απαιτήσεις της έρευνας στα ∆ίκτυα Πεποίθησης είναι υψηλές. Η έρευνα που διεξήχθη στο πλαίσιο αυτής της διδακτορικής διατριβής οδήγησε στη δηµοσίευση τριών πλήρων εργασιών σε διεθνή επιστηµονικά περιοδικά µε κριτές και µια πλήρη δηµοσίευση σε διεθνές Συνέδριο: 1. Sakellaropoulos G, Nikiforidis G, “Comparison of prognostic performance of two expert systems based on Bayesian belief networks”, Decision Support Systems, 27(4):431-442 (2000). 2. Sakellaropoulos G, Nikiforidis G, “Development of a Bayesian Network in the prognosis of head injuries using graphical model selection techniques”, Methods of Information in Medicine, 38: 37-42 (1999). 3. Nikiforidis G, Sakellaropoulos G, “Expert system support using Bayesian Belief Networks in the prognosis of head-injured patients of the ICU”, Medical Informatics, 23(1): 1-18 (1998). 4. Sakellaropoulos G, Antonopoulos P, Papadakis N, Nikiforidis G, “Belief networks in head injury prognosis”, Health Telematics ’95 Proceedings, pp.339-344 (1995). 5 6 ΓΕΝΙΚΟ ΜΕΡΟΣ 1. ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 1.1 Φύση της Ιατρικής πληροφορίας Η κλινική πληροφορία έχει ένα χαρακτήρα σαφώς διαφορετικό από αυτόν της πληροφορίας που χρησιµοποιείται στην Φυσική, την Χηµεία ή την Μηχανολογία. Αυτή η διαφορετικότητα είναι προϊόν πολλών λόγων και έχει να κάνει αφενός µε τα αντικείµενα της Ιατρικής επιστήµης και αφετέρου µε την τελείως διαφορετική δοµή της. Αυτό έχει µεγάλες συνέπειες στο τρόπο προσέγγισης και διαχείρισης της κλινικής πληροφορίας και είναι εν µέρει ο λόγος για τον οποίο αρκετοί ερευνητές θεωρούν την Ιατρική Πληροφορική κάτι το ξεχωριστό από την συµβατική Πληροφορική. Για να γίνουν πιο συγκεκριµένα τα παραπάνω ας εξετάσουµε αυτές που θεωρούνται επιστήµες βασικού επιπέδου, οι οποίες έχουν δοµηθεί µε αυστηρό τρόπο που αντανακλάται και στον µαθηµατικό φορµαλισµό που έχουν αναπτύξει. Στην ιεραρχική σχέση µεταξύ των επιστηµών η Φυσική βρίσκεται στη βάση. Η Φυσική χαρακτηρίζεται από ένα είδος απλότητας αλλά και γενίκευσης. Οι έννοιες και οι περιγραφές των αντικειµένων και των µηχανισµών της φυσικής, χρησιµοποιούνται απαραίτητα σε όλες τις εφαρµοσµένες επιστήµες συµπεριλαµβανοµένης και της Ιατρικής. Οι φυσικοί νόµοι και οι περιγραφές ορισµένων φυσικών διαδικασιών είναι ουσιαστικοί παράγοντες στην ανάλυση και εξήγηση των ιατρικών λειτουργιών. Είναι για παράδειγµα, απαραίτητο να γνωρίζουµε ορισµένες βασικές έννοιες της Μοριακής Φυσικής για να κατανοήσουµε γιατί το νερό είναι τόσο καλός διαλύτης ή πως µεταβολίζονται τα θρεπτικά µόρια. Η εφαρµογή των υπολογιστών για την λύση κάποιου προβλήµατος φυσικής µέσα στα ιατρικά πλαίσια δεν παρουσιάζει διαφορές σε σχέση µε τις υπολογιστικές εφαρµογές που συναντώνται στα εργαστήρια φυσικής και µηχανολογίας. Η χρήση των υπολογιστών στις διάφορες διαδικασίες βασικού επιπέδου (όπως είναι αυτές της Φυσικής ή Χηµείας) είναι παρόµοια και ανεξάρτητη της συγκεκριµένης εφαρµογής. Εάν εξετάζουµε τις διαλυτικές ιδιότητες του νερού δεν έχει σηµασία αν αυτές έχουν να κάνουν µε εφαρµογές στη Γεωλογία, στην Χηµεία ή στην Ιατρική. Οι διαδικασίες βασικού επιπέδου της φυσικής είναι ιδιαίτερα προσιτές στη µαθηµατική κωδικοποίηση, έτσι η χρήση των υπολογιστών σε αυτές τις εφαρµογές απαιτεί µόνο συµβατικό αριθµητικό προγραµµατισµό. Στην Ιατρική, όµως, υπάρχουν και άλλες διαδικασίες υψηλού επιπέδου, οι οποίες αναφέρονται σε σύνθετα αντικείµενα όπως οι οργανισµοί (φυσιολογικοί ή παθολογικοί). Όταν αναλύονται, περιγράφονται ή καταγράφονται ιδιότητες ή συµπεριφορές ανθρώπων χρησιµοποιούνται περιγραφές αντικειµένων πολύ υψηλού επιπέδου η συµπεριφορά των οποίων δεν έχει αντίστοιχο στο χώρο της φυσικής ή της µηχανολογίας. Αυτές οι περιγραφές είναι πολύ δύσκολο να κωδικοποιηθούν χρησιµοποιώντας µαθηµατικούς αλγορίθµους και λογισµικά πακέτα, τα οποία εφαρµόζονται τόσο καλά στα βασικά επίπεδα. Μέσα σε αυτά τα πλαίσια αναπτύσσεται µία νέα επιστηµονική κατεύθυνση που έχει το όνοµα Τεχνητή Νοηµοσύνη (Artificial Intelligence) και που έχει σαν βασικό στόχο την επίλυση 7 προβληµάτων υψηλού επιπέδου µε εφαρµογή µεθόδων και τεχνικών της πληροφορικής. Από τα προηγούµενα συνάγεται ότι η Ιατρική Πληροφορική περιέχει εφαρµογές που κινούνται µεταξύ της ανάλυσης µηχανισµών χαµηλού επιπέδου και της επεξεργασίας φαινοµένων εξαιρετικά υψηλού επιπέδου. Όταν µελετώνται ολιστικά ανθρώπινοι οργανισµοί (συµπεριλαµ-βανοµένων των στοιχείων της αντίληψης, της αυτοσυνείδησης και της συµπεριφοράς) αναδεικνύονται πολλά και σύνθετα προβλήµατα για τα οποία η συµβατική λογική και τα συµβατικά µαθηµατικά είναι δύσκολο να εφαρµοσθούν. Γενικά, τα χαρακτηριστικά των αντικειµένων βασικού επιπέδου είναι καθαρά ορισµένα και σαφώς διακριτά (για παράδειγµα η “µάζα”, το “µήκος” κ.λ.π.), ενώ εκείνα των αντικειµένων υψηλού επιπέδου είναι ασαφώς ορισµένα και όχι µε ακρίβεια διακριτά (για παράδειγµα “δυσάρεστη γεύση”, “καλή κατάσταση” κ.λ.π.). Όπως η περιγραφή των αντικειµένων υψηλού επιπέδου απαιτεί την ανάπτυξη νέων µεθόδων, έτσι και οι µέθοδοι στατιστικής συµπερασµατολογίας αυτών αντικειµένων είναι διαφορετικοί. Η φορµαλιστική λογική, ξεκινά µε την παραδοχή ότι σε µια δεδοµένη πρόταση πρέπει να είναι ή αληθής ή ψευδής. Αυτό το ουσιαστικότατο χαρακτηριστικό της συµβατικής λογικής είναι δύσκολο να διατηρηθεί στην ανάλυση αντικειµένων υψηλού επιπέδου όπου η απάντηση στα διάφορα ερωτήµατα δεν µπορεί να είναι µόνο να ή όχι. 8 1.2 Σχέση µεταξύ δεδοµένων και υποθέσεων Μία παρατήρηση ενός συµβάντος προκαλεί µία υπόθεση εργασίας όταν φυσικά έχει κάποια άµεση σχέση µε την υπόθεση. Ποια είναι όµως τα χαρακτηριστικά αυτής της σχέσης; Ένα παράδειγµα µπορεί να δείξει ότι µια τόσο απλή σχέση δεν είναι αρκετή για να εξηγήσει το ξεκίνηµα αυτής της διαδικασίας. Εξετάζουµε την υπόθεση ότι ένας ασθενής είναι έγκυος που βασίζεται στην παρατήρηση ότι ο ασθενής είναι γυναίκα. Προφανώς όλοι οι ασθενείς σε κατάσταση εγκυµοσύνης είναι γυναίκες, αλλά εάν εµφανισθεί ένας ασθενής ο οποίος είναι γυναίκα δεν ενεργοποιείται άµεσα η υπόθεση ότι αυτή είναι έγκυος. Κατά συνέπεια το θηλυκό γένος είναι ένας πολύ ευαίσθητος δείκτης εγκυµοσύνης (η πιθανότητα ένας ασθενής σε κατάσταση εγκυµοσύνης να είναι γυναίκα ισούται µε 100%) αλλά δεν έχει µεγάλη προβλεπτική αξία (οι περισσότερες γυναίκες δεν είναι σε κατάσταση εγκυµοσύνης). Η έννοια της ευαισθησίας –ως η πιθανότητα παρατήρησης ενός δεδοµένου όταν ο εξεταζόµενος έχει µία συγκεκριµένη ασθένεια– είναι πολύ σηµαντική, αλλά δεν εξηγεί από µόνη της την δηµιουργία µιας υπόθεσης κατά την διαδικασία της ιατρικής διάγνωσης. Εναλλακτικά, η σχέση µεταξύ παρατήρησης ενός συµβάντος και µιας υπόθεσης εργασίας µπορεί να στηρίζεται στο ότι η παρατήρηση του συµβάντος γίνεται σπάνια εάν δεν επαληθεύεται η υπόθεση. Έστω ότι ένα συγκεκριµένο αποτέλεσµα δεν επαληθεύεται ποτέ, αν ο ασθενής δεν έχει µία συγκεκριµένη ασθένεια. Σ’ αυτές τις περιπτώσεις τα tests ονοµάζονται παθογνωµονικά. Όχι µόνο υποδεικνύουν µία διαγνωστική υπόθεση, αλλά ταυτόχρονα αποδεικνύουν ότι αυτή είναι ορθή. ∆υστυχώς τα παθογνωµονικά tests είναι σπάνια στην ιατρική. Εκείνο που συµβαίνει συνήθως είναι να γίνεται µία παρατήρηση πολύ συχνά όταν υπάρχει µία ασθένεια ή µία κατηγορία ασθενειών, αλλά η αντιστοίχηση ασθένειας και παρατήρησης δεν είναι απόλυτη. Για παράδειγµα, µόνο ένας µικρός αριθµός νοσηµάτων, που δεν ανήκουν στις λοιµώξεις, αυξάνει τον αριθµό των λευκών αιµοσφαιρίων. Βεβαίως η λευχαιµία όπως και η επίδραση ορισµένων φαρµάκων µπορεί να αυξήσει τον αριθµό των λευκών αιµοσφαιρίων, αλλά οι περισσότεροι ασθενείς που δεν έχουν λοίµωξη θα έχουν κανονικό αριθµό λευκών αιµοσφαιρίων. Κατά συνέπεια η αύξηση των λευκών δεν αποδεικνύει την ύπαρξη λοίµωξης αλλά στηρίζει την υπόθεση για την ύπαρξή της. Η έννοια που περιγράφει αυτή την σχέση, µεταξύ υπόθεσης και παρατήρησης, λέγεται ειδικότητα. Μία παρατήρηση είναι πολύ υψηλής ειδικότητας για µια ασθένεια εάν απουσιάζει σε ασθενείς που δεν έχουν αυτή την ασθένεια, ενώ η παθογνωµονική παρατήρηση έχει ειδικότητα 100%. Οι έννοιες της ευαισθησίας και της ειδικότητας ξεκαθαρίζουν αρκετά την υποθετικοσυµπερασµατική προσέγγιση. Παρόλα αυτά ,ακόµη και έµπειροι γιατροί, ορισµένες φορές αποτυγχάνουν να τις χρησιµοποιήσουν σωστά. Έτσι ακόµα και αν έχει γίνει µια πολύ ειδική για την ασθένεια παρατήρηση, µπορεί ο ασθενής να πάσχει από άλλη ασθένεια. Ακριβώς σε τέτοιες περιπτώσεις γίνονται συχνά σφάλµατα που απορρέουν από την λεγόµενη “κοινή αντίληψη”. Για να εξηγηθούν αυτές οι συχνές παρεξηγήσεις, πρέπει να εισαχθούν δύο επιπρόσθετες έννοιες : ο επιπολασµός και η προβλεπτική τιµή Ο επιπολασµός µιας ασθένειας είναι η συχνότητα ή καλύτερα η πιθανότητα της ασθένειας στον εξεταζόµενο πληθυσµό. Έστω ότι µία ασθένεια έχει επιπολασµό 5% στο γενικό πληθυσµό, υπάρχει περίπτωση σε ένα επιλεγµένο υποπληθυσµό της ο επιπολασµός να είναι πολύ υψηλότερος. Για παράδειγµα, ο καρκίνος του µαστού στο 9 γενικό στο γενικό πληθυσµό είναι 0.3%, αλλά ο επιπολασµός της ίδιας ασθένειας στον γυναικείο υποπληθυσµό που έχει ηλικία µεταξύ 40 και 50 ετών είναι περίπου 15 φορές µεγαλύτερος και φθάνει το 4.5%. Προφανώς ο στόχος της διάγνωσης είναι, ξεκινώντας από τον επιπολασµό που έχει ο ασθενής, για µια συγκεκριµένη ασθένεια, στο πληθυσµό (κατηγορία, οµάδα) κατατάχθηκε αρχικά, να γίνει κάποια εξέταση και ανάλογα µε το αποτέλεσµά της (θετικό ή αρνητικό) να καταταχθεί σε ένα νέο υποπληθυσµό στον οποίο ο επιπολασµός θα είναι σαφώς διαφορετικός. Έτσι η πιθανότητα ένα οποιοδήποτε άτοµο του πληθυσµού των Ηνωµένων Πολιτειών να έχει καρκίνο του πνεύµονος είναι µικρή (γιατί ο επιπολασµός αυτής της ασθένειας είναι µικρός), αλλά γίνεται πολύ υψηλότερη αν η ακτινογραφία θώρακος δείξει µία σκιά που µοιάζει µε όγκο. Αν το ίδιο άτοµο ανήκει στον υποπληθυσµό των καπνιστών, τότε ο επιπολασµός του καρκίνου του πνεύµονος θα είναι µεγαλύτερος. Σ’ αυτή την περίπτωση η ίδια ακτινογραφία θώρακος, θα ανεβάσει ακόµα υψηλότερα την πιθανότητα να έχει το εξεταζόµενο άτοµο καρκίνο του πνεύµονος. Προβλεπτική τιµή ενός test καλείται, απλώς, η πιθανότητα της ασθένειας (posttest probability) µετά την γνωστοποίηση του αποτελέσµατος του test. Όπως προαναφέρθηκε αν το αποτέλεσµα του test είναι θετικό η προβλεπτική τιµή θα είναι µεγαλύτερη του επιπολασµού. Εάν το test είναι αρνητικό η εµφάνιση της ασθένειας έχει µία πιθανότητα µικρότερη του επιπολασµού. Για κάθε test και κάθε ασθένεια υπάρχει µία προβλεπτική τιµή εάν το test είναι θετικό και άλλη εάν το test είναι αρνητικό. Οι συµβολισµοί που χρησιµοποιούνται είναι αντίστοιχα PV+ για προβλεπτική τιµή µε θετικό test και PV- για αρνητικό test. Η προβλεπτική αξία ενός θετικού test εξαρτάται από την ευαισθησία και την ειδικότητά του όπως επίσης και από τον επιπολασµό της αναζητούµενης ασθένειας. Ο τύπος που περιγράφει αυτή την εξάρτηση είναι : (ευαισθησια )× (επιπολασµος ) PV = + (ευαισθησια )× (επιπολασµος ) + (1 − ευαισθησια )(1 - επιπολασµος ) Υπάρχει ένας παρόµοιος τύπος για τον ορισµό της PV-, σαν συνάρτηση της ευαισθησίας, της ειδικότητας και του επιπολασµού. Και οι δύο αυτοί τύποι συνάγονται από τα βασικά στοιχεία της θεωρίας πιθανοτήτων. Να σηµειωθεί ότι ένα θετικό test µε πολλή υψηλή ευαισθησία και ειδικότητα µπορεί να οδηγήσει σε µία σχετικά χαµηλή πιθανότητα για την ασθένεια (χαµηλή PV+), εάν ο επιπολασµός της ασθένειας είναι χαµηλός. Είναι ακριβώς αυτή η σχέση της προβλεπτικής τιµής µε την ευαισθησία, την ειδικότητα και τον επιπολασµό που δεν είναι εύκολα κατανοητή από τους γιατρούς οι οποίοι σε ορισµένες θεωρούν τα συµπεράσµατά της παράδοξα (πράγµα που αποδεικνύει ότι συχνά η “κοινή” αντίληψη οδηγεί σε εσφαλµένα συµπεράσµατα, όταν δεν στηρίζεται σε σταθερές αρχές και κανόνες). Η ευαισθησία του test και ο επιπολασµός της ασθένειας µπορούν να αγνοηθούν µόνο όταν το test είναι παθογνωµονικό ( δηλαδή όταν έχει ειδικότητα 100% που σηµαίνει PV+ ίσο µε 100%). Ο τύπος προσδιορισµού του PV+ είναι ένας από τους πολλούς τύπους που προέρχονται από το θεώρηµα του Bayes το οποίο στηρίζει ένα µεγάλο αριθµό προσεγγίσεων στη λήψη ιατρικών αποφάσεων. 10 1.2.1 Κατάταξη των αποτελεσµάτων ενός test ως µη φυσιολογικά Πολλές βιολογικές µετρητέες που αναφέρονται σε ένα πληθυσµό υγιών ατόµων εκφράζονται σαν συνεχείς µεταβλητές και παίρνουν διαφορετικές τιµές για τα διάφορα υγιή άτοµα. Τις πιο πολλές φορές η κατανοµή των τιµών τους είναι κατά προσέγγιση κανονική (Gaussian). Έτσι το 95% του πληθυσµού παίρνει τιµές που ανήκουν στο διάστηµα που έχει κέντρο τη µέση τιµή µ της µετρητέας και άκρα αντίστοιχα µ-2σ και µ+2σ (όπου σ είναι η τυπική απόκλιση της κατανοµής). Περίπου το 2.5% του υγιούς πληθυσµού θα έχει τιµές που είναι µικρότερες από το κάτω άκρο του προαναφερόµενου διαστήµατος ενώ ένα άλλο 2.5% θα έχει τιµές υψηλότερες από το άνω άκρο. Από την άλλη πλευρά, και ο πληθυσµός των ατόµων που έχουν µία συγκεκριµένη ασθένεια εµφανίζει συνήθως µία κανονική κατανοµή για τις τιµές της ίδιας µετρητέας. Εάν η βιολογική µετρητέα δεν σχετίζεται µε την ασθένεια οι δύο κατανοµές θα είναι περίπου οι ίδιες. Στην αντίθετη περίπτωση (δηλαδή η µετρητέα επηρεάζεται από την ασθένεια) θα είναι διαφορετικές (δηλαδή θα έχουν διαφορετική µέση τιµή και διαφορετική τυπική απόκλιση) αλλά θα έχουν µερική επικάλυψη (Σχήµα 1.1). Ψευδώς θετικά Ψευδώς αρνητικά Αριθµός ατόµων φυσιολογικοί Φυσιολογικός πληθυσµός µη φυσιολογικοί Όριο διαχωρισµού Πληθυσµός ασθενών Αποτέλεσµα τον test Σχήµα 1.1 Το ερώτηµα που τίθεται, είναι πότε το αποτέλεσµα ενός test, που αναφέρεται σε µία µετρητέα, θα θεωρείται και θα κατατάσσεται σαν µη-φυσιολογικό; Στις περισσότερες εργαστηριακές εξετάσεις, µαζί µε την εκτίµηση της εργαστηριακής µετρητέας δίνεται και το διάστηµα των φυσιολογικών της τιµών. το οποίο ορίζεται σαν µ ± 2σ (δηλαδή οι φυσιολογικές τιµές απέχουν από την µέση τιµή της µετρητέας το πολύ δύο τυπικές αποκλίσεις). Έτσι αν το αποτέλεσµα του test είναι έξω από το διάστηµα φυσιολογικών τιµών θεωρείται µη-φυσιολογικό και το test θετικό. Εάν το αποτέλεσµα περιέχεται στο διάστηµα των φυσιολογικών τιµών, το test θεωρείται αρνητικό. Για παράδειγµα, η µέση συγκέντρωση χοληστερίνης στο αίµα είναι 11 200mg/dl, εάν η τυπική απόκλιση ης χοληστερίνης στον υγιή πληθυσµό είναι 25mg/dl τότε το διάστηµα φυσιολογικών τιµών για την χοληστερίνη θα είναι 200 ± 50, δηλαδή 150 έως 250. Είναι προφανές από όσα ειπώθηκαν ότι τα άκρα του διαστήµατος των φυσιολογικών τιµών ορίζονται µε στατιστικά κριτήρια που δεν έχουν βιολογική σηµασία. Ένα ιδανικό test θα έδινε µία κατανοµή αποτελεσµάτων (της µετρητέας) για τους ασθενείς, η οποία δεν θα είχε καµία επικάλυψη µε την αντίστοιχη κατανοµή αποτελεσµάτων των υγιών ατόµων. Έτσι εάν επελέγετο ένα κατάλληλο όριο (cut off) για τις φυσιολογικές τιµές, το test θα ήταν αρνητικό για όλους τους φυσιολογικούς και θετικό για όλους τους ασθενείς. Πολύ λίγα tests ανήκουν σ’ αυτή την κατηγορία. Συνήθως για τον χαρακτηρισµό ενός test σαν µη-φυσιολογικό χρησιµοποιείται το κριτήριο των 2 τυπικών αποκλίσεων από την µέση τιµή του υγιούς πληθυσµού και έτσι ένα 2.5% των υγιών ατόµων θα δώσει θετικό test (αυτό χαρακτηρίζεται σαν σφάλµα τύπου α του test ). Από την άλλη πλευρά, επειδή συνήθως η κατανοµή των αποτελεσµάτων του test των ασθενών έχει µία επικάλυψη µε αυτή των υγιών, και µάλιστα περιέχει τιµές οι οποίες ανήκουν στο διάστηµα των φυσιολογικών τιµών, είναι προφανές ότι ορισµένοι ασθενείς θα δώσουν αρνητικό test (σφάλµα τύπου β). Συµπερασµατικά, όπως φαίνεται και από το σχήµα (1.1), θα υπάρχει ένα ποσοστό φυσιολογικών ατόµων που θα δώσει θετικό test και ένα ποσοστό ασθενών που θα δώσει αρνητικό test. Προφανώς όσο µικρότερα είναι αυτά τα ποσοστά τόσο καλύτερο είναι το test. Ο γιατρός πρέπει να είναι γνώστης ορισµένων όρων που εκφράζουν αυτή την κατάσταση: Αληθώς θετικά (Α.Θ) είναι τα θετικά tests που προέρχονται από τον πληθυσµό των εχόντων την ασθένεια (δηλαδή τα tests που σωστά ταξινοµούν τον εξεταζόµενο στην κατηγορία των εχόντων την συγκεκριµένη ασθένεια) Αληθώς Αρνητικά (Α.Α) είναι τα αρνητικά tests που προέρχονται από τον πληθυσµό των µη εχόντων την ασθένεια (δηλαδή τα tests που σωστά ταξινοµούν τον εξεταζόµενο στην κατηγορία των µη εχόντων την συγκεκριµένη ασθένεια. Ψευδώς θετικά (Ψ.Θ) είναι τα θετικά tests που προέρχονται από τον πληθυσµό των µη εχόντων ασθένεια (δηλαδή τα tests που εσφαλµένα ταξινοµούν τον εξεταζόµενο στην κατηγορία των εχόντων την συγκεκριµένη ασθένεια) Ψευδώς Αρνητικά (Ψ.Α) είναι τα αρνητικά tests που προέρχονται από τον πληθυσµό εκείνων που έχουν την ασθένεια (δηλαδή εσφαλµένα ταξινοµούν τον ασθενή στην κατηγορία των µη εχόντων την συγκεκριµένη ασθένεια). Στο σχήµα 1.1 φαίνεται ότι µεταβάλλοντας το άνω άκρο του διαστήµατος των “φυσιολογικών τιµών” θα αλλάξουν ουσιαστικά τα προαναφερόµενα ποσοστά. Καθώς το άνω όριο των φυσιολογικών τιµών µετακινείται προς υψηλότερες τιµές, αυξάνεται ο αριθµός των ψευδώς αρνητικών (Ψ.Α) και µειώνεται ο αριθµός των ψευδώς θετικών. 12 Όταν καθοριστεί το ανώτατο φυσιολογικό όριο αυτόµατα προσδιορίζεται και η επίδοση (performance) του test, δηλαδή η ικανότητά του να διακρίνει µεταξύ ασθενούς και µη ασθενούς. Η ποσοτικοποίηση της επίδοσης δίνεται µε ένα πίνακα συνάφειας σαν αυτό του Πίνακα 1.1.Στον πίνακα δίνονται συνοπτικά οι αριθµοί που αντιστοιχούν στις προηγούµενες 4 οµάδες αποτελεσµάτων (Α.Θ, Α.Α, Ψ.Θ, Ψ.Α). Παρατηρείται ότι το άθροισµα της πρώτης στήλης δίνει το συνολικό αριθµό των µη ασθενών, (Ψ.Θ+Α.Α) Το άθροισµα της πρώτης σειράς, (Α.Θ + Ψ.Θ), είναι ο συνολικός αριθµός των εξετασθέντων που έδωσαν θετικό test. Παροµοίως, (Ψ.Α+Α.Α), είναι ο αριθµός των εξετασθέντων που έδωσαν αρνητικό test. Αποτέλεσµα του test Ασθενείς Όχι Ασθενείς Σύνολο Θετικό test Α.Θ Ψ.Θ Α.Θ+Ψ.Θ Αρνητικό test Ψ.Α Α.Α Ψ.Α+Α.Α (Α.Θ)+(Ψ.Α) (Ψ.Θ)+(Α.Α) ΠΙΝΑΚΑΣ 1.1: Πίνακας συνάφειας 2x2 που εκφράζει την επίδοση ενός test. Το ιδανικό test δεν έχει ούτε Ψευδώς Αρνητικά (Ψ.Α) ούτε Ψευδώς Θετικά (Ψ.Θ) αποτελέσµατα. Στην πραγµατικότητα αυτό δεν επαληθεύεται σχεδόν ποτέ και έτσι ο έλεγχος µιας διαγνωστικής υπόθεσης, που αναφέρεται σε µία συγκεκριµένη ασθένεια, γίνεται µε test, που περιέχουν σφάλµατα. Η συνοπτική εικόνα της επίδοσης των εναλλακτικών tests δίνεται µε τους προαναφερόµενους πίνακες συνάφειας 2x2. Έτσι ο γιατρός διευκολύνεται στην επιλογή του, η οποία βεβαίως λαµβάνει υπ’ όψη και άλλους παράγοντες όπως το κόστος και ο χρόνος του test, τον επιπολασµό της υποτιθέµενης ασθένειας (όπως θα αναλυθεί αργότερα) κ.λ.π. 1.2.2 Παράµετροι της επίδοσης ενός ιατρικού test Οι παράµετροι της επίδοσης ενός test, όπως διαφαίνεται από την προηγούµενη ενότητα, είναι δύο ειδών : παράµετροι συµφωνίας και παράµετροι ασυµφωνίας µε την πραγµατικότητα. Στην ουσία οι παράµετροι συµφωνίας ταυτίζονται µε την έννοια της ευαισθησίας και της ειδικότητας οι οποίες µπορούν να ορισθούν τώρα χρησιµοποιώντας τον όρο της δεσµευµένης πιθανότητας και τους προηγούµενους πίνακες συνάφειας 2x2. Η ευαισθησία που καλείται και ποσοστό των αληθώς θετικών (Π.Α.Θ) είναι η πιθανότητα ένας που έχει την ασθένεια να δώσει θετικό test. Χρησιµοποιώντας την συµβολογία της δεσµευµένης πιθανότητας, η ευαισθησία εκφράζεται σαν την πιθανότητα το test να βγει θετικό, δεδοµένου ότι ο εξεταζόµενος είναι ασθενής. + P T A = P θετικο Test ο εξεταζοµενος ειναι ασθενης Ένας εναλλακτικός τρόπος έκφρασης της ίδιας ιδιότητας του test, είναι να δοθεί το (Π.Α.Θ) σαν το κλάσµα των ασθενών µε θετικό test δια του συνόλου των ασθενών: Π.Α.Θ = αριθµος των ασθενων µε θετικο test συνολοκος αριθµος ασθενων 13 ∆ηλαδή χρησιµοποιώντας τον πίνακα 1.1 έχουµε ότι : Π.Α.Θ = A.Θ Α.Θ + Ψ.Α Με ανάλογο τρόπο η ειδικότητα που καλείται και ποσοστό αληθώς αρνητικών (Π.Α.Α), ορίζεται σαν η πιθανότητα ένας που δεν έχει την ασθένεια να δώσει αρνητικό test. Με την συµβολογία της δεσµευµένης πιθανότητας, η ειδικότητα εκφράζεται σαν την πιθανότητα το test να είναι αρνητικό δεδοµένόυ ότι ο εξεταζόµενος δεν είναι ασθενής. ( − PT A− ) = P Αρνητικο Test ο εξεταζοµενος δεν ειναι ασθενης Εναλλακτικά το ποσοστό των αληθώς αρνητικών δίνεται µε το κλάσµα: Π.Α.Α = ( A. A) ( A. A) + (Ψ. A) 1.2.3 Συνεκτίµηση της ευαισθησίας και της ειδικότητας στην επιλογή του κατάλληλου test. Ανακεφαλαιώνοντας είναι σαφές ότι οι τιµές της ευαισθησίας και της ειδικότητας, ενός test συνεχούς µεταβλητής, εξαρτάται από το εκάστοτε καθοριζόµενο όριο διαχωρισµού µεταξύ φυσιολογικού και µη φυσιολογικού. Η αύξηση της τιµής αυτού που καθορίζουµε σαν ανώτατο φυσιολογικό όριο, θα µειώσει τον αριθµό των ψευδώς θετικών και ταυτόχρονα θα αυξήσει τον αριθµό των ψευδώς αρνητικών tests. Με αυτό τον τρόπο το test γίνεται περισσότερο ειδικό και λιγότερο ευαίσθητο. Παροµοίως η µείωση της τιµής του ανωτάτου φυσιολογικού ορίου αυξάνει τον αριθµό των ψευδώς θετικών και µειώνει τον αριθµό των ψευδώς αρνητικών, δηλαδή αυξάνει αυξάνει την ευαισθησία και µειώνει την ειδικότητα. Είναι φανερό από τα παραπάνω ότι η ευαισθησία και η ειδικότητα δεν είναι αποκλειστικά χαρακτηριστικά του test, αλλά εξαρτώνται και από το κριτήριο που τίθεται για την διάκριση του τι θεωρείται µη φυσιολογικό αποτέλεσµα (θετικό test). Κατά συνέπεια ο καλύτερος τρόπος για να χαρακτηρισθεί, αποκλειστικά και µόνο, η επίδοση ενός test είναι να δοθούν οι τιµές της ευαισθησίας και ειδικότητας του σαν συνάρτηση των τιµών που µπορεί να πάρει το ανώτατο φυσιολογικό όριο (cut off). Η τυπική γραφική παράσταση αυτής της συνάρτησης δίνεται χρησιµοποιώντας το καρτεσιανό σύστηµα αξόνων και βάζοντας στον κάθετο άξονα την ευαισθησία και στον οριζόντιο την µεταβλητή x = (1-ειδικότητα). Η x ισούται µε το ποσοστό των αληθώς θετικών δια του ποσοστού των ψευδώς θετικών και η τιµή της µεταβάλλεται άµεσα µε την µεταβολή της τιµής του ανώτατου φυσιολογικού ορίου. Η προκύπτουσα καµπύλη είναι γνωστή ως καµπύλη ROC (Receiver Operating Characteristic). Κάθε σηµείο επί της καµπύλης ROC δίνει την ευαισθησία και την ειδικότητα του test για ένα συγκεκριµένο ανώτατο φυσιολογικό όριο. Εάν ένας γιατρός θέλει να επιλέξει µεταξύ διαφόρων tests για τον έλεγχο µιας διαγνωστικής υπόθεσης που αφορά µία συγκεκριµένη ασθένεια ή κατηγορία ασθενειών, θα µπορούσε να συγκρίνει τις ROC καµπύλες που αντιστοιχούν στα υποψήφια tests. 14 Ποσοστό αληθώς θετικών Ποσοστό ψευδώς θετικών Σχήµα 1.3 Στο σχήµα 1.3 παρουσιάζονται δύο εναλλακτικά tests που αφορούν τον έλεγχο της ίδιας ασθένειας. Η καµπύλη ROC του test B βρίσκεται ψηλότερα, σε όλα τα σηµεία, από την αντίστοιχη καµπύλη του test A. Με άλλα λόγια το test B έχει µεγαλύτερη διακριτική ισχύ γιατί έχει µεγαλύτερη ευαισθησία για οποιοδήποτε επίπεδο ειδικότητας. Υπάρχουν βέβαια πιο σύνθετες περιπτώσεις στις οποίες οι καµπύλες ROC, εναλλακτικών tests, µπορεί να τέµνονται και εποµένως σε ορισµένες περιοχές το πρώτο να είναι καλύτερο του δεύτερου και σε άλλες περιοχές να συµβαίνει το αντίθετο. Το αυστηρά µαθηµατικό κριτήριο επιλογής θα µπορούσε να στηριχτεί στη σύγκριση των εµβαδών των αντίστοιχων καµπύλων ROC, θεωρώντας σαν καλύτερο το test του οποίου η καµπύλη ROC περιέχει µεγαλύτερο εµβαδόν. Όµως, αρκετές φορές για την επιλογή ενός test συνεκτιµώνται και άλλοι παράγοντες, όπως το κόστος ο κίνδυνος, οι παρενέργειες κ.λ.π. 1.2.4 Προβλεπτική αξία ενός test Σε προηγούµενη παράγραφο δόθηκε ο τύπος για τον υπολογισµό της θετικής προβλεπτικής αξίας ενός test που λαµβάνει υπ’ όψη την ευαισθησία, την ειδικότητα και τον επιπολασµό της ασθένειας η οποία ελέγχεται: (ευαισθησια )(επιπολασµος ) PV = + (ευαισθησια )(επιπολλασµος ) + (1 - ειδικοτητα )(1 - επιπολλασµος ) Για να κατανοηθεί αυτός ο τύπος υπενθυµίζεται ότι η θετική προβλεπτική αξία του test δίνει την πιθανότητα ενός εξεταζόµενου µε θετικό test να έχει την υποτιθέµενη ασθένεια. Κατά συνέπεια η PV+ µπορεί να υπολογισθεί άµεσα από ένα πίνακα συνάφειας 2x2: PV + = αριθµος των ατοµων που εχουν την ασθενεια και εµφανιζουν θετικο test συνολ ικος αριθµος των ατοµων µε θετικο test ∆ηλαδή από τον πίνακα συνάφειας 2x2 που δίνεται στον πίνακα 1.1 15 PV + = A. Θ A. Θ + Ψ. Θ Παροµοίως η αρνητική προβλεπτική αξία (PV-) είναι η πιθανότητα ένας εξεταζόµενος µε αρνητικό test να µην έχει την ασθένεια: PV − = αριθµος των ατοµων που εχουν την ασθενεια και εµφανιζουν αρνητικο test συνολ ικος αριθµος των ατοµων µε αρνητικο test Η τιµή του PV- προσδιορίζεται και πάλι χρησιµοποιώντας τον πίνακα 2.1 PV − = A. A A. A + Ψ. A Είναι πολύ σηµαντικό, σε αυτό το σηµείο, να επαναληφθεί η µεγάλη εννοιολογική (και πρακτική) διαφορά που υπάρχει µεταξύ της προβλεπτικής αξίας ενός test και της ευαισθησίας και ειδικότητας του. ∆υστυχώς το σηµείο αυτό είναι αντικείµενο παρεξηγήσεων µεταξύ ενός µεγάλου µέρους των ιατρών και οδηγεί συχνά σε µεγάλες παρερµηνεύσεις επηρεάζοντας το σύνολο της υποθετικο-συµπερασµατικής ιατρικής διαδικασίας. Η ευαισθησία δίνει την πιθανότητα ένα άτοµο που ξέρουµε ότι είναι ασθενής να δώσει θετικό test και η ειδικότητα δίνει την πιθανότητα ένα άτοµο που ξέρουµε ότι δεν έχει την ασθένεια να δώσει αρνητικό test. Αντίθετα η προβλεπτική αξία δίνει την πιθανότητα ένα άτοµο που έδωσε θετικό (αρνητικό) test να έχει την ασθένεια. Η προβλεπτική αξία του test εξαρτάται από τον επιπολασµό της ελεγχόµενης ασθένειας και όχι µόνο από τα χαρακτηριστικά του test. Έτσι εάν κάνουµε ένα Pap-test που έχει ευαισθησία 0.94 και ειδικότητα 0.97 στο γενικό πληθυσµό των γυναικών, όπου ο επιπολασµός του καρκίνου της µήτρας είναι 0.002 τότε η προβλεπτική αξία ενός θετικού test (δηλαδή η πιθανότητα µία γυναίκα µε θετικό test να έχει καρκίνο της µήτρας) ισούται µε : (0.94) ⋅ (0.002) 0.00183 PV = = ≈ 0.057 + (0.94)(0.002) + (1 − 0.97)(1 − 0.002) 0.00183 + 0.03 ∆ηλαδή για µία γυναίκα, που ανήκε στο γενικό πληθυσµό, µε θετικό Pap-test η πιθανότητα καρκίνου της µήτρας είναι περίπου 5.5%. Εάν τώρα η ίδια γυναίκα ανήκε σε ένα ειδικό πληθυσµό, για παράδειγµα είχε ηλικία µεταξύ 40 και 50 ετών και ταυτόχρονα παρουσίαζε µητρορραγίες, και παρουσίαζε θετικό Pap-test, η πιθανότητα να έχει καρκίνο της µήτρας είναι τελείως διαφορετική. Πράγµατι εάν για τον προαναφερόµενο ειδικό πληθυσµό ο επιπολασµός του καρκίνου της µήτρας είναι 0.10 τότε η προβλεπτική αξία του θετικού Pap-test θα ισούται µε : ( 0.94)( 010 . ) 0.094 PV = = ≈ 0.78 + ( 0.94)( 010 . ) + (1 − 0.94)(1 − 010 . ) 0.094 + 0.027 Τελικά γίνεται κατανοητό ότι tests πολύ υψηλής ευαισθησίας και ειδικότητας µπορεί να έχουν χαµηλή προβλεπτική αξία αν η ελεγχόµενη ασθένεια είναι σπάνια 9µικρός επιπολασµός) στον πληθυσµό που ανήκει ο εξεταζόµενος. 1.3 Θεώρηµα του Bayes Από την προηγούµενη παράγραφο είναι φανερό ότι η πιθανότητα µιας ασθένειας έχοντας το αποτέλεσµα ενός test (posttest probability) δίνεται από την προβλεπτική αξία του test, ενώ ο επιπολασµός ασθένειας δίνει την πιθανότητα της πριν από το test. 16 Εποµένως ο καλός γιατρός πριν επιλέξει κάποιο test µαζεύει πληροφορίες (φυσική εξέταση, ιστορικό κ.λ.π) οι οποίες του δίνουν την δυνατότητα να εντάξει τον εξεταζόµενο σε ένα ειδικό πληθυσµό όπου η ελεγχόµενη ασθένεια έχει ένα επιπολασµό αρκετά υψηλότερο από αυτόν του γενικού πληθυσµού. Αυτός ο προσαρµοσµένος επιπολασµός (pretest probability) είναι που θα χρησιµοποιηθεί στην εκτίµηση της προβλεπτικής αξίας του test. Το θεώρηµα του Bayes είναι µία ποσοτική µέθοδος για τον υπολογισµό της posttest πιθανότητας χρησιµοποιώντας την προ του test πιθανότητα, την ευαισθησία και την ειδικότητα του test. Το θεώρηµα απορρέει από τον ορισµό της δέσµευσης πιθανότητας και τις ιδιότητες των πιθανοτήτων. Υπενθυµίζεται ότι η δεσµευµένη πιθανότητα ενός ενδεχοµένου Α, είναι η πιθανότητα επαλήθευσης του ενδεχοµένου Α όταν είναι δεδοµένη η επαλήθευση ενός ενδεχοµένου Β. Το πρόβληµα που έχει γενικά ο γιατρός είναι να προσδιορίσει την πιθανότητα ο εξεταζόµενος να έχει την ασθένεια, µε δεδοµένο ότι το test είναι θετικό. Συµβολίζουµε την παρουσία της ασθένειας µε Α, την απουσία της µε -Α, το αποτέλεσµα του test (θετικό ή αρνητικό) µε R, και την προ του test πιθανότητα µε p(A). Τότε η πιθανότητα παρουσίας της ασθένειας µε δεδοµένο ένα συγκεκριµένο αποτέλεσµα του test συµβολίζεται µε p[A/R] και σύµφωνα µε το θεώρηµα του Bayes ισούται µε : [ ] P AR = p[ A] p[ R A] p[ A] p[ R / A] + p[− A] p[ R / − A] Ο προηγούµενος γενικός τύπος µπορεί να ξαναγραφτεί, για την ειδική περίπτωση που το αποτέλεσµα (R) του test είναι θετικό (+), αντικαθιστώντας όπου p[A/R] το p[A/+], όπου p[R/A] το p[+/A], όπου p[R/-A] το p[+/-A] και όπου p[-A] το 1-p[A]. Έχοντας υπόψη ότι p[+/A]=Π.Α.Θ και p[+/-A]=Π.Ψ.Θ ο τύπος του Bayes για ένα θετικό test είναι: p[ A / + ] = p[ A] ⋅ (Π. A. Θ ) p[ A] ⋅ (Π. A. Θ ) + (1 − p[ A]) ⋅ (Π. Ψ. Θ ) 1.3.1 Συνέπειες του θεωρήµατος του Bayes Οι συνέπειες του θεωρήµατος του Bayes στην ερµηνεία των αποτελεσµάτων ενός test ή µιας σειράς από tests, είναι εξαιρετικά σηµαντικές και πολλές φορές όχι άµεσα κατανοητές. Στο σχήµα 1.4 παρουσιάζεται γραφικά η πιο σηµαντική από αυτές τις συνέπειες: Η posttest πιθανότητα µιας ασθένειας αυξάνεται µε την αύξηση της προ του test πιθανότητας της ασθένειας. Στο σχήµα 1.4.α δίνεται σχηµατικά η posttest πιθανότητα µιας ασθένειας, µετά από ένα θετικό αποτέλεσµα, για όλες τις ενδεχόµενες πιθανότητες της ίδιας ασθένειας πριν το test. Στο σχήµα 1.4.β δίνονται τα ίδια, για την περίπτωση που το αποτέλεσµα του test είναι αρνητικό. Η διακεκοµµένη ευθεία, µε κλίση 45ο, που εµφανίζεται στο σχήµατα 1.4α και 1.4β αναπαριστά ένα test για το οποίο η προ του test και η µετά του test πιθανότητα της ελεγχόµενης ασθένειας είναι το ίδιο, δηλαδή αναπαριστά το τελείως άχρηστο test. Η καµπύλη στο σχήµα 1.4α συσχετίζει την προ και την µετά το test πιθανότητα όταν το τελευταίο έχει ευαισθησία και ειδικότητα ίση µε 0.90. Παρατηρείται ότι, για χαµηλή προ του test πιθανότητα της ασθένειας, ένα θετικό αποτέλεσµα (θετικό test) 17 αυξάνει πάρα πολύ την πιθανότητα της ελεγχόµενης ασθένειας. Αντίθετα όταν η προ του test πιθανότητα είναι αρκετά υψηλή, ένα θετικό test δεν θα την αυξήσει σηµαντικά. Το σχήµα 1.4β δείχνει τη σχέση µεταξύ της προ και µετά το test πιθανότητας όταν το αποτέλεσµα του τελευταίου είναι αρνητικό (αρνητικό test). Όπως φαίνεται όταν η προ του test πιθανότητα της ασθένειας είναι υψηλή και το αποτέλεσµα του test είναι αρνητικό τότε η πιθανότητα της ασθένειας µειώνεται πάρα πολύ (δηλαδή η επίδραση του test στην διαγνωστική πεποίθηση του γιατρού είναι µεγάλη). Αντίθετα όταν η προ του test πιθανότητα είναι χαµηλή ένα αρνητικό αποτέλεσµα του τελευταίου έχει µικρή επίδραση, δηλαδή αλλάζει λίγο την πιθανότητα της ελεγχόµενης ασθένειας. Πιθανότητα µετά το test Πιθανότητα µετά το test Η όλη συζήτηση επικεντρώνει το ενδιαφέρον σε ένα σηµαντικό σηµείο της διαγνωστικής διαδικασίας: η ερµηνεία του αποτελέσµατος ενός test εξαρτάται από την πιθανότητα που έχει η ελεγχόµενη ασθένεια πριν από την εκτέλεση του test. Εάν η προ του test πιθανότητα είναι χαµηλή, τότε ένα θετικό test έχει µεγάλη επίδραση και ένα αρνητικό µικρή. Εάν η προ του test πιθανότητα είναι υψηλή, ένα θετικό αποτέλεσµα έχει µικρή επίδραση ενώ ένα αρνητικό έχει µεγάλη. Με άλλα λόγια, όταν ένας κλινικός γιατρός είναι σχεδόν σίγουρος για την διάγνωση του πριν από το test, ένα επιβεβαιωτικό test έχει µικρή επίδραση στην πεποίθηση του. Εάν η πριν από το test άποψη του είναι αµφιλεγόµενη ή το αποτέλεσµα του test είναι αντίθετο µε την αρχική του κλινική αντίληψη τότε το test έχει µεγάλη επίδραση στην συνέχεια της διαγνωστικής διαδικασίας. Πιθανότητα πρίν το test (α) Πιθανότητα πρίν το test (β) Σχήµα 1.4 (α) και (β) Στο σχήµα 1.4α παρατηρείται ότι, όταν η πριν το test πιθανότητα είναι πολύ χαµηλή, ένα θετικό αποτέλεσµα µπορεί να ανεβάσει την µετά το test πιθανότητα µόνο σε ένα ενδιάµεσο επίπεδο και αφήνει µεγάλες αµφιβολίες για την τελική διάγνωση. Παροµοίως, εάν η πριν το test πιθανότητα είναι πολύ υψηλή, είναι απίθανο ότι ένα αρνητικό test θα µειώσει τόσο πολύ την πιθανότητα της ελεγχόµενης ασθένειας ώστε να την αποκλείσει σαν διαγνωστικό ενδεχόµενο. 18 Το σχήµα 1.5 αναδεικνύει µια άλλη σηµαντική έννοια: η ειδικότητα του test επηρεάζει κυρίως την ερµηνεία ενός θετικού αποτελέσµατος. Και στα δύο µέρη α) και β) του σχήµατος 1.5 οι επάνω καµπύλες αντιστοιχούν σε θετικά αποτελέσµατα και οι κάτω σε αρνητικά. Το σχήµα 1.5α δείχνει τις µετά το test πιθανότητες για διάφορες ειδικότητες (Π.Α.Α). Παρατηρείται ότι η αλλαγή της ειδικότητας µεταβάλει σηµαντικά τις επάνω καµπύλες (θετικά tests). ∆ηλαδή µία αύξηση της ειδικότητας αλλάζει σηµαντικά την πιθανότητα όταν το test είναι θετικό, αλλά έχει µικρή επίδραση όταν το test είναι αρνητικό. Έτσι εάν κάποιος θέλει να επιβεβαιώσει, θα πρέπει να επιλέξει ένα test µε υψηλή ειδικότητα. ΠΑ Πιθανότητα µετά το test ΠΑ ΠΑ ΠΑ ΠΑ ΠΑ Πιθανότητα πρίν το test Σχήµα 1.5 (α) Το σχήµα 1.5β δείχνει την µεταβολή της µετά το test πιθανότητας µε την µεταβολή της ευαισθησίας. Είναι φανερό ότι αλλαγές στην ευαισθησία επηρεάζουν πολύ τις κάτω καµπύλες (αρνητικά tests), αλλά έχουν µικρή επίδραση στις επάνω καµπύλες. Έτσι, εάν κάποιος θέλει να αποκλείσει µία ασθένεια, από την διαγνωστική διαδικασία, θα πρέπει να επιλέξει ένα test µε µεγάλη ευαισθησία. 19 ΠΑ Πιθανότητα µετά το test ΠΑ ΠΑ ΠΑΘ=0.60 ΠΑΘ=0.80 ΠΑ Πιθανότητα πρίν το test Σχήµα 1.5 (β) 1.3.2 Προβλήµατα στην εφαρµογή του θεωρήµατος του Bayes Το θεώρηµα του Bayes είναι η απαρχή µιας σειράς µεθόδων που χρησιµοποιούνται µε υψηλή απόδοση σε πολλές εφαρµογές της θεωρίας λήψης αποφάσεων (Decision Theory). Στη συνέχεια θα αναλυθούν λεπτοµερώς ορισµένες από αυτές τις µεθόδους και θα αποσαφηνισθούν ορισµένες από τις προδιαγραφές χρήσης του. Είναι όµως σκόπιµο να αναφερθούν, από την αρχή, µερικά από τα συνηθέστερα σφάλµατα που γίνονται στη χρήση του θεωρήµατος. Τα πιο κοινά προβλήµατα είναι η όχι ακριβής εκτίµηση της πριν το test πιθανότητας, εσφαλµένος προσδιορισµός της ευαισθησίας και της ειδικότητας του test και κυρίως παραβίαση των παραδοχών που αφορούν την δεσµευµένη ανεξαρτησία (conditional independence) και τον αµοιβαίο αποκλεισµό (mutual exclusivity) των ενδεχοµένων που εµφανίζονται στον τύπο του Bayes. Το θεώρηµα του Bayes δίνει τα µέσα για την τροποποίηση της πριν από το test πιθανότητας έτσι ώστε να ληφθεί υπόψη κάθε νεότερη πληροφορία. Είναι όµως προφανές ότι κάθε ανακρίβεια στον προσδιορισµό της πριν το test πιθανότητας θα µεταφερθεί και θα ενισχυθεί στην posttest πιθανότητα. Επειδή ο επιπολασµός µιας ασθένειας και ειδικότερα η εκτίµηση για την πιθανότητά της σε ένα ειδικό πληθυσµό (που έχει για παράδειγµα τα συµπτώµατα του εξεταζόµενου) δεν µπορεί να είναι πολύ ακριβής συνήθως χρησιµοποιούµε, στην ανάλυση των αποφάσεων, ένα διάστηµα τιµών επιπολασµού (ή pretest πιθανοτήτων). Έτσι η πιθανότητα που έχει η ασθένεια µετά το αποτέλεσµα του test δίνεται και αυτή υπό µορφή διαστήµατος τιµών (δηλαδή σε αντιστοιχία µε τις πριν το test πιθανότητες). 20 Το δεύτερο σφάλµα, που αναφέρεται στην όχι συχνά σωστή εκτίµηση της ευαισθησίας και ειδικότητας, είναι πολύ συχνό όταν παίρνουµε σαν σίγουρες τις τιµές που έχουν δηµοσιευθεί γι’ αυτές τις παραµέτρους χωρίς να λάβουµε υπόψη ορισµένες ιδιαιτερότητες (bias) των µελετών από τις οποίες απορρέουν. Πράγµατι οι ιδιαίτερες συνθήκες εφαρµογής ενός test µπορούν να επηρεάσουν πολύ την απόδοση του. Το πιο σοβαρό σφάλµα στην εφαρµογή του θεωρήµατος του Bayes γίνεται όταν ερµηνεύεται µία ακολουθία από tests. Εάν ο ασθενής κάνει δύο εργαστηριακές εξετάσεις στη σειρά, µπορεί να χρησιµοποιηθεί η posttest πιθανότητα της πρώτης (αφού υπολογισθεί χρησιµοποιώντας το θεώρηµα του Bayes) σαν pretest πιθανότητα της δεύτερης. Αυτή η προσέγγιση είναι σωστή µόνο εάν οι εξετάσεις είναι µεταξύ τους ανεξάρτητες υπό συνθήκες (conditional indpendence). Tests που αναφέρονται στην ίδια ασθένεια είναι ανεξάρτητα υπό συνθήκες όταν η πιθανότητα για κάποιο συγκεκριµένο αποτέλεσµα του δεύτερου test δεν εξαρτάται από το αποτέλεσµα του πρώτου test, µε δεδοµένη την ασθένεια. Χρησιµοποιώντας την συµβολογία της δεσµευµένης πιθανότητας, για την περίπτωση που υπάρχει η ασθένεια, η δεσµευτική ανεξαρτησία των tests γράφεται ως εξής : P[δεύτερο test θετικό/ πρώτο test θετικό και ασθένεια παρούσα]= P[δεύτερο test θετικό/ πρώτο test αρνητικό και ασθένεια παρούσα]= P[ δεύτερο test θετικό/ ασθένεια παρούσα]. Εάν εφαρµοσθεί το θεώρηµα του Bayes σειριακά, όταν παραβιάζεται η ανεξαρτησία υπό συνθήκες των tests, τα αποτελέσµατα είναι ανακριβή. Το τέταρτο πρόβληµα απορρέει από την παραδοχή ότι όλα τα θετικά tests προκύπτουν από µία (και µόνο) ασθένεια. Η κατά Bayes προσέγγιση της διαγνωστικής διαδικασίας προϋποθέτει ότι οι ασθένειες που ελέγχονται είναι αµοιβαία αποκλειόµενες (δηλαδή όταν υπάρχει η µία δεν υπάρχει η άλλη). Εάν αυτό δεν συµβαίνει τότε πρέπει να έχουµε επιφυλάξεις για τα αποτελέσµατα της εφαρµογής του θεωρήµατος του Bayes. 21 22 2. ΤΕΧΝΙΚΕΣ ΑΝΑΛΥΣΗΣ ΑΠΟΦΑΣΕΩΝ ΣΤΗΝ ΙΑΤΡΙΚΗ Η λήψη αποφάσεων αποτελεί µια από τις βασικότερες δραστηριότητες ενός ιατρού. Σε θεωρητικό επίπεδο, η διαδικασία λήψης µιας απόφασης περιλαµβάνει τη δηµιουργία ενός καταλόγου των πιθανών στρατηγικών και ενεργειών, τον καθορισµό των συνεπειών κάθε απόφασης και την επιλογή της καταλληλότερης λύσης για το συγκεκριµένο πρόβληµα. Στην Ιατρική πραγµατικότητα όµως, σπάνια τα πράγµατα εξελίσσονται µε αυτή τη σειρά. Η βασική ιατρική πληροφορία είναι συχνά ατελής, υποκειµενική και ανακριβής. Οι πιθανές υποθέσεις είναι υπερβολικά πολλές και έτσι δεν είναι εφικτή η µελέτη κάθε µιας ξεχωριστά. Οι συνέπειες µιας απόφασης είναι µόνον κατά ένα τµήµα γνωστές ενώ εικασίες µπορούν να γίνουν για τα αναµενόµενα αποτελέσµατα µιας θεραπείας. Οι ιατρικές αποφάσεις λαµβάνονται υπό καθεστώς αβεβαιότητας. Ο στόχος της ιατρικής πράξης είναι η ελάττωση αυτής της αβεβαιότητας µέσα από τη συλλογή συµπληρωµατικών πληροφοριακών στοιχείων, χρησιµοποιώντας γνώση από ετερόκλητες πηγές. Οι ηλεκτρονικοί υπολογιστές είναι σε θέση να υποβοηθήσουν τη λήψη ιατρικών αποφάσεων και να βελτιώσουν την ποιότητα των διαγνώσεων ή την αποτελεσµατικότητα της θεραπείας. Η δηµιουργία τέτοιων υποβοηθητικών συστηµάτων απαιτεί σηµαντική ανάλυση προκειµένου να διατυπωθούν τόσο τα προβλήµατα, όσο και οι δυνατές λύσεις. Μέσω αυτής της ανάλυσης οδηγούµαστε σε καλύτερη κατανόηση των µηχανισµών που εµπλέκονται στη διαδικασία του ιατρικού συλλογισµού αλλά και της επεξεργασίας της γνώσης που υποστηρίζει το συλλογισµό αυτό. 2.1 Μορφές Λογικής 2.1.1 Συµπερασµατολογία Η συµπερασµατική λογική βασίζεται στις αρχές της λογικής συνέπειας. Μας επιτρέπει να βγάζουµε συµπεράσµατα των οποίων ο βαθµός αληθείας δεν είναι παρά µια συνάρτηση του βαθµού αληθείας των αρχικών προτάσεων του συλλογισµού. Η συµπερασµατική λογική λειτουργεί από το γενικό στο ειδικό. Για παράδειγµα, αν ο κανόνας «όλοι οι άνθρωποι είναι θνητοί» είναι αληθής, τότε ο Σωκράτης, που είναι άνθρωπος, είναι θνητός. Το αποτέλεσµα µιας συµπερασµατολογίας µπορεί να χρησιµοποιηθεί ως αρχικός συλλογισµός για περαιτέρω συµπεράσµατα. Αν το Α έχει ως συνέπεια το Β και το Β έχει ως συνέπεια το Γ, τότε λόγω µεταβατικότητας, το Α έχει ως συνέπεια το Γ. Η συµπερασµατική λογική βασίζεται σε λογικούς κανόνες ή σε απόλυτη γνώση που µας επιτρέπουν να συσχετίσουµε προτάσεις. Οι προτάσεις µπορούν να είναι είτε αληθείς είτε ψευδείς. 23 2.1.2 Επαγωγή Η επαγωγική λογική κάνει γενικεύσεις, βασιζόµενη σε συγκεκριµένα παραδείγµατα, µε αποτέλεσµα τη δηµιουργία γενικών κανόνων. Παράγει συµπεράσµατα των οποίων η ισχύς έχει ένα βαθµό αξιοπιστίας ή πιθανότητας. Για παράδειγµα, αν οι x, y και z είναι άνθρωποι που είναι θνητοί, τότε µέσω της επαγωγής µπορούµε να διαµορφώσουµε την υπόθεση ότι όλοι οι άνθρωποι είναι θνητοί. Η υπόθεση αυτή θα επιβεβαιωθεί ή θα απορριφθεί µέσα από πειράµατα. Η εφαρµογή της επαγωγικής λογικής είναι περιορισµένη στην Ιατρική πρακτική επειδή τα συνήθη συµβάντα είναι πολύ πιο εύκολα αντιληπτά από τα σπάνια. Γι αυτό το λόγο διαγνώσεις και κλινικά σηµεία, αν και άσχετα µεταξύ τους, είναι δυνατόν να θεωρηθεί ότι εµφανίζουν συνδιακύµανση. Αυτές οι λανθασµένες συσχετίσεις ελαττώνουν την ποιότητα και την αξιοπιστία των δεδοµένων. Συµπερασµατολογική λογική Επαγωγική Απαγωγική λογική λογική Συλλογιστική πρόταση ή προϋπάρχον γεγονός Συλλογιστική πρόταση ή προϋπάρχον γεγονός Συλλογιστική πρόταση ή προϋπάρχον γεγονός Λογικός κανόνας Κανόνας, Νόµος Κανόνας, Νόµος Συµπέρασµα Συµπέρασµα Συµπέρασµα 2.1.3 Απαγωγή Η απαγωγική λογική, η οποία συχνά αναφέρεται και ως επιστηµονική µέθοδος, αποτελεί σηµαντικό τµήµα της επιστηµονικής έρευνας. Στηρίζεται στην προσπάθεια δηµιουργίας δεσµών µεταξύ παρατηρήσεων, όπως η αιτία και το αποτέλεσµα. Υποθέτοντας ότι η υπόθεση είναι αληθής, η απαγωγική λογική µας επιτρέπει να εξάγουµε συµπεράσµατα τα οποία πρέπει να επιβεβαιωθούν µέσω εξετάσεων που θα ακολουθήσουν ή µέσω νέων επιστηµονικών πειραµάτων. 2.1.4 Αιτιοκρατική Τα ιατρικά σηµεία και συµπτώµατα συχνά εµφανίζονται µε µια συγκεκριµένη χρονολογική σειρά, όπως για παράδειγµα στις λοιµώδεις ή παρασιτικές νόσους. Η µεθοδολογία αυτή περιλαµβάνει λεπτοµερή ανάλυση της χρονολογικής σειράς, όπως και των σχέσεων µεταξύ της αιτίας και των υποτιθεµένων αποτελεσµάτων. Για παράδειγµα, όταν θέλουµε να συσχετίσουµε µια παρενέργεια µε ένα φάρµακο, ελέγχουµε ότι: 24 • Το φάρµακο χορηγήθηκε πριν την εµφάνιση της παρενέργειας • Ο χρόνος που µεσολάβησε µέχρι την εµφάνιση της παρενέργειας είναι συµβατός µε τη γνώση µας για την επίδραση του φαρµάκου Και τελικά ότι: • Αίροντας την αιτία, αίρεται και το αποτέλεσµα • Αν είναι ηθικά εφικτό, επαναχορήγηση του φαρµάκου οδηγεί σε επανεµφάνιση της παρενέργειας • Η ένταση του αποτελέσµατος είναι ανάλογη της ποσότητας που χορηγείται Η αιτιοκρατική λογική χρησιµοποιεί κατά περίπτωση στοιχεία τόσο της απαγωγικής όσο και της συµπερασµατολογικής µεθόδου. 2.2 Τα βήµατα της διαδικασίας λήψης ιατρικής απόφασης Τρία είναι τα βασικά βήµατα σε κάθε ιατρική απόφαση: 2.2.1 Αναγνώριση του προβλήµατος Το πρώτο βήµα είναι η αναγνώριση του προβλήµατος, η οποία καθορίζει την αρµόζουσα περιοχή γνώσης. Οι αποφάσεις που αφορούν διάγνωση ξεκινούν µε την πρωτογενή µετάφραση των κλινικών δεδοµένων και την επιλογή της σηµαντικής πληροφορίας µέσα από το σύνολο των αρχικών δεδοµένων (αφαίρεση). Η αναγνώριση της πληροφορίας που έχει σχέση µε το πρόβληµα εξαρτάται από την εµπειρία αυτού που λαµβάνει την απόφαση και γίνεται µε µεθόδους απαγωγικής λογικής. 2.2.2 ∆όµηση του προβλήµατος Το δεύτερο βήµα είναι η δόµηση του προβλήµατος και της κλινικής πληροφορίας. Οι διαγνωστικές υποθέσεις διαµορφώνονται µε δόµηση και ιεράρχηση των πληροφοριών, καθώς είναι δυνατόν να γίνουν πολλές ερµηνείες των ίδιων δεδοµένων ή τµηµάτων των δεδοµένων. Η µεθοδολογία που ακολουθείται µπορεί να είναι η συµπερασµατολογική (π.χ. για ένα παθογνωµονικό τεστ), η επαγωγική (π.χ. για τη διάγνωση µιας µεταδοτικής ασθένειας σε έναν πληθυσµό) ή απαγωγική. 2.2.3 Επιλογή της λύσης Πολλές φορές η λύση ενός προβλήµατος προϋποθέτει το µετασχηµατισµό του. Ξεκινώντας από ένα όχι καλά ορισµένο πρόβληµα –«Από τι πάσχει ο ασθενής;»– ο ιατρός πρέπει να φτάσει σε ένα καλά ορισµένο πρόβληµα –«Υποφέρει ο ασθενής από τη νόσο x;». Ξεκινούµε από ένα αριθµό υποθέσεων εργασίας. Χρησιµοποιώντας τη συµπερασµατολογική µέθοδο, και αν είναι απαραίτητο µε συµπληρωµατικές εξετάσεις, µπορούµε να εντοπίσουµε τα αναµενόµενα σηµεία και συµπτώµατα. Με χρήση της επαγωγικής ή/και της απαγωγικής µεθόδου, ο ιατρός µπορεί να απορρίψει εκείνες τις υποθέσεις που δεν αντιστοιχούν στις παρατηρήσεις. Τα αποτελέσµατα 25 συµπληρωµατικών εξετάσεων µπορούν να συµβάλλουν στην ελάττωση της αβεβαιότητας της σχετικής µε την κλινική κατάσταση και στον αποκλεισµό υποθέσεων ή την διατύπωση άλλων. Η διαδικασία αυτή βασίζεται στη γνώση που έχει συλλεχθεί, αποµνηµονευθεί και δοµηθεί. Ο ιατρός αναζητά νέες διαγνωστικές ερµηνείες όταν µια υπόθεση δεν είναι ικανοποιητική ή είναι σε αντίθεση µε τη γνώση την οποία ο ίδιος κατέχει. Αυτό το βήµα της διαγνωστικής διαδικασίας χαρακτηρίζεται από γνωστικές λειτουργίες που αποτιµούν τις ερµηνείες. Απαιτεί την ενεργό συµµετοχή του επιστήµονα της Ιατρικής Πληροφορικής για τον έλεγχο της ροής της χρήσιµης πληροφορίας. Ο επιστήµονας της Ιατρικής Πληροφορικής πρέπει επίσης να λάβει υπ’ όψιν του το κόστος των διαφόρων στρατηγικών. Αναγνώριση του προβλήµατος ∆όµηση του προβλήµατος Επιλογή της λύσης • ∆υνατές εναλλακτικές λύσεις • ∆υνατές καταστάσεις του ασθενούς • Ανάπτυξη στρατηγικής • Συνυπολογισµός συχνοτήτων νόσων • Συγκριτική αποτίµηση διαφορετικών υποθέσεων • Σύνθεση και επιλογή 2.3 Αβεβαιότητα και Ιατρική Κρίση 2.3.1 Ιατρική Κρίση Μια συγκεκριµένη κατάσταση µπορεί να αντιµετωπιστεί µε διαφορετικές στρατηγικές λήψης ιατρικής απόφασης. Αυτό ισχύει κυρίως για εκείνες τις περιπτώσεις που εµπλέκονται εξειδικευµένες και επεµβατικές εξετάσεις. Η κρίση του ιατρού µπορεί να αναπαρασταθεί από το µοντέλο του συγκλίνοντα φακού του Brunswick. Οι κρίσεις βασίζονται σε κριτήρια (Α, Β, Γ κλπ) και στις σχέσεις που συνδέουν αφ’ ενός την αβέβαια κατάσταση µε τα επιλεγµένα κριτήρια και, αφ’ ετέρου, τα κριτήρια µε την ιατρική κρίση. Ο Brunswick τονίζει ότι οι κρίσεις γίνονται σε ένα περιβάλλον µε ανακρίβειες και πιθανοκρατούµενο. Οποιαδήποτε πληροφορία που συλλέγεται πρέπει να συνεκτιµάται εν σχέσει µε το περιβάλλον και τη µνήµη του κριτή (ιατρού) και τα στοιχεία αυτά συνδυάζονται για να εξαχθεί η τελική κρίση. 26 Περιβάλλον Κριτήρια Κριτής Α Υπάρχουσα Β κατάσταση Γ Προσωπική κρίση ∆ Ε Η διαδικασία λήψης αποφάσεων µας επιτρέπει: • να συνδυάζουµε διαφορετικές πηγές πληροφορίας που δεν είναι στατιστικά ανεξάρτητες, όπως πλεονάζουσες κλινικές και παρακλινικές πληροφορίες • να λαµβάνουµε υπ’ όψιν την αξιοπιστία των διαφόρων πηγών πληροφορίας • να λαµβάνουµε υπ’ όψιν την προβλεπτική αξία των διαφόρων πηγών πληροφορίας, 2.3.2 Αβεβαιότητα και προκαταλήψεις στην κρίση Η ιατρική κρίση µπορεί να παρεµποδισθεί από τη γνωστική προκατάληψη (cognitive bias) που εµφανίζεται σε ολόκληρη τη διαδικασία λήψης ιατρικής απόφασης: • Κατά τη συλλογή των δεδοµένων, η σειρά µε την οποία παρέχεται η πληροφορία είναι µια πιθανή πηγή σφαλµάτων, καθώς η πρώτη χρονολογικά πληροφορία ίσως επικρατήσει επί των υπολοίπων • Η ανθρώπινη κρίση δεν συνυπολογίζει πλήρως την αξιοπιστία των δεδοµένων (οι πηγές της πληροφορίας θεωρούνται εσφαλµένα ως πλήρως αξιόπιστες) • Η συλλογή πληροφοριών βασίζεται σε προσδοκίες που εξαρτώνται από το συγκεκριµένο πρόβληµα και τις προεκτάσεις που του δίνει ο λήπτης των αποφάσεων • Συντηρητισµός αποκαλείται ο δυσκολία αναµόρφωσης των αποφάσεων, η τάση να προτιµούµε µια συγκεκριµένη ερµηνεία και να αγνοούµε ή να εξηγούµε µε λάθος τρόπο στοιχεία που είναι αντίθετα µε την απόφαση που λάβαµε. • Η ασυνέπεια κάποιας κρίσης αναπαριστά την αντίφαση που προκύπτει όταν δίνονται διαφορετικές εκτιµήσεις για ταυτόσηµες καταστάσεις • ∆ικαιολογησιµότητα (Justifiability) είναι η τάση να εφαρµόζεται ένας κανόνας εάν βρεθεί ένας λόγος που τον δικαιολογεί, ακόµα και αν ο κανόνας δεν είναι κατάλληλος Τα παραδείγµατα αυτά δείχνουν τη δυσκολία στη κατανόηση της διαδικασίας λήψης αποφάσεων και το αποτέλεσµά της: πώς αποτιµώνται οι αποφάσεις αυτές 27 2.4 Θεωρία πιθανοτήτων και Ανάλυση Αποφάσεων Όλες οι αιτίες για την ύπαρξη αβεβαιότητας που αναφέρθηκαν προηγουµένως δείχνουν την ανάγκη για την ύπαρξη ενός ακριβούς επιστηµονικού πλαισίου που θα περιγράφει και θα διαχειρίζεται το πρόβληµα. Μέθοδοι ανάλυσης αποφάσεων που θα έχουν µια µαθηµατική αυστηρότητα είναι χρήσιµες για διάφορους λόγους: • Παρέχουν µια γλώσσα µέσω της οποίας εκφράζεται και ποσοτικοποιείται η αβεβαιότητα. Η γλώσσα αυτή είναι πιο αυστηρή και λιγότερο ασαφής από την καθηµερινή γλώσσα • Προσφέρουν µια συστηµατική µέθοδο για την δόµηση και την ανάλυση προβληµάτων Οι πιθανότητες αποτελούν την αξιωµατική βάση της θεωρίας αποφάσεων επειδή µετρούν την αξιοπιστία αβέβαιων προτάσεων. 2.4.1 Σύγκριση διαφόρων διαγνωστικών υποθέσεων Για να υπολογίσουµε τις πιθανότητες διαφόρων διαγνωστικών υποθέσεων µπορούµε να χρησιµοποιήσουµε το θεώρηµα του Bayes. Καθώς τα σηµεία και συµπτώµατα αποτιµώνται (υπάρχουν ή δεν υπάρχουν), οι πιθανότητες που αποδίδονται σε κάθε διαγνωστική υπόθεση τροποποιούνται, όπως φαίνεται στην παρακάτω εικόνα. D1 D5 D2 P(D1) P(D2/S) P(D3) P(D4/S) D3 P(D4) D5 P(D5/S) P(D1/S) P(D2) P(D5) D1 P(D3/S) D2 D3 D4 D4 Σ’ αυτό το παράδειγµα, θεωρούµε τρεις διαγνωστικές υποθέσεις (σκωληκοειδίτις, σαλπιγγίτις και µια άλλη διάγνωση) και δύο συµπτώµατα (πόνος στο κάτω δεξιά τεταρτηµόριο - PRLQ, και πόνος κάτω αριστερά τεταρτηµόριο – PLLQ) µε τις παρακάτω πιθανότητες: Di A priori πιθανοτητα P(Di) P(PRLQ|Di) P(PLLQ|Di) Σκωληκοειδίτις 0.10 0.80 0.10 Σαλπιγγίτις 0.05 0.50 0.50 Άλλο 0.85 0.05 0.05 28 Κατόπιν υπολογίζονται οι a posteriori πιθανότητες των τριών διαγνώσεων (σκωληκοειδίτις, σαλπιγγίτις, άλλη) για κάποιον ασθενή που εµφανίζει τόσο το σύµπτωµα PRLQ όσο και το σύµπτωµα. Για τον υπολογισµό πρώτα χρησιµοποιούµε το σύµπτωµα PRLQ και κατόπιν το σύµπτωµα PLLQ, γνωρίζοντας ότι το σύµπτωµα PRLQ είναι παρόν. P (Di |PRLQ) P (Di |PRLQ ∩ PLLQ) Σκωληκοειδίτις 0.54 0.35 Σαλπιγγίτις 0.17 0.55 Άλλο 0.29 0.09 Di Υπολογισµοί όπως και ο παραπάνω εµπεριέχουν ορισµένες παραδοχές: • Οι νόσοι είναι αµοιβαία αποκλειόµενες • Τα διάφορα σηµεία και συµπτώµατα που συµπεριλαµβάνονται στη διάγνωση είναι ανεξάρτητα µεταξύ τους 2.4.2 Αποτιµώντας τα οφέλη µιας θεραπείας Μια θεραπεία µπορεί να είναι θεραπευτική (π.χ. χορήγηση αντιβιοτικών, αφαίρεση όγκων), προληπτική (π.χ. αποκλεισµός ή ελάττωση κάποιου παράγοντα κινδύνου), παρηγορητική (π.χ. αντιµετώπιση πόνου) ή υποστηρικτική (π.χ. ψυχολογική βοήθεια). Είναι πολύ σηµαντικό να µπορεί κανείς να υπολογίσει τα οφέλη ενός συγκεκριµένου τύπου θεραπείας για ένα συγκεκριµένο ασθενή, καθώς τα οφέλη αυτά επηρεάζουν την απόφαση του ιατρού. Στην πράξη, σπάνια τα οφέλη αυτά ποσοτικοποιούνται. Παρ’ όλα αυτά, σε µερικές περιπτώσεις, τα οφέλη αυτά µπορούν να αποτιµηθούν µε τη χρήση πληροφοριών που παρέχονται από ελεγχόµενα θεραπευτικά τεστ. Η πρόσβαση στα αποτελέσµατα αυτών των τεστ γίνεται µέσω ερωτηµάτων (queries) σε βάσεις γνώσης, όπως η COCHRANE, η οποία αποτελέσµατα χιλιάδων κλινικών τεστ και είναι προσβάσιµη από το ∆ιαδίκτυο (http://www.cochrane.org/). Έστω ότι µε Pi αναπαριστούµε την πιθανότητα εµφάνισης (risk) κάποιας κακής έκβασης Ε σε µια οµάδα ατόµων στην οποία έχουµε παρέµβει θεραπευτικά και µε Pc την πιθανότητα εµφάνισης της ίδιας κακής έκβασης σε κάποια οµάδα ελέγχου (η ποσότητα Pc ονοµάζεται βασικός κίνδυνος - baseline risk). Ο λόγος Pi / Pc ονοµάζεται σχετικός κίνδυνος (relative risk – RR). Αποτελεί ένα µέτρο της ελάττωσης του κινδύνου Pi στην οµάδα που δέχθηκε την παρέµβαση, εν σχέσει µε την οµάδα ελέγχου. Τέτοιες µετρήσεις παρέχονται από ελεγχόµενες µελέτες (controlled trials). Ο σχετικός κίνδυνος εξαρτάται ελάχιστα από το βασικό κίνδυνο. Αν εφαρµόσουµε τη θεραπευτική αγωγή στον ασθενή, ο κίνδυνος εµφάνισης επιπλοκής θα ισούται µε το γινόµενο του βασικού κινδύνου Pc επί το σχετικό κίνδυνο που µετρήθηκε από το τεστ. Η τιµή του βασικού κινδύνου για τον ασθενή µπορεί να βρεθεί από βιβλιογραφικά επιδηµιολογικά δεδοµένα. Για να υπολογίσουµε το όφελος µιας θεραπείας χρησιµοποιούµε µια ποσότητα που µετρά τον αριθµό ταυτοτικά οµοίων ασθενών που πρέπει να υποστούν τη θεραπεία για να αποφευχθεί ένα περιστατικό κακής έκβασης. Υπολογίζεται από την: 29 N= 1 Pc × (1 − RR) Ο ακόλουθος πίνακας αποτελεί ένα παράδειγµα αυτών των εννοιών αναφορικά µε την ελάττωση της πιθανότητας θανάτου µετά από θρόµβωση στεφανιαίας κατά τη διάρκεια ISIS τεστ. Το ποσοστό θανάτων στην οµάδα ελέγχου είναι 7.8%. Για συγκρίσιµους ασθενείς, 111 άτοµα θα έπρεπε να υποστούν θεραπεία µε Captopril για να αποφευχθεί ένας θάνατος ενώ 500 άτοµα θα απαιτούνταν για θεραπεία µε mononitrate [11]. Θάνατοι στην οµάδα ελέγχου Θάνατοι Απόλυτη στην ελάττωση οµάδα κινδύνου δοκιµασίας Σχετικός κίνδυνος Σχετική ελάττωση κινδύνου (1) (1) (1)-(2) (2)/(1) [(1)-(2)]/(1) Captopril 7.80% 6.90% 0.9% 88.5% 11.5% 111 Mononitrate 7.80% 7.60% 0.2% 97.4% 2.6% 500 Φάρµακο Ν 2.4.3 ∆έντρα αποφάσεων Η λήψη της ιατρικής απόφασης δεν στηρίζεται πάντα στην παθοφυσιολογία. Συχνά ο γιατρός έχει να επιλέξει, µεταξύ πολλών, µία θεραπευτική αγωγή της οποίας το αποτέλεσµα δεν είναι απόλυτα προβλεπόµενο. Η λύση αυτού του προβλήµατος είναι πολλές φορές δύσκολη και απαιτεί τη χρήση στατιστικών µεθόδων για τη σύγκριση των αναµενόµενων (µέσων) αποτελεσµάτων των εναλλακτικών θεραπευτικών αγωγών. Παρακάτω θα αναλυθεί µία από αυτές τις µεθόδους και συγκεκριµένα αυτή που στηρίζεται στα “δέντρα απόφασης” [112]. Παράδειγµα: Έστω ότι υπάρχουν δύο θεραπευτικές αγωγές για µία θανατηφόρο ασθένεια. Το διάστηµα επιβίωσης του ασθενούς µετά από καθεµία από τις αγωγές είναι απρόβλεπτο όπως φαίνεται από την κατανοµή των συχνοτήτων του σχήµατος 2.1. Ανεξάρτητα από την ακολουθούµενη αγωγή ο ασθενής θα πεθάνει µέχρι το τέλος του τέταρτου έτους, αλλά δεν γνωρίζουµε πότε. Το σχήµα 2.1 δείχνει ότι η επιβίωση µέχρι το τέλος του τέταρτου έτους είναι πιο πιθανή µε την θεραπεία Β, αλλά ο ασθενής µπορεί να πεθάνει τον πρώτο χρόνο µε την αγωγή Β και να επιβιώσει µέχρι το τέταρτο µε την αγωγή Α. 30 Σχήµα 2.1 Το ερώτηµα που τίθεται είναι πως θα επιλεγεί η προτιµότερη αγωγή. Η µέθοδος που θα χρησιµοποιηθεί για να απαντηθεί αυτό το ερώτηµα καλείται “λήψη απόφασης µε βάση την αναµενόµενη τιµή (expected-value decision making)”. Το κριτήριο που θα χρησιµοποιηθεί είναι ένας αριθµός που ονοµάζεται ωφελιµότητα (Utility) και δίνει το µέτρο της απόδοσης των εναλλακτικών αποφάσεων που µπορούν να αναδειχθούν κατά τη διαδικασία της διάγνωσης, πρόγνωσης, θεραπείας κ.λ.π. Η Προτιµότερη απόφαση είναι εκείνη που δίνει την µεγαλύτερη ωφελιµότητα. Στην πιο απλή περίπτωση η ωφελιµότητα µπορεί να εκφράζει τον χρόνο επιβίωσης ενώ σε πιο σύνθετες περιπτώσεις µπορεί να περιλαµβάνει και την ποιότητα ζωής ή άλλους παράγοντες. Η διαδικασία επιλογής µεταξύ των θεραπειών Α και Β δίνεται σχηµατικά στο σχήµα 2.2. Το τυχαίο ενδεχόµενο παρίσταται γραφικά µε τον λεγόµενο κόµβο τύχης (chance node). Κατά σύµβαση ο κόµβος τύχης δίνεται µε ένα κύκλο από τον οποίο ξεκινούν διάφορες γραµµές. Κάθε γραµµή αντιπροσωπεύει τη διαδροµή προς καθένα από τα δυνατά ενδεχόµενα. Το ενδεχόµενο ενός τυχαίου συµβάντος µπορεί να αντιπροσωπευτεί µε την αναµενόµενη τιµή ενός κόµβου τύχης. Στο υπό συζήτηση παράδειγµα η αναµενόµενη τιµή υπολογίζεται σαν µέση τιµή επιβίωσης των ασθενών που θα ακολουθούσαν την αγωγή που δίνεται στον κόµβο τύχης του σχήµατος 2.2. Έτσι στην περίπτωση της αγωγής Α η αναµενόµενη τιµή είναι 2.3 χρόνια και στην περίπτωση της αγωγής Β η τιµή είναι 3.1 χρόνια. Υπάρχουν περιπτώσεις που η ωφελιµότητα και εποµένως η αναµενόµενη τιµή µιας αγωγής δεν µετριέται σε επιβίωση, αλλά σε ποιότητα ζωής, σε οικονοµικό κόστος ή καµιά φορά στην συνεκτίµησή τους. Η λήψη απόφασης µε βάση την αναµενόµενη τιµή απαιτεί τα παρακάτω βήµατα: • ∆ηµιουργία ενός δένδρου απόφασης µέσου του οποίου θα δοθούν οι διαδροµές και οι διακλαδώσεις κάθε εναλλακτικής απόφασης και θα προσδιορισθούν οι πιθανότητες κάθε ενδιάµεσου ενδεχοµένού. • Υπολογισµό της αναµενόµενης τιµής κάθε εναλλακτικής απόφασης. 31 • Επιλογή της εναλλακτικής απόφασης µε την υψηλότερη αναµενόµενη τιµή. • Χρήση της ανάλυσης ευαισθησίας για τον έλεγχο των συµπερασµάτων της ανάλυσης. Σχήµα 2.2 Το πιο δύσκολο βήµα είναι το πρώτο, δηλαδή η µετάφραση ή το σπάσιµο ενός σύνθετου προβλήµατος απόφασης σε ένα δένδρο απλών προβληµάτων τα οποία πρέπει να συνεκτιµηθούν. Παράδειγµα προσδιορισµού ωφελιµότητας µιας απόφασης Ένας άνδρας 42 ετών πριν 18 µήνες υπέστη µε επιτυχία µεταµόσχευση πτωµατικού νεφρού. Από τότε έχει µία φυσιολογική νεφρική λειτουργία. Ενώ εξακολουθεί να παίρνει ανοσοκατασταλτική θεραπεία, εµφάνισε ταυτόχρονα δυο µελανώµατα, που αντιµετωπίσθηκαν χειρουργικά µε επιτυχία. Εάν συνεχιστεί η ανοσοκαταστολή, πιθανότατα θα εµφανισθεί ένα νέο µελάνωµα, ίσως θανατηφόρο αυτή τη φορά. Εάν σταµατήσει τα φάρµακα τότε είναι βέβαιο ότι θα απορριφθεί ο πτωµατικός νεφρός και ο ασθενής θα επιστρέψει στην αιµοκάθαρση, πράγµα που επιθυµεί να αποφύγει. Το πρώτο βήµα για την επίλυση του συγκεκριµένου προβλήµατος είναι η παράσταση κάθε εναλλακτικής απόφασης µέσω του δέντρου απόφασης. Το συγκεκριµένο δέντρο συνίσταται από περισσότερους του ενός κόµβους και από τις διακλαδώσεις τους. Οι κόµβοι απόφασης αντιπροσωπεύουν τις δυνατές επιλογές του αποφασίζοντος. Στην προκειµένη περίπτωση υπάρχει ένας κόµβος απόφασης (θα µπορούσαν να υπήρχαν περισσότεροι) που παρίσταται µε ένα τετραγωνάκι και οι επιλογές είναι δύο, (θα µπορούσαν να ήσαν περισσότερες) δηλαδή συνεχίζεται ή σταµατά η ανοσοκατασταλτική θεραπεία. Τα ενδεχόµενα των κόµβων τύχης (που δεν 32 επιλέγονται αλλά είναι τυχαία) είναι απόρριψη του µοσχεύµατος και υποτροπή του µελανώµατος (βλέπε σχήµα 2.3). Σε κάθε διακλάδωση ενός κόµβου τύχης αντιστοιχεί µία πιθανότητα που είναι η πιθανότητα επαλήθευσης του συµβάντος που εκφράζεται στην διακλάδωση. Τα ενδεχόµενα που ορίζονται από ένα κόµβο τύχης πρέπει να καλύπτουν το σύνολο του δειγµατικού χώρου (δηλαδή η ένωσή τους να έχει πιθανότητα 1.0) και να µην έχουν επικαλύψεις. Τα τελικά ενδεχόµενα του παραδείγµατος όπως “απόρριψη του µοσχεύµατος” “µη υποτροπή του µελανώµατος” αποτελούν καταληκτικούς κόµβους οι οποίοι παρίστανται µε ορθογώνια κουτάκια (σχήµα 2.3). Οι ατοµικές αυτές συνιστώσες συνδυάζονται για να σχηµατίσουν ένα δέντρο απόφασης. Η δοµή του δέντρου πρέπει να είναι τέτοια ώστε να είναι εµφανείς όλες οι προδιαγραφές και παραδοχές του προβλήµατος. Σχήµα 2.3 Στο παράδειγµά µας οι παραδοχές είναι οι παρακάτω: • Εάν η ανοσοκατασταλτική θεραπεία συνεχισθεί, ο ασθενής µπορεί να απορρίψει ή να µην απορρίψει το µόσχευµα. • Εάν το µόσχευµα απορριφθεί, παρά την ανοσοκατασταλτική θεραπεία, η θεραπεία θα σταµατήσει. • Εάν η ανοσοκατασταλτική θεραπεία σταµατήσει µε την θέληση του ασθενούς, το µόσχευµα θα απορριφθεί άµεσα και ο ασθενής θα γυρίσει στην αιµοκάθαρση. • ∆εύτερη µεταµόσχευση δεν εξετάζεται. • Η θνησιµότητα του ασθενούς και η ποιότητα της ζωής του επηρεάζεται αρνητικά µε την επιστροφή στην αιµοκάθάρση. • Όσο πιο πολύ παραµένει ο ασθενής στην ανοσοκατασταλτική θεραπεία, τόσο µεγαλύτερος είναι ο κίνδυνος υποτροπής του µελανώµατος. Το πλήρες σχήµα του δέντρου απόφασης δίνεται στο σχήµα 2.4. Η κατασκευή του δέντρου είναι τέτοια ώστε τα γεγονότα που εµφανίζονται στα αριστερά προηγούνται εκείνων που εµφανίζονται στα δεξιά του δέντρου. Οι ετικέτες των τερµατικών κόµβων αντανακλούν τους συνδυασµούς συµβάντων που λαµβάνουν χώρα κατά την µοναδική διαδροµή του δέντρου που ξεκινά από τον αρχικό κόµβο απόφασης και καταλήγει στον τερµατικό κόµβο. 33 Σχήµα 2.4 Προσδιορισµός πιθανοτήτων Οι πιθανότητες που εµφανίζονται στις διακλαδώσεις των κόµβων τύχης µπορεί να προσδιορισθούν µε ανάλυση της Ιατρικής βιβλιογραφίας ή µε βάση την άποψη ειδικών. Σε κάθε περίπτωση πρέπει να αντανακλούν τις παραδοχές του αναλυτικού µοντέλου της απόφασης. Για παράδειγµα ένας παράγων ο οποίος διαφοροποιεί τον κόµβο τύχης που προσοµοιώνει την υποτροπή µελανώµατος µετά από απόρριψη του µοσχεύµατος, από τον ανάλογο κόµβο µετά από µη απόρριψη του µοσχεύµατος είναι ότι η πιθανότητα υποτροπής του µελανώµατος είναι µικρότερη. Κατά συνέπεια για αυτούς τους δύο κόµβους τύχης η πιθανότητες που χρησιµοποιούνται στο υπό συζήτηση παράδειγµα εµφανίζονται στις αντίστοιχες θέσεις του δένδρου απόφασης του σχήµατος 2.4 Προσδιορισµός ωφελιµοτήτων Σε κάθε τερµατικό κόµβο η έκφραση που περιέχεται στο ορθογώνιο αντιπροσωπεύει την τιµή της ωφελιµότητας (utility) του αντίστοιχου τερµατικού ενδεχόµενου. Οι µονάδες µε τις οποίες µετράται η ωφελιµότητα µπορούν να είναι διάφορες (αυθαίρετες µονάδες , δολάρια, χρόνια επιβίωσης) µε τον περιορισµό ότι σε µία δεδοµένη ανάλυση πρέπει να είναι οι ίδιες. Στο παράδειγµα, και ο χρόνος επιβίωσης αλλά και η ποιότητα ζωής µπορούν να θεωρηθούν σηµαντικότατοι παράγοντες. Για να συνεκτιµηθούν αυτοί οι δύο παράγοντες στο µέτρο της ωφελιµότητας θα πρέπει το προσδόκιµο ζωής του ασθενούς για ένα ενδεχόµενο να πολλαπλασιασθεί µε ένα συντελεστή που εκφράζει την ποιότητα ζωής που αντιστοιχεί στο ίδιο ενδεχόµενο. Στην περίπτωση αυτή οι µονάδες µέτρησης αναφέρονται ως χρόνια ζωής διορθωµένα ως προς την ποιότητα (QALYs = quality adjusted life years). Σύµφωνα µε αυτό το µέτρο ωφελιµότητας µπορεί µια µικρότερη επιβίωση σε συνδυασµό µε υψηλή ποιότητα ζωής µπορεί να είναι προτιµότερη από µια µεγαλύτερη επιβίωση µε χαµηλή ποιότητα ζωής . Για την υπό ε3έταση περίπτωση, ο ασθενής µαζί µε τον γιατρό του χρησιµοποιώντας ειδικές τεχνικές ,εκχώρησαν ένα συντελεστή 0.7 για την ποιότητα ζωής σε αιµοκάθαρση και ένα συντελεστή 1.0 για επιβίωση µε λειτουργικό µόσχευµα. 34 Υπολογισµός της αναµενόµενης ωφελιµότητας Για τον υπολογισµό της αναµενόµενης ωφελιµότητας κάθε επιλογής, χρησιµοποιείται η διαδικασία της “αναδίπλωσης”. Λέγεται έτσι γιατί ξεκινάει από τις τιµές των τερµατικών κόµβων και υπολογίζει τις τιµές των ενδιάµεσων κόµβων και πηγαίνοντας προς τα πίσω φθάνει µέχρι την τιµή της ρίζας του δένδρου που είναι ο αρχικός κόµβος απόφασης . Η αναµενόµενη τιµή ενός κόµβου τύχης ισούται µε το άθροισµα των γινοµένων που αναφέρονται στην ωφελιµότητα καθενός κλάδου του κόµβου επί την αντίστοιχη πιθανότητα του. Έτσι στο παράδειγµα, βλ. Σχήµα 2.5α η αναµενόµενη ωφελιµότητα του τερµατικού κόµβου ΝΕΟ ΜΕΛΑΝΩΜΑ ,στο πάνω δεξιά µέρος του δένδρου είναι 3.71. Η τιµή του τερµατικού κόµβου ΟΧΙ ΜΕΛΑΝΩΜΑ, ακριβώς από κάτω, είναι 6.44. Η τιµή του κόµβου τύχης “απόρριψη” που έχει αυτούς τους δύο τερµατικούς κόµβους ισούται µε : (3.71) x (0.25) + (6.44) x (0.75). Το αποτέλεσµα, 5.8, είναι η σταθµισµένη µέση τιµή των δύο κλάδων του κόµβου. Με την διαδικασία µπορεί να φθάσει κανείς, πηγαίνοντας προς τα πίσω , στον κόµβο απόφασης “συνεχίζεται ή σταµατά η ανοσοκατασταλτική θεραπεία” και βρίσκει αντίστοιχα για τους δύο κλάδους της τις τιµές 7.9 και 6.3. 2.4.4 Ανάλυση ευαισθησίας Πολλά από τα δεδοµένα που χρησιµοποιούνται στην ανάλυση είναι προσεγγίσεις και είναι χρήσιµο να προσδιορισθεί σε ποιο βαθµό η µεταβολή της τιµής µιας παραµέτρου επηρεάζει το τελικό αποτέλεσµα. Με την ανάλυση ευαισθησίας το δένδρο αναδιπλώνεται χρησιµοποιώντας διάφορες τιµές µιας αριθµητικής παραµέτρου (π.χ. µελετάται η επίδραση της µεταβολής της πιθανότητας απόρριψης του µοσχεύµατος ή ο συντελεστής ποιότητας ζωής στην αιµοκάθαρση). Με άλλα λόγια η ωφελιµότητα στον αρχικό κόµβο απόφαση µελετάται σαν συνάρτηση περισσοτέρων της µιας µεταβλητών όπου µεταβλητές είναι οι παράµετροι που εµφανίζονται στο δένδρο. Βεβαίως όταν γίνεται ανάλυση ευαισθησίας σε σχέση µε µια πιθανότητα το πεδίο µεταβλητότητάς της είναι από το µηδέν έως το ένα. Στο σχήµα 2.5β περιγράφεται η ανάλυση ευαισθησίας της πιθανότητας υποτροπής του µελανώµατος όταν συνεχίζεται η ανοσοκατασταλτική θεραπεία. Η αναµενόµενη ωφελιµότητα κάθε στρατηγικής υπολογίζεται για µια σειρά από τιµές αυτής της πιθανότητας (συνάρτηση µιας µεταβλητής ή one way sensitivity analysis). Γίνεται άµεσα αντιληπτό ότι η αύξηση της πιθανότητας υποτροπής του µελανώµατος µειώνει σταθερά και γραµµικά την αναµενόµενη ωφελιµότητα της επιλογής “συνέχιση της ανοσοκατασταλτικής θεραπείας”. Από την άλλη πλευρά η µεταβολή αυτής της πιθανότητας αφήνει ανεπηρέαστη (σταθερή) την επιλογή της “διακοπής της ανοσοκατασταλτικής θεραπείας”. Όταν η πιθανότητα υποτροπής γίνεται ίση µε 0.89 οι δύο στρατηγικές έχουν την ίδια αναµενόµενη ωφελιµότητα. Αυτή η τιµή της πιθανότητας ονοµάζεται πιθανότητα “κατωφλίου”.Η ταυτόχρονη επίδραση δύο παραµέτρων (συνάρτηση δύο µεταβλητών) µπορεί να εξετασθεί µε την λεγόµενη twoway sensitivity analysis. Αυτή η ανάλυση είναι πολύ σηµαντική γιατί δείχνει πως διαφορετικοί παράγοντες της ανάλυσης αλληλεπιδρούν. 35 Σχήµα 2.5α Σχήµα 2.5β Στο σχήµα 2.6 δίνεται η “two-way analysis” όπου µεταβλητές είναι η πιθανότητα υποτροπής του µελανώµατος κατά την συνέχιση της ανοσοκατασταλτικής θεραπείας και συντελεστής ποιότητας ζωής στην αιµοκάθαρση. Η γραµµή χωρίζει τα γράµµατα σε δύο περιοχές. Για όλους τους συνδυασµούς των τιµών που πέφτουν στην κατώτερη περιοχή η βέλτιστη απόφαση είναι η συνέχιση της; θεραπείας. Το αντίθετο συµβαίνει για όλους τους συνδυασµούς που πέφτουν στην ανώτερη περιοχή του γραφήµατος, όπου η βέλτιστη επιλογή είναι το σταµάτηµα της ανοσοκατασταλτικής θεραπείας. 36 Σχήµα 2.6 2.5 Συµβολική λογική και έµπειρα συστήµατα Τα τελευταία 15 χρόνια, τα συστήµατα λήψης αποφάσεων που αναπτύχθηκαν, σχεδιάστηκαν έτσι ώστε να αντιµετωπίζουν προβλήµατα µε το γενικότερο δυνατό τρόπο. Η έρευνα σ αυτό τον τοµέα εστιάστηκε στην επίλυση προβληµάτων για τα οποία δεν υπάρχει αλγοριθµική λύση. Η µεθοδολογία αυτή οδήγησε τους ερευνητές να προτείνουν µέσα για την αναπαράσταση και τη χρήση συµβολικής και δηλωτικής λογικής που εµπλουτίζουν και συµπληρώνουν τις αριθµητικές και αλγοριθµικές µεθόδους. Οι µέθοδοι και οι τεχνικές της Τεχνητής Νοηµοσύνης παρείχαν ένα πλαίσιο για έρευνα σε γνωστικό επίπεδο και οδήγησαν στην ανάπτυξη εµπείρων συστηµάτων. Οι πολυάριθµες αυτές εξελίξεις χρησιµοποιούνται τώρα σε όλες τις ιατρικές ειδικότητες. 2.5.1 Αναπαράσταση Γνώσης Η συµβολική λογική απαιτεί διάφορους τύπους γνώσης: ανατοµική, παθολογική, επιδηµιολογική, φαρµακολογική και θεραπευτική. Στο γνωστικό επίπεδο, µπορούµε να ορίσουµε δύο κύρια µοντέλα γνώσης: 1. το εµπειρικό µοντέλο. Η εµπειρική γνώση αφορά τις συσχετίσεις µεταξύ ασθενειών και συµπτωµάτων. Μπορούν να προκύψουν είτε από ειδικούς, είτε από την ανάλυση µιας βάσης δεδοµένων. 2. Μοντέλα που βασίζονται σε φυσιολογική και παθολογική γνώση. Αυτός ο τύπος γνώσης, όταν είναι διαθέσιµος, µας επιτρέπει να εισάγουµε συλλογισµούς που περιγράφουν τους µηχανισµούς παθογένειας. Οι εξηγήσεις που παρέχει η αιτιοκρατική γνώση είναι πιο εύκολα αντιληπτή από κάποιον χρήστη που δεν έλαβε µέρος στην ανάπτυξη του συστήµατος λήψης αποφάσεων ∆ύο είναι τα κύρια συστήµατα που χρησιµοποιούνται για την αναπαράσταση της γνώσης: οι παραγωγικοί κανόνες (production rules) και τα πλαίσια (frames). 37 Παραγωγικοί κανόνες Οι κανόνες αυτοί έχουν τη γενική µορφή: ΑΝ <συνθήκες> ΤΟΤΕ <συµπεράσµατα> Έµπειρα συστήµατα όπως το MYCIN, που αναπτύχθηκε από ειδικούς σε λοιµώδη νοσήµατα, εφαρµόζουν τέτοιους κανόνες συνδυάζοντας το βαθµό αξιοπιστίας που έχει αποδοθεί σε κάθε κανόνα. Η επίπτωση που µπορεί να έχει ένα συµπέρασµα στην απόφαση µπορεί να τροποποιηθεί από έναν συντελεστή αξιοπιστίας (credibility factor-CF) που λαµβάνει τιµές από –1 έως +1. Όσο πιο κοντά είναι ο CF στην τιµή +1, τόσο πιο πιθανό είναι το συµπέρασµα. Αντίστοιχα, αρνητικές τιµές του CF εκφράζουν τη λογική άρνηση στο συµπέρασµα. Τα συστήµατα λήψης αποφάσεων που αναπτύχθηκαν από το MYCIN λαµβάνουν υπ’ όψιν πληροφορίες που αφορούν τον ασθενή, τις καλλιέργειες µικροβίων, αποµονωµένους οργανισµούς και τα φάρµακα που χορηγήθηκαν [121]. Το συντακτικό Arden είναι το πρότυπο που έχει προταθεί για την αναπαράσταση των παραγωγικών κανόνων. Σχεδιάστηκε σε ένα σεµινάριο στο Arden Homestead, NY, USA, το 1989. Οι κανόνες αναπαριστώνται µέσω των Μονάδων Ιατρικής Λογικής (Medical Logic Module – MLM) ώστε να είναι εφικτή η επαναχρησιµοποίηση των κανόνων από ένα ίδρυµα σε άλλο. Πλαίσια Τα δοµηµένα αντικείµενα ή πλαίσια µας επιτρέπουν να περιγράψουµε σύνθετες ιατρικές έννοιες προσδιορίζοντας τα χαρακτηριστικά τους και τα µέσα για την αποτίµησή τους [93, 104]. ΟΝΟΜΑ: Acute glomerulonephritis Ενεργοποιείται από Οίδηµα προσώπου, συµµετρικό κλπ χωρίς Επιβεβαιώνεται από Malaise, asthenia, anorexia etc Προκαλείται από Πρόσφατη λοίµωξη από στρεπτόκοκκο Αιτίες Κατακράτηση νατρίου, syndrome, κλπ Επιπλοκές Οξεία νεφρική ανεπάρκεια ∆ιαφορική διάγνωση (ΑΝ χρόνια υψηλή αρτηριακή πίεση ΤΟΤΕ χρόνια glomerulonephritis) (ΑΝ επαναλαµβανόµενο syndrome) 38 πόνο, οξεία χωρίς ερύθηµα, υπέρταση, nephritic οίδηµα ΤΟΤΕ nephritic 2.5.2 Χρήση της γνώσης Η χρήση της γνώσης εξαρτάται σε ένα µεγάλο βαθµό από τη µέθοδο που χρησιµοποιείται για την αναπαράσταση της γνώσης και την επιλεχθείσα στρατηγική. Παρακάτω θα παρουσιασθούν οι κλασσικές στρατηγικές που ακολουθούνται σε συστήµατα που βασίζονται σε παραγωγικούς κανόνες. Backward chaining Το σύστηµα δηµιουργεί όλα τα δυνατά µονοπάτια που οδηγούν σε κάθε δυνατό συµπέρασµα. Τα µονοπάτια οικοδοµούνται µε τη χρήση κανόνων γνώσης. Μέσω της στρατηγικής διερεύνησης που ονοµάζεται backward chaining (επίσης γνωστή ως goal-oriented στρατηγική διερεύνησης), το σύστηµα χρησιµοποιεί όλους τους κανόνες που οδηγούν σε ένα συγκεκριµένο στόχο (Σ στην ακόλουθη εικόνα). Για να επιβεβαιωθεί ο στόχος, οι κανόνες χρησιµοποιούνται ο ένας µετά τον άλλο Μπορούµε να αναπαραστήσουµε τη χρήση όλων των κανόνων που οδηγούν στην επίτευξη ενός στόχου µέσω ενός δέντρου AND/OR. Α Κανόνας που επιβεβαιώνει την κατάσταση Β Β Κανόνας που επιβεβαιώνει την κατάσταση ∆ Κανόνας που επιβεβαιώνει την κατάσταση Σ ∆ Γ Σ Κανόνας που επιβεβαιώνει την κατάσταση ∆ Ε Κανόνας που επιβεβαιώνει την κατάσταση Σ Σε συστήµατα µε σταθµισµένα συµπεράσµατα, οι συντελεστές αξιοπιστίας δηµιουργούνται µε τη χρήση διαφόρων µοντέλων. Στο MYCIN, για παράδειγµα, η αξιοπιστία για ένα συµπέρασµα του τύπου ΑΝ Α ΤΟΤΕ Β υπολογίζεται χρησιµοποιώντας τον τύπο: CF (C ) = ∂ ⋅ min[CF ( A), CF ( B )] όπου ∂ είναι ο συντελεστής αξιοπιστίας του παραγωγικού κανόνα που παρέχεται από τον ειδικό και min[CF ( A), CF ( B)] είναι το ελάχιστο των CF(A) και CF(B). Στην παρακάτω εικόνα φαίνονται οι κανόνες µέσω των οποίων συνδυάζονται οι συντελεστές αξιοπιστίας στο MYCIN. 39 Α Κανόνες • ΑΝ Α ΤΟΤΕ Γ(x) • ΑΝ Β ΤΟΤΕ Γ(y) • ΑΝ Γ ΤΟΤΕ ∆(z) x z Γ Β ∆ y x + y − xy αν x, y > 0 ( x + y) 1. Συνδυασµός OR: CF(Γ) = αν x, y ετερόσηµα [1 − min( x, y )] αν x, y < 0 − ( x + y − xy ) 2. Συµπέρασµα: CF(∆) = z . max[0, CF(Γ)] Forward chaining Σύµφωνα µε αυτή τη στρατηγική, επίσης γνωστή ως data-oriented στρατηγική, το σύστηµα δεν προτείνει στόχους οι οποίοι θα επιβεβαιωθούν. Αντίθετα, µετατρέπει όλη τη διαθέσιµη πληροφορία σε κανόνες γνώσης και αποπειράται να διατυπώσει όλα τα συµπεράσµατα που µπορούν να διατυπωθούν. Αυτή η στρατηγική µπορεί να συνυπολογίζει το σύνολο της νέας πληροφορίας στη συλλογιστική διαδικασία αλλά εκτίθεται στους κινδύνους που επιφέρει ο πολλές φορές ασύλληπτα µεγάλος αριθµός πιθανών συµπερασµάτων, τα οποία είναι και άσχετα µε το υπό µελέτη πρόβληµα. 40 2.6 Κατά Bayes θεωρία αποφάσεων 2.6.1 Η πιθανότητα ως µέτρο προσωπικής πεποίθησης. Κάποιος που εκφράζεται σύµφωνα µε την κατά Bayes ή υποκειµενική οπτική, αντιµετωπίζει την πιθανότητα κάποιου ενδεχοµένου ως ένα µέτρο του βαθµού της πεποίθησης κάποιου σε ένα ενδεχόµενο, δοθείσης της διαθέσιµης σ’ αυτόν πληροφορίας. Πιθανότητα ίση µε 1 αντιστοιχεί στην απόλυτη πεποίθηση ότι µια πρόταση είναι αληθής, πιθανότητα ίση µε 0 αντιστοιχεί στην απόλυτη πεποίθηση ότι είναι αληθής η άρνηση µιας πρότασης και ενδιάµεσες τιµές αντιστοιχούν σε µερική πεποίθηση ή γνώση. Σύµφωνα µε αυτή την οπτική, οι πιθανότητες είναι ιδιότητες της κατάστασης της γνώσης ενός ατόµου παρά ιδιότητες µιας ακολουθίας γεγονότων (π.χ. ρίψεις ενός γνησίου νοµίσµατος). Αυτή η προσέγγιση γενικεύει την κλασσική έννοια της πιθανότητας ως τη µακροπρόθεσµη συχνότητα ενός επαναλήψιµου γεγονότος. Αυτός που ακολουθεί την υποκειµενική θεώρηση, είναι πρόθυµος στο να σχηµατίσει πεποιθήσεις µε βάση µια µοναδική δοκιµασία, που δεν αποτελεί µέλος κάποιας προφανούς επαναλήψιµης ακολουθίας δοκιµασιών (π.χ. η πιθανότητα να ολοκληρώσουµε τη συγγραφή του άρθρου αυτή την εβδοµάδα). Ο καθορισµός µιας υποκειµενικής πιθανότητας θα πρέπει να βασίζεται στο σύνολο της διαθέσιµης στο άτοµο πληροφορίας, συµπεριλαµβανοµένων των στοιχείων που είναι γνωστό ότι είναι αληθή ή που συνάγονται µε ένα λογικό τρόπο καθώς επίσης και πληροφορίας που προέρχεται από εµπειρικές συχνότητες. Ένας πραγµατικός αριθµός χρησιµοποιείται για να αντιπροσωπεύσει την πεποίθηση που κάποιος έχει στην αλήθεια µιας πρότασης. Οι υποκειµενικοί παρατηρητές συχνά εφιστούν την προσοχή στην κατάσταση της πληροφορίας στην οποία η πιθανότητα βασίζεται, ή δεσµεύεται, καθορίζοντάς την εκπεφρασµένα. Ο συµβολισµός για την πιθανότητα µιας πρότασης ή ενός ενδεχοµένου Χ δεσµευµένου σε µια κατάσταση πληροφορίας ξ µπορεί να καθοριστεί ως p( X | ξ ) . Αν για παράδειγµα συµβολίσουµε µε Χ την πρόταση «Ο πολιτικός Κ. θα είναι υποψήφιος στις επόµενες εκλογές», τότε p( X | ξ ) είναι η υποκειµενική πεποίθηση κάποιου ατόµου στην πρόταση Χ, µε δεδοµένη τη γνώση ξ που έχει και που µπορεί να συµπεριλαµβάνει τις απόψεις του ατόµου για την πολιτική στη χώρα του, συγκεκριµένες δηλώσεις του Κ. και µια εκτίµηση του παρελθόντος και της προσωπικότητας του Κ. Για να καταστεί σαφές ότι οποιοσδήποτε σχηµατισµός πεποίθησης βασίζεται σε εδραία γνώση, η ξ συµπεριλαµβάνεται εκπεφρασµένα στη δήλωση δέσµευσης. Στην περίπτωση που η γνώση ξ θεωρείται σταθερή, µπορούµε να γράφουµε p(Χ) αντί για p(Χ | ξ), αφού ο σκοπός της p είναι η σύνοψη της ξ και όχι η ανάπτυξή της. Όταν όµως η γνώση διαφοροποιείται πρέπει να αναγνωρίζονται µε συγκεκριµένο τρόπο οι παραδοχές που γίνονται για την τιµή της πεποίθησης και η ξ ή κάποια στοιχεία της να αναλύονται εκπεφρασµένα. Άρα, η αναθεωρηµένη πιθανότητα του Χ δοθέντος ενός νέου στοιχείου (ένδειξης) Ε γράφεται p( X | E ,ξ ) , όπου µε κόµµα συµβολίζεται ο συνδυασµός (τοµή) των Ε και ξ. Οι υποκειµενικές πιθανότητες υπακούουν στο ίδιο σύνολο αξιωµάτων όπως και οι κλασσικές πιθανότητες. Τα αξιώµατα είναι κανόνες που εξασφαλίζουν το συνεπή συνδυασµό πιθανοτήτων για ενδεχόµενα που συσχετίζονται. Ένας κλασσικό σύνολο αξιωµάτων ορισµού της πιθανότητας περιλαµβάνει τους ακόλουθους ορισµούς: 41 0 ≤ p( X | ξ ) ≤ 1 p ( X | ξ ) + p(not X | ξ ) = 1 p( X or Y | ξ ) = p ( X | ξ ) + p(Y | ξ ) − p( X and Y | ξ ) p( X and Y | ξ ) = p( X | Y ,ξ ) p(Y | ξ ) Σε αντίθεση µε την παραδοσιακή πρακτική, σύµφωνα µε την οποία η δεσµευµένη πιθανότητα ορίζεται µε όρους συνδυαστικής πιθανότητας, p( A | B) = p( A, B) , p( B) οι κατά Bayes φιλόσοφοι θεωρούν τη σχέση δέσµευσης ως πιο βασική από εκείνη του συνδυασµού των ενδεχοµένων, δηλαδή πιο συµβατή µε τον τρόπο οργάνωσης της ανθρώπινης γνώσης. Υπό αυτή την οπτική γωνία, το Β λειτουργεί ως δείκτης για µια έννοια ή ένα πλαίσιο γνώσης και το Α|Β ως ένα ενδεχόµενο µέσα στην έννοια που καθορίζει το Β (για παράδειγµα, ένα σύµπτωµα Α µέσα στη έννοια ασθένεια Β). Κατά συνέπεια, η εµπειρική γνώση κωδικοποιείται µε δηλώσεις δεσµευµένης πιθανότητας ενώ η πεποίθηση σε συνδυασµούς ενδεχοµένων –εάν ποτέ χρειασθεί– υπολογίζεται µέσω της σχέσης (κανόνας γινοµένου) p( A, B) = p( A | B ) p( B) . Η πιθανότητα οποιουδήποτε ενδεχοµένου Α µπορεί να υπολογιστεί µέσω της δέσµευσής του σε οποιοδήποτε σύνολο αµοιβαία αποκλειοµένων ενδεχοµένων που εξαντλούν το δειγµατικό χώρο Βi, i=1, 2, …, n: p ( A) = ∑ p ( A | Bi ) p( Bi ) . i Αυτή η αποσύνθεση αποτελεί τη βάση για µια συλλογιστική βασισµένη σε υποθέσεις µέσα στον κατά Bayes φορµαλισµό. Μας δείχνει ότι η πεποίθηση σε οποιοδήποτε ενδεχόµενο Α είναι το σταθµισµένο άθροισµα των πεποιθήσεων για όλους τους διακριτούς τρόπους κάτω από τους οποίους το Α µπορεί να πραγµατοποιηθεί. Στην πραγµατικότητα η παραπάνω σχέση αποτελεί συντόµευση της σχέσης p( A | K ) = ∑ p( A | Bi , K ) p( Bi | K ) i όπου µε Κ συµβολίζουµε το ευρύτερο πλαίσιο που ορίζει τις υποθέσεις που κάνουµε ως κοινή γνώση. ∆ιαδικασίες απόδοσης πεποίθησης που είναι συνεπείς προς τα αξιώµατα της θεωρίας πιθανοτήτων ονοµάζονται συνεκτικές (coherent). Υπ’ αυτή την έννοια, η θεωρία παρέχει έναν έλεγχο συνέπειας για πεποιθήσεις υπό απροσδιοριστία. Πειστικά παραδείγµατα υποδηλώνουν ότι ένα λογικό άτοµο θα απέφευγε τη λήψη αποφάσεων που βασίζονται σε πεποιθήσεις που δεν έχουν συνοχή. Για παράδειγµα, κάποιος που είναι πρόθυµος να στοιχηµατίσει σύµφωνα µε πιθανότητες που δεν έχουν συνοχή, θα δεχόταν ένα ‘Dutch book’, δηλαδή ένα συνδυασµό στοιχηµάτων που οδηγούν σε σίγουρη αποτυχία για οποιοδήποτε αποτέλεσµα. 42 2.6.2 Η επάρκεια της πιθανότητας για την αναπαράσταση της απροσδιοριστίας Μια σειρά από ερευνητές έχουν παράσχει θεµελιώδεις διαισθητικές ιδιότητες, οι οποίες πρέπει να πληρούνται από ένα µέτρο πεποίθησης στην αλήθεια µιας πρότασης. Μια πρόσφατη αναµόρφωση [68] των επιθυµητών ιδιοτήτων της πεποίθησης είναι: Σαφήνεια: Οι προτάσεις θα πρέπει να είναι καλά ορισµένες. Βαθµωτή συνέχεια: Ένας πραγµατικός αριθµός είναι αναγκαίος και ικανός για την αναπαράσταση του βαθµού της πεποίθησης σε µια πρόταση. Πληρότητα: Ένας βαθµός πεποίθησης µπορεί να ανατεθεί σε οποιαδήποτε καλά ορισµένη πρόταση. Θεµατική εξάρτηση ή εξάρτηση συνάφειας (context dependency): Η πεποίθηση που ανατίθεται σε µια πρόταση µπορεί να εξαρτάται από την πεποίθηση σε άλλες προτάσεις Υποθετική δέσµευση: Υπάρχει κάποια συνάρτηση που επιτρέπει η πεποίθηση σε ένα συνδυασµό (τοµή) προτάσεων Β(Χ and Y) να υπολογίζεται από την πεποίθηση σε µια πρόταση και την πεποίθηση σε µια άλλη πρόταση, δοθέντος ότι η πρώτη πρόταση είναι αληθής. ∆ηλαδή, B ( X and Y ) = f [B( X | Y ), B(Y )] Συµπληρωµατικότητα: Η πεποίθηση στην άρνηση µιας πρότασης είναι µια γνησίως φθίνουσα συνάρτηση της πεποίθησης της ίδιας της πρότασης. Συνέπεια: Προτάσεις λογικά ισοδύναµες απολαύουν ίσες πεποιθήσεις. Ο Cox [43] και άλλοι ερευνητές έχουν αποδείξει ότι η εκπλήρωση των παραπάνω ιδιοτήτων λογικά συνεπάγεται ότι το µέτρο της πεποίθησης πρέπει να ικανοποιεί τα αξιώµατα της θεωρίας πιθανοτήτων. Η απόδειξη της αναγκαιότητας της σχέσης µεταξύ των διαισθητικών ιδιοτήτων και των αξιωµάτων της θεωρίας πιθανοτήτων βασίζεται στην ανάλυση των λύσεων που επιδέχονται οι συναρτησιακές µορφές που υπαινίσσονται οι διαισθητικές ιδιότητες. Άρα, σύµφωνα µε τον Cox, αν κάποιος αποδέχεται αυτές τις διαισθητικές ιδιότητες ως επιθυµητές, θα πρέπει να αποδεχτεί και τις πιθανότητες ως ένα επιθυµητό µέτρο της πεποίθησης. Οι αρχές αυτές σχηµατίζουν ένα χρήσιµο πλαίσιο για τη σύγκριση εναλλακτικών φορµαλισµών αναπαράστασης της απροσδιοριστίας [68] σύµφωνα µε το ποιες από τις αρχές αυτές απορρίπτονται από τους φορµαλισµούς. Για παράδειγµα, η θεωρία των ασαφών συνόλων (fuzzy set) [140] απορρίπτει την ιδιότητα της σαφήνειας, επιτρέποντας γλωσσικές ανακρίβειες στον ορισµό των προτάσεων. Μερικοί ερευνητές στο χώρο της τεχνητής νοηµοσύνης (ΑΙ) επίσης απορρίπτουν την βαθµωτή συνέχεια, µε το επιχείρηµα ότι ένας αριθµός δεν είναι επαρκώς πλούσιος ώστε να αναπαριστά την απροσδιοριστία [18]. Η θεωρία Dempster-Shafer [120] απορρίπτει την πληρότητα, αρνούµενη ότι είναι δυνατή η απόδοση πεποίθησης σε κάθε καλά ορισµένη πρόταση. Οι περισσότερες ευρετικές ποσοτικές προσεγγίσεις για αναπαράσταση της απροσδιοριστίας στην ΑΙ, ακόµη και όταν χρησιµοποιούν τον όρο πιθανότητα, άδηλα παραβιάζουν την ιδιότητα της συνέπειας [37]. 43 2.6.3 Η δυνατότητα αντιστροφής της πιθανοκρατικής συµπερασµατολογίας κατεύθυνσης της Η θεωρία πιθανοτήτων, και συγκεκριµένα το θεώρηµα του Bayes, µας επιτρέπει να αντιστρέψουµε την κατεύθυνση της συµπερασµατολογίας. ∆οθείσης της επίδρασης της υπόθεσης Η σε µια παρατηρήσιµη ένδειξη Ε, εκφρασµένης ως p( E | H ,ξ ) , το θεώρηµα του Bayes µας επιτρέπει να υπολογίσουµε την επίδραση της Ε επί της Η, που εκφράζεται ως p( H | E ,ξ ) . Συνήθως η υπόθεση Η θεωρείται ότι αποτελεί την αιτία της Ε. Αν η Η είναι µια ασθένεια και Ε είναι ένα παρατηρήσιµο σύµπτωµα, η αποδεικτική (evidential) σχέση µπορεί να εκφραστεί σύµφωνα µε την αιτιοκρατική κατεύθυνση (δηλ. p( E | H ,ξ ) ), και µετά να χρησιµοποιηθεί το θεώρηµα του Bayes για να αντιστραφεί [119] η συµπερασµατολογία ακολουθώντας τη διαγνωστική κατεύθυνση (δηλ. p( H | E ,ξ ) ). Αυτή η διπλή κατευθυντικότητα είναι µια συνέπεια του θεωρήµατος του Bayes. Το θεώρηµα του Bayes προκύπτει από το τελευταίο αξίωµα της πιθανότητας και συσχετίζει την πιθανότητα ενός συνδυαστικού ενδεχοµένου µε δεσµευµένες πιθανότητες [3]. Το θεώρηµα, γραµµένο στην τυπική του µορφή, για τη σχέση της υπόθεσης Η µε την ένδειξη Ε είναι: p ( H | E ,ξ ) = p( E | H ,ξ ) p( H | ξ ) p( E | ξ ) Η εξίσωση µπορεί να αναπτυχθεί ως εξής: p ( H | E ,ξ ) = p( E | H ,ξ ) p( H | ξ ) p ( E | H ,ξ ) p ( H | ξ ) + p ( E | H ,ξ ) p ( H | ξ ) Το θεώρηµα απλά δείχνει ότι η πεποίθηση στην υπόθεση υπό το φως της ένδειξης, p( H | E ,ξ ) (η a posteriori πιθανότητα), εξαρτάται από το πόσο πιθανό είναι να παρατηρηθεί ένα συγκεκριµένο στοιχείο ένδειξης, µε δεδοµένη την υπόθεση και την άρνησή της, p( E | H ,ξ ) και p( E | H ,ξ ) , και την a priori πιθανότητα της υπόθεσης, p( H | ξ ) . Η συµπερασµατολογική συµµετρία της πιθανοκρατικής συλλογιστικής αποδεικνύεται χρήσιµη όταν οι πιθανότητες για τη µια κατεύθυνση είναι διαθέσιµες ενώ απαιτούνται για την αντίθετη κατεύθυνση. Για παράδειγµα, ειδικοί σε κάποιο πεδίο ίσως καθορίζουν πιο εύκολα πιθανότητες στην αιτιοκρατική κατεύθυνση αλλά θα ήθελαν να υπολογίσουν πιθανότητες στη διαγνωστική κατεύθυνση, για τον υπολογισµό της πεποίθησης σε υποθέσεις όταν υπάρχουν ενδείξεις. Μιλώντας µε ιατρικούς όρους, p( H | E ,ξ ) µπορεί να είναι η πιθανότητα κάποιος να πάσχει από µια ασθένεια µε δεδοµένο ότι µια συγκεκριµένη εξέταση είχε θετικό αποτέλεσµα. Η παραπάνω σχέση δείχνει ότι αυτή µπορεί να υπολογιστεί από την ευαισθησία της εξέτασης p( E | H ,ξ ) και από τον επιπολασµό της ασθένειας p( H | ξ ) . Η αναπαράσταση της πεποίθησης στην αιτιοκρατική κατεύθυνση αποτελεί συνήθως πιο φειδωλή και αµετάβλητη αναπαράσταση των απροσδιόριστων σχέσεων από ότι η διαγνωστική σχέση, η οποία µεταβάλλεται µε τις a priori πιθανότητες (π.χ. για διαφορετικούς πληθυσµούς). Επί πλέον, η αιτιοκρατική µορφή παρέχει τη δυνατότητα αποσύνθεσης πολύπλοκων σχέσεων µεταξύ πολλαπλών υποθέσεων και αποτελεσµάτων σε απλούστερες σχέσεις, από κάθε υπόθεση στα ατοµικά της αποτελέσµατα, οι οποίες µπορούν να εκτιµηθούν ξεχωριστά. 44 2.6.4 Η θεωρία πιθανοτήτων ως πλαίσιο συλλογιστικής επί των προτιµήσεων Η θεωρία αποφάσεων βασίζεται σε αξιώµατα πιθανότητας και ωφελιµότητας. Η θεωρία πιθανότητας παρέχει ένα πλαίσιο για ένα συνεκτικό τρόπο σχηµατισµού πεποιθήσεων κάτω από συνθήκες ελλιπούς πληροφόρησης, ενώ η θεωρία ωφελιµότητας εισάγει ένα σύνολο αρχών για την τήρηση της συνέπειας µεταξύ προτιµήσεων και αποφάσεων. Απόφαση είναι η ανέκκλητη κατανοµή των πόρων που τελούν υπό τον έλεγχο αυτού που λαµβάνει τις αποφάσεις. Οι προτιµήσεις περιγράφουν τις σχετικές αποτιµήσεις αυτού που λαµβάνει τις αποφάσεις για τις δυνατές καταστάσεις του κόσµου, ή τις εκβάσεις. Η αποτίµηση ενός αποτελέσµατος µπορεί να βασίζεται σε παραδοσιακά χαρακτηριστικά, όπως το χρήµα ή ο χρόνος, όπως επίσης και σε άλλες διαστάσεις της αξίας, συµπεριλαµβανοµένης της ευχαρίστησης, του πόνου, της διάρκειας ζωής και της υπολογιστικής προσπάθειας. Η θεωρία ωφελιµότητας βασίζεται σε ένα σύνολο απλών αξιωµάτων ή κανόνων που αφορούν επιλογές σε απροσδιοριστία. Όπως και τα αξιώµατα της θεωρίας πιθανοτήτων, αυτοί οι κανόνες είναι αρκετά διαισθητικοί [33, 46]. Το πρώτο σύνολο αξιωµάτων αφορά προτιµήσεις για αποτελέσµατα υπό καθεστώς απροσδιοριστίας. Το αξίωµα της διάταξης (orderability) ισχυρίζεται ότι όλες οι εκβάσεις µπορούν να συγκριθούν ακόµη κι αν περιγράφονται από πολλά χαρακτηριστικά. Άρα, για κάθε ζεύγος δυνατών εκβάσεων x και y, κάποιος είτε προτιµά το x περισσότερο από το y, είτε προτιµά το y περισσότερο από το x, ή είναι αδιάφορος. Το αξίωµα της µεταβατικότητας δηλώνει ότι αυτές οι διατάξεις είναι συνεπείς· αν κάποιος προτιµά το x περισσότερο από το y και το y περισσότερο από το z, τότε προτιµά το x περισσότερο από το z. Αυτά τα αξιώµατα, µαζί µε δύο βοηθητικά αξιώµατα, εξασφαλίζουν µια διάταξη ασθενούς προτίµησης των εκβάσεων. Αυτό το αποτέλεσµα συνεπάγεται την ύπαρξη µιας βαθµωτής συνάρτησης V(x), που αντιστοιχίζει όλες τις εκβάσεις x σε βαθµωτές τιµές έτσι ώστε κάποιος να προτιµά πάντα τις εκβάσεις µε υψηλότερη τιµή. Το δεύτερο σύνολο αξιωµάτων περιγράφει τις προτιµήσεις υπό απροσδιοριστία. Χρησιµοποιείται η έννοια της κληρωτίδας, µιας απροσδιόριστης κατάστασης µε περισσότερες από µία δυνατές εκβάσεις. Σε κάθε έκβαση µπορεί να αποδοθεί µια πιθανότητα εµφάνισης. Το αξίωµα της µονοτονίας λέει ότι όταν συγκρίνουµε δύο κληρωτίδες, κάθε µία µε τις ίδιες δύο δυνατές εκβάσεις αλλά µε διαφορετικές πιθανότητες, εκείνος που λαµβάνει την απόφαση θα πρέπει να προτιµήσει τη κληρωτίδας µε την υψηλότερη πιθανότητα στην προτιµώµενη έκβαση. Το αξίωµα της αποσυνθεσιµότητας λέει ότι εκείνος που λαµβάνει την απόφαση θα πρέπει να είναι αδιάφορος ανάµεσα στις κληρωτίδες που έχουν το ίδιο σύνολο εκβάσεων και ίδιες πιθανότητες, ακόµη κι αν επιτυγχάνονται µε διαφορετικά µέσα. Για παράδειγµα, µια κληρωτίδα της οποίας οι εκβάσεις είναι άλλες κληρωτίδες µπορεί να αποσυντεθεί σε µια ισοδύναµη κληρωτίδα µιας φάσης, µε τη χρήση των τυπικών κανόνων της πιθανότητας. Το αξίωµα της υποκατάστασης λέει ότι εάν αυτός που παίρνει την απόφαση είναι αδιάφορος µεταξύ µιας κληρωτίδας και κάποιας βεβαίας έκβασης (το ισοδύναµο βεβαιότητας της κληρωτίδας), τότε αντικαθιστώντας τη µία µε την άλλη ως δυνατή έκβαση σε κάποια πολυπλοκότερη κληρωτίδα δε θα επηρέαζε την προτίµησή του για εκείνη τη κληρωτίδα. Τέλος, το αξίωµα της συνέχειας λέει ότι αν κάποιος προτιµά το x από το y και το y από το z, τότε υπάρχει κάποια πιθανότητα p τέτοια ώστε να είναι αδιάφορος µεταξύ του να θεωρήσει την ενδιάµεση έκβαση y ως 45 βέβαια και µιας κληρωτίδας µε πιθανότητα p για την έκβαση x (την καλύτερη έκβαση) και πιθανότητα (1-p) για την z (τη χειρότερη έκβαση). Από την αποδοχή των αξιωµάτων της ωφελιµότητας συνάγεται ότι υπάρχει µια βαθµωτή συνάρτηση ωφελιµότητας U(x, d), η οποία αποδίδει µια τιµή σε µια θεµελιώδη κλίµακα σε κάθε έκβαση x και απόφαση d, ενδεικτική του πόσο επιθυµητές είναι. Περαιτέρω συνάγεται ότι όταν υπάρχει απροσδιοριστία σχετικά µε την y, προτιµώµενες αποφάσεις d είναι εκείνες που µεγιστοποιούν την αναµενόµενη ωφελιµότητα E [U ( x, d ) | ξ ] επί της κατανοµής πιθανότητας που ακολουθεί η x. Τα κριτήρια συνέπειας που είναι ενσωµατωµένα στην κλασσική θεωρία αποφάσεων µπορούν να διατυπωθούν ως εξής: ∆οθέντος ενός συνόλου προτιµήσεων εκφρασµένων ως µια συνάρτηση ωφελιµότητας, πεποιθήσεων εκφρασµένων ως κατανοµές πιθανότητας και ενός συνόλου εναλλακτικών αποφάσεων, κάποιος που λαµβάνει αποφάσεις θα πρέπει να επιλέξει εκείνες την ακολουθία ενεργειών που µεγιστοποιούν την αναµενόµενη ωφελιµότητα. Η ισχύς αυτού του αποτελέσµατος έγκειται στο ότι επιτρέπει τον υπολογισµό προτιµήσεων για πολύπλοκους και απροσδιόριστους συνδυασµούς εκβάσεων µε πολλά χαρακτηριστικά, µέσω προτιµήσεων εκφρασµένων για απλές συνιστώσες. Άρα, µπορεί να χρησιµοποιηθεί σαν εργαλείο για την αντιµετώπιση πολύπλοκων επιλογών µέσω της αποσύνθεσής τους σε απλούστερες επιλογές. Μια συνάρτηση ωφελιµότητας για καταστάσεις απροσδιοριστίας µας επιτρέπει επίσης να εκφράζουµε στάσεις απέναντι σε κινδύνους, όπως η αποστροφή προς τον κίνδυνο, όταν µελετούµε κληρωτίδες που ενέχουν ποσοτικά στοιχεία όπως το χρήµα. Η αποστροφή του κινδύνου επιδεικνύεται από πολλούς ανθρώπους µέσω της προτίµησής τους να λαµβάνουν µε βεβαιότητα χρηµατικά βραβεία παρά µια κληρωτίδα µε ακριβώς την ίδια αναµενόµενη τιµή. Η θεωρία πιθανοτήτων παρέχει διάφορες τεχνικές για τη συγκέντρωση και κωδικοποίηση διαφορετικών στάσεων έναντι του κινδύνου για την υποστήριξη της λήψης αποφάσεων υπό καθεστώς απροσδιοριστίας. Αν και η αποτίµηση των εναλλακτικών καταστάσεων και επιλογών σχετικά µε τη διανοµή των πόρων συχνά είναι κεντρικής σηµασίας σε υπολογιστικούς διαµεσολαβητές (agents), οι κρίσιµες έννοιες της απόφασης και της προτίµησης δεν έχουν αντιµετωπιστεί µε έναν καλά ορισµένο τρόπο στην ΑΙ. 2.6.5 Η θεωρία αποφάσεων είναι κανονιστική (normative). Εάν τα αξιώµατα της θεωρίας αποφάσεων θεωρηθούν ως υποχρεωτικές αρχές στις οποίες οι επιλογές που βασίζονται στη λογική θα πρέπει να υπακούουν, τότε η θεωρία είναι κανονιστική. Με άλλα λόγια, τα αξιώµατα παρέχουν ένα σύνολο κριτηρίων συνέπειας µεταξύ των πεποιθήσεων, προτιµήσεων και επιλογών, στα οποία θα έπρεπε να βασίζεται ένας λογικός λήπτης αποφάσεων. Εναλλακτικά, δοθέντος ενός συνόλου πεποιθήσεων και προτιµήσεων, η θεωρία κατατάσσει ως λογικές µόνον εκείνες τις αποφάσεις που µεγιστοποιούν την αναµενόµενη ωφελιµότητα. Ένα σύστηµα που λαµβάνει αποφάσεις ή κάνει υποδείξεις συνεπείς προς τα αξιώµατα µπορεί επίσης να ονοµαστεί κανονιστικό. Είναι σηµαντικό να γίνει αντιληπτό ότι η θεωρία αποφάσεων γενικά δεν προτείνεται ως περιγραφική θεωρία· δεν αποσκοπεί στο να παράσχει µια περιγραφή του πώς οι άνθρωποι πραγµατικά συµπεριφέρονται όταν κάνουν συλλογισµούς υπό 46 απροσδιοριστία. Πράγµατι, µελέτες έχουν επιδείξει [73] ότι οι άνθρωποι συχνά δε συµπεριφέρονται σύµφωνα µε τη θεωρία αποφάσεων. Χαρακτηριστικές (και πολλές φορές µε µεγάλο κόστος) προκαταλήψεις που κυριαρχούν στη διαισθητική ανθρώπινη κρίση αποτελούν τµήµα της δικαιολόγησης για την αρωγή των επιστηµών απόφασης στον τοµέα της λήψης αποφάσεων. 2.6.6 Καλή απόφαση – Καλή έκβαση Υπό το πρίσµα της θεωρίας αποφάσεων, υπάρχει διάκριση µεταξύ µιας καλής απόφασης (µιας επιλογής που είναι συνεπής µε τις προτιµήσεις και τις πεποιθήσεις) και της καλής έκβασης (το αποτέλεσµα µιας επιλογής που αποδεικνύεται να είναι επιθυµητό). Είναι δυνατόν να εργαστούµε σκληρά για να εξάγουµε τις πιθανότητες, να ιεραρχήσουµε τις αξίες, να αποτιµήσουµε τις εναλλακτικές λύσεις και, παρ’ όλα αυτά, να κάνουµε µια επιλογή που οδηγεί σε µια κακή έκβαση. Αντίστοιχα, µια τυχαία ή αδικαιολόγητη επιλογή µπορεί να αποδειχθεί τυχερή. Τέτοια είναι η φύση των πράξεων υπό καθεστώς ελλιπούς πληροφορίας. Η θεωρία αποφάσεων επιδιώκει τη λήψη καλών αποφάσεων που οδηγούν κατά µέσο όρο σε καλές εκβάσεις. 2.6.7 Η έλλειψη πληρότητας αναπόφευκτες και η απροσδιοριστία είναι Συστήµατα που κάνουν συλλογισµούς σχετικά µε πραγµατικά προβλήµατα µπορούν να αναπαραστήσουν ένα µόνο µέρος της πραγµατικότητας. Οποιαδήποτε υπολογιστική αναπαράσταση θα είναι µια δραµατική απλούστευση των αντικειµένων και σχέσεων που στην πραγµατικότητα σχετίζονται µε το πρόβληµα. Η έλλειψη πληρότητας στην αναπαράσταση, από την οποία δε µπορούµε να ξεφύγουµε, οδηγεί σε αναπόφευκτες απροσδιοριστίες σχετικά µε την κατάσταση του κόσµου και σχετικά µε τις συνέπειες των πράξεών µας. Στην πράξη, η απροσδιοριστία είναι ιδιαίτερα οξεία όταν το πρόβληµα περιλαµβάνει πολύπλοκες προτιµήσεις, υψηλό ρίσκο, δράσεις πολλών ατόµων και µακροπρόθεσµες συνέπειες. 2.6.8 Η ανάλυση αποφάσεων ως εφαρµοσµένη θεωρία αποφάσεων. Η ανάλυση αποφάσεων [69, 74, 131] ασχολείται µε τα απτά προβλήµατα της εφαρµογής της θεωρίας αποφάσεων σε προβλήµατα της πραγµατικότητας. Η θεωρία αποφάσεων υπαγορεύει µόνον ένα αυστηρό σύνολο περιορισµών συνέπειας· δε µας πληροφορεί για τον τρόπο µε τον οποίο εξάγουµε ή αναπαριστούµε µια συνάρτηση ωφελιµότητας ή µια κατανοµή πιθανότητας, ή σχετικά µε τον τρόπο που αναπαριστούµε ή κάνουµε συλλογισµούς σχετικά µε ένα πρόβληµα απόφασης. Επίσης δεν αναφέρεται στις διαδικασίες διερεύνησης για µια απόφαση που µεγιστοποιεί την ωφελιµότητα. Αντίθετα, η ανάλυση αποφάσεων απευθύνεται σ’ αυτά τα θέµατα άµεσα, µε όρους λήψης αποφάσεων και µπορεί να τα διαχειριστεί. Η ανάλυση αποφάσεων µπορεί να θεωρηθεί ως ένα σύνολο τεχνικών για την εστίαση της προσοχής. Παρέχει µεθόδους που βοηθούν τους λήπτες αποφάσεων να αποσαφηνίσουν το πρόβληµα επεξηγώντας τις εναλλακτικές αποφάσεις, αξίες και πληροφορίες. Παρέχει επίσης µια ποικιλία τεχνικών για ανάλυση ευαισθησίας, για την αναγνώριση των απροσδιοριστιών και των παραδοχών που θα µπορούσαν να έχουν σηµαντική επίδραση στις υποδείξεις απόφασης. Ο λήπτης αποφάσεων µπορεί 47 τότε να εστιάσει την προσοχή του σ’ εκείνους τους παράγοντες που οδηγούν σε διαφορετικές αποφάσεις και να αγνοήσει πτυχές του προβλήµατος που αποδεικνύεται ότι έχουν σχετικά µικρή σχέση µε το πρόβληµα. Οι πόροι, κατά συνέπεια, µπορούν να κατευθυνθούν στις σηµαντικότερες ή στις πιο ευαίσθητες πτυχές του προβλήµατος. 2.7 Πρώιµη έρευνα στα έµπειρα συστήµατα Ο χώρος της ΑΙ στον οποίο η θεωρία αποφάσεων είχε την πιο εµφανή επίδραση είναι αυτός των διαγνωστικών έµπειρων συστηµάτων, και αυτό επειδή τα έµπειρα συστήµατα συχνά ασχολούνται µε συµπερασµατολογία και λήψη αποφάσεων υπό καθεστώς απροσδιοριστίας. Σ’ αυτή την παράγραφο γίνεται µια επισκόπηση της πρώιµης εφαρµογής πιθανοκρατικών µεθόδων στα έµπειρα συστήµατα. Κατόπιν γίνεται αναφορά στις πιο γνωστές ευρετικές προσεγγίσεις που αναπτύχθηκαν αργότερα, κυρίως ως αντίδραση στους περιορισµούς που γρήγορα έγιναν αντιληπτοί. Με τον όρο έµπειρο σύστηµα, εννοείται ένα συλλογιστικό σύστηµα του οποίου η επίδοση είναι επιπέδου συγκρίσιµου ή καλύτερου από εκείνο ενός ανθρώπου που είναι ειδικός σε ένα καθορισµένο πεδίο. Έχει αποδειχθεί χρήσιµη η διάκριση των αποστολών για τις οποίες τα έµπειρα συστήµατα κατασκευάζονται σε δύο κατηγορίες, την αναλυτική και τη συνθετική. Στα συστήµατα αναλυτικών αποστολών, οι εναλλακτικές επιλογές, όπως δυνατές διαγνώσεις ή αποφάσεις, µπορούν να απαριθµηθούν ή είναι σχετικά εύκολο να απαριθµηθούν· κεντρικό στόχο αποτελεί η αξιολόγηση των εναλλακτικών επιλογών. Όταν η αποστολή του συστήµατος είναι συνθετική, ο χώρος των εναλλακτικών επιλογών (π.χ. το σύνολο των δυνατών διαµορφώσεων ή σχεδίων) µπορεί να είναι εξαιρετικά µεγάλος και το κύριο πρόβληµα είναι η οριοθέτηση µιας ή περισσοτέρων εφικτών επιλογών. Οι αναλυτικές αποστολές περιλαµβάνουν την πρόβλεψη, κατηγοριοποίηση, διάγνωση και λήψη αποφάσεων γύρω από ένα περιορισµένο σύνολο επιλογών. Οι συνθετικές αποστολές περιλαµβάνουν τη δηµιουργία εναλλακτικών επιλογών, σχεδιασµό, διαµόρφωση και προγραµµατισµό. Πολλά από τα πιο γνωστά έµπειρα συστήµατα εκτελούν αναλυτικές αποστολές, όπως η ιατρική διάγνωση. Μερικά όµως από τα πιο επιτυχηµένα συστήµατα εφαρµόζονται σε συνθετικά προβλήµατα, όπως το R1 για διαµορφώσεις hardware υπολογιστών [92]. Η θεωρία αποφάσεων προσφέρει µια ελκυστική προσέγγιση των αναλυτικών στόχων, ειδικά αυτών που εµπεριέχουν συµπερασµατολογία και λήψη αποφάσεων υπό καθεστώς απροσδιοριστίας. Κατά συνέπεια, η προσοχή µας εστιάζεται στα έµπειρα συστήµατα για αναλυτικές αποστολές. Η θεωρία αποφάσεων µπορεί επίσης να σχετίζεται µε συνθετικούς στόχους, επειδή συχνά απαιτείται η επιλογή χρήσιµων εναλλακτικών από ένα µεγάλο αριθµό επιλογών. Πολλή από την πρωτοπόρο δουλειά στα αναλυτικά έµπειρα συστήµατα έχει γίνει σε ιατρικές εφαρµογές, αν και έχει επίσης εξεταστεί η διάγνωση σφαλµάτων [34, 48] σε ηλεκτρονικά εξαρτήµατα και µηχανικές συσκευές. Γενικά τρία είδη στόχων αντιµετωπίζονται. Ο πρώτος στόχος είναι η διάγνωση: Πώς µπορούν να εξαχθούν συµπεράσµατα για τις πιο πιθανές αιτίες των παρατηρούµενων προβληµάτων (π.χ. ασθένειες ή αστοχίες µηχανικών εξαρτηµάτων) µε δεδοµένο ένα σύνολο ενδείξεων (π.χ. συµπτώµατα, κλινικά χαρακτηριστικά, συνθήκες λειτουργίας ή αποτελέσµατα ελέγχων); Ο δεύτερος στόχος είναι η απόφαση συγκέντρωσης πληροφορίας: Ποια επί πλέον πληροφορία θα πρέπει να ζητηθεί ή ποιοι επί πλέον έλεγχοι θα πρέπει να γίνουν; Αυτή η επιλογή εµπεριέχει τη στάθµιση του κόστους απόκτησης πληροφορίας 48 και του οφέλους από µια πιο ακριβή διάγνωση. Ο τρίτος στόχος αφορά τη λήψη αποφάσεων: Τι µπορεί να γίνει για τη βελτίωση ή τη λύση του προβλήµατος; 2.7.1 Το πρόβληµα της διάγνωσης Πρώτα διατυπώνουµε το πρόβληµα της διαγνωστικής συµπερασµατολογίας. Έστω ένα σύνολο Η δυνατών υποθέσεων, H = {H 1 , H 2 ,K, H n } και ένα σύνολο Ε από m ενδείξεις, E = {E1 , E2 ,K, Em } Ας υποθέσουµε ότι όλες οι υποθέσεις και ενδείξεις είναι δίτιµες λογικές µεταβλητές, κάθε µία αληθής ή ψευδής. Σ’ έναν αιτιοκρατικό (ντετερµινιστικό) κόσµο θα µπορούσε να γίνει η παραδοχή µιας σχέσης C (H,E) µεταξύ υποθέσεων και ενδείξεων, τέτοιας ώστε c ( H i , E j ) σηµαίνει ότι η υπόθεση Hi συνεπάγεται ή προκαλεί την ένδειξη Ej. Μια διάγνωση ή εξήγηση είναι ένα σύνολο υποθέσεων που πιστεύεται ότι είναι παρούσες (ενώ όλες οι άλλες απουσιάζουν). Με δεδοµένο ένα σύνολο ενδείξεων E′ το αιτιοκρατικό διαγνωστικό πρόβληµα είναι η ανακάλυψη µιας ή περισσοτέρων διαγνώσεων D ⊆ H που µπορούν να εξηγήσουν τις παρατηρούµενες ενδείξεις. Συγκεκριµένα, το D θα πρέπει να περιέχει, για κάθε Ej στο E′ , µια υπόθεση Hi τέτοια ώστε να υπάρχει η c ( H i , E j ) [113]. Στον πραγµατικό κόσµο, οι σχέσεις µεταξύ υποθέσεων και ενδείξεων γενικά είναι απροσδιόριστες. Η πιθανοκρατική προσέγγιση είναι να αναπαρίστανται αυτές οι σχέσεις µε την κατανοµή δεσµευµένης πιθανότητας των ενδείξεων p(E′ | D,ξ ) , µε δεδοµένη κάθε δυνατή διάγνωση D στο Η. Εάν επιπρόσθετα µας δίνεται η a priori πιθανότητα p(D | ξ ) για κάθε υποσύνολο D στο Η, που αναπαριστά την πιθανοφάνεια συνδυασµών υποθέσεων, µπορούµε να εφαρµόσουµε το θεώρηµα του Bayes για να υπολογίσουµε την a posteriori πιθανότητα κάθε διάγνωσης, αφού παρατηρηθούν οι ενδείξεις E′ : p(D | E′,ξ ) = p(E′ | D,ξ ) p(D | ξ ) p ( E′ | ξ ) Το πρόβληµα της διάγνωσης είναι υπολογιστικά πολύπλοκο. Επειδή ένας ασθενής µπορεί να πάσχει από περισσότερες από µια ασθένεια από ένα σύνολο n δυνατών ασθενειών, ο αριθµός των δυνατών διαγνώσεων (δηλαδή συνδυασµών ασθενειών) είναι 2 n . Έτσι ο αριθµός των ανεξάρτητων παραµέτρων που απαιτούνται για τον καθορισµό της πλήρους a priori κατανοµής είναι 2 n − 1 . Για m ενδείξεις, η κατανοµή δεσµευµένης πιθανότητας έχει 2 m − 1 ανεξάρτητες παραµέτρους για κάθε υπόθεση, απαιτώντας τον καθορισµό 2 n (2 m − 1) ανεξαρτήτων παραµέτρων συνολικά για όλες τις διαγνώσεις. Είναι σαφές ότι αυτή η προσέγγιση του προβλήµατος δεν είναι πρακτική για περισσότερες από δύο ή τρεις υποθέσεις και ενδείξεις χωρίς κάποιου είδους απλοποίηση. 49 2.7.2 Πρώιµες πιθανοκρατικές προσεγγίσεις Κατά τη δεκαετία του ’60 εκπονήθηκε ένας αριθµός ερευνητικών προγραµµάτων για αυτοµατοποιηµένη πιθανοκρατική συλλογιστική για διάγνωση. Έγιναν δύο απλουστευτικές παραδοχές. Πρώτον (Α1), ότι οι υποθέσεις στο Η είναι αµοιβαίως αποκλειόµενες και συλλογικά εξαντλούν το δειγµατικό χώρο των υποθέσεων. ∆εύτερον (Α2), ότι ισχύει η δεσµευµένη ανεξαρτησία των ενδείξεων, µε δεδοµένη κάποια υπόθεση. ∆ηλαδή, µε δεδοµένη οποιαδήποτε υπόθεση Η, η εµφάνιση κάποιας ένδειξης Ei είναι ανεξάρτητη από την εµφάνιση κάποιας άλλης ένδειξης Ej: p ( Ei | H , ξ ) = p ( Ei | E j , H , ξ ) Με την παραδοχή Α1, οι µόνες διαγνώσεις που χρειάζεται να ληφθούν υπ’ όψιν είναι οι n απλές υποθέσεις Hi. Με την παραδοχή Α2, η κατανοµή δεσµευµένης πιθανότητας των ενδείξεων E′ µε δεδοµένη µια ασθένεια Hi, (όπως απαιτείται από το θεώρηµα του Bayes) µπορεί να αποσυντεθεί στο γινόµενο των κατανοµών δεσµευµένης πιθανότητας για ατοµικές ενδείξεις ως εξής: p (E′ | H i ,ξ ) = p ( E1 , E2 ,K, E j | H i ,ξ ) = = p ( E1 | H i ,ξ ) p ( E1 | H i ,ξ )K p ( E j | H i ,ξ ) Κάτω από τις παραδοχές Α1 και Α2, απαιτούνται µόνον mn δεσµευµένες πιθανότητες και n-1 a priori πιθανότητες. Η απλότητα των πιθανοκρατικών συστηµάτων που βασίζονται σ’ αυτές τις δύο παραδοχές κατέστησαν αυτή την προσέγγιση δηµοφιλή [124]. Πολλά ιατρικά διαγνωστικά συστήµατα κατασκευάστηκαν συµπεριλαµβανοµένων συστηµάτων για τη διάγνωση καρδιακών ασθενειών [53, 132] και οξέος κοιλιακού πόνου [31]. Η δηµοτικότητα της απλοποιηµένης πιθανοκρατικής συµπερασµατολογίας έχει οδηγήσει στην παρανόηση ότι οι παραδοχές αυτές είναι απολύτως απαραίτητες για την απλοποιηµένη πιθανοκρατική συµπερασµατολογία. Στην παράγραφο που αφορά στην τρέχουσα έρευνα θα δούµε πιο εκφραστικές αναπαραστάσεις των πιθανοκρατικών εξαρτήσεων. 2.7.3 Επιδόσεις των πρώιµων πιθανοκρατικών συστηµάτων Τα πρώιµα πιθανοκρατικά συστήµατα είχαν επιδόσεις, µε όρους διαγνωστικής ακρίβειας, στο περιορισµένο πεδίο στο οποίο αναφέρονταν, συγκρίσιµες µε αυτές των ειδικών και µερικές φορές σηµαντικά καλύτερες [28, 30, 54]. Για παράδειγµα, το σύστηµα του de Dombal και των συνεργατών του είχε κατά µέσο όρο 90% ορθές διαγνώσεις οξέως κοιλιακού πόνου [30], όταν ειδικοί ιατροί είχαν επιδόσεις 65% 80%. Το διαγνωστικό βοήθηµα του Patrick για στηθάγχη [103] είχε 80% ακρίβεια όταν οι κλινικοί είχαν 51%. Αυτά τα συστήµατα οπωσδήποτε ικανοποιούν τις προϋποθέσεις για να ονοµαστούν έµπειρα συστήµατα σύµφωνα µε τον ορισµό µας. Είναι ενδιαφέρον να αναρωτηθεί κανείς γιατί αυτά τα συστήµατα είχαν καλύτερες επιδόσεις από τους ειδικούς, εφ’ όσον έκαναν απλουστευτικές παραδοχές (τις Α1 και Α2) και συχνά ελάµβαναν υπ’ όψιν ένα µόνο τµήµα της πληροφορίας που ήταν διαθέσιµη στους ιατρούς. Μια απάντηση είναι ότι µερικά από τα λογισµικά που χρησιµοποιούνταν βασίζονταν σε στατιστική ανάλυση εµπειρικών δεδοµένων παρά αµιγώς στην κρίση ειδικών. Παρ’ όλα αυτά, η χρήση πιο αξιόπιστων δεδοµένων δεν εξηγεί την επίδοση πολλών συστηµάτων στα οποία οι πιθανότητες βασίζονταν κατά ένα µέρος ή στο σύνολό τους στην κρίση ειδικών. 50 Στην πραγµατικότητα, η καλή επίδοση απλών µοντέλων που βασίζονται σε υποκειµενικές παραµέτρους εν σχέσει µε τη µη υποβοηθούµενη κρίση ειδικών, είναι συνεπής µε καλά τεκµηριωµένα πειραµατικά αποτελέσµατα από ένα µεγάλο αριθµό µελετών. Μελέτες σε ένα ευρύ φάσµα πεδίων κρίσης κλινικών και άλλων ειδικών έχουν δείξει ότι απλά γραµµικά µοντέλα, µε βάρη που αποτιµούνται µε υποκειµενικό τρόπο, έχουν επιδόσεις παρόµοιες ή καλύτερες από τους ειδικούς. Ένας λόγος γι’ αυτό είναι ότι απλά αυστηρά µοντέλα είναι συνεπέστερα και πιο αξιόπιστα απ’ ότι οι ειδικοί, καθώς υπόκεινται λιγότερο σε ιδιοτροπίες, απροσεξίες ή λαθεµένες εµπνεύσεις. Υπάρχουν όµως και θεµελιώδεις µαθηµατικοί λόγοι για το ότι απλά γραµµικά µοντέλα µπορούν να αποτελέσουν robust προσεγγίσεις σε πολυπλοκότερες, µη γραµµικές σχέσεις [28]. Η συνάφεια που έχουν αυτά τα αξιοσηµείωτα αποτελέσµατα µε την έρευνα στα έµπειρα συστήµατα και την τεχνητή νοηµοσύνη δεν έχει επισηµανθεί παρά πρόσφατα [10, 57]. Έχει καταστεί σαφές ότι για να είναι αυτά τα αποτελέσµατα εφαρµόσιµα, θα πρέπει οι στόχοι να ικανοποιούν τουλάχιστον δύο συνθήκες: (1) το κριτήριο συµπεριφοράς θα πρέπει να είναι κάποια µονότονη συνάρτηση κάθε εισόδου δεδοµένων (input), και (2) θα πρέπει να υπάρχει κάποιο είδος θορύβου στις εισόδους δεδοµένων ή στο µοντέλο, έτσι ώστε ακόµη και η βέλτιστη επίδοση να είναι περιορισµένη. Αυτές οι συνθήκες φαίνεται ότι ισχύουν σε πολλούς διαγνωστικούς στόχους, σε πολύπλοκα πεδία όπως η Ιατρική. Παρ’ όλα αυτά, παραµένει άγνωστο πόσο καλή επίδοση µπορούν να έχουν, για διαφορετικά είδη διαγνωστικών στόχων, απλά γραµµικά µοντέλα απέναντι σε ανθρώπους-ειδικούς και σε έµπειρα συστήµατα. Απαιτείται περαιτέρω θεωρητική και εµπειρική έρευνα για τη χρησιµότητα των απλών µοντέλων. Ειδικό ενδιαφέρον έχει η αναγνώριση και ταυτοποίηση χαρακτηριστικών ιδιοτήτων των στόχων, οι οποίες θα ήταν χρήσιµες στην πρόβλεψη της σχετικής επίδοσης διαφόρων προσεγγίσεων. 2.7.4 Προβλήµατα των πρώιµων πιθανοκρατικών συστηµάτων Ο ενθουσιασµός για µεθόδους που βασίζονται στη θεωρία πιθανότητας και τη θεωρία αποφάσεων έσβησε στις αρχές της δεκαετίας του ’70. Παρά την ενθαρρυντική τους επίδοση, δε γνώρισαν ευρεία εφαρµογή για λόγους τόσο τεχνικούς όσο και κοινωνιολογικούς. Ένας από τους λόγους που αναφέρονται συχνά είναι τα περιορισµένα πεδία στα οποία η πιθανοκρατική προσέγγιση εφαρµόστηκε. Ένας δεύτερος λόγος είναι η αδικαιολόγητες απλουστευτικές παραδοχές του αµοιβαίου αποκλεισµού και της δεσµευµένης ανεξαρτησίας –και η άµεση δυσκολία διαχείρισης του προβλήµατος, που προκύπτει όταν γίνεται προσπάθεια υπέρβασης αυτών των παραδοχών. Γενικότερα, επικριτές της προσέγγισης έχουν επιδείξει την περιορισµένη εκφραστικότητα της απλουστευµένης κατά Bayes διατύπωσης, σηµειώνοντας την εµφανή έλλειψη προσαρµογής µεταξύ της αυστηρής, τυπικής, ποσοτικής προσέγγισης της πιθανοκρατικής συµπερασµατολογίας και της ποιοτικής προσέγγισης, χαρακτηριστικής της ανθρώπινης συλλογιστικής. Θεωρούν ότι αυτή η έλλειψη προσαρµογής οδηγεί σε προβλήµατα που αφορούν τόσο στην κωδικοποίηση της γνώσης των ειδικών αλλά και στην εξήγηση των αποτελεσµάτων της πιθανοκρατικής συµπερασµατολογίας, µε αποτέλεσµα οι χρήστες να µην τα κατανοούν και να µην τα εµπιστεύονται [26, 54, 125]. Ένα χρήσιµο µάθηµα από την πρώιµη έρευνα στην πιθανοκρατική συλλογιστική είναι η διάκριση µεταξύ επίδοσης των διαγνωστικών συστηµάτων και αποδοχής τους. Κατ’ αρχήν, θα περίµενε κανείς ότι καµία από τις αντιρρήσεις που προαναφέρθηκαν δε θα 51 ήταν ανυπέρβλητη µπροστά στο επιχείρηµα της ανώτερης διαγνωστικής επίδοσης. Άλλοι παράγοντες όµως παίζουν καθοριστικό ρόλο στον καθορισµό της αποδοχής. Τέτοιοι παράγοντες συµπεριλαµβάνουν το ελλιπές περιβάλλον διασύνδεσης µε το χρήστη (user interface) πολλών πρώιµων συστηµάτων [122] και, γενικότερα, την έλλειψη απόδοσης βαρύτητας στον τρόπο µε τον οποίο η χρήση τέτοιων συστηµάτων θα µπορούσε να ενσωµατωθεί στις συνήθειες και το περιβάλλον του χρήστη. 2.7.5 Προσεγγίσεις τεχνητής νοηµοσύνης στα έµπειρα συστήµατα Ο προβληµατισµός σχετικά µε τις περιοριστικές παραδοχές του απλοποιηµένου πιθανοκρατικού µοντέλου, µαζί µε την αντίληψη ότι µια έκρηξη συνδυαστικής ανάλυσης θα απειλούσε οποιαδήποτε προσπάθεια υπέρβασης αυτών των παραδοχών ή µετακίνησης σε ευρύτερα πεδία, οδήγησε σε άρση της γοητείας που ασκούσε αυτή η προσέγγιση. Την ίδια στιγµή, οι νέες τεχνικές ΑΙ που αναπτύσσονταν στις αρχές της δεκαετίας του ’70 φαίνονταν να προσφέρουν µια πολλά υποσχόµενη εναλλακτική πορεία στο σχεδιασµό έµπειρων συστηµάτων. Μαζί µε την ανάπτυξη ευρετικών µεθόδων συµπερασµατολογίας σηµειώθηκε µειωµένος προβληµατισµός για βελτιστοποίηση της πιθανοκρατικής µεθοδολογίας και για µεθόδους λήψης αποφάσεων και συµπερασµατολογίας υπό συνθήκες απροσδιοριστίας. Η προσοχή του µεγαλύτερου µέρους των ερευνητών ΑΙ εστιάστηκε στο κρίσιµο πρόβληµα της αναπαράστασης και συλλογιστικής µεγάλων ποσών γνώσης των ειδικών. Ειδικό ενδιαφέρον συγκέντρωνε η δυνατότητα εφαρµογής των τεχνικών συλλογιστικής της ΑΙ για την οικοδόµηση µεγαλύτερων συστηµάτων, που θα µπορούσαν να αξιοποιήσουν πλουσιότερη και µεγαλύτερης ποικιλίας γνώση ειδικών από εκείνη που φαινόταν εφικτή για συστήµατα κατά Bayes. Ένα βασικό χαρακτηριστικό του νέου προτύπου έµπειρου συστήµατος ήταν η εφαρµογή της αρχιτεκτονικής παραγωγικών κανόνων σε πραγµατικές διαγνώσεις. Οι παραγωγικοί κανόνες ασκούσαν έλξη καθώς παρείχαν ένα γενικό και εύκαµπτο (flexible) πλαίσιο αναπαράστασης της γνώσης των ειδικών σε µια δηλωτική και αρθρωτή µορφή. Ο παραγωγικός κανόνας έχει τη µορφή λογικής επίπτωσης. Για την εφαρµογή των παραγωγικών κανόνων σε πραγµατικά προβλήµατα, η αναπαράσταση επεκτάθηκε για να καλύψει την απροσδιοριστία, τόσο σχετικά µε την αλήθεια των προτάσεων όσο και για την εφαρµοσιµότητα του κάθε παραγωγικού κανόνα. Οι δύο γνωστότερες απόπειρες ανάπτυξης µιας αναπαράστασης για την απροσδιοριστία, ως επέκταση των αιτιοκρατικών έµπειρων συστηµάτων που βασίζονταν σε κανόνες, ήταν τα προγράµµατα MYCIN [8]και PROSPECTOR [37]. Το MYCIN σχεδιάστηκε για να υποβοηθά ιατρούς στη διάγνωση και θεραπεία βακτηριακών µολύνσεων. Το MYCIN εισήγαγε το µοντέλο των παραγόντων βεβαιότητας. Ο παράγοντας βεβαιότητας είναι ένας αριθµός που αντιπροσωπεύει το βαθµό της επιβεβαίωσης (µεταξύ 0 και 1) ή της διάψευσης (µεταξύ 0 και -1) κάθε πρότασης ή κανόνα. Η βασική αναπαράσταση γνώσης και το πλαίσιο συµπερασµατολογίας υπό συνθήκες απροσδιοριστίας έχουν διατεθεί σε άλλες εφαρµογές, όπως το EMYCIN και χρησιµοποιούνται από πολλά εµπορικά προγράµµατα έµπειρων συστηµάτων. 52 2.7.6 Προβλήµατα µε την αναπαράσταση της a priori πεποίθησης Μια κοινή αντίρρηση στις πιθανοκρατικές προσεγγίσεις είναι η δυσκολία αποτίµησης των a priori πεποιθήσεων –των αρχικών µέτρων της πεποίθησης στις υποθέσεις πριν να ληφθούν υπ’ όψιν νέες ενδείξεις. Τα εµπειρικά δεδοµένα αποκτούνται συχνά δύσκολα και οι υποκειµενικές εκτιµήσεις έχουν κριθεί ως αξιόπιστες. Πολλά ευρετικά προγράµµατα, συµπεριλαµβανοµένων των PROSPECTOR, CASNET, PIP, επίσης απαιτούν a priori πεποιθήσεις και άρα ούτε κι αυτά υπεισέρχονται σ’ αυτό το πρόβληµα. Μερικά άλλα, όπως το µοντέλο παραγόντων βεβαιότητας του MYCIN και το INTERNIST-1 (και ο διάδοχός του QMR), δείχνουν να µην απαιτούν a priori πεποιθήσεις στο συλλογισµό τους. Το µοντέλο παραγόντων βεβαιότητας του MYCIN αναπαριστά, συνδυάζει και διαδίδει τα αποτελέσµατα πολλαπλών πηγών ενδείξεων, µε όρους του συνδυαστικού τους βαθµού επιβεβαίωσης ή διάψευσης κάθε υπόθεσης ενδιαφέροντος. Άρα, σε αντίθεση µε τις πιο δηµοφιλείς ερµηνείες, ο παράγοντας βεβαιότητας αρχικά αποσκοπούσε στο να αναπαραστήσει µια ενηµέρωση ή µεταβολή στην πεποίθηση που προκαλείται από τις ενδείξεις [67], και όχι έναν απόλυτο βαθµό πεποίθησης (όπως µια πιθανότητα). Εποµένως δεν αναπαριστά εκπεφρασµένα τον a priori ή τον a posteriori βαθµό πεποίθησης σε κάθε υπόθεση. Μέσω της αναπαράστασης µόνο της µεταβολής του βαθµού πεποίθησης, φαίνεται ότι ξεπερνά την απαίτηση για a priori πεποιθήσεις. Όταν ένα σύστηµα που βασίζεται σε παράγοντες βεβαιότητας προτείνει µια απόφαση (π.χ. όταν το MYCIN προτείνει θεραπεία για µια υποπτευόµενη µόλυνση), κάνει χρήση των παραγόντων βεβαιότητας που έχουν ανατεθεί στις διάφορες ασθένειες για να αποτιµήσει το ποσόν των ενδείξεων για κάθε µια από αυτές. Επειδή λαµβάνει αποφάσεις χωρίς καµία εκπεφρασµένη αναφορά σε a priori πεποιθήσεις ή επιπολασµούς, στην πραγµατικότητα µεταχειρίζεται όλες τις µολύνσεις σαν να έχουν ίσες a priori πιθανότητες, σε συµφωνία µε µελέτες που δείχνουν ότι οι άνθρωποι τείνουν να αγνοούν τις a priori πιθανότητες όταν εκτελούν συλλογισµούς κάτω από συνθήκες απροσδιοριστίας. Τα συστήµατα INTERNIST-1 και QMR κάνουν αντίστοιχες παραδοχές [64]. Η παραδοχή των ίσων a priori πιθανοτήτων είναι βάσιµη όταν πιστεύεται ότι οι διαγνώσεις είναι ισοπίθανες και όταν δεν υπάρχει καµία διαθέσιµη πληροφορία σχετικά µε τις a priori πιθανότητες. Οι a priori πεποιθήσεις είναι συχνά διαθέσιµες, σε κάποιο επίπεδο ακρίβειας. Για παράδειγµα, έµπειροι ιατροί έχουν σηµαντική γνώση για τον επιπολασµό διαφόρων ασθενειών, ακόµη κι αν βρίσκουν δύσκολη την ακριβή ποσοτική τους έκφραση. Οι επιπολασµοί των ασθενειών συχνά διαφέρουν κατά πολλές τάξεις µεγέθους. Κάνοντας την παραδοχή ίσων a priori πιθανοτήτων µπορεί να οδηγηθούµε σε σοβαρά σφάλµατα στην πρόταση θεραπείας εάν αποδίδονταν συγκρίσιµοι παράγοντες βεβαιότητας σε δύο ασθένειες µε πολύ διαφορετικούς επιπολασµούς. Για παράδειγµα, η σχετικά συχνή µονοπυρήνωση και η σπάνια ασθένεια του Hodgkin µπορούν να εµφανίσουν συναφείς ενδείξεις (µικροσκοπικά χαρακτηριστικά σε βιοψία λεµφαδένων). Οι διαφορές στις a priori πιθανότητες µπορεί να είναι θεµελιώδους σηµασίας στη διάγνωση και τη θεραπεία. Τα σφάλµατα που συγκεντρώνονται από την παραδοχή ίσων a priori πιθανοτήτων είναι λιγότερο σηµαντικά σε πεδία όπου η ποιότητα και η ποσότητα των ενδείξεων τυπικά υπερκαλύπτει τις a priori ποσότητες. Ίσως να επιτρέπεται σε έναν µηχανικό γνώσης (knowledge engineer) να κάνει απλουστευτικές παραδοχές για τις a priori πιθανότητες όταν αυτές συνδυάζονται µε µια ανάλυση του κόστους αναπαράστασης 53 αυτής της a priori πληροφορίας. Γενικά, όµως, ακόµη και προσεγγιστική πληροφορία για τις a priori πιθανότητες µπορεί να αποδειχθεί πολύτιµη γνώση, σηµαντική για την εκπεφρασµένη αναπαράσταση ενός συστήµατος που βασίζεται στη γνώση (knowledge based system), και η απόρριψη αυτής της πληροφορίας µπορεί να οδηγήσει σε σηµαντικά σφάλµατα. Άλλα ευρετικά συστήµατα που ενσωµατώνουν a priori πιθανότητες παρουσιάζουν δυσκολίες λόγω της έλλειψης συνοχής µεταξύ των πιθανοτήτων. Για παράδειγµα, το PROSPECTOR χρησιµοποιεί πιθανότητες για την αναπαράσταση a priori βαθµών πεποίθησης στις υποθέσεις και στις µεταβλητές των ενδείξεων. Το σύστηµα χρησιµοποιεί δύο πιθανοκρατικές ποσότητες, που είναι περισσότερες από όσες απαιτούνται για τον ορισµό της κατανοµής συνδυαστικής πιθανότητας. Συγκεκριµένα, η ισχύς κάθε κανόνα που συνδέει την ένδειξη Ε µε την υπόθεση Η αναπαρίσταται από δύο αριθµούς που αντιπροσωπεύουν τους λόγους πιθανοφάνειας LS = p( E | H , ξ ) p( E | H , ξ ) και LN = p( E | H , ξ ) . p( E | H , ξ ) Αυτές οι ποσότητες αποτιµώνται από τον ειδικό, ανεξάρτητα µεταξύ τους. Η σχέση τους δεν είναι διαισθητικά προφανής και έτσι αναµένεται ότι γενικά δεν θα υπάρχει συνέπεια µεταξύ τους. 2.7.7 Προβλήµατα µε την modularity Ένα συχνά αναφερόµενο πλεονέκτηµα του πλαισίου αναπαράστασης µέσω κανόνων είναι η δυνατότητα πρόσθεσης ή αφαίρεσης κανόνων από µια γνωστική βάση χωρίς να απαιτείται η τροποποίηση άλλων κανόνων [27]. Αυτή η ιδιότητα αναφέρεται ως modularity. Η modularity των κανόνων σε ένα λογικό παραγωγικό σύστηµα είναι συνέπεια της γνήσια µονότονης συµπεριφοράς της λογικής: Μόλις επιβεβαιωθεί, η αλήθεια µιας πρότασης δε µπορεί να µεταβληθεί από άλλα γεγονότα. Η έννοια των κανόνων ως µια αρθρωτή αναπαράσταση της γνώσης σε αιτιοκρατικά παραγωγικά συστήµατα, επεκτάθηκε και σε µεθόδους συλλογιστικής µέσω κανόνων υπό συνθήκες απροσδιοριστίας. Η ανάλυση όµως της modularity έχει δείξει ότι οι απροσδιόριστες πεποιθήσεις είναι εγγενώς λιγότερο αρθρωτές από τις πεποιθήσεις που εκτιµούνται µε σιγουριά, καθιστώντας συχνά το λογισµό µέσω κανόνων ανεπαρκή για συλλογιστική υπό απροσδιοριστία [63]. Έχει γίνει σαφές ότι η παραδοσιακή παραδοχή της modularity, στις προσεγγίσεις που βασίζονται σε κανόνες συλλογιστικής υπό συνθήκες απροσδιοριστίας, έχει περιοριστικές επιπτώσεις που δεν είχαν συνειδητοποιηθεί αρχικά. Όλα τα αρθρωτά πλαίσια ενηµέρωσης κάνουν την παραδοχή ότι οι ενδείξεις που επιδρούν στο σχηµατισµό πεποίθησης για µια υπόθεση Η µπορούν να συνδυαστούν για να καθορίσουν µια συνολική επίδραση στην Η µέσα από την εξέταση της πεποίθησης για κάθε µια ένδειξη. Αν κάθε µια πεποίθηση σε µια ένδειξη αναπαρίσταται από ένα βαθµωτό, δε µπορούν να εκφράσουν τη δυνατή εξάρτηση µεταξύ τους. Αυτή η αναπαράσταση απλώς δεν είναι αρκετά πλούσια. Η καταγραφή των αποτελεσµάτων τυχαίων εξαρτήσεων σε ένα αρθρωτό πλαίσιο γενικά απαιτεί πληροφορία που δεν είναι διαθέσιµη σε µια τοπική συνδυαστική συνάρτηση. Η προσπάθεια για δηµιουργία συµπεριφοράς συνεπούς µε πολύπλοκες εξαρτήσεις µέσα σε ένα αρθρωτό πλαίσιο ενηµέρωσης της πεποίθησης είναι µια υπερβολική επιδίωξη 54 [67]. Άρα, δε µπορούµε να καταγράψουµε πληροφορίες για τυχαίες εξαρτήσεις µε χρήση απλών βαθµωτών συναρτήσεων. Όπως τα πρώιµα πιθανοκρατικά συστήµατα, οι δηµοφιλείς µέθοδοι που βασίζονται σε κανόνες επιβάλλουν ισχυρούς περιορισµούς στα είδη της εξάρτησης που µπορούν να αναπαρασταθούν µε αποτελεσµατικό τρόπο. Αντίθετα µε τις εκπεφρασµένες παραδοχές των απλοποιηµένων πιθανοκρατικών συστηµάτων, οι περιοριστικές παραδοχές των ευρετικών προσεγγίσεων είναι λιγότερο εµφανείς. Οι προσεγγίσεις που βασίζονται σε κανόνες, όπως και οι απλές πιθανοκρατικές προσεγγίσεις, δεν έχουν την απαραίτητη εκφραστικότητα για να αναπαραστήσουν µε συνοχή τις σχέσεις µεταξύ απροσδιόριστων πεποιθήσεων. Συνοψίζοντας, τα πρώιµα σχήµατα, που έκαναν χρήση απλοποιηµένων πιθανοκρατικών αναπαραστάσεων και πιθανοκρατικής συµπερασµατολογίας, συχνά αποδείχθηκαν επιτυχή µε όρους επίδοσης, συγκριτικά µε την αντίστοιχη επίδοση ανθρώπων - ειδικών, σε περιορισµένα πεδία. Τα συστήµατα όµως δεν έχουν ευρέως υιοθετηθεί για διάφορους λόγους, συµπεριλαµβανοµένων των εµφανώς εξωπραγµατικών παραδοχών τους και της ανικανότητάς τους να καλύψουν το φάσµα της ποιοτικής γνώσης που ήταν διαθέσιµη στον ειδικό. Αρχικά, τεχνικές ΑΙ εφαρµόστηκαν στην ανάπτυξη έµπειρων συστηµάτων, µε την ελπίδα ότι θα µπορούσαν να αποφύγουν τέτοιες αυθαίρετες παραδοχές και να ενσωµατώσουν ένα πλουσιότερο φάσµα ποιοτικής γνώσης µε µικρότερο τεχνικό κόστος. Πρόσφατες µελέτες, όµως, έχουν δείξει ότι πολλές πολύ γνωστές τεχνικές ΑΙ για αναπαράσταση γνώσης και συλλογιστική σε περιβάλλον απροσδιοριστίας κάνουν επίσης ισχυρές παραδοχές σχετικά µε τις a priori πιθανότητες και τη modularity. 2.8 Σύγχρονη έρευνα στην θεωρία αποφάσεων στα έµπειρα συστήµατα. Όπως είδαµε, έχει ασκηθεί δικαιολογηµένη κριτική στις περιοριστικές παραδοχές που, τόσο τα απλοποιηµένα πιθανοκρατικά σχήµατα, όσο και πολλές ευρετικές προσεγγίσεις, κάνουν προκειµένου να επιτύχουν την υπό απροσδιοριστία συµπερασµατολογία. Οι ερευνητές προσπαθούν να αναπτύξουν πλουσιότερες αναπαραστάσεις της γνώσης που να βασίζονται µε ένα πλαίσιο αρχών στην πιθανότητα και τη θεωρία αποφάσεων, και που να είναι ικανές να εκφράσουν, µε έναν ευέλικτο και ελεγχόµενο τρόπο, ένα ευρύτερο φάσµα τόσο ποιοτικής όσο και ποσοτικής γνώσης. Μεγάλο τµήµα αυτής της έρευνας έχει εστιαστεί στη χρήση γραφηµάτων ή δικτύων για την αναπαράσταση σχέσεων απροσδιοριστίας, συµπεριλαµβανοµένων των δικτύων πεποίθησης (belief networks) και των διαγραµµάτων επιρροής (influence diagrams). Αυτές οι αναπαραστάσεις µπορούν να διευκολύνουν την αποτίµηση a priori κατανοµών, να καταστήσουν τις παραδοχές εκπεφρασµένες και να επιτρέψουν την εύκολη διαχείριση των παραδοχών από µηχανικούς γνώσης και ειδικούς. 2.8.1 Αναπαράσταση γνώσης για προβλήµατα θεωρίας αποφάσεων Ο Howard αποκαλεί το πλήρες µοντέλο ενός προβλήµατος απόφασης ως βάση απόφασης [69]. Μια περιεκτική βάση απόφασης αποτελείται από συνιστώσες που αντιπροσωπεύουν τις εναλλακτικές επιλογές (alternatives), τις καταστάσεις (states), 55 τις προτιµήσεις (preferences) και τις σχέσεις (relationships) σε µια διαδικασία απόφασης. Οι αποφάσεις είναι οι εναλλακτικές πορείες δράσης που είναι διαθέσιµες σ’ εκείνον που λαµβάνει αποφάσεις. Οι εναλλακτικές καταστάσεις του κόσµου είναι εκείνοι οι παράγοντες ή µεταβλητές που θα αναπαρασταθούν εκπεφρασµένα στο µοντέλο, και το φάσµα αξιών που θεωρούνται λογικές ή δυνατές. Οι προτιµήσεις του ατόµου που λαµβάνει αποφάσεις αναπαρίστανται µέσω µιας κατάταξης σύµφωνα µε τις διάφορες δυνατές εκβάσεις. Η πληροφορία για της προτιµήσεις καταγράφει τους παράγοντες που είναι σηµαντικοί για να κριθεί πόσο επιθυµητές είναι εναλλακτικές εκβάσεις. Επίσης, περιγράφει την έκταση και τον τρόπο µε τον οποίο µπορούν να γίνουν συµβιβασµοί σχετικά µε την ικανοποίηση διαφόρων εκβάσεων. Όπως αναφέρθηκε νωρίτερα, τα συστήµατα τεχνητής νοηµοσύνης δεν αντιµετωπίζουν άµεσα την εκπεφρασµένη αναπαράσταση της γνώσης για τις προτιµήσεις. Η τελική συνιστώσα µιας βάσης απόφασης είναι το σύνολο των σχέσεων µεταξύ των καταστάσεων του κόσµου, των αποφάσεων και των προτιµήσεων. Γενικά, αυτές οι σχέσεις µπορούν να εκφραστούν λογικά, πιθανοκρατικά ή ποιοτικά. Πολλές αναπαραστάσεις της βάσης απόφασης έχουν αναπτυχθεί στις επιστήµες απόφασης. Αυτές περιλαµβάνουν κατανοµές συνδυαστικής πιθανότητας των µεταβλητών συνδυασµένες µε συναρτήσεις απώλειας, και δέντρα αποφάσεων [112], τα οποία παρουσιάζονται στη συνέχεια. Αν και οι αναπαραστάσεις αυτές είναι χρήσιµες και γενικές, δεν παρέχουν ένα ξεκάθαρο µέσο αναπαράστασης της ανεξαρτησίας, προσβάσιµο τόσο σε ανθρώπους όσο και σε µηχανές που εκτελούν συλλογισµούς. Τα διαγράµµατα επιρροής και τα δίκτυα πεποίθησης σχεδιάστηκαν για να ανταποκριθούν σε αυτή ακριβώς την απαίτηση. Θα αναφερθούµε εκτεταµένα στα δίκτυα κατά Bayes σε επόµενο κεφάλαιο. 2.8.2 ∆ιαγράµµατα Επιρροής και ∆ίκτυα Πεποίθησης Το διάγραµµα επιρροής [69, 99, 100] είναι µια γραφική γλώσσα αναπαράστασης της γνώσης που αναπαριστά τη βάση απόφασης. Είναι ένα ακυκλικό κατευθυντικό γράφηµα που περιέχει κόµβους οι οποίοι αντιπροσωπεύουν προτάσεις ή ποσότητες ενδιαφέροντος (δηλ. εναλλακτικές επιλογές, καταστάσεις) και βέλη που αντιπροσωπεύουν αλληλεπιδράσεις µεταξύ των κόµβων. Οι κόµβοι που αντιπροσωπεύουν προτάσεις συνδέονται µε ένα σύνολο αµοιβαία αποκλειόµενων και εξαντλητικών του δειγµατικού χώρου τιµών που αντιπροσωπεύουν εναλλακτικές δυνατές καταστάσεις. Τα βέλη αντιπροσωπεύουν αιτιοκρατικές, πιθανοκρατικές ή πληροφοριακές σχέσεις µεταξύ των κόµβων. Τα διαγράµµατα επιρροής αφ’ ενός περιγράφουν αυστηρά µια βάση απόφασης, αφ’ ετέρου έχουν µια ανθρωποστρεφή ποιοτική δοµή που διευκολύνει την καταγραφή της γνώσης και την επικοινωνία. Ένα διάγραµµα επιρροής για ένα ιατρικό πρόβληµα φαίνεται στο σχήµα 2.7. Το διάγραµµα κωδικοποιεί ένα πρόβληµα απόφασης σχετικά µε το αν πρέπει να γίνει µια εγχείρηση CABG (coronary artery bypass graft). Ο κίνδυνος σ’ αυτή την περίπτωση είναι το έµφραγµα του µυοκαρδίου (ΜΙ). Το παράδειγµα αυτό δείχνει τα τέσσερα διαφορετικά είδη κόµβων σε ένα διάγραµµα επιρροής. Οι κόµβοι απόφασης αντιπροσωπεύουν τις δυνατές δράσεις στη διάθεση του ατόµου που λαµβάνει τις αποφάσεις και είναι οι µεταβλητές που βρίσκονται υπό τον πλήρη έλεγχό του. Σχεδιάζονται ως ορθογώνια. Στο παράδειγµα φαίνονται δύο αποφάσεις: Ο κόµβος Αγγειογραφικός Έλεγχος παρέχει πληροφορίες για την έκταση της στεφανιαίας νόσου στον ασθενή, ενώ ο κόµβος Εγχείρηση Καρδιάς αναφέρεται 56 στην απόφαση να γίνει η CABG χειρουργική επέµβαση. Οι αποφάσεις που πρέπει να ληφθούν είναι κατά πόσον θα πρέπει να γίνουν όλες, µία ή καµία από τις διαδικασίες αυτές. Τα βέλη σ’ ένα διάγραµµα επιρροής δείχνουν ποια πληροφορία είναι διαθέσιµη (δηλ. τιµές απροσδιόριστων µεταβλητών ή αποφάσεις που έχουν ήδη ληφθεί) τη στιγµή που γίνεται η επιλογή. Το διάγραµµα δείχνει ότι όταν λαµβάνεται η απόφαση για χειρουργική επέµβαση, η έκβαση του Αγγειογραφικού ελέγχου θα είναι γνωστή, εάν ο έλεγχος έγινε. Οι κόµβοι τύχης αντιπροσωπεύουν καταστάσεις του κόσµου που είναι απροσδιόριστες. Συµβολίζουµε τους κόµβους τύχης µε κύκλους ή ελλείψεις. Υπάρχουν δύο τύποι κόµβων τύχης: οι στοχαστικοί και οι αιτιοκρατικοί (οι τελευταίοι σχεδιάζονται µε διπλούς κύκλους). Η πεποίθηση που σχετίζεται µε έναν στοχαστικό κόµβο τύχης είναι µια πιθανοκρατική συνάρτηση των εκβάσεων των προγονικών του κόµβων. Για παράδειγµα, η κατανοµή πιθανότητας των τιµών του κόµβου «Έτη ζωής» (δηλ. τα χρόνια ζωής που αποµένουν) εξαρτάται από το κατά πόσον η εγχείρηση καρδιάς έγινε (επειδή υπάρχει κάποιος κίνδυνος θανάτου από την εγχείρηση και µόνον) και από το µειωµένο κίνδυνο µιας µελλοντικής θανάσιµης καρδιακής προσβολής εάν η επέµβαση είναι επιτυχής. Η τιµή ενός αιτιοκρατικού ή ντετερµινιστικού κόµβου είναι µια αιτιοκρατική συνάρτηση των εκβάσεων των προγονικών του κόµβων. Στο ίδιο παράδειγµα κάνουµε την παραδοχή ότι υπάρχει µια αιτιοκρατική συνάρτηση που, βασιζόµενη στα χρηµατικά έξοδα της αγγειογραφίας, της χειρουργικής επέµβασης και της νοσοκοµειακής περίθαλψης που ακολουθεί µια καρδιακή προσβολή, υπολογίζει τα κόστη. Ο αιτιοκρατικός κόµβος τύχης αποτελεί ειδική περίπτωση του στοχαστικού κόµβου τύχης, καθώς η κατανοµή πιθανότητας είναι µια δέλτα συνάρτηση, αφού οι τιµές των προγόνων καθορίζουν µε βεβαιότητα την τιµή του κόµβου. Σχήµα 2.7 Τέλος, οι κόµβοι αξίας καταγράφουν τις προτιµήσεις του ατόµου που λαµβάνει τις αποφάσεις. Οι κόµβοι αυτοί συµβολίζονται µε ρόµβους. Οι πρόγονοι ενός κόµβου αξίας δείχνουν εκείνες τις εκβάσεις και τα χαρακτηριστικά που συµπεριλαµβάνονται στην αποτίµηση ενός σχεδίου ή µιας επιλογής. Για το παράδειγµά µας, τα χαρακτηριστικά είναι η ποιότητα ζωής, τα έτη ζωής και το κόστος. Το γράφηµα 57 δείχνει ότι η ποιότητα ζωής επηρεάζεται από τον πόνο στο στήθος σε ένα συγκεκριµένο επίπεδο προσπάθειας και από τη θνησιµότητα της επέµβασης. Η συνάρτηση αξίας (µια βαθµωτή συνάρτηση πραγµατικών τιµών) εµπεριέχει τις ανταλλαγές (tradeoffs) µεταξύ αυτών των χαρακτηριστικών για ένα συγκεκριµένο ασθενή καθώς επίσης και ατοµικές προτιµήσεις σχετικά µε τον κίνδυνο και το χρόνο. Μεγάλο τµήµα της έρευνας σχετικά µε την αναπαράσταση και συµπερασµατολογία µε αυτές τις γραφικές αναπαραστάσεις έχει εστιαστεί στα διαγράµµατα επιρροής που περιέχουν µόνον κόµβους τύχης [20, 69, 76, 87, 105, 115]. Αυτά τα γραφήµατα εκφράζουν αποκλειστικά σχέσεις µεταξύ των καταστάσεων, χωρίς να λαµβάνουν υπ’ όψιν τους εκπεφρασµένα αξίες και αποφάσεις. Πολλές διαφορετικές ονοµασίες έχουν δοθεί σ’ αυτές τις αναπαραστάσεις, όπως δίκτυα αιτιότητας (causal networks), δίκτυα κατά Bayes (Bayesian networks) και δίκτυα πεποίθησης (belief networks) [108]. Η εκφραστικότητα και η επάρκεια των διαγραµµάτων επιρροής βασίζεται στα τρία επίπεδα µέσω των οποίων αυτή η αναπαράσταση καθορίζεται: σχεσιακό, συναρτησιακό και αριθµητικό [69]. Μπορούµε να εκφράζουµε σχέσεις σε ένα επίπεδο χωρίς να αναφερόµαστε εκπεφρασµένα σε πιο ειδικά επίπεδα. Το σχεσιακό επίπεδο καταγράφει την ποιοτική δοµή του προβλήµατος, όπως αυτή εκφράζεται από την τοπολογία του δικτύου. Σ’ αυτό το επίπεδο, τα βέλη και οι κόµβοι περιγράφουν εξαρτήσεις µεταξύ των τιµών των προτάσεων ή µεταβλητών (κόµβων). Τα διαγράµµατα επιρροής στο σχεσιακό επίπεδο είναι παρόµοια µε πολλές συνήθεις αναπαραστάσεις στη µοντελοποίηση και την ΑΙ, όπως τα σηµασιολογικά δίκτυα (semantic nets). Κάθε µεταβλητή σε ένα διάγραµµα επιρροής σχετίζεται µε ένα σύνολο αµοιβαία αποκλειόµενων και συλλογικά εξαντλητικών τιµών. Για παράδειγµα, ο κόµβος «Πόνος στο στήθος» στο παράδειγµά µας χαρακτηρίζεται από τις τιµές καθόλου, ελαφρά ενόχληση και αίσθηση σύνθλιψης, ως αντίδραση σε ένα καθορισµένο επίπεδο προσπάθειας. Η «Στεφανιαία νόσος» χαρακτηρίζεται από κανένα, ένα αγγείο, δύο αγγεία και τρία αγγεία, που περιγράφουν τον αριθµό των αρτηριών στην καρδιά που νοσούν. Είναι σηµαντικό οι εκβάσεις κάθε κόµβου να ορίζονται µε αδιαµφισβήτητο τρόπο. Στο παράδειγµα, το βέλος µεταξύ των κόµβων «Στεφανιαία νόσος» και «Πόνος στο στήθος» εκφράζει τη γνώση σχετικά µε την ύπαρξη εξάρτησης µεταξύ των τιµών που η στεφανιαία νόσος και ο πόνος στο στήθος µπορούν να έχουν. Στο συναρτησιακό επίπεδο, καθορίζεται η συναρτησιακή µορφή των σχέσεων µεταξύ των κόµβων. Για παράδειγµα, καθορίζεται η µορφή της δεσµευµένης πιθανότητας που συσχετίζει την έκβαση (τιµή) της «Στεφανιαίας νόσου» µε την κατανοµή πιθανότητας επί των τιµών της µεταβλητής «Πόνος στο στήθος». Τέλος, στο αριθµητικό επίπεδο, καθορίζουµε αριθµητικές τιµές που χρησιµοποιούνται από τις συναρτησιακές µορφές. Αυτό το επίπεδο αναπαριστά τις ποσοτικές λεπτοµέρειες της εξάρτησης κάθε µεταβλητής από τους γονείς της (τους κόµβους που επιδρούν σ’ αυτή). Μια απροσδιόριστη επίδραση αναπαρίσταται από την κατανοµή δεσµευµένης πιθανότητας µιας µεταβλητής µε δεδοµένες τις τιµές των γονέων της. Σαν παράδειγµα, στο αριθµητικό επίπεδο, θα µπορούσαµε να καθορίσουµε ότι p(«Πόνος στο στήθος»=ελαφρά ενόχληση | «Στεφανιαία νόσος»=ένα αγγείο) = 0.25. Οι κόµβοι τύχης χωρίς προγόνους καθορίζονται στο αριθµητικό επίπεδο µε κατανοµές a priori πιθανότητας. 58 3. ΓΡΑΦΙΚΑ ΜΟΝΤΕΛΑ – ΓΡΑΦΗΜΑΤΑ ΑΝΕΞΑΡΤΗΣΙΑΣ Ένα γραφικό µοντέλο είναι µια οικογένεια συναρτήσεων πυκνότητας πιθανότητας που εµπεριέχει ένα συγκεκριµένο σύνολο περιορισµών δεσµευµένων ανεξαρτησιών, που εµφανίζονται σε ένα γράφηµα ανεξαρτησίας. Γραφική µοντελοποίηση είναι η στατιστική δραστηριότητα προσαρµογής γραφικών µοντέλων στα δεδοµένα. Υπό αυτή την έννοια, η γραφική µοντελοποίηση δεν είναι παρά άλλη µια στατιστική τεχνική, όπως η ανάλυση παλινδρόµησης, η ανάλυση διακύµανσης, η ανάλυση επιβίωσης κλπ, των οποίων τα κίνητρα και η φιλοσοφία µπορεί να περιγραφεί στο πλαίσιο της παραµετρικής στατιστικής µοντελοποίησης [22]. Η διαδικασία εξαγωγής συµπερασµάτων (inference) από δεδοµένα ακολουθεί τα εξής βήµατα: τα δεδοµένα αναπαριστώνται από ένα θεωρούµενο πιθανοκρατικό µοντέλο που περιλαµβάνει όρους για τη µοντελοποίηση του υποκειµένου στατιστικού µηχανισµού αλλά και του σχεδιασµού δειγµατοληψίας βάσει του οποίου δηµιουργήθηκαν τα δεδοµένα. Αυτή η διαδικασία προσφέρει µια οµαλή αναπαράσταση των δεδοµένων µέχρι του σηµείου που απαιτείται ο καθορισµός των τιµών κάποιων αγνώστων παραµέτρων. Συγκεκριµένες τιµές αυτών των παραµέτρων αντιστοιχούν σε ουσιαστικές υποθέσεις αναφορικά µε το υπόστρωµα του προβλήµατος, για παράδειγµα την εξαίρεση κάποιας συγκεκριµένης µεταβλητής από το σύνολο των επεξηγηµατικών µεταβλητών (explanatory set). Τα δεδοµένα και το πιθανοκρατικό µοντέλο συνδυάζονται στη συνάρτηση πιθανοφάνειας (likelihood function) η οποία δίνει ένα µέτρο σχετικής στήριξης σε διαφορετικές τιµές των παραµέτρων. Η διαδικασία εκλογής µοντέλου αντιµετωπίζει το πρόβληµα της επιλογής µεταξύ µιας ευρείας κλάσης ανταγωνιστικών µοντέλων και διαγνωστικοί έλεγχοι στις παραδοχές του µοντέλου πιθανόν να προτείνουν βελτιώσεις στο αρχικό µοντέλο, οδηγώντας σε µια επανάληψη της όλης διαδικασίας. Οι αρχές και οι τεχνικές της γραφικής µοντελοποίησης δεν είναι τίποτε περισσότερο ή τίποτε λιγότερο από µια στατιστική προσέγγιση µοντελοποίησης στην ανάλυση δεδοµένων, η οποία βασίζεται στην επιλογή ενός γραφήµατος ανεξαρτησίας για τον καθορισµό ενός συγκεκριµένου πιθανοκρατικού µοντέλου. 3.1 Ιστορική αναδροµή – Τα συστατικά των γραφικών µοντέλων Η χρήση γραφηµάτων για την αναπαράσταση στατιστικών µοντέλων έχει µακρά και πλούσια παράδοση, η οποία ξεκίνησε µε τον γενετιστή Sewall Wright [139], ο οποίος ανέπτυξε τη µέθοδο της ανάλυσης ίχνους (path analysis). Η µέθοδος αυτή αργότερα αποτέλεσε την καθιερωµένη αναπαράσταση αιτιοκρατικών µοντέλων στην Οικονοµία, Κοινωνιολογία και Ψυχολογία. Το γράφηµα, στο πλαίσιο αυτής της µεθόδου, αναπαριστά ένα σύστηµα εξαρτήσεων ή, σύµφωνα µε την ορολογία του Wright, ένα σύστηµα αιτιοκρατικών σχέσεων. Από την πλευρά της Στατιστικής, τα ιεραρχικά λογαριθµικά-γραµµικά µοντέλα (Hierarchical log-linear models) για πίνακες συνάφειας (contingency tables) έχουν συγκεντρώσει σηµαντικό ενδιαφέρον ανάµεσα στους ερευνητές. Τα µοντέλα αυτά ορίσθηκαν από τον Birch [5] ενώ πρωτοπόροι στην ανάπτυξή τους ήταν οι Bishop 59 [7], Goodman [50, 52], Haberman [55] και Bishop, Fienberg και Holland [6]. Έχουν εκτενώς χρησιµοποιηθεί από επιστήµονες κοινωνικών επιστηµών για την ανάλυση δεδοµένων σε µορφή πινάκων συνάφειας. Η ανάπτυξή τους έχει καταστήσει δυνατό τον ορισµό πολύπλοκων συνδυασµών µεταξύ των παραγόντων που κατηγοριοποιούν έναν πίνακα πολλών διαστάσεων. Από την άλλη πλευρά, τυπικές αναλύσεις δεδοµένων συνεχών µεταβλητών όπως αυτά συνοψίζονται από έναν πίνακα διακύµανσης ή συσχέτισης, έχουν παραδοσιακά βασιστεί σε τεχνικές που εξετάζουν γραµµικούς µετασχηµατισµούς, για παράδειγµα βασικές συνιστώσες (principal components) ή κανονικές µεταβλητές (canonical variates). Μια εναλλακτική προσέγγιση προτάθηκε από τον Dempster [36], σύµφωνα µε την οποία τα δεδοµένα ακολουθούν κανονική κατανοµή πολλών µεταβλητών ενώ συγκεκριµένα στοιχεία του αντιστρόφου του πίνακα διακύµανσης µηδενίζονται. Πρόκειται για τα µοντέλα επιλογής covariance (covariance selection models). Παρά το ότι η Wermuth [134] έδειξε την αναλογία των µοντέλων αυτών µε την κλάση των λογαριθµικών – γραµµικών, δεν έχουν τραβήξει την προσοχή της εφαρµοσµένης Στατιστικής. Οι διαφορετικές αυτές µέθοδοι στατιστικής ανάλυσης πολλών µεταβλητών, µαζί µε κάποια στοιχεία από τη Θεωρία Γραφηµάτων (Graph Theory), αποτέλεσαν τα συστατικά για την εµφάνιση των Γραφικών Μοντέλων. Η έννοια όµως εκείνη που αποτέλεσε το συνδετικό κρίκο αυτών των θεωριών είναι η έννοια της ανεξαρτησίας και της υπό συνθήκες (δεσµευµένης) ανεξαρτησίας. Αυτή υπήρχε ήδη σε εφαρµογές της παραγοντικής ανάλυσης και της ανάλυσης λανθάνουσας δοµής (latent structure analysis), όπου η δέσµευση γίνεται σε µη-παρατηρήσιµες µεταβλητές, όµως η αναγνώριση ότι η δεσµευµένη ανεξαρτησία έχει παρόµοια σπουδαιότητα και για παρατηρήσιµες µεταβλητές, καθυστέρησε πολύ. Πολλοί από αυτούς που χρησιµοποιούν ή µελετούν την εφαρµοσµένη Στατιστική πολλών µεταβλητών, τη θεωρούν µια συλλογή ή έναν κατάλογο από στατιστικές µεθόδους, οµαδοποιηµένες εξ’ αιτίας της χρησιµότητάς τους ως εργαλεία, αλλά µε µικρή λογική συσχέτιση, και, όπως τα εργαλεία σε µια εργαλειοθήκη, χωρίς κάποια τάξη. Για παράδειγµα, τα βιβλία Στατιστικής συχνά µεταχειρίζονται έννοιες όπως η µη-µετρική πολυδιαστατική ταξινόµηση (non-metric multidimensional scaling) στο ίδιο επίπεδο µε την παραγοντική ανάλυση (factor analysis). Αυτό δεν είναι σωστό, αφού η πρώτη δεν είναι παρά ένας υπολογιστικός αλγόριθµος ενώ η δεύτερη αφορά στη στατιστική ανάλυση ενός πλήρoυς πιθανοκρατικού µοντέλου. Με την ίδια λογική, η λέξη «ανάλυση» στην ανάλυση βασικών συνιστωσών (principal component analysis) έχει εντελώς διαφορετικό νόηµα απ’ ότι στην παραγοντική ανάλυση (factor analysis). Αυτό το έλλειµµα ενότητας και αυστηρότητας δεν είναι διανοητικά ικανοποιητικό και η ενότητα που υπάρχει περιορίζεται στις µεθόδους που βασίζονται στους πίνακες διακύµανσης-συνδιακύµανσης (variance-covariance) προϋποθέτοντας κανονικότητα (Normality). Η Στατιστική πολλών µεταβλητών χρειάζεται ένα ευρύτερο θεωρητικό πλαίσιο ενοποίησης, µέσα στο οποίο µπορούν να αναπτυχθούν πρακτικές εφαρµογές. Η έννοια της υπό συνθήκη ανεξαρτησίας προσφέρει ένα τέτοιο πλαίσιο. Η θεωρία των γραφηµάτων ανεξαρτησίας και οι σχετικές µε αυτή εφαρµογές γραφικής µοντελοποίησης, αποτελούν απλώς µια υλοποίηση της θεωρίας αυτής. 60 3.2 Στοιχεία Θεωρίας Γραφηµάτων Ένα γράφηµα (graph) G είναι ένα µαθηµατικό αντικείµενο που αποτελείται από δύο σύνολα, ένα σύνολο κόµβων (vertices, nodes) Κ και ένα σύνολο δεσµών (edges) Ε. Το σύνολο Ε αποτελείται από διατεταγµένα ζεύγη στοιχείων του Κ. Συνήθως θεωρούµε ως Κ το σύνολο των φυσικών αριθµών {1, 2, 3, …, k}. Υπάρχει κατευθυντικός δεσµός (directed) ή βέλος (arrow) µεταξύ των κόµβων i και j του Κ εάν το σύνολο Ε περιέχει το διατεταγµένο ζεύγος (i, j). Τότε ο κόµβος i λέγεται πατέρας (parent) του κόµβου j και ο κόµβος i λέγεται παιδί (child) του κόµβου i. Υπάρχει µηκατευθυντικός (undirected) δεσµός ή γραµµή (line) µεταξύ των κόµβων αυτών εάν το σύνολο Ε περιέχει και τα δύο ζεύγη (i, j) και (j, i). Το γράφηµα λέγεται µηκατευθυντικό εάν όλοι οι δεσµοί είναι µη-κατευθυντικοί. Θεωρούµε µόνον γραφήµατα µε έναν δεσµό ανά ζεύγος κόµβων και χωρίς βρόγχους. ∆ηλαδή επιτρέπουµε µεν µια διαδροµή να ξεκινά και να καταλήγει στον ίδιο κόµβο, αλλά όχι να περνά πό κάποιον κόµβο περισσότερες από µια φορές. Το διάγραµµα ενός γραφήµατος είναι µια εικόνα στην οποία κύκλοι αναπαριστούν κόµβους, γραµµές αναπαριστούν µη-κατευθυντικούς δεσµούς και βέλη κατευθυντικούς δεσµούς. Το γράφηµα µε Κ = {1, 2, 3, 4} και Ε = {(1, 2), (2, 1), (1, 3), (4, 3)} έχει διάγραµµα: 2 1 3 4 Οι κόµβοι i και j γειτνιάζουν, ή είναι γειτονικοί (adjacent) εάν ο µη-κατευθυντικός δεσµός µεταξύ των i και j υπάρχει στο Ε και µια γραµµή τούς συνδέει στο διάγραµµα του γραφήµατος. Εποµένως, στο παραπάνω διάγραµµα οι κόµβοι 1 και 2 είναι γειτονικοί, ενώ ούτε το ζεύγος 1 και 4 ούτε το ζεύγος 1 και 3 γειτνιάζουν. Με Gu συµβολίζουµε το γράφηµα που προκύπτει αντικαθιστώντας όλα τα βέλη στο G µε γραµµές. Μια διαδροµή (path) είναι µια ακολουθία κόµβων i1, i2, i3, …, για τους οποίους οι δεσµοί (il, il+1) ανήκουν στο σύνολο Ε για κάθε l = 1, 2, …, m-1. Υπάρχει ένα βέλος µεταξύ κάθε διαδοχικού ζεύγους. Η διαδροµή λέγεται κύκλος (cycle) εάν τα άκρα της διαδροµής επιτρέπεται να είναι ο ίδιος κόµβος, δηλαδή i1 = im. Στα µη-κατευθυντικά γραφήµατα, κάθε διαδοχικό ζεύγος κόµβων σε µια διαδροµή, είναι γειτονικοί. Ο κύκλος λέγεται άχορδος (chordless) εάν δεν υπάρχουν άλλοι κόµβοι που να είναι γειτονικοί, παρά µόνο διαδοχικά ζεύγη. ∆ύο κόµβοι i και j είναι συνδεδεµένοι (connected) εάν υπάρχει µια διαδροµή από τον i στον j και µια διαδροµή από τον j στον i. Ένα γράφηµα λέγεται συνδεδεµένο εάν όλα τα ζεύγη κόµβων είναι συνδεδεµένα. Ένα υποσύνολο των κόµβων διαχωρίζει (separates) δύο κόµβους i και j εάν κάθε διαδροµή που συνδέει τους δύο κόµβους περιέχει τουλάχιστον έναν κόµβο του διαχωριστικού συνόλου. Ένα υποσύνολο διαχωρίζει δύο υποσύνολα α και b κόµβων του Κ εάν διαχωρίζει κάθε ζεύγος i ∈ α και j ∈ b. Έστω α ⊆ Κ ένα υποσύνολο κόµβων του γραφήµατος. Οι γείτονες (neighbors) του α είναι εκείνοι οι κόµβοι του Κ αλλά όχι του α που γειτνιάζουν µε κάποιο κόµβο του α. Το σύνολο των γονέων (parents) του α είναι το σύνολο εκείνων των κόµβων του Κ 61 αλλά όχι του α που έχουν κάποιο παιδί στο α και συµβολίζεται µε pa(α). Η ένωση των γειτόνων του α µε τους γονείς του ονοµάζεται περίβληµα (boundary) του α και συµβολίζεται bd(α). Για τα µη-κατευθυντικά γραφήµατα, το περίβληµα και το σύνολο των γειτόνων είναι ένα και το αυτό. Με τον όρο υπο-γράφηµα (subgraph) του α, Gα , εννοούµε το γράφηµα που προκύπτει αν από το γράφηµα G σβήσουµε τους κόµβους που δεν ανήκουν στο υποσύνολο α µαζί µε όλους τους δεσµούς που δε συνδέουν δύο στοιχεία του α. Ένα γράφηµα ή υπο-γράφηµα λέγεται πλήρες (complete) όταν κάθε κόµβος συνδέεται µε όλους τους υπόλοιπους, µε κατευθυντικούς ή µη-κατευθυντικούς δεσµούς. Οµάδα (clique) λέγεται ένα υποσύνολο των κόµβων που επάγει ένα πλήρες υπογράφηµα αλλά για το οποίο η προσθήκη ενός επιπλέον κόµβου καθιστά το επαγόµενο υπο-γράφηµα µη πλήρες. Μια οµάδα λοιπόν συνιστά ένα οριακά πλήρες υπογράφηµα (maximally complete subgraph). Παράδειγµα: Το διάγραµµα του µη-κατευθυντικού γραφήµατος G = (K, E) µε Κ = {1, 2, 3, 4, 5, 6, 7} και σύνολο δεσµών Ε = {(1, 2), (2, 4), (2, 3), (2, 5), (3, 5), (4, 5), (5, 6)} ∪ {(2, 1), (4, 1), (3, 2), (5, 2), (5, 3), (5, 4), (6, 5)} είναι: 1 2 3 4 5 6 7 Υπάρχουν πολλές διαδροµές από το 1 στο 6 και 1, 2, 5, 6 είναι µια από αυτές, αλλά το γράφηµα δεν είναι συνδεδεµένο, αφού δεν υπάρχει καµία διαδροµή µεταξύ του 7 και τον υπολοίπων κόµβων. Το περίβληµα του κόµβου 1, bd(1) είναι το σύνολο των γειτόνων {2, 4}, και το περίβληµα του συνόλου {1, 2} είναι το σύνολο {3, 4, 5}. Ο κύκλος 1, 2, 5, 4, 1 είναι άχορδος, ενώ ο κύκλος 1, 2, 3, 5, 4, 1 δεν είναι άχορδος. Οι οµάδες του γραφήµατος είναι τα υποσύνολα {1, 2}, {1, 4}, {4, 5}, {2, 3, 5}, {5, 6} και {7}. Τα υπο-γραφήµατα που επάγονται από τα υποσύνολα {1, 2, 3} και {1, 2, 6} είναι αντίστοιχα: 1 2 3 Το πρώτο είναι συνδεδεµένο, το δεύτερο όχι. 62 1 2 6 ΓΡΑΦΗΜΑ ΑΝΕΞΑΡΤΗΣΙΑΣ Έστω Χ = (Χ1, Χ2, …, Χk) ένα διάνυσµα τυχαίων µεταβλητών και Κ = {1, 2, …, k} το αντίστοιχο σύνολο κόµβων. Το γράφηµα είναι γράφηµα ανεξαρτησίας –ή πιο σωστά γράφηµα υπό συνθήκη (δεσµευµένης) ανεξαρτησίας– εάν ένας δεσµός µεταξύ δύο κόµβων δεν υπάρχει στο γράφηµα όταν οι δύο µεταβλητές είναι ανεξάρτητες, µε δεδοµένες όλες τις µεταβλητές που αποµένουν. Θα χρησιµοποιούµε την απλοποιηµένη έκφραση 1 ╨ 2 | {3, 4} αντί της Χ1 ╨ Χ2 | {Χ3, Χ4} και έτσι η δήλωση ότι οι µεταβλητές Χi και Xj είναι ανεξάρτητες µε δεδοµένες τις υπόλοιπες µπορεί να γραφτεί ως i ╨ j | Κ \ {i, j}. Το µη-κατευθυντικό γράφηµα που παράγεται δίνει µια εικόνα της εξάρτησης ή σχέσης µεταξύ των µεταβλητών. Εποµένως έχουµε τον ακόλουθο ορισµό: Το γράφηµα δεσµευµένης ανεξαρτησίας (ή υπό συνθήκη ανεξαρτησίας) του διανύσµατος τυχαίων µεταβλητών Χ είναι το µη-κατευθυντικό γράφηµα G = (Κ, Ε) όπου Κ = {1, 2, …, k} και ο δεσµός (i, j) δεν υπάρχει στο σύνολο δεσµών Ε εάν και µόνον εάν Χi ╨ Xj | XK \ {i, j}. k 2 Ο αριθµός των γραφηµάτων δεσµευµένης ανεξαρτησίας για k µεταβλητές είναι 2 , λαµβάνοντας υπ’ όψιν όλους τους πιθανούς αριθµούς δεσµών και τις µεταθέσεις µεταξύ κόµβων. Εάν στην απαρίθµηση των πιθανών γραφηµάτων συµπεριλάβουµε και τα γραφήµατα όλων των πιθανών υποσυνόλων των µεταβλητών (δηλαδή και όλα τα γραφήµατα για k-1, k-2 κλπ µεταβλητές), τότε ο αριθµός ανεβαίνει σε i k 2 2 . ∑ i =0 i k Για παράδειγµα, εάν k=4, υπάρχουν 64 γραφήµατα δεσµευµένης ανεξαρτησίας µε τέσσερις κόµβους και 113 γραφήµατα µε 1 έως 4 κόµβους. 63 3.3 Ιδιότητες Markov Είδαµε ότι το γράφηµα δεσµευµένης ανεξαρτησίας ορίζεται µέσω της ανεξαρτησίας δύο µεταβλητών όταν οι υπόλοιπες είναι δεδοµένες. Υπάρχουν όµως εναλλακτικοί τρόποι ορισµού του. Το σύνολο αυτών των εναλλακτικών τρόπων ορισµού του γραφήµατος ανεξαρτησίας λέγεται ιδιότητες Markov και αποδεικνύεται ότι είναι ισοδύναµες. 1. Η κατά ζεύγη Markov ιδιότητα: Για τους κόµβους i και j που δεν είναι γειτονικοί, Xi ╨ Xj | Xα , όπου α = Κ \ {i, j} 2. Η γενική Markov ιδιότητα: Για όλα τα ξένα µεταξύ τους υποσύνολα α, b και c του Κ, όποτε τα b και c διαχωρίζονται από το α στο γράφηµα, τότε τα διανύσµατα Xb και Xc είναι ανεξάρτητα, όταν το διάνυσµα Χα είναι δεδοµένο Χb ╨ Xc | Xα Υπενθυµίζουµε ότι ένα υποσύνολο των κόµβων διαχωρίζει (separates) δύο υποσύνολα α και b κόµβων του Κ εάν κάθε διαδροµή που συνδέει δύο κόµβους i και j (i∈α και j∈b) περιέχει τουλάχιστον έναν κόµβο του διαχωριστικού συνόλου. 3. Η τοπική Markov ιδιότητα: Για κάθε κόµβο i , εάν α = bd (i) είναι το περίβληµά του και b το σύνολο των υπολοίπων κόµβων, τότε: Xi ╨ Xb | Χα, όπου b = Κ \ ({i} ∪ α) Ως παράδειγµα των σχέσεων ανεξαρτησίας που παράγονται εφαρµόζοντας τις ιδιότητες Markov σε ένα γράφηµα δεσµευµένης ανεξαρτησίας, θεωρήστε το παρακάτω γράφηµα: 1 5 4 2 3 Με βάση την κατά ζεύγη Markov ιδιότητα, οι σχέσεις ανεξαρτησίας που παράγονται είναι οι εξής: 1 ╨ 3 | {2, 4, 5} 1 ╨ 4 | {2, 3, 5} 3 ╨ 1 | {2, 4, 5} 3 ╨ 5 | {1, 2, 4} 4 ╨ 1 | {2, 3, 5} 5 ╨ 1 | {2, 3, 4} 64 5 ╨ 3 | {1, 2, 4} 1 ╨ 5 | {2, 3, 4} Από τον ορισµό της δεσµευµένης ανεξαρτησίας όµως, ισχύει ότι οι Χ ╨ Υ | Α και Υ ╨ Χ | Α είναι ισοδύναµες, άρα οι παραπάνω 8 σχέσεις περιορίζονται σε 4. Με βάση τη γενική Markov ιδιότητα, µερικές σχέσεις ανεξαρτησίας που παράγονται είναι οι εξής: {5, 4} ╨ {1} | {2}, {1, 3} ╨ {5} | {2,4} Αντίστοιχα, από την τοπική Markov ιδιότητα, έχουµε τις παρακάτω σχέσεις: 1 ╨ {3, 4, 5} | 2 3 ╨ {1, 5} | {2, 4} 4 ╨ 1 | {2, 3, 5} 5 ╨ {1, 3} | {2, 4} Υπάρχει και εδώ πλεονασµός, αφού η ανεξαρτησία των Χ3 και Χ5 µε δεδοµένα τα Χ2, Χ4 εµφανίζεται 2 φορές. Επίσης, η πρώτη σχέση υπονοεί ότι Χ1 ╨ Χ5 | Χ2, εποµένως ένα τµήµα της τελευταίας σχέσης και συγκεκριµένα το Χ1 ╨ Χ5 | {Χ2, Χ4} πλεονάζει. Για να ελέγξουµε ότι ένα σύνολο µεταβλητών είναι τοπικά Markov εν σχέσει µε ένα δεδοµένο γράφηµα, θα πρέπει να ελέγξουµε ότι η κατανοµή πιθανότητας ικανοποιεί για κάθε κόµβο i τη συνθήκη i ╨ (υπόλοιποι κόµβοι) | (περίβληµα του i). Tο αντίστροφο πρόβληµα, δηλαδή η κατασκευή του γραφήµατος όταν ξέρουµε ότι η κατανοµή ικανοποιεί την τοπική ιδιότητα Markov, είναι ένα πρόβληµα πολύ δυσκολότερο από το αντίστοιχο στην περίπτωση που ισχύει η κατά ζεύγη ιδιότητα Markov. Και είναι έτσι γιατί για κάθε κόµβο υπάρχουν 2k-1 τρόποι διαµέρισης των µεταβλητών που αποµένουν σε δύο σύνολα, το σύνολο περιβλήµατος και το σύνολο των υπολοίπων. 3.4 Ακυκλικά κατευθυντικά γραφήµατα ανεξαρτησίας Σε πολλές, αν όχι στις περισσότερες, µελέτες πολλών µεταβλητών υπάρχει έλλειψη συµµετρίας στους ρόλους που αυτές παίζουν, κάτι που αντιστοιχεί στην έννοια της αιτιοκρατίας και στην άποψη ότι αν το Χ αποτελεί αίτιο του Υ, τότε το Υ δε µπορεί να είναι αίτιο του Χ. Η σχέση “το Χ προκαλεί το Υ” αναπαρίσταται µέσω ενός κατευθυντικού γραφήµατος και της συνάρτησης πυκνότητας δεσµευµένης πιθανότητας fY | X. X Y Για παράδειγµα, υποθέστε ότι σε µια µελέτη που αφορά την εκπαίδευση µετρούνται η κοινωνική τάξη, Χ1, και το εισόδηµα, Χ2, της κεφαλής της οικογένειας και επίσης η διάκριση στην εκπαίδευση του µεγαλύτερου παιδιού της οικογένειας, Υ. Οι µεταβλητές δεν είναι συµµετρικές αλλά ικανοποιούν µια µερική κατάταξη. Επιθυµία µας είναι, πρώτον, να µάθουµε αν το Υ εξαρτάται και από το Χ1 και το Χ2, ελέγχοντας τις προτάσεις ανεξαρτησίας Υ ╨ Χ1 | Χ2 και Υ ╨ Χ2 | Χ1 και δεύτερον, να 65 αποτιµήσουµε την αλληλεπίδραση µεταξύ Χ1 και Χ2, χωρίς αναφορά στο Υ. Η δεσµευµένη ανεξαρτησία Χ1 ╨ Χ2 | Υ δεν έχει κάποιο ενδιαφέρον. Επεκτείνοντας τα γραφήµατα δεσµευµένης ανεξαρτησίας ώστε να περιέχουν κατευθυντικούς δεσµούς, ερχόµαστε αµέσως αντιµέτωποι µε το πρόβληµα των κατευθυντικών κύκλων όπως οι παρακάτω: 1 2 3 3 2 4 1 Σε πρώτη µατιά, οι κατευθυντικοί κύκλοι φαίνεται να βοηθούν στη µοντελοποίηση της ανάδρασης (feed-back): το Χ1 προκαλεί το Χ2, το οποίο προκαλεί το Χ3, το οποίο µε τη σειρά του προκαλεί το Χ1. ∆υστυχώς δεν υπάρχει συνδυαστική πιθανότητα (joint probability) κατάλληλη για να περιγράψει αυτή την κατάσταση. Για παράδειγµα, στον κατευθυντικό κύκλο µε 3 µεταβλητές που φαίνεται παραπάνω, θα θέλαµε να εκφράσουµε τη συνδυαστική συνάρτηση πυκνότητας σαν f3 | 2 . f2 | 1 . f1 | 3, αλλά πέρα από πολύ ειδικές περιπτώσεις αυτή δεν είναι µια καλά ορισµένη συνάρτηση πυκνότητας πιθανότητας. Εποµένως, στα επόµενα, γραφήµατα που περιέχουν κατευθυντικούς κύκλους δεν αναπαριστούν κατευθυντικά γραφήµατα ανεξαρτησίας. Αποδεικνύεται ότι η απαγόρευση κατευθυντικών κύκλων ισοδυναµεί µε την υπόθεση ότι οι κόµβοι υπόκεινται σε µια πλήρη διάταξη, δηλαδή ότι υπάρχει µια σχέση ≺ στα στοιχεία του Κ = {1, 2, …, k} τέτοια ώστε: για όλα τα i και j του συνόλου, (1) είτε i≺j ή j≺i, (2) η σχέση ≺ δεν είναι ανακλαστική, (3) η σχέση ≺ είναι µεταβατική, έτσι ώστε αν i≺j και j≺l, τότε i≺l. Σ’ αυτή την περίπτωση γράφουµε 1≺2≺…≺k και θεωρούµε ότι κάθε µεταβλητή έχει καλά ορισµένο παρελθόν και µέλλον. Όταν εφαρµόζεται στο κατευθυντικό γράφηµα, η διάταξη αυτή σηµαίνει ότι ένας δεσµός του γραφήµατος µπορεί να έχει µόνο µία δυνατή κατεύθυνση. Περιορίζοντας την προσοχή µας σε ακυκλικά γραφήµατα, διατηρούµε την έννοια της πατρότητας, στην οποία οι κόµβοι που αµέσως προηγούνται του κόµβου i είναι γνωστοί ως γονείς του i και συµβολίζονται µε pa(i). Εποµένως, σε ένα κατευθυντικό γράφηµα, οι συνθήκες ότι: (1) δεν υπάρχει κατευθυντικός κύκλος και (2) υπάρχει µια πλήρης διάταξη των κόµβων, είναι ισοδύναµες. Κάτω από το πρίσµα της απόδοσης παρελθόντος και µέλλοντος στις µεταβλητές ενός κατευθυντικού γραφήµατος, µπορούµε να ορίσουµε την έννοια του κατευθυντικού γραφήµατος ανεξαρτησίας. Σε αναλογία µε τα µη-κατευθυντικά γραφήµατα ανεξαρτησίας, στα οποία ένας δεσµός απουσίαζε όταν οι αντίστοιχες µεταβλητές ήταν ανεξάρτητες όταν οι υπόλοιπες ήταν δεδοµένες, η δέσµευση στα κατευθυντικά γραφήµατα γίνεται στις µεταβλητές που αποτελούν το παρελθόν. Έτσι, ισχύει το ακόλουθο θεώρηµα [133]: 66 Το κατευθυντικό γράφηµα ανεξαρτησίας του διανύσµατος τυχαίων µεταβλητών Χ είναι το κατευθυντικό γράφηµα G≺ = (K, E≺) όπου Κ = {1, 2, …, k}, Kj = {1, 2, …, j} και ο δεσµός (i, j), µε i≺j δεν υπάρχει στο σύνολο δεσµών Ε≺ εάν και µόνον εάν j ╨ i | K( j ) \ {i, j}. Αυτή η κρίσιµη διαφορά µεταξύ κατευθυντικών και µη- κατευθυντικών γραφηµάτων ανεξαρτησίας σηµαίνει ότι για µη-κατευθυντικά γραφήµατα οι προτάσεις ανεξαρτησίας είναι προτάσεις σχετικά µε µία συνδυαστική (joint) κατανοµή, ενώ για τα κατευθυντικά γραφήµατα είναι προτάσεις σχετικές µε µια ακολουθία περιθωριακών (marginal) κατανοµών. Αυτή η ακολουθία όµως έχει την ιδιότητα ότι περιέχει αρκετή πληροφορία για να ορίσουµε τη συνδυαστική κατανοµή, µέσω της ταυτότητας αναδροµικής παραγοντοποίησης (recursive factorization identity): f1, 2, …, k = fk | K(k) \ {k} fk-1 | K(k-1) \ {k-1} … f2 | 1 f1 Επειδή υπάρχει µια ενδογενής διάταξη των κόµβων, η εφαρµογή των ανεξαρτησιών για τον υπολογισµό της συνδυαστικής συνάρτησης πυκνότητας είναι άµεση. Παράδειγµα: Εάν για ένα 7-διάστατο διάνυσµα Χ ισχύουν οι παρακάτω κατά ζεύγη σχέσεις δεσµευµένης ανεξαρτησίας 2╨1 5 ╨ 3 | {1, 2, 4} 6 ╨ 4 | {1, 2, 3, 5} 7 ╨ 4 | {1, 2, 3, 5, 6} 3 ╨ 1 | {2} 5 ╨ 1 | {2, 3, 4} 6 ╨ 2 | {1, 3, 4, 5} 7 ╨ 3 | {1, 2, 4, 5, 6} 5 ╨ 2 | {1, 3, 4} 6 ╨ 1 | {2, 3, 4, 5} 7 ╨ 2 | {1, 3, 4, 5, 6} 7 ╨ 1 | {2, 3, 4, 5, 6}, το γράφηµα ανεξαρτησίας έχει το διάγραµµα: 1 4 5 2 3 6 7 Κάθε κατά ζεύγη ανεξαρτησία µπορεί αµέσως να εφαρµοστεί στην ταυτότητα αναδροµικής παραγοντοποίησης για να βρούµε τη µορφή της συνδυαστικής πυκνότητας: f 12…7 = f7 | 56 f6 | 53 f5 | 4 f4 | 123 f3 | 2 f2 f1 Είναι η διάταξη των κόµβων, που εδώ καθορίζεται αριθµητικά, που καθορίζει το σύνολο των δεσµεύσεων. 3.4.1 Ιδιότητες των κατευθυντικών γραφηµάτων Προκειµένου να εξετάσουµε τις ιδιότητες Markov των κατευθυντικών γραφηµάτων, θα πρέπει να κάνουµε µια διάκριση µεταξύ τους, εν σχέσει µε την ικανοποίηση της παρακάτω συνθήκης: 67 ΣΥΝΘΗΚΗ WERMUTH: Ένα κατευθυντικό γράφηµα ικανοποιεί τη συνθήκη Wermuth όταν κανένα από τα υπο-γραφήµατά του έχει τη διαµόρφωση Εάν µετατρέψουµε ένα κατευθυντικό γράφηµα G≺ σε µη-κατευθυντικό, λαµβάνοντας δηλαδή το Gu, τότε οι ιδιότητες του G≺ µπορούν να εξαχθούν από τις ιδιότητες του Gu µόνον όταν το G≺ ικανοποιεί τη συνθήκη Wermuth. Το “ηθικό” γράφηµα (moral graph) που αντιστοιχεί στο κατευθυντικό γράφηµα G≺ = (K, E≺) είναι το µη-κατευθυντικό γράφηµα Gm = (K, Em) µε το ίδιο σύνολο κόµβων και µε σύνολο δεσµών εκείνο το σύνολο που προκύπτει αν συµπεριλάβουµε όλους τους δεσµούς στο σύνολο E≺ µαζί µε τους απαραίτητους δεσµούς ώστε να απαλειφθούν από το G≺ απαγορευµένες κατά Wermuth διαµορφώσεις. Το γράφηµα αποκαλείται ηθικό επειδή παντρεύει τους γονείς. Ο όρος προέρχεται από τους Lauritzen και Spiegelhalter [82]. Παράδειγµα: 2 3 2 3 4 1 4 1 Το ακυκλικό κατευθυντικό γράφηµα και το αντίστοιχο ηθικό γράφηµα. Η συνθήκη Wermuth δεν ικανοποιείται επειδή οι µεταβλητές 1 και 3, που είναι οι γονείς της µεταβλητής 4, δεν είναι παντρεµένοι. Για την κατασκευή του ηθικού γραφήµατος, οι 1 και 3 συνδέονται µε µη-κατευθυντικό δεσµό και καταργείται η κατευθυντικότητα των υπολοίπων δεσµών. Το «πάντρεµα» των µεταβλητών 1 και 3 δεν καθιστά την 1 πατέρα της 3 και έτσι δεν εισάγει νέα απαγορευµένη διαµόρφωση στο υπο-γράφηµα {1, 2, 3}. Αποδεικνύεται [138] ότι ισχύει το ακόλουθο θεώρηµα: Το κατευθυντικό γράφηµα ανεξαρτησίας G≺ κατέχει τις ιδιότητες Markov του αντιστοίχου του ηθικού γραφήµατος Gm. Συνεχίζοντας το παράδειγµα της προηγούµενης παραγράφου για το 7-διάστατο διάνυσµα Χ µε παραγοντοποίηση f 12…7 = f7 | 56 f6 | 53 f5 | 4 f4 | 123 f3 | 2 f2 f1 68 βλέπουµε ότι οι σχέσεις ανεξαρτησίας µπορούν να αναγνωριστούν από το ηθικό γράφηµα Gm µε διάγραµµα: 1 4 5 2 3 6 7 1 4 5 2 3 6 7 Για παράδειγµα, ισχύει ότι 7 ╨ {1, 2} | {3, 4}, κάτι που δε συνάγεται εύκολα από τις αρχικές σχέσεις ανεξαρτησίας µέσω των οποίων ορίστηκε το γράφηµα. Το ηθικό γράφηµα µπορεί να αποκρύψει συγκεκριµένες σχέσεις ανεξαρτησίας. Στο παραπάνω παράδειγµα, µε βάση το G≺ ισχύει {3, 2} ╨ 1, αλλά το υπο-γράφηµα {1, 2, 3} είναι πλήρες στο Gm. Έχουµε εποµένως το ακόλουθο συµπέρασµα [135]: Εάν Gm = G≺ , τότε οι ιδιότητες Markov του κατευθυντικού γραφήµατος G≺ είναι ακριβώς οι ίδιες µε αυτές του Gm . ∆ηλαδή, όταν το ηθικό γράφηµα είναι ταυτόσηµο µε το γράφηµα που προκύπτει αν απλώς αγνοήσουµε την κατευθυντικότητα των δεσµών, χωρίς να χρειάζεται να παντρέψουµε κάποιους κόµβους, τότε οι ιδιότητες Markov του κατευθυντικού είναι ακριβώς ίδιες µε του ηθικού. Επιπλέον, θα είναι ίδιες µε τις ιδιότητες οποιουδήποτε κατευθυντικού γραφήµατος του οποίου το µη-κατευθυντικό γράφηµα είναι όµοιο µε αυτό το ηθικό γράφηµα. 1 2 3 1 2 3 1 2 3 Για παράδειγµα, τα 3 παραπάνω γραφήµατα έχουν ακριβώς τις ίδιες ιδιότητες Markov. 3.5 Αλυσιδωτά γραφήµατα ανεξαρτησίας Επεκτείνουµε τη θεωρία των γραφηµάτων ανεξαρτησίας, ώστε να συµπεριλάβει και γραφήµατα τόσο µε κατευθυντικούς όσο και µε µη-κατευθυντικούς δεσµούς. Πέρα από θεωρητική γενίκευση που πρέπει να περιλαµβάνει τις προηγούµενες καταστάσεις ως ειδικές περιπτώσεις, µια τέτοια αντιµετώπιση ταιριάζει καλύτερα σε προβλήµατα που περιέχουν µερικές µεταβλητές µε σαφή αιτιοκρατική σχέση και άλλες όπου η αλληλεπίδραση είναι αµφίδροµη. Θεωρούµε ότι οι κόµβοι υφίστανται µια µερική διάταξη ≺, σε αντίθεση µε την πλήρη διάταξη των κατευθυντικών γραφηµάτων. Η µερική διάταξη εξάγεται εάν υποθέσουµε ότι το σύνολο κόµβων Κ µπορεί να διαµεριστεί σε υποσύνολα b1, b2, …, bm που ονοµάζονται µπλοκ, τα οποία είναι πλήρως διατεταγµένα, δηλαδή τα µπλοκ σχηµατίζουν µια αλυσίδα. 69 Η µερική διάταξη στους κόµβους του Κ ξεχωριστά, είναι η εξής: i ≺ j όποτε i ∈ br και j ∈ bs και r < s, και i ≺ j όποτε i, j ∈ br . Οι γονείς του i στο br έρχονται από το παρελθόν b1∪b2∪ …, ∪br-1 και συνδέονται µε τον κόµβο i µέσω κατευθυντικών δεσµών. Τα στοιχεία του b1 είναι εν δυνάµει αιτίες για τα στοιχεία του b2, τα στοιχεία του b1∪b2 είναι εν δυνάµει αιτίες του b3 κλπ. Παράδειγµα: Θεωρήστε ένα σύστηµα 8 µεταβλητών Κ = {1, 2, …, 8} διαµερισµένο στα υποσύνολα b1 = {1, 2, 3}, b2 = {4}, b3 = {5, 6} και b4 = {7, 8} µε σύνολο δεσµών που ορίζεται από τους δεσµούς στο διάγραµµα b1 b2 1 b3 b4 5 2 4 6 7 3 8 Οποιαδήποτε δύο στοιχεία από διαφορετικά µπλοκ συνδέονται µόνο µε βέλος ενώ δύο στοιχεία από το ίδιο µπλοκ συνδέονται µόνο µε γραµµή. Θεωρήστε τον κόµβο 5 του µπλοκ b3. Οι γονείς του 5 είναι οι {1, 4} και βρίσκονται σε µπλοκ που προηγούνται του b3 ενώ ο κόµβος 6 είναι γείτονας του κόµβου 5. Συµβολίζοντας µε Κ(i) το σύνολο των κόµβων που αποτελούν το παρελθόν και το παρόν του κόµβου i, έχουµε: Κ(1) = b1, Κ(2) = b1, Κ(3) = b1, Κ(4) = b1∪b2, κλπ, έως Κ(8)=Κ. Σηµειώστε ότι Κ(5) = Κ(6) = {1, 2, 3, 4, 5, 6}. Η βασική που ικανοποιείται µε αυτή την κατασκευή είναι ότι κάθε δεσµός µεταξύ κόµβων του ίδιου µπλοκ είναι µη-κατευθυντικός ενώ για κόµβους διαφορετικών µπλοκ είναι κατευθυντικός, µε κατεύθυνση που καθορίζεται από τη διάταξη των µπλοκ. Αυτός ο ορισµός των µπλοκ, εξαιρεί γραφήµατα µε κατευθυντικούς κύκλους –όπως ακριβώς και ο ορισµός των πλήρως κατευθυντικών γραφηµάτων ανεξαρτησίας και επιπρόσθετα δεν επιτρέπει γραφήµατα µε κύκλους που περιέχουν τουλάχιστον έναν κατευθυντικό δεσµό, όπως τα παρακάτω: 1 2 3 70 1 2 3 Γραφήµατα όπως αυτά παραβιάζουν την υπόθεση της µερικής διάταξης, απαιτώντας να υπάρχει τουλάχιστον ένας κόµβος σε περισσότερα από ένα µπλοκ. Κύκλοι σαν αυτούς, που περιέχουν τουλάχιστον έναν κατευθυντικό κύκλο, όπως οι κύκλοι που περιέχουν αµιγώς κατευθυντικούς κύκλους, δε δέχονται µια λογική παραγοντοποίηση της συνάρτησης πυκνότητας συνδυαστικής πιθανότητας. Μπορούµε τώρα να ορίσουµε το γράφηµα ανεξαρτησίας µπλοκ από κατά ζεύγη δεσµευµένες ανεξαρτησίες λαµβάνοντας ως σύνολο δέσµευσης για κάθε σχέση το Κ(i), το σύνολο των µεταβλητών του παρελθόντος και του παρόντος αναφορικά µε τον κόµβο i, δηλαδή Κ(i) = b1 ∪ b2 ∪ …∪ br(i) όπου r(i) ο δείκτης για το µπλοκ που περιέχει τον κόµβο i. ΟΡΙΣΜΟΣ: Το αλυσιδωτό γράφηµα ανεξαρτησίας του διανύσµατος τυχαίων µεταβλητών Χ είναι το γράφηµα G≺ = (K, E≺), όπου Κ = {1, 2, …, k}, Κ(i) = Ul ≤ r(i) bl και ο δεσµός (i, j) µε i≺j δεν υπάρχει στο σύνολο δεσµών E≺ εάν και µόνον εάν j ╨ i | K(j) \ {i, j}. Εάν αυτή η συνθήκη δεν ικανοποιείται και i≺j τότε ο δεσµός είναι κατευθυντικός και µόνον (i, j) ∈ E≺ . Σε αντίθετη περίπτωση είναι µη-κατευθυντικός και τόσο ο δεσµός (i, j) όσο και ο δεσµός (j, i) ανήκουν στο E≺. Τέτοια γραφήµατα ονοµάζονται επίσης και µπλοκ-αναδροµικά (block recursive) [83]. To σύνολο Κ(i) ονοµάζεται παράλληλο παρελθόν (concurrent past). 3.5.1 Ιδιότητες Markov των αλυσιδωτών γραφηµάτων Το επιχείρηµα της προηγούµενης παραγράφου για την εξαγωγή των ιδιοτήτων των κατευθυντικών γραφηµάτων µπορεί να επεκταθεί και στα αλυσιδωτά γραφήµατα. Ξανά το κρίσιµο συστατικό που επιτρέπει την απόδοση των ιδιοτήτων του αντίστοιχου µη-κατευθυντικού γραφήµατος Gu είναι η ικανοποίηση της συνθήκης Wermuth και η αντικατάστασή του µε το ηθικό γράφηµα Gm εάν η συνθήκη δεν ικανοποιείται. Η συνθήκη Wermuth χρειάζεται όµως κάποια τροποποίηση: το σύνολο των πιθανών πατέρων πρέπει να συµπεριλάβει και όλους τους γονείς ενός συνδεδεµένου υποσυνόλου παιδιών. Η αναδροµική ταυτότητα παραγοντοποίησης εκφράζεται πλέον µε όρους µπλοκ m f K = f b1 ∏ f br | b1 ∪b2 ∪K∪br −1 .Το θεώρηµα Markov για τα αλυσιδωτά γραφήµατα r=2 ανεξαρτησίας µπορεί να διατυπωθεί ως εξής: Το κατευθυντικό γράφηµα ανεξαρτησίας G≺ κατέχει τις ίδιες ερµηνείες ανεξαρτησίας µε το αντίστοιχό του ηθικό γράφηµα Gm. Ως παράδειγµα εφαρµογής του, συνεχίζουµε το παράδειγµα της προηγούµενης παραγράφου. Οι σχέσεις ανεξαρτησίας που το ορίζουν είναι οι: 71 1╨3|2 5 ╨ 3 | {1, 2, 4, 6} 7 ╨ 1 | {2, 3, 4, 5, 6, 8} 8 ╨ 1 | {2, 3, 4, 5, 6, 7} 1╨2|3 6 ╨ 1 | {2, 3, 4, 5} 7 ╨ 2 | {1, 3, 4, 5, 6, 8} 8 ╨ 2 | {1, 3, 4, 5, 6, 7} 4 ╨ 1 | {2, 3} 6 ╨ 2 | {1, 3, 4, 5} 7 ╨ 3 | {1, 2, 4, 5, 6, 8} 8 ╨ 3 | {1, 2, 4, 5, 6, 7} 4 ╨ 3 | {1, 2} 6 ╨ 3 | {1, 2, 4, 5} 7 ╨ 4 | {1, 2, 3, 5, 6, 8} 8 ╨ 5 | {1, 2, 3, 4, 6, 7} 5 ╨ 2 | {1, 3, 4, 6} 6 ╨ 4 | {1, 2, 3, 5} 7 ╨ 5 | {1, 2, 3, 4, 6, 8} 8 ╨ 6 | {1, 2, 3, 4, 5, 7} Η αναδροµική ταυτότητα παραγοντοποίησης εκφρασµένη µε όρους µπλοκ είναι: f K = f b4 |b1∪b2 ∪b3 f b3|b1∪b2 f b2 |b1 f b1 και απλοποιείται στην: f12345678 = f 87|46 f 56|14 f 4|2 f1 f 23 = f 87|46 f 6|5 f 5|14 f 4|2 f1 f 23 Υπάρχουν δύο σχέσεις ανεξαρτησίας, εκείνη µεταξύ των 8 και 6 και εκείνη µεταξύ των 7 και 4 που δεν έχουν συµπεριληφθεί στην παραγοντοποίηση. Λαµβάνοντας υπ’ όψιν και αυτές, οδηγούµαστε στο ακόλουθο γράφηµα ανεξαρτησίας, που είναι φυσικά το ηθικό γράφηµα Gm. b1 b2 1 2 3 72 b3 b4 5 4 6 7 8 4. ΛΟΓΑΡΙΘΜΙΚΑ-ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ Το κεφάλαιο αυτό περιγράφει και προσαρµόζει γραφικά µοντέλα σε πίνακες συνάφειας πολλών διαστάσεων βασισµένους σε δειγµατοληψία από την crossclassified Πολυωνυµική κατανοµή. Προκύπτει ότι αυτά τα µοντέλα αποτελούν µια κλάση των ιεραρχικών λογαριθµικών-γραµµικών µοντέλων τα οποία ορίζονται µέσω της παραµετροποίησης της συνάρτησης πυκνότητας µε συντελεστές της λογαριθµικής-γραµµικής ανάπτυξης, δηλαδή µε τους u-όρους (u-terms). Κατ’ αρχήν, εισάγουµε κάποια στοιχεία συµβολισµού που θα χρησιµοποιηθούν και στη συνέχεια. Αµέσως µετά εισάγουµε την κατανοµή Bernoulli και τη γενικεύουµε στην cross-classified Πολυωνυµική κατανοµή µεγέθους 1. Αυτή η γενίκευση αφορά τόσο στον αριθµό των µεταβλητών όσο και στον αριθµό των διακριτών τιµών (επιπέδων) των µεταβλητών. Κατόπιν συγκρίνουµε δύο διαφορετικές παραµετροποιήσεις της συνάρτησης πυκνότητας: τον πίνακα πιθανοτήτων p και τους u-όρους (u-terms). Συσχετίζουµε συνθήκες επί των παραµέτρων αυτών µε προδιαγραφές του γραφήµατος ανεξαρτησίας και ορίζουµε τα γραφικά λογαριθµικάγραµµικά µοντέλα µηδενίζοντας συγκεκριµένους u-όρους. Μια απλοϊκή προσέγγιση της εκτίµησης παραµέτρων και εκλογής µοντέλου θα µπορούσε να είναι η εξής: • Ανάγουµε το σύνόλο των Ν παρατηρήσεων στον k-διάστατο πίνακα συνάφειας µε ταξινόµηση • Υπολογίζουµε τους u-όρους της πλήρους λογαριθµικής-γραµµικής ανάπτυξης αντιστρέφοντας τον πίνακα παρατηρήσεων • Εκτιµούµε το µέγεθος των u-όρων και αποφασίζουµε ποιοι είναι αµελητέοι και ποιοι όχι • Συνάγουµε συµπεράσµατα σχετικά µε την ανεξαρτησία και την ισχύ της συσχέτισης µεταξύ των µεταβλητών που cross-classify τον πίνακα. Τα προβλήµατα της παραπάνω προσέγγισης έγκεινται στο ότι είναι δύσκολο να αποφασίσει κανείς πόσο µικρός πρέπει να είναι ένας u-όρος για να θεωρηθεί αµελητέος, και ακόµη δυσκολότερο να αποφασίσει αν µια ολόκληρη συλλογή u-όρων πρέπει να θεωρηθεί αµελητέα. Ακόµη κι αν αυτό ξεπεραστεί, παραµένει το πρόβληµα της εκτίµησης των u-όρων που παραµένουν. Η χρήση του εκτιµητή από την εµπειρική λογαριθµική-γραµµική ανάπτυξη δεν είναι η καλύτερη µέθοδος, καθώς η προσαρµογή µοντέλου και η εκλογή του καταλληλότερου είναι δύο διαδικασίες που πρέπει να διαχωριστούν. Μια συστηµατική διαδικασία εξαγωγής συµπερασµάτων (inference) βασίζεται στη συνάρτηση πιθανοφάνειας που συγκροτείται από ένα τυχαίο δείγµα ανεξαρτήτων και πανοµοιότυπα κατανεµηµένων παρατηρήσεων σε µια cross-classified Πολυωνυµική κατανοµή. Το µέγιστο της συνάρτησης βρίσκεται από ένα σύνολο εξισώσεων που συνοψίζονται στο σλόγκαν «παρατηρηθείσες τιµές = προσαρµοσµένες τιµές» για όλα τα margins του πίνακα που αντιστοιχούν στους u-όρους που εµφανίζονται στο µοντέλο. 73 Η deviance (αποκλίνουσα), δηλαδή το διπλάσιο του στατιστικού τεστ µεγιστοποίησης του λόγου της λογαριθµικής πιθανοφάνειας για τον έλεγχο ενός συγκεκριµένου µοντέλου έναντι του κορεσµένου (saturated) µοντέλου, αποδεικνύεται ότι απλοποιείται στην: dev(M ) = 2 ∑ παρατηρ ⋅ log στοιχεία πίνακα παρατηρ προσαρµ (Μ ) Η deviance που αντιστοιχεί στην εξαίρεση ενός δεσµού από το πλήρες γράφηµα, δηλαδή η deviance εξαίρεσης δεσµού αποτελεί σπουδαίο εργαλείο για την εκλογή γραφικών µοντέλων. 4.1 Στοιχεία συµβολισµού 4.1.1 Τυχαίες µεταβλητές και συναρτήσεις πυκνότητας Χρησιµοποιούµε κεφαλαία γράµµατα για τυχαίες διακριτές µεταβλητές και µικρά για τις τιµές που αυτές παίρνουν. Η συνάρτηση πυκνότητας πιθανότητας που συµβολίζεται µε f είναι µια συνάρτηση από τους µη-αρνητικούς ακεραίους στους µηαρνητικούς πραγµατικούς και καθορίζεται από τον τύπο Εποµένως η fX (x) είναι η τιµή της συνάρτησης πυκνότητας fX , της τυχαίας µεταβλητής Χ στην τιµή x. Η αναµενόµενη τιµή της τυχαίας µεταβλητής συµβολίζεται µε Ε(Χ) και ορίζεται ως ∑ xf (x) . Υποθέτουµε ότι αυτή η συνάρτηση, όπως και άλλες ροπές όπως η διακύµανση είναι πάντα καλά ορισµένες. Οµοίως, fXY είναι η συνδυαστική συνάρτηση πυκνότητας των τυχαίων µεταβλητών Χ και Υ, και µε fX συµβολίζουµε την περιθωριακή (marginal) συνάρτηση πυκνότητας της Χ, που δίνεται από την f X ( x) = ∑ f XY ( x, y ) , δηλαδή αθροίζοντας για όλα τα y. Αντίστοιχα η fY είναι η y περιθωριακή συνάρτηση f Y ( y ) = ∑ f XY ( x, y ) . πυκνότητας της Y, που δίνεται από την x Η δεσµευµένη (υπό συνθήκη) πυκνότητα της Y µε δεδοµένη την Χ είναι η f Y | X = f XY fX f XY ( x, y ) . Εάν θέλουµε να δηλώσουµε το x f X ( x) εκπεφρασµένα στον τύπο, µπορούµε να γράψουµε f Y | X ( y ; x) . Πάντα θα θεωρούµε που δίνεται από την fY |X ( y) = ότι η πυκνότητα είναι οµαλή, συνεχής και θετική. 4.1.2 Τυχαία διανύσµατα Ένα τυχαίο διάνυσµα είναι ένα διατεταγµένο σύνολο τυχαίων µεταβλητών έτσι ώστε αν Χ1 και Χ2 είναι δύο τυχαίες µεταβλητές, τότε το Χ = (Χ1, Χ2) είναι ένα τυχαίο διάνυσµα. Τα διανύσµατα (Χ1, Χ2), (Χ2, Χ1) είναι διαφορετικά, παρά το ότι τα σύνολα {Χ1, Χ2}, {Χ2, Χ1} είναι ταυτόσηµα. Αν το Χ είναι διάνυσµα στον k-διάστατο 74 Ευκλείδειο χώρο, τότε το θεωρούµε ως διάνυσµα-στήλη, ακόµη κι αν για τυπογραφικούς λόγους γράφεται σα γραµµή. 4.2 Η κατανοµή Bernoulli Μια τυχαία κατανοµή Bernoulli είναι η απλούστερη που µπορεί κανείς να φανταστεί. Καταγράφει το αποτέλεσµα ενός πειράµατος που έχει µόνο δύο πιθανά ενδεχόµενα, το οποίο δηλώνεται από µια τυχαία µεταβλητή Χ που παίρνει την τιµή 1 µε πιθανότητα p και 0 µε πιθανότητα 1-p. Η κατανοµή Bernoulli αποτελεί το βασικό στοιχείο οικοδόµησης της ∆ιωνυµικής κατανοµής και –µε τη χρήση ενός επιχειρήµατος συνέχειας– της κατανοµής Poisson. Μια Bernoulli τυχαία µεταβλητή Χ έχει συνάρτηση πυκνότητας πιθανότητας f X ( x) = p x (1 − p )1− x για x = 0, 1 και 0 ≤ p ≤ 1 . Το διάνυσµα Bernoulli δύο µεταβλητών, (Χ1, Χ2), παίρνει τις τιµές (0, 0), (0, 1), (1, 0) και (1, 1) στο Καρτεσιανό γινόµενο {0, 1}2 = {0, 1} x {0, 1} του συνόλου {0, 1} µε τον εαυτό του. Η συνάρτηση πυκνότητάς του καθορίζεται από την f12 ( x1 , x2 ) = p12 ( x1 , x2 ) για x1 = 0, 1 και x2 = 0, 1, όπου p12(x1, x2) ο πίνακας πιθανοτήτων: p12(x1, x2) x2 = 0 x2 = 1 σύνολο x1 = 0 p(0, 0) p(0, 1) p1(0) x1 = 1 p(1, 0) p(1, 1) p1(1) σύνολο p2(0) p2(1) 1 Ο περιθωριακός πίνακας πιθανοτήτων είναι p1(x1) = p(x1, 0) + p(x1, 1), x1 = 0, 1 p2(x2) = p(0, x2) + p(1, x2), x1 = 0, 1. Η περιθωριακή συνάρτηση πυκνότητας της Χ1 είναι Bernoulli µιας µεταβλητής µε f1 ( x1 ) = p1 ( x1 ) για x1=0, 1 και η συνάρτηση πυκνότητας δεσµευµένης πιθανότητας της Χ1 µε δεδοµένη τη Χ2 είναι και πάλι Bernoulli µιας µεταβλητής µε f1| 2 ( x1 ; x2 ) = p12 ( x1 , x2 ) για x1=0, 1και κάθε συγκεκριµένο x2 p2 ( x2 ) Εποµένως οι Χ1 και Χ2 είναι ανεξάρτητες εάν και µόνον εάν ο πίνακας πιθανοτήτων p ικανοποιεί την p12 ( x1 , x2 ) = p1 ( x1 ) p2 ( x2 ) για όλα τα ( x1 , x2 ) ∈ {0, 1}2 75 4.3 Cross classified Πολυωνυµική κατανοµή Ένας τυπικός τρόπος αναφοράς σε ένα στοιχείο ενός πίνακα πιθανοτήτων ταξινοµηµένου από τέσσερις παράγοντες είναι να το δηλώσουµε ως pijkl αλλά προφανώς δε µπορούµε να χρησιµοποιήσουµε αυτό το συµβολισµό για να µιλήσουµε για k-διάστατους πίνακες όταν το k είναι τυχαίο. Η λύση µπορεί να δοθεί χρησιµοποιώντας το συµβολισµό προβολής συντεταγµένων, τον οποίο εισάγουµε παρακάτω. 4.3.1 Συναρτήσεις προβολής συντεταγµένων Έστω Χ το τυχαίο διάνυσµα που περιέχει όλες τις υπό µελέτη τυχαίες µεταβλητές, ώστε Χ = (Χ1, Χ2, …, Χk), όπου Χi είναι η i-στή συντεταγµένη του Χ. Η συνάρτηση πυκνότητας fX του Χ ορίζεται από τη συνδυαστική συνάρτηση πυκνότητας f X1 , X 2 , ..., X K , και θα συµβολίζεται πιο συνοπτικά ως f12…k. Προκειµένου να εξάγουµε το κατάλληλο υπο-διάνυσµα του Χ θα χρησιµοποιήσουµε τη θεωρία συνόλων στο επίπεδο του δείκτη, µια τακτική που προτάθηκε από τους Darroch, Lauritzen και Speed [25]. Έτσι, έστω Κ = {1, 2, …, k} το σύνολο που περιέχει όλους τους δείκτες και α = {i1, i2, …, ip} ένα τυχαίο υποσύνολο του Κ. Ορίζουµε το τυχαίο διάνυσµα Χα ως εξής: X a = ( X i1 , X i2 , ..., X i p ) = ( X i ; i ∈ a ) . Τότε το ΧΚ = Χ, το Χ∅ είναι το µηδενικό διάνυσµα, ενώ το ΧΚ\{i} συµβολίζει το υποδιάνυσµα του Χ που προκύπτει αν εξαιρέσουµε το Χi. Για παράδειγµα, έστω ότι Χ=(Χ1, Χ2, Χ3), ώστε Κ={1, 2, 3} και το υπο-διάνυσµα (Χ1, Χ3) συµβολίζεται ως Χ{1,3} ή X K \ {2} . Για ευκολία, παραλείπουµε τα κόµµατα και τα άγκιστρα και αντί του Χ{1,3} γράφουµε Χ13 . Μια τελευταία παραδοχή είναι απαραίτητη. Στο παραπάνω παράδειγµα, k=3, α={1, 3}, b={2} και τα α, b διαµερίζουν το Κ, εποµένως θέλουµε τα (Χα, Χb) και Χ=(Χ1, Χ2, Χ3) να είναι ταυτόσηµα. Για να είναι αυτό εφικτό, µια αναδιάταξη πρέπει να λαµβάνει χώρα κάθε φορά που γράφουµε τα διανύσµατα σε ανεπτυγµένη µορφή: (Χα, Χb) = ((Χ1, Χ3), Χ2) = (Χ1, Χ2, Χ3) = Χ, έτσι ώστε Χα∪b = (Χα, Χb). Η συνάρτηση πυκνότητας του Χ =Χα είναι f X αλλά για να αποφύγουµε τους διπλούς a δείκτες γράφουµε f a . Στο παράδειγµα, η συνάρτηση πυκνότητας του Χ{1,3} = (Χ1, Χ3) είναι f{1,3} = f13. Γενικότερα, η συνάρτηση πυκνότητας του Χα∪b = (Χα, Χb) συµβολίζεται µε fα∪b ή fαb. Επιστρέφοντας στην περιγραφή του πίνακα πιθανοτήτων, αν µε xi συµβολίζουµε όλες τις πιθανές τιµές που µπορεί να πάρει η i-στή µεταβλητή, τότε το x = (x1, x2, …, xk) συµβολίζει ένα συγκεκριµένο στοιχείο στον πίνακα και το X = (X1, X2, …, Xk) είναι 76 µια k-διάστατη διακριτή παρατήρηση ή τυχαίο διάνυσµα. Για να τονίσουµε τη διάστασή τους, βάζουµε ως δείκτη το σύνολο Κ, δηλαδή ΧΚ και xK . Η πιθανότητα που αντιστοιχεί σε κάθε κελλί του πίνακα πιθανοτήτων είναι p(x) = Prob(X = x). Για παράδειγµα, εάν ένα άτοµο επιλέγεται τυχαία από ένα µεγαλύτερο πληθυσµό, τότε η πιθανότητα αυτό το άτοµο να χαρακτηρίζεται ως άνδρας, καπνιστής και µε Πανεπιστηµιακή µόρφωση, θα µπορούσε να γραφτεί ως p(1, 0, 4). Όπως είδαµε, η παρατήρηση µπορεί να διαµεριστεί στα σε υπο-διανύσµατα Χ = (Χα, Χb). Το περιθωριακό υπο-διάνυσµα Χα παίρνει δείκτες στο υποσύνολο a ⊆ K και ορίζεται ως η προβολή συντεταγµένων X a = ( X i ; i ∈ a) . Οι τιµές, xα , που παίρνει αυτό το υπο-διάνυσµα είναι κελλιά σε ένα περιθωριακό πίνακα και ο αντίστοιχος περιθωριακός πίνακας πιθανοτήτων είναι pα(xα) ή pα για συντοµία. Εάν το πλήρες διάνυσµα Χ = ΧΚ έχει τον πίνακα πιθανοτήτων p = pK τότε ο περιθωριακός πίνακας για το Χα είναι: pa ( xa ) = ∑ p K ( xa , xb ) . xb Θα χρησιµοποιούµε την ίδια σύµβαση και για τους πίνακες µετρήσεων και έτσι µε n(x) συµβολίζουµε τον αριθµό των εγγραφών στο κελλί x του πλήρους πίνακα ενώ µε nαxα τον αριθµό των εγγραφών στο κελλί xa του περιθωριακού πίνακα. Όταν κάθε µεταβλητή είναι δυαδική, δηλαδή έχει µόνο δύο ενδεχόµενα, η δοµή του πίνακα είναι απλή: η τυχαία µεταβλητή Bernoulli παίρνει τιµές στο σύνολο {0, 1} και γενικεύοντας στις k-διαστάσεις, το διάνυσµα Bernoulli πολλών µεταβλητών παίρνει τιµές στο Καρτεσιανό γινόµενο {0, 1}k του συνόλου {0, 1) µε τον εαυτό του. Γεωµετρικά, είναι το σύνολο που αποτελείται από τις 2k κορυφές ενός k-διάστατου υπερ-κύβου. Επειδή πολλές categorical µεταβλητές έχουν περισσότερα από δύο ενδεχόµενα, θα πρέπει να γενικεύσουµε για διακριτές µεταβλητές που παίρνουν τιµές σε ένα πεπερασµένο σύνολο. Έτσι θεωρούµε ότι κάθε συντεταγµένη Χi του Πολυωνυµικού τυχαίου διανύσµατος Χ παίρνει τιµές σ’ ένα σύνολο {0, 1, 2, …, ri -1} και το kδιάστατο Πολυωνυµικό τυχαίο διάνυσµα X = (X1, X2, …, Xk) παίρνει τιµές στο καρτεσιανό γινόµενο αυτών των συνόλων. ΟΡΙΣΜΟΣ: Το k-διάστατο τυχαίο διάνυσµα ακολουθεί την cross-classified Πολυωνυµική κατανοµή µεγέθους 1 εάν και µόνον εάν η συνάρτηση πυκνότητάς του fK δίνεται από το µη-µηδενικό πίνακα πιθανοτήτων pK. ∆ηλαδή, f K ( x) = p K ( x) όπου ο pK είναι τέτοιος ώστε pK(x)>0 για όλα τα x και ∑p K ( x) = 1 . x Η απαίτηση για θετικό pK εξασφαλίζει την ύπαρξη της λογαριθµικής-γραµµικής ανάπτυξης και ότι υπάρχουν όλες οι συναρτήσεις πυκνότητας δεσµευµένων πιθανοτήτων. 77 4.4 Περιθωριακές και δεσµευµένες κατανοµές Η οικογένεια των cross-classified Πολυωνυµικών συναρτήσεων πυκνότητας είναι κλειστή ως προς τις πράξεις της περιθωριοποίησης και της δέσµευσης. Πρώτον, εάν το διαµερισµένο τυχαίο διάνυσµα (Χα, Χb) έχει πίνακα πιθανοτήτων pK , τότε η περιθωριακή κατανοµή τού Χα: λαµβάνεται αθροίζοντας για τις τιµές του Χb: f a ( x a ) = ∑ f K ( x a , xb ) = ∑ p K ( x a , xb ) = p a ( x a ) , xb xb για όλα τα xα. Καθώς το pK >0 και έχει άθροισµα µονάδα, το ίδιο ισχύει και για το pα και κατά συνέπεια είναι ίδιας µορφής µε τον ορισµό της Πολυωνυµικής µεγέθους 1. ∆εύτερον, η συνάρτηση πυκνότητας δεσµευµένης πιθανότητας του Χb µε δεδοµένο το Χα είναι: f b| a ( xb ; xa ) = pab ( xa , xb ) για όλα τα xb. pa ( xa ) Το δεξί σκέλος είναι αυστηρά θετικό και αθροίζεται στη µονάδα για κάθε συγκεκριµένη τιµή του xa, και έτσι είναι της µορφής πίνακα πιθανοτήτων τον οποίο µπορούµε να συµβολίσουµε µε pb| a . Άρα η δεσµευµένη κατανοµή είναι επίσης Πολυωνυµική µεγέθους 1. Μπορούµε πλέον να επαναδιατυπώσουµε τον ορισµό της δεσµευµένης ανεξαρτησίας: Το διαµερισµένο Πολυωνυµικό διάνυσµα (Χα, Χb, Χc) ικανοποιεί την Xb ╨ Xc | Xa εάν και µόνον εάν pabc = pac p ab pa 4.5 Λογαριθµικές-γραµµικές αναπτύξεις και u-όροι Θεωρήστε την περίπτωση της συνάρτησης πυκνότητας της δυδιάστατης Bernoulli που δίνεται από την f12 ( x1 , x2 ) = p ( x1 , x2 ) = p (0, 0) (1− x1 )(1− x2 ) p (0, 1) (1− x1 ) x2 p (1, 0) x1 (1− x2 ) p (1, 1) x1x2 , όπου τα x1, x2 παίρνουν τιµές 0 και 1. Παίρνοντας το λογάριθµο και συγκεντρώνοντας τους συντελεστές των x1, x2 των έχουµε: log f 12 ( x1 , x 2 ) = log p (0, 0) + x1 log p (1, 0) p (0, 1) p (1, 1) p (0, 0) + x 2 log + x1 x 2 log p (0, 0) p (0, 0) p (0, 1) p (1, 0) για (x1, x2) στο {0, 1}2. Αυτή η αναπαράσταση της f βρίσκεται στην καρδιά της θεωρίας των λογαριθµικών-γραµµικών µοντέλων για categorical δεδοµένα. Πρόκειται για µια γραµµική σχέση τόσο ως προς x1 όσο και ως προς x2. Παραµετροποιώντας διαφορετικά το δεξί σκέλος, οδηγούµαστε στη λογαριθµικήγραµµική ανάπτυξη: log f12 ( x1 , x 2 ) = u ∅ + x1u1 + x 2 u 2 + x1 x 2 u12 για (x1, x2) στο {0, 1}2. 78 Οι συντελεστές u, u1, u2, u12, είναι γνωστοί ως u-όροι (u-terms). Η συνάρτηση πυκνότητας f12 καθορίζεται είτε από τον πίνακα πιθανοτήτων p, είτε από τους u-όρους, {u}. Για να υπολογίσουµε συστηµατικά τα u από τα δεδοµένα p, αντικαθιστούµε όλα τα πιθανά ζεύγη (x1, x2) στη λογαριθµική-γραµµική ανάπτυξη, και τελικά παίρνουµε: log p(0, 0) = u∅ log p(1, 0) = u∅ log p(0, 1) = u∅ log p(1, 1) = u∅ + u1 + u2 + u1 + u2 + u 12 το οποίο είναι ένα απλό σύστηµα γραµµικών εξισώσεων. Η ανάπτυξη για τη συνάρτηση πυκνότητας ενός τριδιάστατου διανύσµατος (Χ1, Χ2, Χ3) είναι: log f 123 ( x ) = u ∅ + u1 x1 + u 2 x 2 + u 3 x3 + u12 x1 x 2 + u13 x1 x3 + u 23 x 2 x3 + u123 x1 x 2 x3 για x=(x1, x2, x3) στο {0, 1}3. Όταν το (Χ1, Χ2, …, Χk) παίρνει τιµές στο {0, 1}k, η σχέση γενικεύεται στην: log f K ( x) = u∅ + ∑ ui xi + ∑ ui j xi x j + ∑ ui j l xi x j xl + ... + u12...k x1 x2 ...xk . i i, j i , j ,l Πρόκειται για µια πολυ-γραµµική µορφή στις k µεταβλητές, x1, x2, …, xk, µε σταθερούς συντελεστές που ονοµάζονται u-όροι. Ο όρος uij είναι µια δεύτερης τάξης (two-way) αλληλεπίδραση, ο όρος uijk µια τρίτης τάξης αλληλεπίδραση και ο όρος u12…k µια k-τάξης αλληλεπίδραση. Υπάρχουν 2k u-όροι, όσες ακριβώς οι εγγραφές στον πίνακα πιθανοτήτων. Η συνάρτηση πυκνότητας µπορεί να καθοριστεί είτε από τον πίνακα πιθανοτήτων, pK, είτε από τους u-όρους, {u}, στη λογαριθµική-γραµµική ανάπτυξη. Η τελευταίοι µπορούν να εξαχθούν από τον πίνακα αντικαθιστώντας τις τιµές xi = 0, 1 στην ανάπτυξη, που οδηγεί σε ένα εύκολα επιλύσιµο τριγωνικό σύστηµα εξισώσεων. Χρειαζόµαστε άλλη µια γενίκευση, για µεταβλητές (δηλ. συντεταγµένες του διανύσµατος) που παίρνουν τιµές σε ένα πεπερασµένο σύνολο: log f K ( x) = u∅ ( x) + ∑ ui ( x) + ∑ ui j ( x) + ∑ ui jl ( x) + ... + u12...k ( x) . i i, j i , j ,l Υπάρχουν πάλι 2k u-όροι αλλά τώρα είναι συναρτήσεις των x = (x1, x2, …, xk) και όχι βαθµωτά. Κάθε όρος είναι µια συνάρτηση προβολής συντεταγµένων για τις συντεταγµένες που φαίνονται στο δείκτη. Επίσης, κάθε όρος µηδενίζεται όποτε µια από τις συντεταγµένες αυτές µηδενίζεται. Πιο συνοπτικά, η λογαριθµική-γραµµική Πολυωνυµικής συνάρτησης πυκνότητας fK, είναι log f K ( x ) = ∑u a⊆ K a ανάπτυξη της cross-classified ( xa ) 79 όπου το άθροισµα λαµβάνεται για όλα τα πιθανά υποσύνολα α του Κ={1, 2, …, k} και όπου οι u-όροι {uα} είναι συναρτήσεις προβολής συντεταγµένων, έτσι ώστε uα(x)=uα(xα), και επίσης ικανοποιούν τη συνθήκη uα(x)=0 όποτε xi=0 και i ∈ α. Μετά από αυτή τη σχετικά αυστηρή διατύπωση για τη λογαριθµική-γραµµική ανάπτυξη, περνάµε στο λόγο για τον οποίο εισαγάγαµε αυτή την ανάπτυξη: Εάν (Xα , Xb , Xc) είναι ένα διαµερισµένο Πολυωνυµικό τυχαίο διάνυσµα, τότε Xb ╨ Xc | Xα εάν και µόνον εάν όλοι οι u-όροι στη λογαριθµική-γραµµική ανάπτυξη µε µία ή περισσότερες συντεταγµένες στο b και µία ή περισσότερες συντεταγµένες στο c, είναι ίσοι µε µηδέν. 4.6 Γραφικά λογαριθµικά-γραµµικά µοντέλα Χρησιµοποιούµε τον όρο πιθανοκρατικό µοντέλο για να δηλώσουµε µια τυχαία οικογένεια κατανοµών που απλοποιούνται µέσω ενός συνόλου υποθέσεων ή περιορισµών. Η σπουδαιότητα της λογαριθµικής-γραµµικής ανάπτυξης οφείλεται στο γεγονός ότι πολλές ενδιαφέρουσες υποθέσεις µπορούν να παραχθούν θέτοντας u-όρους ίσους µε µηδέν. Το παραπάνω θεώρηµα µας δίνει τις συνθήκες επί των u-όρων για δεσµευµένη ανεξαρτησία. Θα χρησιµοποιήσουµε την έννοια του γραφήµατος ανεξαρτησίας, και τις σχετικές µε αυτό κατά ζεύγη δεσµευµένες ανεξαρτησίες, για να καθορίσουµε ένα γραφικό µοντέλο για το k-διάστατο categorical τυχαίο διάνυσµα Χ. ΟΡΙΣΜΟΣ: Με δεδοµένο ένα γράφηµα ανεξαρτησίας G, η cross-classified Πολυωνυµική κατανοµή για το τυχαίο διάνυσµα Χ είναι ένα γραφικό µοντέλο για το Χ εάν η κατανοµή του Χ είναι τυχαία, εκτός από περιορισµούς της µορφής ότι για όλα τα ζεύγη συντεταγµένων που δεν υπάρχουν στο σύνολο δεσµών Ε του G, οι u-όροι που περιέχουν τις συγκεκριµένες συντεταγµένες είναι εκ ταυτότητας ίσοι µε µηδέν. Πιο αναλυτικά, η πυκνότητα ενός Πολυωνυµικού γραφικού µοντέλου είναι log f K ( x ) = ∑u a⊆ K a ( xa ) µε τον περιορισµό ότι u a = 0 αν {i, j} ⊆ a και ο δεσµός {i, j} δεν υπάρχει στο σύνολο δεσµών Ε. Οι παράµετροι του γραφικού µοντέλου είναι οι εναποµείναντες u-όροι που δε µηδενίστηκαν. Παράδειγµα: Το σύνολο δεσµών Ε = {(1, 2), (2, 3), (2, 5), (3, 4), (3, 5), (4, 5)} για πέντε κόµβους, παράγει το διάγραµµα 1 80 5 4 2 3 Το αντίστοιχο Πολυωνυµικό γραφικό µοντέλο για Χ=(Χ1, Χ2, …, Χ5) έχει τη λογαριθµική-γραµµική ανάπτυξη log f 12345 ( x) = u ∅ + u1 + u 2 + u 3 + u 4 + u 5 + u12 + u 23 + u 25 + u 35 + u 34 + u 45 + u 235 + u 345 Κανένας u-όρος σ’ αυτή την ανάπτυξη δεν έχει ως δείκτες ζεύγη µεταβλητών που δεν υπάρχουν στο σύνολο δεσµών. Παραδείγµατος χάριν, ο u-όρος u1234 δεν υπάρχει στην ανάπτυξη επειδή ο δεσµός (2, 4) δεν υπάρχει στο Ε. 4.6.1 Ιεραρχικά και µη-ιεραρχικά λογαριθµικά-γραµµικά µοντέλα Τα λογαριθµικά-γραµµικά µοντέλα µπορούν να διαχωριστούν σε δύο κατηγορίες. Ένα λογαριθµικό-γραµµικό µοντέλο είναι ιεραρχικό εάν, όποτε ένας συγκεκριµένος u-όρος επιβάλλεται να µηδενιστεί τότε όλοι οι ανώτερης τάξης u-όροι που περιέχουν το ίδιο σύνολο δεικτών επίσης επιβάλλεται να είναι ίσοι µε µηδέν. ∆ηλαδή, εάν uα = 0 τότε ut = 0 για όλα τα α ⊆ t. Αντίθετα, τα µη-ιεραρχικά µοντέλα δεν ικανοποιούν τη συνθήκη αυτή. Τέτοια µοντέλα είναι δύσκολο να ερµηνευθούν. ∆εν είναι κατ’ ανάγκη αδιάφορα, αλλά το ενδιαφέρον τους δεν εστιάζεται στην έννοια της ανεξαρτησίας. Ως παράδειγµα αναφέρουµε το µοντέλο log f123 = u∅ + u3 + u12 στο οποίο ενώ u1=0, ο όρος u12 δεν είναι µηδέν. Τα γραφικά λογαριθµικά-γραµµικά µοντέλα αποτελούν υποσύνολο των ιεραρχικών. Είναι εκείνα τα ιεραρχικά στα οποία εάν στην ανάπτυξη υπάρχουν όλοι οι όροι δεύτερης τάξης που δηµιουργούνται από µια ανώτερης τάξης αλληλεπίδραση, τότε θα πρέπει στην ανάπτυξη να υπάρχει και η ανώτερης τάξης αλληλεπίδραση. Αποδεικνύεται ότι ένα ιεραρχικό µοντέλο είναι γραφικό εάν και µόνον εάν οι ανώτατης τάξης u-όροι του αντιστοιχούν σε οµάδες στο γράφηµα ανεξαρτησίας. Υπενθυµίζουµε στον αναγνώστη ότι οµάδα είναι ένα πλήρες σύνολο κόµβων που δεν περιέχεται σε κανένα άλλο πλήρες σύνολο κόµβων. Για παράδειγµα, το µοντέλο log f123 = u∅ + u1 + u 2 + u3 + u12 + u13 + u 23 είναι ιεραρχικό, αλλά δεν είναι γραφικό γιατί ενώ υπάρχουν όλοι οι δεύτερης τάξης uόροι που πηγάζουν από τον τρίτης τάξης u-όρο u123, ο ίδιος δεν υπάρχει. Επίσης, οι ανώτατης τάξης u-όροι στο µοντέλο αυτό είναι οι δεύτερης τάξης u12, u13, u23, που δεν αντιστοιχούν σε οµάδα στο γράφηµα ανεξαρτησίας, µια και οµάδα είναι µόνον το σύνολο {1, 2, 3} και όχι τα {1, 2}, {1, 3} ή {2, 3}. 1 2 3 81 Το αντίστοιχο γραφικό µοντέλο είναι το log f123 = u∅ + u1 + u 2 + u3 + u12 + u13 + u 23 + u123 µε ίδιο διάγραµµα γραφήµατος ανεξαρτησίας. 4.6.2 Συµβολικές διατυπώσεις µοντέλων Η ιδιότητες ανεξαρτησίας ενός Πολυωνυµικού τυχαίου διανύσµατος καθορίζονται άµεσα από την παρουσία ή απουσία συγκεκριµένων u-όρων στη λογαριθµικήγραµµική ανάπτυξη της συνάρτησης πυκνότητας πιθανότητας. Εάν ένα µοντέλο είναι ιεραρχικό, τότε αυτές καθορίζονται από τους ανώτατης τάξης u-όρους στην ανάπτυξη. Ο κατάλογος των δεικτών των ανώτατης τάξης u-όρων που υπάρχουν στη λογαριθµική-γραµµική ανάπτυξη είναι γνωστός ως δηµιουργός κλάση (generating class) του µοντέλου και η συµβολική διατύπωση ενός µοντέλου είναι ένας τρόπος περιγραφής αυτού του καταλόγου. Το συντακτικό για τη συµβολική διατύπωση φαίνεται από τα παρακάτω παραδείγµατα: Το κορεσµένο µοντέλο log f123 = u∅ + u1 + u 2 + u3 + u12 + u13 + u 23 + u123 παριστάνεται συµβολικά ως [123]. Το µοντέλο αµοιβαίας ανεξαρτησίας log f123 = u∅ + u1 + u 2 + u3 ως [1][2][3] Το µοντέλο log f123 = u∅ + u1 + u 2 + u12 για το τριδιάστατο διάνυσµα Χ = (X1, X2, X3) εκφράζει την ιση πιθανότητα των τιµών της Χ3 για κάθε µια από τις πιθανές τιµές του (X1, X2). Συµβολίζεται µε [12]. Φυσικά οι µεταβλητές δεν απαιτείται να δηλώνονται από τους δείκτες τους. Το µοντέλο [123][24][35] µπορεί εξίσου καλά να γραφεί ως [Χ1Χ2Χ3][Χ2Χ4][Χ3Χ5]. 4.6.3 Το πλέγµα των µοντέλων Όλα τα δυνατά µοντέλα τριών µεταβλητών (19 στον αριθµό) φαίνονται στο παρακάτω σχήµα. Στις τέσσερις διαστάσεις το πλέγµα των ιεραρχικών λογαριθµικώνγραµµικών µοντέλων αποτελείται από 167 στοιχεία. Το µοντέλο αριθ.15 είναι το γραφικό µοντέλο που αντιστοιχεί στη ανεξαρτησία των Χ2 και Χ3 µε δεδοµένο το Χ1. Το µοντέλο αριθ.12 είναι το γραφικό µοντέλο που αντιστοιχεί στη ανεξαρτησία των (Χ1, Χ2) και Χ3. Το µοντέλο αριθ.18 είναι το ιεραρχικό µοντέλο που περιέχει όλους τους u-όρους δεύτερης τάξης. Το µοντέλο αριθ.8 είναι το µοντέλο της δεσµευµένης ίσης πιθανότητας του Χ3 µε δεδοµένο το (Χ1, Χ2). Το ελάχιστο µοντέλο ∅ περιέχει απλώς το σταθερό u-όρο ενώ το κορεσµένο µοντέλο αριθ.19 περιέχει όλους τους u-όρους. Γραφικά είναι όλα τα µοντέλα εκτός του αριθ.18, αφού είναι το µόνο που περιέχει όλους τους όρους δεύτερης τάξης και δεν περιέχει τον αντίστοιχο όρο τρίτης τάξης. 82 [123] -19[12][13][23] -18[12][13] [12][23] [13][23] -15- -16- -17- [12][3] [13][2] [23][1] -12- -13- -14- [1][2][3] -11[12] [13] [23] -8- -9- -10- [1][2] [1][3] [2][3] -5- -6- -7- [1] -2- [2] -3- [3] -4- ∅ -1- 83 4.7 Η συνάρτηση πιθανοφάνειας Η συνάρτηση πιθανοφάνειας παίζει κεντρικό ρόλο στη γραφική µοντελοποίηση, και ιδίως στην επιλογή του κατάλληλου µοντέλου για την προσαρµογή των δεδοµένων µας. Προκειµένου να επιλέξουµε ένα µοντέλο έναντι ενός άλλου, χρειαζόµαστε ένα µέτρο σύγκρισης και ως τέτοιο µπορούµε να χρησιµοποιήσουµε την πιθανότητα εµφάνισης των δεδοµένων µας αν δεχθούµε το υπό µελέτη µοντέλο ως το µοντέλο που περιγράφει την πραγµατικότητα, δηλαδή την κατανοµή των µεταβλητών στον πληθυσµό. Η συνάρτηση πιθανοφάνειας µας δίνει αυτή ακριβώς την πιθανότητα. Ας υποθέσουµε ότι έχουµε Ν ανεξάρτητες και πανοµοιότυπες δοκιµασίες. Σε κάθε δοκιµασία ελέγχουµε ποιο από q ενδεχόµενα παρατηρείται. Έστω ni, i = 1, 2, …, q ο αριθµός παρατηρήσεων του i ενδεχοµένου και έστω pi η πιθανότητα να συµβεί το i ενδεχόµενο σε οποιαδήποτε δοκιµασία, δηλαδή p1 + p2 +…+ pq = 1. Λέµε τότε ότι το διάνυσµα (n1, n2, …, nq) ακολουθεί Πολυωνυµική κατανοµή µε παραµέτρους Ν, p1, …, pq. Η κατανοµή είναι: N! N ! q ri rq r1 p ( n1 = r1 ,K, nq = rq ) = p1 L pq = q pi ∏ r1!L rq ! i =1 ∏ ri ! i =1 για ri ≥ 0 και r1 + L + rq = N Μέσω της σχέσης αυτής µπορούµε να υπολογίσουµε την πιθανότητα ενός συγκεκριµένου συνδυασµού παρατηρήσεων των διαφόρων ενδεχοµένων. Θεωρήστε για παράδειγµα µια µελέτη που αφορά στην Αµερικανική κοινωνία, και η οποία καταγράφει την κοινωνικοοικονοµική κατάσταση (υψηλή-χαµηλή), την πολιτική φιλοσοφία (προοδευτική-συντηρητική) και την κοµµατική προτίµηση (∆ηµοκρατικός-Ρεπουµπλικάνος) των Αµερικανών πολιτών. Έστω ότι η µελέτη αυτή, που έγινε µε στοιχεία από ένα πολύ µεγάλο αριθµό ατόµων, µας δίνει τις παρακάτω πιθανότητες: ∆ηµοκρατικός Ρεπουµπλικάνος Προοδευτικός Συντηρητικός Προοδευτικός Συντηρητικός Υψηλή 0.12 0.12 0.04 0.12 Χαµηλή 0.18 0.18 0.06 0.18 Ας υποθέσουµε ότι καταγράφουµε τα στοιχεία από ένα δείγµα 50 ατόµων (Ν=50) αυτού του πληθυσµού και οι παρατηρήσεις µας είναι οι ακόλουθες: ∆ηµοκρατικός Ρεπουµπλικάνος Προοδευτικός Συντηρητικός Προοδευτικός Συντηρητικός Υψηλή 5 7 4 6 Χαµηλή 8 7 3 10 84 Ποιά είναι η πιθανότητα να παρατηρήσουµε αυτό το συγκεκριµένο πίνακα ανάµεσα σε όλους τους πιθανούς πίνακες για τα στοιχεία των 50 ατόµων; Χρησιµοποιώντας την παραπάνω σχέση έχουµε: 50! (0.12) 5 (0.12) 7 (0.04) 4 (0.12) 6 (0.18) 8 (0.18) 7 (0.06) 3 (0.18)10 = 5!7!4!6!8!7!3!10! = 0.000007 p= ∆εν πρέπει να µας εκπλήσσει ότι η πιθανότητα είναι τόσο µικρή. Υπάρχουν πολλοί πιθανοί πίνακες και άρα η πιθανότητα για ένα συγκεκριµένο θα είναι µικρή. Στην πραγµατικότητα, ο πίνακας µε την υψηλότερη πιθανότητα παρατήρησης έχει πιθανότητα ίση µε 0.000142. Αν και αυτή είναι µια µικρή πιθανότητα, είναι περισσότερο από 20 φορές µεγαλύτερη από την πιθανότητα του παραπάνω πίνακα. Γενικεύοντας, για δείγµα Ν ανεξάρτητων και πανοµοιότυπα κατανεµηµένων τυχαίων παρατηρήσεων k-διάστατου τυχαίου διανύσµατος Χk, έστω Ι το σύνολο των κελλιών του πίνακα (του οποίου ο πληθάριθµος είναι r1 × r2 × …× rk). Αν ni είναι ο αριθµός παρατηρήσεων στο κελλί i, τότε η πιθανότητα να παρατηρήσουµε τον πίνακα {ni}i∈I θα είναι: N! ∏ ni ! ∏p ni i i∈I i∈I Μέσω αυτής της σχέσης, εάν γνωρίζουµε τα pi µπορούµε να υπολογίσουµε την πιθανότητα παρατήρησης οποιουδήποτε πίνακα µετρήσεων. Στην πραγµατικότητα όµως βρισκόµαστε στην ακριβώς αντίθετη κατάσταση. Θέλουµε να υπολογίσουµε τα pi µε δεδοµένα τα ni που έχουµε ήδη παρατηρήσει. Θεωρώντας την παραπάνω ποσότητα ως συνάρτηση των pi, µπορούµε να γράψουµε: L( p ) = N! ∏ ni ! ∏p ni i i∈I i∈I Η ποσότητα L(p) ονοµάζεται συνάρτηση πιθανοφάνειας για την p. Μερικές τιµές του p δίνουν πολύ µικρή πιθανότητα παρατήρησης των ni που στην πραγµατικότητα παρατηρήθηκαν. Τέτοιες τιµές του p είναι απίθανο να είναι οι αληθινές τιµές του. Η αληθινή τιµή του p θα είναι µάλλον µια τιµή που δίνει µια σχετικά µεγάλη πιθανότητα παρατήρησης του πίνακα που πράγµατι παρατηρήθηκε. Εάν θέλουµε να εκτιµήσουµε το p, είναι λογικό να χρησιµοποιήσουµε την τιµή του p που δίνει τη µεγαλύτερη πιθανότητα παρατήρησης αυτού που πράγµατι παρατηρήθηκε. Με άλλα ˆ η οποία µεγιστοποιεί τη λόγια είναι λογικό να εκτιµήσουµε το p µε µια τιµή p συνάρτηση πιθανοφάνειας L(p). Μια τέτοια τιµή ονοµάζεται εκτιµητής µέγιστης πιθανοφάνειας (maximum likelihood estimate – MLE). Αντί να µεγιστοποιήσουµε τη συνάρτηση πιθανοφάνειας, είναι ευκολότερο να µεγιστοποιήσουµε το λογάριθµό της. Επειδή ο λογάριθµος είναι γνησίως αύξουσα συνάρτηση, το µέγιστο της συνάρτησης και του λογαρίθµου της εµφανίζονται στο ίδιο σηµείο. Για να µεγιστοποιήσουµε την log L( p ) = log N ! − ∑ log ni ! + ∑ ni log pi i∈I i∈I 85 ως συνάρτηση του pi, µπορούµε να αγνοήσουµε τους όρους που δεν εξαρτώνται από το pi. Αρκεί να µεγιστοποιήσουµε την l( p ) = ∑ ni log pi i∈I Χρησιµοποιώντας την ορολογία που ακολουθούµε: η λογαριθµική συνάρτηση πιθανοφάνειας του πίνακα πιθανοτήτων p που βασίζεται σε ένα τυχαίο δείγµα Ν Πολυωνυµικών τυχαίων παρατηρήσεων, είναι: l( p; x1 , x 2 ,K, x N ) = ∑ n( x) log p( x) , x όπου n(x) ο αριθµός των παρατηρήσεων στο δείγµα που αντιστοιχούν στο κελλί x. η συνάρτηση πιθανοφάνειας (και η αντίστοιχη λογαριθµική) µεγιστοποιείται για την 1 τιµή pˆ ( x) = n( x) , δηλαδή το ποσοστό των παρατηρήσεων στο κελλί x. N Ο πίνακας παρατηρήσεων n αποτελεί ικανό στατιστικό για τις παραµέτρους p, και έτσι: l( p; x1 , x 2 ,K, x N ) = l( p; n) η λογαριθµική συνάρτηση πιθανοφάνειας εκφρασµένη ως συνάρτηση των u-όρων είναι: l(u; n) = ∑∑ na ( xa ) u a ( xa ) a xa όπου x η διαµερισµένη παρατήρηση (xα, xb) και nα ο περιθωριακός πίνακας µετρήσεων που παράγεται αθροίζοντας το n για όλα τα xb. Άρα το nα είναι συνάρτηση του xα. 4.7.1 Η Αποκλίνουσα Η πιθανοφάνεια µπορεί να χρησιµοποιηθεί ως βάση για να ελέγξουµε αν µια µηδενική υπόθεση είναι αληθινή. Τα δεδοµένα έχουν µια ορισµένη πιθανότητα να παρατηρηθούν, που µπορεί να συνοψιστεί στη µέγιστη τιµή που µπορεί να αποκτήσει η συνάρτηση πιθανοφάνειας. Οποιοσδήποτε περιορισµός τεθεί στις πιθανές τιµές της px, οδηγεί στη µείωση της πιθανότητας να παρατηρήσουµε τα δεδοµένα. Εάν ένας περιορισµός µειώνει την τιµή της συνάρτησης πιθανοφάνειας πάρα πολύ, µπορούµε να βγάλουµε το συµπέρασµα ότι ο περιορισµός αυτός είναι µάλλον αβάσιµος. Η σχετική µείωση στην πιθανοφάνεια µπορεί να µετρηθεί από το λόγο της µέγιστης πιθανοφάνειας µε τον περιορισµό, δια τη µέγιστη πιθανοφάνεια χωρίς κανένα περιορισµό. Εάν αυτός ο λόγος γίνει πολύ µικρός θα απορρίψουµε την υπόθεση ότι ο περιορισµός είναι βάσιµος. Εν προκειµένω, εάν ο περιορισµός επί του px είναι ότι η Η0 ισχύει, θα απορρίπτουµε την Η0 όταν ο λόγος πιθανοφάνειας είναι πολύ µικρός. Για να απλοποιήσουµε τα πράγµατα, µπορούµε να υπολογίζουµε το λογάριθµο του λόγου πιθανοφάνειας. Έτσι, αντί να διαιρούµε συναρτήσεις πιθανοφάνειας, υπολογίζουµε διαφορές µεταξύ λογαριθµικών συναρτήσεων πιθανοφάνειας. Η απουσία οποιουδήποτε περιορισµού, αντιστοιχεί στη µηδενική υπόθεση ότι το µοντέλο που περιγράφει τα δεδοµένα είναι το κορεσµένο µοντέλο µε πλήρες γράφηµα ανεξαρτησίας G, όπου δηλαδή κανένας δεσµός δε λείπει από το σύνολο δεσµών Ε του G. 86 Θεωρήστε ένα ιεραρχικό µοντέλο παραµετροποιηµένο από τον πίνακα πιθανοτήτων pM, που σχετίζεται µε µια λογαριθµική-γραµµική ανάπτυξη µε συµβολική διατύπωση Μ. Το διπλάσιο της διαφοράς µεταξύ της µέγιστης τιµής της λογαριθµικής συνάρτησης πιθανοφάνειας χωρίς περιορισµούς και της αντίστοιχης µέγιστης τιµή κάτω από τους περιορισµούς που θέτει η Μ, ονοµάζεται deviance της Μ. Με άλλα λόγια, για ένα τυχαίο δείγµα Ν τυχαίων Πολυωνυµικών παρατηρήσεων, η deviance είναι: dev( M ) = 2{l max ( p) − l max ( p M )} = = 2∑ n( x) log pˆ ( x) −∑ n( x) log pˆ M ( x) = x x pˆ ( x) = 2∑ n( x) log M = pˆ ( x) x n( x ) = 2∑ n( x) log N pˆ M ( x) x όπου pˆ ο εκτιµητής µέγιστης πιθανοφάνειας του p και pˆ M ο εκτιµητής µέγιστης πιθανοφάνειας του pΜ. Σηµειώστε ότι η απαίτηση για µικρές τιµές του λόγου πιθανοφάνειας προκειµένου να απορριφθεί η µηδενική υπόθεση, µεταφράζονται σε µεγάλες τιµές της deviance. Κάτω από τη µηδενική υπόθεση ότι η Μ ισχύει, η deviance ακολουθεί µια ασυµπτωτική χ2 δειγµατική κατανοµή µε βαθµούς ελευθερίας που δίνονται από τον αριθµό των παραµέτρων που µηδενίζονται. Πρόκειται για µια προσέγγιση της ακριβούς δειγµατικής κατανοµής και αυστηρά είναι βάσιµη µόνο για µεγάλα δείγµατα. Με βάση αυτήν την προσέγγιση, η Η0 απορρίπτεται σε ένα επίπεδο σηµαντικότητας α εάν deviance > χ2(1-α, Β.Ε.). 4.8 Εκτιµητές για µοντέλα δεσµευµένης ανεξαρτησίας Ο εκτιµητής µέγιστης πιθανοφάνειας ενός λογαριθµικού-γραµµικού γραφικού µοντέλου µε συµβολική διατύπωση Μ που βασίζεται σε τυχαίο δείγµα Πολυωνυµικής κατανοµής υπάρχει και ικανοποιεί τις εξισώσεις πιθανοφάνειας N pˆ aM = na όποτε το υποσύνολο α των κόµβων στο γράφηµα σχηµατίζει οµάδα. Το παραπάνω θεώρηµα µπορεί να συνοψιστεί ως απαίτηση ότι στην προσαρµογή ενός γραφικού µοντέλου θα πρέπει να ισχύει «παρατηρηθείσες τιµές = προσαρµοσµένες τιµές» για κάθε περιθωριακό πίνακα που αντιστοιχεί σε πλήρες υπογράφηµα. 4.8.1 Η Αποκλίνουσα της δεσµευµένης ανεξαρτησίας Η deviance της Χb ╨ Xc | Xα είναι dev(Χb ╨ Xc | Xα) = 2∑ nabc log nabc na nab nac 87 όπου το άθροισµα λαµβάνεται σε όλα τα κελλιά, x, του πίνακα. Συµβολίζοντας τον αριθµό των κελλιών στις περιθωριακές κατανοµές των Xα, Χb και Xc µε rα, rb και rc αντίστοιχα, οι βαθµοί ελευθερίας (Β.Ε.) για τη deviance είναι: Β.Ε.(Χb ╨ Xc | Xα) = rα (rb –1)(rc -1). 4.8.2 Η Αποκλίνουσα της αποκοπής δεσµών Το γράφηµα ανεξαρτησίας ορίζεται µε όρους κατά ζεύγη δεσµευµένων ανεξαρτησιών και ένας δεσµός µεταξύ δύο µεταβλητών λείπει όταν αυτές είναι ανεξάρτητες µε δεδοµένες τις υπόλοιπες µεταβλητές. Η deviance της αποκοπής δεσµών είναι η deviance που αντιστοιχεί σ’ αυτήν την υπόθεση. Θέτοντας b = { i }, c = { j } και α = Κ \ { i, j } έχουµε: Η deviance για το γραφικό µοντέλο Χi ╨ Xj | XΚ \ { i, j} µε ένα δεσµό απόντα είναι dev(Χi ╨ Xj | XΚ \ { i, j}) = 2∑ nK log nK nK \{i , j} n K \i n K \ j Ακολουθεί ασυµπτωτική χ2 κατανοµή µε rΚ\{i,j}.(ri –1).(rj -1) βαθµούς ελευθερίας. Παράδειγµα: Ταξινοµούµε ψυχιατρικούς ασθενείς µε βάση τα συµπτώµατά τους σύµφωνα µε τις µεταβλητές Χ1: Validity (ενεργητικός, ψυχασθενικός), Χ2: Solidity (rigid, hysteric), Χ3: Οξεία κατάθλιψη (ναι, όχι) και Χ4: Stability (introvert, extrovert). Οξεία κατάθλιψη ναι όχι Stability Validity Solidity ενεργητικός rigid 15 23 25 14 hysteric 9 14 46 47 rigid 30 22 22 8 hysteric 32 16 27 12 ψυχασθενικός intro extro intro extro 4 Υπάρχουν = 6 κατά ζεύγη δεσµευµένες ανεξαρτησίες και οι αντίστοιχες 2 deviance αποκοπής δεσµών είναι: 88 1 * 2 4.78 * 3 33.00 22.38 * 4 12.87 3.39 7.64 * 1 2 3 4 Για παράδειγµα, στην πάνω αριστερή γωνία αυτού του τριγωνικού πίνακα είναι η deviance του µοντέλου µε συµβολική διατύπωση [134][234] στο οποίο Χ2 ╨ Χ1 | (Χ3, Χ4). Αυτό αποτελεί ένα συνδυαστικό τεστ ανεξαρτησίας στους τέσσερις πίνακες δύο διαστάσεων, ο πρώτος από τους οποίους είναι x2 x1 0 1 0 15 9 1 30 32 H deviance είναι: 15 32 + L + 32 log + (45)(24) (62)(41) 86 86 14 23 + 23 log + L + 12 log = 4.78 (61)(22) (37)(45) 81 75 dev([134][234]) = 15 log κάθε στατιστικό έχει 4 Β.Ε. και το σηµείο 10% της κατανοµής χ2 για 4 Β.Ε. είναι 7.78. Συγκρινόµενες µε αυτή την τιµή, κάποιες από τις τιµές της deviance αποκοπής δεσµών είναι µεγάλες και άλλες µικρές. ∆ιαγράφοντας τους δύο δεσµούς που δεν είναι σηµαντικοί, δηλαδή τους δεσµούς (1, 2) και (2, 4) µε deviance αποκοπής 4.78 και 3.39 αντίστοιχα, οδηγούµαστε στο γράφηµα 2 3 4 1 Οι ανεξαρτησίες σ’ αυτό το γράφηµα ανεξαρτησίας µπορούν να συνοψιστούν σε µία µόνο δήλωση: Χ2 ╨ (Χ1 , Χ4)| Χ3 και το αντίστοιχο γραφικό µοντέλο Μ = [134][23] έχει άµεσους εκτιµητές. Η ερµηνεία του µοντέλου είναι ότι η Solidity είναι ανεξάρτητη των Validity και Stability εάν είναι δεδοµένη η µεταβλητή που τις διαχωρίζει, Κατάθλιψη. Η deviance είναι συνδυαστικό τεστ ανεξαρτησίας στους δύο 89 πίνακες 2 x 4 και έτσι έχει 2(2-1)(4-1) = 6 Β.Ε. Έχει τιµή 8.8792 που για 6 Β.Ε. υποδηλώνει µια καλή προσαρµογή. Ούτε η deviance ούτε οι Β.Ε. της είναι ίσα µε τις αντίστοιχες deviance για αποκοπή των δεσµών ξεχωριστά. 4.9 Υπολογισµός εκτιµητών µέγιστης πιθανοφάνειας Ο υπολογισµός των εκτιµητών αποτελεί κεντρικό πρόβληµα τόσο για τον έλεγχο του βαθµού προσαρµογής του µοντέλου στα δεδοµένα, όσο και στην επιλογή του καταλληλότερου µοντέλου. Στην πραγµατικότητα, µια σειρά από προβλήµατα πρέπει να διερευνηθούν: η κατάστρωση του συστήµατος των εξισώσεων που ορίζουν τον εκτιµητή, ο έλεγχος ύπαρξης λύσης, η αναλυτική ή η έστω µε αριθµητικές µεθόδους επίλυση των εξισώσεων και τελικά ο καθορισµός της µοναδικότητας της λύσης. Οι εκτιµητές µέγιστης πιθανοφάνειας µπορούν να υπολογιστούν αναλυτικά µόνο για µια κλάση των γραφικών µοντέλων που ονοµάζονται αποσυνθέσιµα. Για τα µοντέλα που δεν ανήκουν σ’ αυτή την κατηγορία, έχουν αναπτυχθεί αριθµητικές µέθοδοι µε κυριότερη τον αλγόριθµο επαναληπτικά αναλογικής προσαρµογής (iterative proportional fitting algorithm – IPF). Στην απλούστερη µορφή του ο αλγόριθµος αυτός προσφέρει µια µέθοδο διευθέτησης ενός πίνακα συνάφειας δύο διαστάσεων ώστε να είναι σύµφωνος µε τα περιθώρια που ορίζονται από έναν άλλο πίνακα δύο διαστάσεων. Ξεκινά µε την βαθµονόµηση των γραµµών του πρώτου πίνακα ώστε να έχει σωστά περιθώρια γραµµών, µετά βαθµονοµεί τον πίνακα που προκύπτει ώστε να έχει σωστά περιθώρια στηλών, µετά βαθµονοµεί τον πίνακα που προκύπτει ώστε να έχει σωστά περιθώρια γραµµών κλπ, επαναλαµβάνοντας τον κύκλο των γραµµών και των στηλών, έως ότου επιτευχθεί σύγκλιση. Τα αποσυνθέσιµα µοντέλα αποτελούν µια κλάση µοντέλων µε µια σειρά από «καλές» ιδιότητες: • Τα µοντέλα είναι πολλαπλασιαστικά, υπό την έννοια ότι κάθε συνάρτηση πυκνότητας στο µοντέλο παραγοντοποιείται πλήρως στο γινόµενο των περιθωριακών συναρτήσεων πυκνότητας. Μια τέτοια παραγοντοποίηση είναι µοναδική και περιγράφει συνολικά τις ιδιότητες του µοντέλου. • Η συνδυαστική συνάρτηση πυκνότητας παραγοντοποιείται στο γινόµενο περιθωριακών συναρτήσεων πυκνότητας επί των οµάδων. Ισοδύναµα, οι µηµειώσιµες συνιστώσες είναι πλήρεις. • Τα µοντέλα είναι αναδροµικά, υπό την έννοια ότι οι κόµβοι τους µπορούν να διαταχθούν έτσι ώστε να απλοποιούν πλήρως την αναδροµική παραγοντοποίηση της συνδυαστικής συνάρτησης πυκνότητας. Αυτή είναι µια ιδιότητα του τύπου της ιδιότητας αλυσίδας Markov. • Τα µοντέλα έχουν τριγωνοποιηµένα γραφήµατα ανεξαρτησίας. • Οι εκτιµητές µέγιστης πιθανοφάνειας του µοντέλου είναι άµεσα υπολογίσιµοι. Οποιαδήποτε από αυτές τις ισοδύναµες ιδιότητες µπορεί να χρησιµοποιηθεί για να ορίσουµε τον όρο «αποσυνθέσιµο µοντέλο». 90 4.10 Επιλογή µοντέλου Πως µπορεί κάποιος να επιλέξει ένα γραφικό µοντέλο; Ακόµη και για ένα σχετικά µικρό διαστάσεων υπάρχουν χιλιάδες δυνατών γραφικών µοντέλων για να διαλέξει κανείς, πολλά από τα οποία είναι παρόµοια. Θα πρέπει κανείς να προσαρµόσει τα δεδοµένα του σε όλα; Αν όχι, πως πρέπει να επιλεγούν τα προς προσαρµογή µοντέλα; Με ποιο τρόπο θα πρέπει να επιλεγεί το καλύτερο; Ποιες είναι οι ιδιότητες των προσαρµοσµένων εκτιµητών στο επιλεγµένο µοντέλο; κ.ο.κ. Η επιλογή γραφικού µοντέλου είναι ένα στιγµιότυπο του γνωστού στατιστικού προβλήµατος του καθορισµού, στη βάση ενός δείγµατος παρατηρήσεων, ποιες παράµετροι πρέπει να µηδενιστούν και ποιες να εκτιµώνται χωρίς περιορισµούς. Από τη µια πλευρά, συµπεριλαµβάνοντας περισσότερες παραµέτρους οδηγούµαστε σε καλύτερη προσαρµογή των δεδοµένων. Από την άλλη, όσο λιγότερες είναι οι παράµετροι τόσο καλύτερα, επειδή υπολογίζονται πιο αποτελεσµατικά και το τελικό µοντέλο είναι απλούστερο. Θα πρέπει να υπάρχουν αρκετές παράµετροι στο µοντέλο για την αναπαράσταση πραγµατικών επιδράσεων (real effects present in the data) που εµφανίζονται στη δοµή των δεδοµένων ενώ θα πρέπει να είναι αρκετά λίγες ώστε να µην αναλύουµε θόρυβο που εισάγεται λόγω δειγµατικής µεταβλητότητας (sampling variation). Συµπεριλαµβάνοντας όλες τις µεταβλητές οδηγεί στο ένα άκρο, εξαιρώντας τες όλες οδηγεί στο άλλο άκρο και ένας πρωταρχικός στόχος της επιλογής µοντέλου είναι να βρεθεί ένας συµβιβασµός και να επιλεγεί ένα (ή περισσότερα) µοντέλα ώστε τα φαινόµενα να αναπαρασταθούν µε όσο το δυνατόν πιο φειδωλό τρόπο [6, 40, 51, 52]. Η βασική συνεισφορά της στατιστικής µοντελοποίησης είναι ο τρόπος µε τον οποίο χειρίζεται το θόρυβο. Κάτω από ένα δεδοµένο πιθανοκρατικό µοντέλο για τις παρατηρήσεις, η γνωστή κατανοµή δειγµατοληψίας του λόγου πιθανοφάνειας θέτει ένα κριτήριο για την επίδραση της ενδογενούς τυχαίας µεταβλητότητας. Η παρατηρηθείσα επίδραση µπορεί τότε να συγκριθεί µε αυτό το πρότυπο και να ληφθεί µια απόφαση σχετικά µε το αν η επίδραση είναι πραγµατική ή φαινοµενική. Αν µια συγκεκριµένη επίδραση µπορεί να εξηγηθεί από τυχαία µεταβλητότητα, τότε µπορεί να αγνοηθεί και το µοντέλο να απλοποιηθεί. Μια αποδεκτή προσαρµογή είναι εκείνη στην οποία το προσαρµοσµένο µοντέλο διαφέρει από τα παρατηρηθέντα δεδοµένα κατά µια ποσότητα συµβατή µε τη δειγµατική µεταβλητότητα. Θα πρέπει να σηµειώσουµε ότι η επιλογή µοντέλου δεν είναι πρωταρχικά ένα υπολογιστικό πρόβληµα γιατί ακόµη κι όταν µπορούµε να υπολογίσουµε και να εξετάσουµε την προσαρµογή όλων των δυνατών µοντέλων, δεν υπάρχει αναµφίβολη απάντηση στο ερώτηµα ποιο είναι το µοντέλο µε την καλύτερη προσαρµογή. Και αυτό γιατί η µοντελοποίηση έχει διάφορους στόχους, όπως για παράδειγµα ένα ειδικό ενδιαφέρον για µια παράµετρο ή µια δεσµευµένη ανεξαρτησία που µπορεί να οδηγήσει στην επιλογή µοντέλου διαφορετικού από εκείνο που επιλέχτηκε για εµπειρική πρόβλεψη (empirical forecasting). Ούτως ή άλλως, µέθοδοι που προσπαθούν να βρουν λύση στο πρόβληµα επιλογής χωρίς την προσαρµογή κάθε δυνατού µοντέλου, θα πρέπει να προτιµώνται, και στο τέλος της διαδικασίας επιλογής µπορούν να βγουν πολλά συµπεράσµατα για µοντέλα που δεν έχουν εκπεφρασµένα προσαρµοστεί. 91 Η συνεισφορά της γραφικής µοντελοποίησης στην κατανόηση της διαδικασίας επιλογής µοντέλου περιέχει τα εξής: • Συσχέτιση ενός γραφήµατος ανεξαρτησίας µε κάθε λογαριθµικό-γραµµικό µοντέλο και η ανακάλυψη µιας νέας βηµατικής µονάδας στη βηµατική διαδικασία διερεύνησης µοντέλων: η εισαγωγή και η αποκοπή ενός δεσµού από το γράφηµα ανεξαρτησίας. • Η διασάφηση ενός υποσυνόλου των λογαριθµικών-γραµµικών µοντέλων που ορίζονται πλήρως από περιορισµούς δεσµευµένης ανεξαρτησίας: τα γραφικά λογαριθµικά-γραµµικά µοντέλα. • Ο χαρακτηρισµός όλων των λογαριθµικών-γραµµικών µοντέλων που έχουν άµεσους εκτιµητές µέγιστης πιθανοφάνειας, δηλαδή των αποσυνθεσίµων (decomposable) µοντέλων, µέσω της ιδιότητας τριγωνοποίησης (triangulation) των γραφηµάτων τους. • Μια εξήγηση της ισοδυναµίας συγκεκριµένων στατιστικών συναρτήσεων στις συγκρίσεις µεταξύ µοντέλων µέσω των ιδιοτήτων του γραφήµατος ανεξαρτησίας. Ο περιορισµός της διερεύνησης µοντέλων στα γραφικά µοντέλα απλοποιεί την επιλογή µοντέλου σε δύο κατευθύνσεις: πρώτον, το συνολικό µέγεθος του προβλήµατος µειώνεται και δεύτερον τα γραφήµατα που προκύπτουν αναδεικνύουν το στόχο της διαδικασίας επιλογής. 4.11 Στρατηγική διερεύνησης γραφικών µοντέλων 4.11.1 Βηµατικές διαδικασίες διερεύνησης Οι βηµατικές διαδικασίες διερεύνησης ξεκινούν από την προσαρµογή ενός αρχικού βασικού µοντέλου και µετά κάνουν µικρές, συνήθως ενός βήµατος, κινήσεις µέσα στο πλέγµα µοντέλων για να βελτιώσουν την προσαρµογή. Απαιτείται λοιπόν ο καθορισµός δύο πραγµάτων: της κλάσης των µοντέλων στη γειτονιά του τρέχοντος µοντέλου από την οποία θα γίνει η επιλογή του µοντέλου που θα επακολουθήσει και ενός κανόνα τερµατισµού της διαδικασίας. Τέτοιου τύπου διαδικασίες είναι η αφαιρετική και η προσθετική, οι οποίες µελετούν την κλάση των µοντέλων που διαφέρουν από το τρέχον µοντέλο κατά την αποκοπή ή την προσθήκη ενός όρου αλληλεπίδρασης. Σύµφωνα µε την αφαιρετική µέθοδο [136], κάθε ένα υποψήφιο µοντέλο περιέχεται (nested) στο τρέχον και η διαφορά των deviance ακολουθεί την χ2 κατανοµή. Εποµένως η µέθοδος αυτή αποκόπτει τον ελάχιστα σηµαντικό δεσµό και ένας δηµοφιλής κανόνας τερµατισµού είναι να συνεχίζουµε να αποκόπτουµε δεσµούς µέχρι κανείς δεσµός να µην έχει τιµή P µεγαλύτερη από 5%. Η προσθετική µέθοδος [36] ακολουθεί την αντίστροφη πορεία και ξεκινώντας από το τρέχον µοντέλο προσθέτει τον πιο στατιστικά σηµαντικό δεσµό. ∆ιαδικασία τερµατίζεται όταν κανείς δεσµός δε φτάνει το προκαθορισµένο επίπεδο σηµαντικότητας. Υπάρχουν πολλές προφανείς παραλλαγές, για παράδειγµα βηµατικές διαδικασίες που εναλλάσσουν ένα αφαιρετικό βήµα µε ένα προσθετικό βήµα. Υπάρχουν πάρα πολλά σηµεία εκκίνησης της διαδικασίας στην κλάση των µοντέλων: το κορεσµένο µοντέλο για την αφαιρετική διαδικασία, το µοντέλο ανεξαρτησίας για την προσθετική διαδικασία ή το µοντέλο που προκύπτει αν από το 92 κορεσµένο αφαιρεθούν σε ένα βήµα όλοι οι µη στατιστικά σηµαντικοί δεσµοί. ∆ε µπορούµε µε ευκολία να πούµε ότι η επιλογή του µοντέλου εκκίνησης επηρεάζει το µοντέλο που τελικά θα επιλεγεί, είναι όµως σίγουρο ότι µια σοφή επιλογή αρχικού µοντέλου µας οδηγεί στο τελικό µοντέλο ταχύτερα. Από την άλλη πλευρά, η πρακτική δείχνει ότι οι διαδικασίες επιλογής είναι πολύ ευαίσθητες στην επιλογή του κανόνα τερµατισµού. ∆ύο τυπικές επιλογές αποτελούν το κατά πόσον είναι αποδεκτή η συνολική deviance του µοντέλου και το κατά πόσον είναι αποδεκτές όλες οι διαφορές των deviance µεταξύ αυτού του µοντέλου και του εποµένου. Η τελευταία εστιάζει στις αλληλεπιδράσεις ξεχωριστά, ενώ η πρώτη στο µοντέλο ως σύνολο. Ενώ στην πράξη η προσθετική µέθοδος φαίνεται να αποδίδει εξίσου καλά µε την αφαιρετική, υπάρχει µια φιλοσοφική διάκριση που πρέπει να αναφερθεί. Ένα γραφικό µοντέλο είναι ένα µοντέλο της συνδυαστικής κατανοµής του συνόλου των υπό µελέτη µεταβλητών απλοποιηµένο από περιορισµούς δεσµευµένης ανεξαρτησίας. Η αφαιρετική µέθοδος που ξεκινά από το κορεσµένο µοντέλο, ελέγχει άµεσα αυτές τις δεσµευµένες ανεξαρτησίες. Από την άλλη πλευρά, η προσθετική διαδικασία µε σηµείο εκκίνησης το µοντέλο αµοιβαίας ανεξαρτησίας ελέγχει τις περιθωριακές (marginal) ανεξαρτησίες, αντιµετωπίζοντας το πρόβληµα έµµεσα. Αυτή η θεώρηση προτείνει την εξής διαδικασία δύο βηµάτων: Ένα γράφηµα ανεξαρτησίας ορίζεται µέσω των κατά ζεύγη σχέσεων δεσµευµένης ανεξαρτησίας. Στο πρώτο βήµα ελέγχουµε αυτές τις σχέσεις άµεσα, υπολογίζοντας k τις τιµές P για όλες τις deviance αποκοπής από το κορεσµένο µοντέλο. 2 Αποκόπτουµε τους µη στατιστικά σηµαντικούς δεσµούς και περνάµε στο µοντέλο µε γράφηµα G1. Αξιοποιούµε τη γενική Markov ιδιότητα. Κάνουµε ένα µερικό έλεγχο αυτής της ιδιότητας υπολογίζοντας τις τιµές P όλων των deviance εισαγωγής δεσµών για τους δεσµούς που λείπουν από το G1. Προσθέτουµε τους στατιστικά σηµαντικούς δεσµούς και καταλήγουµε στο µοντέλο G2. Παράδειγµα: Για k = 4, το πρώτο βήµα συνίσταται στη σύγκριση του πλήρους γραφήµατος µε όλα τα γραφήµατα που έχουν ένα δεσµό λιγότερο. (3, 4) (1, 2) (1, 4) (2, 3) (2, 4) (1, 3) Υποθέστε ότι οι τιµές P για τους δεσµούς (1, 4), (2, 4) και (1, 3) είναι αρκετά µικρές ενώ οι υπόλοιπες είναι µεγάλες. Το γράφηµα G1 είναι: [12][23][34] 93 Στο δεύτερο βήµα, η επανάληψη του ελέγχου για τους δεσµούς (1, 3) και (2, 4) αντιστοιχεί στον έλεγχο των σχέσεων ανεξαρτησίας 1 ╨ 3 | 2 και 2 ╨ 4 | 3, οι οποίες είναι σχέσεις δεσµευµένης ανεξαρτησίας στις περιθωριακές κατανοµές και µπορούν να εξαχθούν από τη γενική ιδιότητα Markov. 4.11.2 ∆ιαδικασίες ολικής διερεύνησης Το αποτέλεσµα της προσαρµογής όλων των πιθανών µοντέλων, αν και είναι υπολογιστικά εφικτό ακόµη και για πολύ µεγάλες τιµές του k, οπωσδήποτε δεν αποτελεί µια εύκολη υπόθεση και περιέχει πολλή πλεονάζουσα πληροφορία. Για να περιορίσουµε την πληθώρα των µοντέλων, ορίζουµε ένα µοντέλο Μ ως επαρκές εάν η deviance του Μ είναι αρκετά µικρή. Μεταξύ όλων των αποδεκτών µοντέλων, εκείνα µε τις λιγότερες παραµέτρους είναι τα πιο ενδιαφέροντα. Ένα µοντέλο Μ είναι κατ’ ελάχιστον επαρκές (minimally adequate) εάν είναι επαρκές και δεν υπάρχει µοντέλο Ν που να περιέχεται στο Μ και να είναι επίσης επαρκές. Αντί να υπολογίζουµε τις deviance όλων των µοντέλων, οι Edwards και Havranek [38, 39, 59] προτείνουν µια µέθοδο υπολογισµού των deviance µόνον αυτών που είναι κατ’ ελάχιστον επαρκή και δίνουν τρόπους εξεύρεσής τους. Η διαδικασία είναι γρήγορη επειδή εάν ένα µοντέλο Μ βρεθεί να είναι επαρκές, τότε όλα τα µοντέλα που περιέχουν το Μ είναι επαρκή και δε χρειάζεται να τα προσαρµόσουµε στα δεδοµένα. Σε αντίθεση µε τις βηµατικές διαδικασίες, η επιλογή και η απόρριψη µοντέλων γίνεται στη βάση της συνολικής deviance και όχι στις διαφορές των deviance. Μια δυνατότητα για περιορισµού του µεγέθους του πλέγµατος των υποψηφίων µοντέλων είναι να κινηθούµε µέσα στην κλάση των αποσυνθέσιµων µοντέλων, δηλαδή αυτών για τα οποία υπάρχουν άµεσοι εκτιµητές. Με αυτό τον τρόπο δε k 2 µοντέλα αλλά µόνον 2k [137]. Μια δυσκολία που χρειάζεται να προσαρµόσουµε 2 προκύπτει για τις βηµατικές διαδικασίες επιλογής είναι ότι αν από ένα αποσυνθέσιµο µοντέλο αποκόψουµε ένα δεσµό ή αν προσθέσουµε σ’ αυτό ένα δεσµό, το µοντέλο που προκύπτει δεν είναι κατ’ ανάγκη αποσυνθέσιµο. Συγκεκριµένα, το µοντέλο δεν είναι αποσυνθέσιµο όταν µε την αποκοπή ή πρόσθεση ενός δεσµού δηµιουργούνται άχορδοι κύκλοι µήκους 4 και άνω. 4.12 Αποσυνθέσεις και αποσυνθεσιµότητα Μια αξιοσηµείωτη επιτυχία των γραφικών µοντέλων είναι η αναγνώριση εκείνων των λογαριθµικών-γραµµικών µοντέλων που κατέχουν εκτιµητές µέγιστης πιθανοφάνειας σε αναλυτική µορφή: τα αποσυνθέσιµα µοντέλα. Για παράδειγµα, αποδεικνύεται ότι το µοντέλο που βασίζεται στην κλάση των συναρτήσεων πυκνότητας για τις οποίες το γράφηµα ανεξαρτησίας είναι µια αλυσίδα Markov [90], όπως στο παρακάτω παράδειγµα, έχει άµεσους εκτιµητές, ενώ εκείνο που βασίζεται στον άχορδο κύκλο τεσσάρων κόµβων δεν έχει. Γιατί ισχύει αυτό; Αποσυνθέσιµες συναρτήσεις πυκνότητας δέχονται εκτιµητές µέγιστης πιθανοφάνειας που µπορούν να υπολογιστούν χωρίς τη χρήση αριθµητικών µεθόδων, επιτρέποντας την αναλυτική µελέτη των ιδιοτήτων τους. Στην πραγµατικότητα τα αποσυνθέσιµα µοντέλα κατέχουν πολλές άλλες ενδιαφέρουσες ιδιότητες και µπορεί κανείς να πει ότι ένα 94 σηµαντικό µέρος, αν όχι το σύνολο, της πληροφορίας σχετικά µε τη δοµή των αλληλεπιδράσεων ενός k-διάστατου τυχαίου διανύσµατος µπορεί να εξαχθεί αποκλειστικά προσαρµόζοντας αποσυνθέσιµα µοντέλα. Μια αλυσίδα Markov κατέχει την ιδιότητα ότι η συνδυαστική κατανοµή της µπορεί απλά να αποσαφηνιστεί υπό την προϋπόθεση ότι είναι δεδοµένο το άµεσο παρελθόν. Για παράδειγµα, ένα πεπερασµένο τµήµα του γραφήµατος ανεξαρτησίας µιας αλυσίδας Markov είναι t-2 t-1 t t+1 και η συνδυαστική πυκνότητα αυτών των µεταβλητών παραγοντοποιείται σύµφωνα µε την: f t −2,t −1,t ,t +1 = f t +1|t f t|t −1 f t −1|t −2 f t −2 Όχι µόνον υπάρχει µια ανάστροφη παραγοντοποίηση ξεκινώντας από τα δεξιά του γραφήµατος, αλλά επίσης και µια ορθή παραγοντοποίηση βασισµένη στη γνώση του άµεσου µέλλοντος, ξεκινώντας από τα αριστερά. Αντίθετα, ξεκινώντας από το µέσον δεν οδηγούµαστε σε πλήρη παραγοντοποίηση της συνάρτησης πυκνότητας. Η ύπαρξη µιας τέτοιας παραγοντοποίησης είναι ενδιαφέρουσα για πολλούς λόγους: • περιορίζοντας το σύνολο των δεσµεύσεων απλοποιείται η ερµηνεία του µοντέλου, και συγκεκριµένα τη δοµή των αλληλεπιδράσεων, • επιτρέπει τον ορισµό των µοντέλων µέσω δεσµευµένων πιθανοτήτων και όχι µέσω συνδυαστικών πιθανοτήτων, • οι διαδικασίες συµπερασµατολογίας που βασίζονται στη συνάρτηση πιθανοφάνειας για µοντέλα που επιδέχονται πλήρη παραγοντοποίηση είναι σχετικά απλές, • η υψηλών διαστάσεων συνδυαστική κατανοµή, ή το σύνολο των παρατηρήσεων, µπορεί να αναχθεί σε συνιστώσες λιγότερων διαστάσεων, µια ιδιαίτερα σηµαντική πρακτική παράµετρος του προβλήµατος, και • µέσω µιας τέτοιας παραγοντοποίησης βρίσκουµε διέξοδο στην αυστηρή παραδοχή της αµοιβαίας ανεξαρτησίας ώστε να διατυπώσουµε θεωρήµατα του τύπου του κεντρικού οριακού θεωρήµατος. Αυτές οι επισηµάνσεις επεκτείνονται σε τυχαία πεπερασµένα γραφήµατα µέσω της ανάπτυξης µια θεωρίας αποσυνθέσεων. Ένα κοµµάτι της πληροφορίας που µεταφέρει το γράφηµα ανεξαρτησίας είναι το κατά πόσον η κατανοµή που αντιστοιχεί στο γράφηµα µπορεί να παραγοντοποιηθεί ή να αποσυντεθεί σε απλούστερες περιθωριακές κατανοµές. Οικογένειες πλήρως παραγοντοποι-ησίµων συναρτήσεων πυκνότητας µε δεδοµένο γράφηµα ανεξαρτησίας είναι γνωστές ως αποσυνθέσιµα µοντέλα. Η χαρακτηριστική ιδιότητα των γραφηµάτων τους είναι η τριγωνοποίηση και παρατηρούµε ότι τα τριγωνοποιηµένα γραφήµατα αποτελούν γενίκευση των αλυσίδων Markov. Η θεωρία επίσης παρέχει ένα γενικότερο κριτήριο συρρίκνωσης (collapsibility) που καθορίζει αν συρρικνώνοντας µια κατανοµή πολλών διαστάσεων σε συγκεκριµένες µεταβλητές θα οδηγούσε σε παραπλανητικές ερµηνείες µεταξύ των µεταβλητών που αποµένουν. 95 4.12.1 Παραγοντοποίηση Το γράφηµα ανεξαρτησίας αποσαφηνίζει τη δοµή των αλληλεπιδράσεων ενός συνόλου µεταβλητών ΧΚ = (Χ1, Χ2, …, Χk). Η τοπική ιδιότητα Markov αποδεικνύει την ορθότητα της άµεσης διαισθητικής ερµηνείας αυτής της πληροφορίας: ότι µη γειτονικές µεταβλητές είναι ανεξάρτητες υπό τη δέσµευση µόνον του συνόλου που τις διαχωρίζει. Το γράφηµα τονίζει σύνολα µεταβλητών που αλληλεπιδρούν και µπορεί να προτείνει τρόπους µέσω των οποίων το πιθανοκρατικό µοντέλο µπορεί να παραγοντοποιηθεί. Αυτό αποτελεί και την εστία ενδιαφέροντός µας εδώ. Παράδειγµα: Έστω ότι k=4 και θεωρήστε µια γενική κλάση συναρτήσεων πυκνότητας για το διάνυσµα Χ = (Χ1, Χ2, Χ3, Χ4), της µορφής: log f1234 ( x) = h12 ( x) + h234 ( x) , όπου οι συναρτήσεις h είναι συναρτήσεις προβολής συντεταγµένων, δηλαδή η h12(x) είναι συνάρτηση µόνον των (x1, x2) και η h234(x) είναι συνάρτηση των (x2, x3, x4). Οι συναρτήσεις h λέγονται αλληλεπιδράσεις, ή όροι αλληλεπίδρασης. Υποτίθεται ότι αυτές οι συναρτήσεις συµπεριφέρονται αρκετά καλά ώστε η f1234(x) να είναι µια συνάρτηση πυκνότητας πιθανότητας και ότι το x παίρνει τιµές στο Καρτεσιανό γινόµενο των τεσσάρων συνόλων που περιλαµβάνουν τις δυνατές τιµές για κάθε xi. Το κριτήριο παραγοντοποίησης µας λέει ότι συντεταγµένη 1 ╨ 3| {2, 4} και 1 ╨ 4| {2, 3} και κατά συνέπεια το γράφηµα ανεξαρτησίας είναι: 1 2 4 3 Τώρα θεωρήστε ότι παραγοντοποιούµε την πυκνότητα στο γινόµενο των περιθωριακών κατανοµών. Η περιθωριακή πυκνότητα του (Χ1, Χ2) λαµβάνεται ολοκληρώνοντας την f1234(x) ως προς τα (x3, x4): f12 ( x1 , x 2 ) = e h 12( x1 , x2 ) ∫ e h 234 ( x2 , x3 , x4 ) dx3 dx4 =e h 12 ( x1 , x2 ) + g 2 ( x2 ) , ή πιο απλά f12 = e h 12 + g 2 , όπου το g2 είναι συνάρτηση µόνον του x2. Μια παρόµοια ολοκλήρωση δίνει: f 234 = e g '2 + h 234 , όπου το g’2 είναι συνάρτηση µόνον του x2 επίσης. Ολοκληρώνοντας αυτή την περιθωριακή πυκνότητα ως προς τις µεταβλητές 3 και 4, η πυκνότητα του Χ2 είναι: f 2 = e g '2 + g 2 Τελικά, αντικαθιστώντας τους όρους h12 και h234 στο ανάπτυγµα αλληλεπίδρασης παίρνουµε την παραγοντοποίηση της συνδυαστικής πυκνότητας σε όρους περιθωριακών πυκνοτήτων: 96 f1234 = f12 f 234 f2 ∆εν έχει λοιπόν σηµασία η ακριβής φύση των όρων αλληλεπίδρασης αλλά ο τρόπος µε τον οποίο δοµείται το ανάπτυγµα αλληλεπίδρασης. Μπορούµε να κάνουµε µια σειρά από σχόλια σ’ αυτό το σηµείο. Πρώτον, οι παράγοντες στην παραγοντοποίηση δεν είναι τυχαίες συναρτήσεις αλλά περιθωριακές συναρτήσεις πυκνότητας πιθανότητας. ∆εύτερον, είναι ενδιαφέρον να γνωρίζουµε αν η παραγοντοποίηση είναι µοναδική ή εξαρτάται από τη σειρά µε την οποία εφαρµόζουµε τις κατά ζεύγη ανεξαρτησίες. Τρίτον, είµαστε σε θέση να χαρακτηρίσουµε εκείνα τα γραφήµατα για τα οποία η παραγοντοποίηση είναι πλήρης, υπό την έννοια ότι µια σχέση ανεξαρτησίας για κάθε ζεύγος µη γειτονικών κόµβων χρησιµοποιείται στην παραγοντοποίηση της συνάρτησης πυκνότητας; Παράδειγµα: Υποθέστε ότι το διάνυσµα Χ = (Χ1, Χ2, Χ3, Χ4) έχει το γράφηµα ανεξαρτησίας: 1 2 3 4 Υπάρχουν τρία ζεύγη µη γειτονικών κόµβων: (1, 3), (1, 4), (2, 4) που αντιστοιχούν στις τρεις κατά ζεύγη σχέσεις δεσµευµένης ανεξαρτησίας 1 ╨ 3|{2, 4}, 1 ╨ 4|{2, 3} και 2 ╨ 4|{1, 3}. Για να απλοποιήσουµε τη συνδυαστική πυκνότητα f1234 εφαρµόζουµε αυτές τις σχέσεις µε την ακόλουθη σειρά: πρώτα, εφαρµογή της (1, 3) : 1 ╨ 3|{2, 4} δίνει f1234 = f124 f 234 f 24 Τώρα, θεωρήστε το ζεύγος (1, 4). Η ανεξαρτησία 1 ╨ 4|{2, 3} δε µπορεί να εφαρµοστεί απ’ ευθείας για να απλοποιήσει την f124 επειδή ο κόµβος 3 είναι απαραίτητος στο σύνολο δεσµεύσεων. Η γενική ιδιότητα Markov, όµως, µας λέει ότι 1 ╨ 4|2, την οποία και χρησιµοποιούµε: (1, 4) : 1 ╨ 4|2 δίνει f1234 = f12 f 24 f 234 f12 f 234 = f 2 f 24 f2 δίνει f1234 = f12 f 234 f12 f 23 f 34 = f2 f2 f3 Τελικά, για το ζεύγος (2, 4), (2, 4) : 2 ╨ 4|3 Μια σχέση ανεξαρτησίας για κάθε ένα ζεύγος µη γειτονικών κόµβων έχει χρησιµοποιηθεί, άρα η πυκνότητα έχει πλήρως παραγοντοποιηθεί. Εύκολα µπορούµε να ελέγξουµε ότι η παραγοντοποίηση είναι µοναδική: κάθε µια από τις 3! = 6 διατάξεις των µη γειτονικών ζευγών οδηγεί στην ίδια απάντηση. 97 Απλοποίηση της αναδροµικής παραγοντοποίησης Στα προηγούµενα παραδείγµατα, κάθε βήµα στη διαδικασία παραγοντοποίησης προκύπτει από την εφαρµογή µιας κατά ζεύγη σχέσης δεσµευµένης ανεξαρτησίας που είναι έµφυτη στον ορισµό του γραφήµατος ανεξαρτησίας. Υπάρχει µια συµµετρία µεταξύ των δύο κόµβων σε κάθε ζεύγος και µια µη συµµετρική προσέγγιση είναι να χρησιµοποιήσουµε σχέσεις ανεξαρτησίας που προκύπτουν από την εφαρµογή της τοπικής Markov ιδιότητας του γραφήµατος ανεξαρτησίας. Υπενθυµίζουµε στον αναγνώστη ότι οι ιδιότητες Markov είναι ισοδύναµες. Υποθέστε ότι µας δίνεται µια συγκεκριµένη διάταξη των 1, 2, …, k και θεωρήστε την ταυτότητα αναδροµικής παραγοντοποίησης κόµβων f12Kk = f1|2Kk f 2|3Kk L f k −1|k f k που ικανοποιείται από κάθε συνάρτηση πυκνότητας συνδυαστικής πιθανότητας. Κατά την εφαρµογή αυτής της παραγοντοποίησης είναι δυνατόν ο κόµβος 1 να είναι ανεξάρτητος των k-1 άλλων κόµβων, ο κόµβος 2 να είναι ανεξάρτητος των k-2 άλλων κόµβων κ.ο.κ. και επίσης k k − 1 + k − 2 + L + 3 + 2 + 1 = 2 που είναι ο µέγιστος δυνατός αριθµός σχέσεων δεσµευµένης ανεξαρτησίας. Παράδειγµα: Θεωρήστε την απλή αλυσίδα Markov 1 2 3 4 5 που καθορίζεται από 6 κατά ζεύγη δεσµευµένες ανεξαρτησίες. ∆ιαβάζοντας το γράφηµα από αριστερά προς τα δεξιά και εφαρµόζοντας τις ανεξαρτησίες που απορρέουν από την τοπική ιδιότητα Markov, µπορούµε να απλοποιήσουµε την ταυτότητα αναδροµικής παραγοντοποίησης: f12345 = f1 | 2345 f 2 | 345 f 3 | 45 f 4 | 5 f 5 . Η πρώτη σχέση ανεξαρτησίας είναι 1 ╨ {3, 4, 5} | 2 που σηµαίνει ότι f1|2345 = f1|2. Με επαναλαµβανόµενη εφαρµογή οδηγούµαστε στην f12345 = f1 | 2 f 2 | 3 f 3 | 4 f 4 | 5 f 5 Ακριβώς τρεις κατά ζεύγη ανεξαρτησίες χρησιµοποιούνται για να απλοποιηθεί η f1|2345 στην f1|2, δύο για να απλοποιηθεί η f2|345 στην f2|3 και µία για την απλοποίηση της f3|45 στην f3|4. Συνολικά 3+2+1=6 σχέσεις όσοι ακριβώς δεσµοί είναι απόντες από το γράφηµα. Σηµειώστε ότι η διάταξη 5, 4, 3, 2, 1 επίσης οδηγεί σε απλοποίηση που εκµεταλλεύεται όλους τους απόντες δεσµούς αλλά εάν επιλέξουµε τη διάταξη 3, 2, 4, 1, 5, τότε µόνον 2+1=3 σχέσεις ανεξαρτησίας µπορούν να εφαρµοστούν: f12345 = f 3 | 2415 f 2 | 415 f 4 | 15 f1 | 5 f 5 = f 3 | 24 f 2 | 41 f 4 | 15 f1 | 5 f 5 98 Φαίνεται λοιπόν ότι πλήρης παραγοντοποίηση δεν επιτυγχάνεται µε όλες τις πιθανές διατάξεις των κόµβων. 4.12.2 Μερικές παραγοντοποιήσεις: Αποσυνθέσεις Υπάρχει µια αποσύνθεση του τυχαίου διανύσµατος Χ, ή ισοδύναµα, το Χ είναι αναγώγιµο, εάν και µόνον εάν υπάρχει µια διαµέριση του Χ σε (Χα, Χb, Xc) τέτοια ώστε: • Χb ╨ Xc|Χα και κανένα από τα σύνολα b, c δεν είναι κενά, και • το υπο-γράφηµα του α στο γράφηµα ανεξαρτησίας τού Χ είναι πλήρες. Εάν αυτά ισχύουν, τότε οι συνιστώσες του Χ είναι οι Χαb = (Xa, Xb) και Xac = (Xa, Xc). Εάν µια τέτοια αποσύνθεση δεν υπάρχει, τότε το Χ ονοµάζεται ανηγµένο. Ισοδύναµα, λέµε ότι η συνάρτηση πυκνότητας fK είναι αναγώγιµη στις fαb και facκαι ότι το γράφηµα ανεξαρτησίας G είναι αναγώγιµο στα υπο-γραφήµατα α∪b και α∪c. Το γράφηµα ανεξαρτησίας κάθε µιας από τις συνιστώσες είναι το αντίστοιχο υπογράφηµα του G. Μια επιπλέον δικαιολόγηση για τον ορισµό της αποσύνθεσης προέρχεται από τον ακόλουθο συλλογισµό: υποθέστε ότι το γράφηµα Χ = (Xa, Xb) διαχωρίζεται σε δύο αποσυνδεδεµένα υπο-γραφήµατα, εκείνο του Χα, και εκείνο του Χb. Η γενική ιδιότητα Markov µας λέει ότι Χα ╨ Χb και άρα το βάρος συγκεντρώνεται στις αλληλεπιδράσεις µέσα στο Χα και τις αλληλεπιδράσεις µέσα στο Χb. Η ανεξαρτησία α ╨ b εκφρασµένη ως fb|a = fb µας δείχνει ότι η συµπερασµατολογία που αφορά στο διάνυσµα Χb δε χρειάζεται να εξάγεται υπό τη δέσµευση της τιµής του Χα, και άρα οι δηλώσεις σχετικά µε το Χb είναι γενικές παρά τοπικές. Η ανάλυση ενός αντικειµένου p+q διαστάσεων ανάγεται στην εξέταση ενός αντικειµένου p διαστάσεων και ενός αντικειµένου q διαστάσεων, που αποτελεί πολύ απλούστερο πρόβληµα. Η ταυτολογία fαb = fα fb|a αντικαθίσταται από την fαb = fα fb. Γενικότερα, όταν Κ = α∪b∪c, εάν b ╨ c|α, η συνδυαστική πυκνότητα f f παραγοντοποιείται σε f K = ab ac και το γράφηµα p+q+r διαστάσεων ανάγεται fa στην ανάλυση ενός γραφήµατος p+q διαστάσεων και ενός p+r διαστάσεων. Η ανεξαρτησία f b | a ∪ c = f b | a επιβεβαιώνει ότι συµπεράσµατα που αφορούν το διάνυσµα Xb δε χρειάζεται να δεσµεύονται από το Xc. Η απαίτηση το υπο-γράφηµα του α να είναι πλήρες εξασφαλίζει ότι δεν υπάρχουν πρόσθετοι περιορισµοί ανεξαρτησίας στα στοιχεία του Xa, και έτσι αυτή η παραγοντοποίηση περιέχει όλη την πληροφορία σχετικά µε τη συνδυαστική κατανοµή των (Xa, Xb, Xc). 4.12.3 Ανηγµένες συνιστώσες Τα τυχαία διανύσµατα X d1 , X d 2 ,L X d m αποτελούν τις οριακές ανώτατες (maximal) ανηγµένες συνιστώσες του Χ εάν και µόνον εάν 99 • κάθε διάνυσµα X di είναι ανηγµένη συνιστώσα του Χ, • κανένα υποσύνολο di δεν είναι γνήσιο υποσύνολο οποιουδήποτε άλλου dj , και • d1 ∪ d 2 ∪ K ∪ d m = K Για παράδειγµα, η επιλογή των υποσυνόλων α = {2}, b = {1}, c = {3, 4} δίνει µια αποσύνθεση αφού ούτε το b ούτε το c είναι κενά, δεν υπάρχουν στοιχεία του c γειτονικά σε στοιχεία του b και το α είναι πλήρες. Το γράφηµα ανεξαρτησίας αποσυντίθεται, 1 1 από 2 4 2 στα 2 4 3 3 Οι συνιστώσες αυτής της αποσύνθεσης είναι οι (Χ1, Χ2) και (Χ2, Χ3, Χ4). Καµία από αυτές δεν επιδέχεται περαιτέρω αναγωγής και πληρούν όλες τις προϋποθέσεις των οριακά ανηγµένων συνιστωσών. Εάν αντίθετα η επιλογή των συνόλων γίνει ως εξής: α = {2, 3}, b = {1}, c = {4}, τότε το γράφηµα ανάγεται στα 1 2 και 2 4 3 3 και η συνιστώσα (Χα, Χb) = (Χ1, Χ2, Χ3) ανάγεται περαιτέρω, οπότε οι ανηγµένες συνιστώσες είναι οι: 1 2 2 2 3 100 4 3 Όµως το υποσύνολο (Χ2, Χ3) του Χ είναι γνήσιο υποσύνολο του υποσυνόλου (Χ2, Χ3, Χ4) και άρα δεν αποτελούν οριακές ανηγµένες συνιστώσες. Η δεύτερη απαίτηση του ορισµού, ότι τα υποσύνολα είναι κατά ζεύγη µη συγκρίσιµα, εξασφαλίζει ότι είναι οριακά και αποκλείει τις ενθέσεις (nesting). Η τοµή οποιουδήποτε ζεύγους είτε είναι το κενό σύνολο ή έχει πλήρες υπο-γράφηµα. Τώρα γίνεται αντιληπτό ότι το σύνολο των οριακά ανηγµένων συνιστωσών που παράγονται από µια σειρά αποσυνθέσεων θα µπορούσε να είναι διαφορετικό από αυτό που παράγεται από µια άλλη αποσύνθεση. Κάτι τέτοιο όµως δεν ισχύει. Μια ανηγµένη συνιστώσα ενός τυχαίου διανύσµατος Χ που παράγεται από µια σειρά αποσυνθέσεων διατηρείται σε οποιαδήποτε άλλη σειρά αποσυνθέσεων του Χ. Παραγοντοποίηση ανηγµένων συνιστωσών Οι οριακές ανηγµένες συνιστώσες του Χ που αντιστοιχούν στα υποσύνολα {d1 , d 2 , K, d m } είναι µοναδικές και η συνάρτηση πυκνότητας του Χ, fK, παραγοντοποιείται κατά µοναδικό τρόπο ως εξής: fK = f d1 f d 2 K f d m g όπου η συνάρτηση g είναι γινόµενο περιθωριακών συναρτήσεων πυκνότητας, g = ∏ f a , στο οποίο κάθε υποσύνολο α είναι τοµή ανηγµένων συνιστωσών και πλήρες. 4.12.4 Αποσυνθεσιµότητα Είδαµε νωρίτερα τις «καλές» ιδιότητες που έχουν τα αποσυνθέσιµα µοντέλα. Ένας αναδροµικός ορισµός, που όµως είναι εξ’ ίσου ισοδύναµος γιατί αναφερόµαστε σε πεπερασµένα γραφήµατα, είναι ότι ένα µοντέλο είναι αποσυνθέσιµο εάν οποιοδήποτε από τα εξής ισχύει: (1) είναι πλήρες, (2) µπορεί να αναχθεί σε δύο αποσυνθέσιµες συνιστώσες. Καταλήγουµε εποµένως στον ορισµό: Ένα k-διάστατο τυχαίο διάνυσµα Χ, ή η συνάρτηση πυκνότητάς του, είναι αποσυνθέσιµο εάν και µόνον εάν υπάρχει µια ακολουθία αποσυνθέσεων σε πλήρεις ανηγµένες συνιστώσες. Τα αποσυνθέσιµα τυχαία διανύσµατα έχουν γραφήµατα ανεξαρτησίας που αποτελούνται µόνον από πλήρη υπο-γραφήµατα. Άρα οι οριακές ανηγµένες συνιστώσες ενός αποσυνθέσιµου µοντέλου είναι οι οµάδες του γραφήµατος. Αντίστροφα, αν κάποια από τις ανηγµένες συνιστώσες ενός µοντέλου δεν είναι πλήρης, τότε το µοντέλο δεν είναι αποσυνθέσιµο. Είδαµε ότι υπάρχουν δυνατά διακεκριµένα γραφήµατα ανεξαρτησίας για ένα kδιάστατο τυχαίο διάνυσµα. Ακόµα και για µικρές τιµές του k, ο αριθµός αυτός είναι πολύ µεγάλος. Για παράδειγµα, για k=4 υπάρχουν 64 µοντέλα ενώ για k=6 τα µοντέλα είναι 32768. Ο αριθµός των ανηγµένων συνιστωσών, που δηµιουργούν όλα τα αποσυνθέσιµα µοντέλα είναι µόνον 2k. Έχει αποδειχθεί ότι ο αριθµός των αποσυνθέσιµων µοντέλων δε µπορεί να υπολογιστεί αναλυτικά. 101 Ο άµεσος τρόπος ελέγχου για το κατά πόσον ένα δεδοµένο γράφηµα ανεξαρτησίας αποτελεί γράφηµα συνάρτησης πυκνότητας ενός αποσυνθέσιµου µοντέλου, είναι να το ανάγουµε στις ανηγµένες συνιστώσες του και να ελέγξουµε αν κάθε µια από αυτές είναι πλήρης. Μερικές φορές είναι συντοµότερο να βρούµε έναν άχορδο κύκλο µήκους µεγαλύτερο από 3, οπότε αποφαινόµαστε ότι το µοντέλο δεν είναι αποσυνθέσιµο. Αποσυνθέσιµα µοντέλα και τριγωνοποιηµένα γραφήµατα Ένα µη κατευθυντικό γράφηµα λέγεται τριγωνοποιηµένο εάν και µόνον εάν όλοι οι άχορδοι κύκλοι που πιθανόν υπάρχουν έχουν µήκος µικρότερο του 4. Παράδειγµα: Το γράφηµα (α) παρακάτω δεν είναι τριγωνοποιηµένο επειδή υπάρχει ο άχορδος κύκλος 1, 2, 3, 4, 1 µε µήκος 4 (φανταστείτε ότι «σηκώνουµε» τον κόµβο 5 πάνω από τη σελίδα). Τα γραφήµατα (β) και (γ) είναι τριγωνοποιηµένα. Το θεώρηµα της τριγωνοποίησης λέει: Το τυχαίο διάνυσµα Χ (ή η συνάρτηση πυκνότητάς του) είναι αποσυνθέσιµο εάν και µόνον εάν το γράφηµα ανεξαρτησίας του G είναι τριγωνοποιηµένο. Πλήρεις παραγοντοποιήσεις και απόντες δεσµοί Μέχρι τώρα έχουµε ορίσει ένα µοντέλο Χ ως αποσυνθέσιµο αν µπορεί να αναχθεί σε ένα σύνολο πλήρων ανηγµένων συνιστωσών, που αναγνωρίζονται ως οι οµάδες του γραφήµατος, και κατά συνέπεια έχουµε δει ότι η συνάρτηση πυκνότητας του µοντέλου εκφράζεται µε µοναδικό τρόπο ως το γινόµενο των περιθωριακών συναρτήσεων πυκνότητας επί των οµάδων. Αποδεικνύεται ότι η συνάρτηση πυκνότητας για ένα k-διάστατο τυχαίο διάνυσµα Χ είναι αποσυνθέσιµη εάν και µόνον εάν είναι πλήρως παραγοντοποιήσιµη ως προς τα µη γειτονικά ζεύγη κόµβων στο γράφηµα ανεξαρτησίας. 1 2 5 3 (α) 4 4 1 3 2 3 2 5 6 1 (β) (γ) Ένα τελευταίο σχόλιο αφορά στη σχέση µεταξύ αποσυνθέσιµων µοντέλων και άµεσων εκτιµητών µέγιστης πιθανοφάνειας. Κατά την προσαρµογή γραφικών µοντέλων στην Πολυωνυµική κατανοµή, οι εξισώσεις πιθανοφάνειας χαρακτηρίζονται από την ισότητα µεταξύ παρατηρηθεισών και προσαρµοσµένων περιθωριακών πυκνοτήτων για όλα τα περιθώρια που αντιστοιχούν σε οµάδες στο γράφηµα. Αν το µοντέλο είναι αποσυνθέσιµο, ώστε η παραγοντοποίηση της συνδυαστικής συνάρτησης πυκνότητας να είναι πλήρης, ο εκτιµητής µέγιστης πιθανοφάνειας δίνεται από το γινόµενο των εκτιµητών των περιθωριακών πυκνοτήτων, που δεν είναι παρά το γινόµενο των παρατηρηθέντων περιθωρίων. 102 4.12.5 Συρρικνωσιµότητα Το γράφηµα ανεξαρτησίας ενός k-διάστατου διανύσµατος δε δίνει συνήθως µια πλήρη περιγραφή της δοµής ανεξαρτησίας του. Ενώ η γενική ιδιότητα Markov µας εξασφαλίζει αρκετές, µπορεί να µην εξαιρεί άλλες δυνατότητες και ένας µόνιµος φόβος στις πραγµατικές εφαρµογές είναι µήπως η αλληλεπίδραση που παρατηρείται στο Χα περιθώριο οφείλεται αποκλειστικά στην περιθωριοποίηση του πλήρους διανύσµατος (Χα, Χb) επί του Χb. Η συρρικνωσιµότητα ασχολείται µε τις ιδιότητες της περιθωριακής πυκνότητας, fα, όταν η συνδυαστική κατανοµή, fαb, ανήκει σε ένα γραφικό µοντέλο. Υπάρχει µια σειρά από προβλήµατα για µελέτη: Κλειστότητα: Ανήκει η περιθωριακή κατανοµή του Χα στην ίδια παραµετρική οικογένεια κατανοµών όπως η ΧΚ; Γραφική συρρικνωσιµότητα: Ποια συµπεράσµατα µπορούν να εξαχθούν σχετικά µε το γράφηµα ανεξαρτησίας του Χα από τη γνώση που έχουµε για το γράφηµα του Χαb; Παραµετρική συρρικνωσιµότητα: Είναι οι παράµετροι αλληλεπίδρασης στην περιθωριακή κατανοµή ίσες µε τις αντίστοιχες παραµέτρους στη συνδυαστική κατανοµή, ή έστω µηδενίζονται και οι δύο µαζί; Αντιµεταθετικότητα προσαρµογής και περιθωριοποίησης: Είναι δυνατόν η προβλεπόµενη κατανοµή, που εξάγεται από την περιθωριοποίηση του προσαρµοσµένου µοντέλου της συνδυαστικής κατανοµής, να αναπαραχθεί µε την προσαρµογή ενός µοντέλου στα περιθωριακά δεδοµένα; Συρρικνωσιµότητα στατιστικών δοκιµών: Είναι δυνατόν οι τιµές των στατιστικών συναρτήσεων, όπως οι αποκλίνουσες αποκοπής δεσµών, να αναπαραχθούν στην περιθωριακή κατανοµή; Οι διάφορες αυτές εκδοχές συρρικνωσιµότητας είναι κατά κάποιον τρόπο ιεραρχικές και για παράδειγµα δε µπορεί κανείς να ελέγχει για αντιµεταθετικότητα αν η κατανοµή δεν είναι κλειστή. Η συρρικνωσιµότητα είναι σηµαντική για δύο λόγους. Ο πρώτος είναι ότι κοµµατιάζει ένα µεγάλο πρόβληµα σε µικρότερα. Στην πράξη, µια µελέτη µπορεί να δέχεται τις παρατηρήσεις πολλών µεταβλητών αλλά να χρησιµοποιεί µόνο µερικές από αυτές σε οποιαδήποτε ανάλυση των δεδοµένων. Αυτό µπορεί να συµβαίνει είτε λόγω της µείωσης της πολυπλοκότητας (αλληλεπιδράσεις υψηλών διαστάσεων είναι δύσκολα ερµηνεύσιµες) είτε λόγω λίγων δεδοµένων (η απαίτηση για πλήρεις µετρήσεις σε όλες τις µεταβλητές µιας µελέτης δεν είναι πάντα εφικτή). Ο δεύτερος λόγος είναι ότι τα µοντέλα παλινδρόµησης (regression) και τα αναδροµικά (recursive) µοντέλα διατυπώνονται κατά φυσικό τρόπο µε όρους δεσµευµένων και περιθωριακών κατανοµών. H συρρικνωσιµότητα ελέγχει τη σχέση µε το συνδυαστικό µοντέλο και άρα ελέγχει εάν το µοντέλο παλινδρόµησης µπορεί να εκτιµηθεί προσαρµόζοντας τη συνδυαστική κατανοµή. Αντί να αναπτύξουµε νέους αλγόριθµους προσαρµογής της fb|a απ’ ευθείας, µπορούµε να το κάνουµε έµµεσα, χρησιµοποιώντας καθιερωµένες µεθόδους προσαρµογής των fab και fa . 103 Γραφική συρρικνωσιµότητα Η γραφική συρρικνωσιµότητα ορίζεται ως εξής: Το διάνυσµα Χ = Χαb = (Χα, Χb) είναι γραφικά συρρικνώσιµο επί του Χα ως προς Xb εάν και µόνον εάν το περίβληµα κάθε συνδεδεµένης συνιστώσας τού Χb είναι πλήρες στο G. Με άλλα λόγια, το µοντέλο συρρικνώνεται ως προς κάποιες µεταβλητές αν το περίβληµα κάθε µιας από τις µεταβλητές αυτές ανήκει στη δηµιουργό κλάση του µοντέλου. Αποδεικνύεται ότι, αν το Χαb = (Χα, Χb) είναι γραφικά συρρικνώσιµο ως προς Xb, τότε οι δεσµευµένες ανεξαρτησίες µεταξύ των στοιχείων του Xα στο γράφηµα ανεξαρτησίας του (Χα, Χb) διατηρούνται στο γράφηµα ανεξαρτησίας του Xα. Παράδειγµα Έστω ότι το γράφηµα ανεξαρτησίας G του Χ έχει το παρακάτω διάγραµµα: 5 6 7 8 9 1 2 3 4 Αυτό το γράφηµα, που µπορεί να περιγραφεί ως [156][12][13][67][78][89][4]: • είναι συρρικνώσιµο ως προς b = {5} επειδή το περίβληµά του bd(5) = {1, 6} είναι πλήρες στο G, ή και επειδή ο όρος 16 εµπεριέχεται στον [156]. • δεν είναι συρρικνώσιµο ως προς b = {8} επειδή το περίβληµά του είναι {7, 9} που δεν είναι γειτονικοί, • είναι συρρικνώσιµο ως προς b = {5, 8, 9} επειδή τα συνδεδεµένα υπογραφήµατα του b είναι τα {5} και {8, 9} και το περίβληµα καθενός από αυτά είναι πλήρες, και • δεν είναι συρρικνώσιµο ως προς b = {5, 8} γιατί ο όρος 58 δεν ανήκει στη δηµιουργό κλάση. Όπως φαίνεται από το παραπάνω παράδειγµα, µια επαναδιατύπωση του ορισµού είναι ότι το Χ είναι συρρικνώσιµο επί του Χα εάν και µόνον εάν υπάρχει µια ακολουθία αποσυνθέσεων της οποίας το Χα αποτελεί συνιστώσα. Εάν υπάρχει µια αποσύνθεση σε συνιστώσες Xab και Xac τότε το Χ είναι γραφικά συρρικνώσιµο σε οποιαδήποτε συνιστώσα. Η αντιµεταθετικότητα της προσαρµογής και της περιθωριοποίησης συνοψίζεται στο διάγραµµα 104 προσαρµογή fˆa b fab περιθωριοποίηση περιθωριοποίηση fˆa fa προσαρµογή Το µοντέλο είναι υπ’ αυτή την έννοια συρρικνώσιµο αν, για παράδειγµα, οι προσαρµοσµένες πιθανότητες κελιών ή η γενικευµένη στατιστική συνάρτηση λόγου πιθανοφάνειας (generalised likelihood ratio test statistic) είναι τα ίδια, άσχετα από τη σειρά µε την οποία προσαρµόζουµε και συρρικνώνουµε. Η σηµασία της γραφικής συρρικνωσιµότητας είναι ότι µαζί µε την κλειστότητα αποτελούν τις αναγκαίες και ικανές συνθήκες για την αντιµεταθετικότητα των εκτιµητών µέγιστης πιθανοφάνειας. Η αντιµεταθετικότητα των ελέγχων µέγιστης πιθανοφάνειας απαιτεί συρρικνωσιµότητα τόσο κάτω από το µοντέλο µηδενικής υπόθεσης όσο και από τα εναλλακτικά µοντέλα. Εφαρµογές της συρρικνωσιµότητας Εάν το µοντέλο Μ είναι συρρικνώσιµο επί του α, ξέρουµε ότι η συνάρτηση συνδυαστικής πυκνότητας f µπορεί να γραφεί ως f K = f a fb|a . Επιπλέον, οι fα και fb|α µπορούν να παραµετροποιηθούν ξεχωριστά, άρα οι εκτιµητές µέγιστης πιθανοφάνειας ικανοποιούν την fˆK = fˆa fˆb | a . Αυτή η σχέση είναι θεµελιώδης, αφού σηµαίνει ότι µπορούµε να εργαστούµε µε δεσµευµένες κατανοµές µέσα στο πλαίσιο της συνδυαστικής κατανοµής. Εάν το Μ είναι συρρικνώσιµο επί του α, τότε µπορούµε να χρησιµοποιήσουµε το fˆK , τον εκτιµητή µέγιστης πιθανοφάνειας κάτω από το Μ για να υπολογίσουµε τόσο τον ΕΜΠ υπό το Μα µέσω περιθωριοποίησης όσο και τον ΕΜΠ υπό το Μb|α µέσω νέας κανονικοποίησης. Υπολογίζουµε τις παραµέτρους της fˆa αθροίζοντας πιθανότητες και εξάγοντας υπο-πίνακες και τις παραµέτρους της fˆb | a κανονικοποιώντας ξανά τις πιθανότητες, pb | a = pab ( xa , xb ) p (x , x ) = ab a b . ∑ p K ( x a , xb ) p a ( x a ) xb Με βάση αυτή τη θεµελιώδη σχέση, έπεται ότι 105 ˆl = ˆl + ˆl όπου lˆ , lˆ και ˆl οι µεγιστοποιηµένες λογαριθµικές πιθανοφάνειες a b|a a b|a υπό τα µοντέλα Μ, Μα και Μb|α. Αντίστοιχα, υποθέστε ότι έχουµε δύο ένθετα µοντέλα, M 0 ⊆ M 1 , και τα δύο συρρικνώσιµα επί του α µε το ίδιο περιθωριακό µοντέλο. Από την παραπάνω σχέση φαίνεται ότι 2(lˆ 1b | a − lˆ 0b | a ) = 2(lˆ 1 − lˆ 0 ) , που σηµαίνει ότι η διαφορά των αποκλινουσών στα µοντέλα δεσµευµένης πιθανότητας είναι η ίδια µε τη διαφορά των αποκλινουσών στα µοντέλα συνδυαστικής πιθανότητας. Μια διαφορετικού τύπου εφαρµογή φαίνεται στο επόµενο παράδειγµα. Θεωρήστε το γράφηµα 3 1 2 4 6 5 και τα δύο µοντέλα, µε και χωρίς το [12]. Και τα δύο µοντέλα είναι συρρικνώσιµα επί του υποσυνόλου α = {1, 2} µε διαφορετικά περιθωριακά µοντέλα αλλά µε ταυτόσηµα µοντέλα δεσµευµένης πιθανότητας. Βάσει της προηγούµενης σχέσης, ισχύει ότι 2(lˆ 1 − lˆ 0 ) = 2(lˆ 1a − lˆ 0a ) , δηλαδή η δοκιµασία µπορεί να περιοριστεί στον περιθωριακό πίνακα δύο διαστάσεων X 1 × X 2 ως δοκιµασία της ανεξαρτησίας Χ1 ╨ Χ2. 106 5. ∆ΙΚΤΥΑ ΚΑTΑ BAYES Προσφέροντας γραφικές µεθόδους για την αναπαράσταση και τη διαχείριση πιθανοκρατικής γνώσης, τα δίκτυα πεποίθησης ξεπερνούν πολλά από τα φιλοσοφικά και υπολογιστικά προβλήµατα των rule based συστηµάτων. Οι βασικές τους ιδιότητες και δυνατότητες µπορούν να συνοψιστούν στα ακόλουθα: Οι γραφικές µέθοδοι διευκολύνουν την τήρηση συνέπειας και πληρότητας στις πιθανοκρατικές γνωστικές βάσεις. Περιγράφουν επίσης αρθρωτές (modular) διαδικασίες απόκτησης γνώσης που ελαττώνουν σηµαντικά τον αριθµό των αναγκαίων εκτιµήσεων (assessments) Οι ανεξαρτησίες µπορούν να διαχειριστούν εκπεφρασµένα. Μπορούν να διαρθρωθούν από έναν ειδικό, να κωδικοποιηθούν γραφικά, να είναι απ’ ευθείας αναγνωρίσιµες από το δίκτυο και να υποστούν τη διαδικασία της συµπερασµατολογίας παραµένοντας αριθµητικά ακριβείς. Οι γραφικές αναπαραστάσεις αποκαλύπτουν ευκαιρίες για αποτελεσµατικούς υπολογισµούς. Η κατανεµηµένη ανανέωση της πεποίθησης είναι εφικτή σε γνωστικές δοµές που είναι αρκετά πλούσιες ώστε να επιδεικνύουν αιτιοκρατικές αλληλεπιδράσεις (π.χ. explaining away). Ο συνδυασµός προγνωστικής και απαγωγικής συµπερασµατολογίας επιλύει πολλά από τα προβλήµατα που αντιµετώπισαν τα έµπειρα συστήµατα πρώτης γενιάς και καθιστά τα δίκτυα πεποίθησης ένα βιώσιµο µοντέλο για γνωστικές διαδικασίες που απαιτούν τόσο top-down όσο και bottom-up συµπερασµατολογίες. Η αιτιοκρατική πληροφορία που υπάρχει κωδικοποιηµένη στα δίκτυα πεποίθησης διευκολύνει την ανάλυση ακολουθιών δράσεων, των συνεπειών τους, των αλληλεπιδράσεων µε τις παρατηρήσεις και των αναµενόµενων ωφελειών και άρα τη σύνθεση πλάνων και στρατηγικών υπό καθεστώς απροσδιοριστίας. 5.1 Τα ∆ίκτυα Πεποίθησης ως ειδική περίπτωση γραφικών µοντέλων Είδαµε ότι τα γραφικά µοντέλα αποτελούν µια κλάση των στατιστικών µοντέλων που ορίζονται ως συλλογές δεσµευµένων ανεξαρτησιών που µπορούν να αναπαρασταθούν από ένα γράφηµα. Κάθε κόµβος υ στο γράφηµα V αντιστοιχεί σε µια τυχαία µεταβλητή Χυ. Στην περίπτωση των κατευθυντικών γραφηµάτων, οι γονείς pa(υ) ενός κόµβου υ είναι εκείνοι οι κόµβοι από τους οποίους ένας δεσµός κατευθύνεται προς τον υ. Οι γονείς θεωρούνται ως οι µόνες µεταβλητές που επιδρούν άµεσα στον υ και έτσι ο υ είναι ανεξάρτητος από τους κόµβους που δεν είναι απόγονοί του, µε δεδοµένους τους γονείς του. Αυτή η ιδιότητα επιβάλλει µια παραγοντοποίηση της συνδυαστικής κατανοµής p(V) που δίνεται από την p (V ) = ∏ p(υ | pa (υ )) υ ∈V 107 Αυτή η κλάση µοντέλων για πρώτη φορά ορίστηκε από τον Kiiveri [75]. Ο καθορισµός δεσµευµένων ανεξαρτησιών σε µεγάλα γραφήµατα ανεξαρτησίας µπορεί να είναι πολύ δύσκολο έργο, αλλά οι έδειξαν ότι για τα σύνολα Α, Β και S, υποσύνολα του V, τα Α και Β είναι ανεξάρτητα µε δεδοµένο το S εάν τα Α και Β διαχωρίζονται από το S στο «ηθικό» µη-κατευθυντικό γράφηµα που περιέχει τα Α∪Β∪S και τους γονείς τους. Υπενθυµίζουµε ότι το ηθικό γράφηµα δηµιουργείται αν συνδέσουµε µε δεσµούς όλους τους κόµβους που µοιράζονται ένα παιδί και κατόπιν µετατρέψουµε όλους τους δεσµούς από κατευθυντικούς σε µη-κατευθυντικούς. Στην πιο γενική περίπτωση, οι κατανοµές πιθανότητας µπορούν να έχουν ιδιότητες δεσµευµένης ανεξαρτησίας πολύ πιο πολύπλοκες από αυτές που µπορούν να αναπαρασταθούν είτε από ένα κατευθυντικό ή από ένα µη-κατευθυντικό γράφηµα ανεξαρτησίας. Ωστόσο, είναι πάντα δυνατό να βρούµε ένα γράφηµα για µια κατανοµή, έτσι ώστε όλες οι υποθέσεις ανεξαρτησίας που συνάγονται από το γράφηµα να είναι αληθείς για την κατανοµή αυτή. Κατά τον Pearl [109], ένα τέτοιο γράφηµα ονοµάζεται I-map. Ένα τετριµµένο παράδειγµα θα µπορούσε να είναι ένα πλήρες µη-κατευθυντικό γράφηµα, το οποίο δεν κάνει καµιά παραδοχή ανεξαρτησίας. Εποµένως, µπορούµε πάντα να βρούµε ένα γραφικό µοντέλο που δεν κάνει εσφαλµένες παραδοχές ανεξαρτησίας, µε τη διαφορά ότι έχει περισσότερες παραµέτρους από όσες χρειάζονται. Εάν ένα γράφηµα είναι I-map για µια κατανοµή, και κάθε σχέση ανεξαρτησίας στην κατανοµή αναπαρίσταται στο γράφηµα, τότε κατά τον Pearl ονοµάζεται perfect map της κατανοµής. Υπάρχουν επίσης κατανοµές τέτοιες ώστε να υπάρχει µη-κατευθυντικό γράφηµα που να είναι perfect map αλλά να µην υπάρχει κατευθυντικό που να είναι perfect map και αντίστροφα. Οι δύο αυτοί τύποι γραφηµάτων µπορούν να εκφράσουν διαφορετικά είδη σχέσεων, µε αποτέλεσµα να τίθεται το ερώτηµα ποιος τύπος θα πρέπει να χρησιµοποιηθεί για ένα δεδοµένο πρόβληµα. Σε προβλήµατα όπου προφανώς κάποιες µεταβλητές καθορίζονται πριν από άλλες ή προκαλούν (αιτιοκρατικά) άλλες, τα κατευθυντικά γραφήµατα επιτρέπουν µια άµεση αναπαράσταση αυτών των υποθέσεων. Για παράδειγµα αν έχουµε δύο µεταβλητές, «διάλυση πέτρας νεφρού» και «αποβολή πέτρας νεφρού», είναι σαφές ότι η πρώτη επηρεάζει ή προκαλεί τη δεύτερη και όχι αντίστροφα, άρα ένας δεσµός µεταξύ των δύο θα πρέπει να κατευθύνεται από την πρώτη προς τη δεύτερη. Αντίθετα, µη-κατευθυντικά µοντέλα ταιριάζουν καλύτερα σε προβλήµατα όπου οι µεταβλητές καθορίζονται ταυτόχρονα, ή ίσως όλες επηρεάζονται από κάποια µεταβλητή που δεν ανήκει εκπεφρασµένα στο µοντέλο. Για παράδειγµα, δεν έχει νόηµα να λέµε ότι το χρώµα των µατιών κάποιου επηρεάζει ή προκαλεί το χρώµα των µαλλιών του και αντίστροφα, και έτσι η σχέση µεταξύ αυτών των µεταβλητών περιγράφεται καλύτερα µέσω µη-κατευθυντικού δεσµού. Πολλά προβλήµατα περιέχουν σχέσεις και των δύο τύπων. Σ’ αυτές τις περιπτώσεις, πιο αρµόζουσα είναι η αναπαράσταση µέσω των αλυσιδωτών γραφηµάτων, που όπως είδαµε περιέχουν τόσο κατευθυντικούς όσο και µη-κατευθυντικούς δεσµούς. Θα πρέπει να σηµειώσουµε ότι πέρα από αυτή τη φιλοσοφική θεώρηση, η κατευθυντικότητα των δεσµών µας δίνει την ευκαιρία να αξιοποιήσουµε το δίκτυο ως µηχανισµό υπολογισµού της πεποίθησης κάτω από την παρατήρηση νέων δεδοµένων. Στην περίπτωση αυτή, η κατευθυντικότητα των δεσµών δεν υποδηλώνει κατ’ ανάγκη αιτιοκρατικές σχέσεις. 108 Προσπαθώντας να συγκρίνουµε τα δίκτυα κατά Bayes µε τα Markov δίκτυα, δίνουµε απάντηση στο ερώτηµα: Είναι δυνατόν όλες οι σχέσεις εξάρτησης που µπορούν να αναπαρασταθούν από ένα δίκτυο Markov να αναπαρασταθούν και από ένα κατά Bayes δίκτυο; Η απάντηση είναι σαφώς αρνητική, και φαίνεται στα µη-κατευθυντικά γραφήµατα που δε µπορούν να τριγωνοποιηθούν: µε οποιοδήποτε τρόπο και αν κατευθύνουµε τα βέλη, θα υπάρχει πάντα ένα ζεύγος µη γειτονικών γονέων κάποιου κόµβου, µια διαµόρφωση που δίνει ανεξαρτησία των γονέων στα δίκτυα Markov αλλά εξάρτηση στα δίκτυα κατά Bayes. Από την άλλη πλευρά, κάθε τριγωνοποιηµένο γράφηµα µπορεί να µετατραπεί σε κατευθυντικό έτσι ώστε οι ουρές κάθε ζεύγους συγκλινόντων ζευγών να είναι γειτονικοί κόµβοι. Άρα, κάθε µοντέλο σχέσεων εξαρτήσεως που είναι ισόµορφο σε ένα τριγωνοποιηµένο γράφηµα είναι επίσης ισόµορφο σε ένα κατευθυντικό γράφηµα. Συµπερασµατικά, η κλάση των πιθανοκρατικών εξαρτήσεων που µπορούν να αναπαρασταθούν τόσο από ένα κατευθυντικό όσο και από ένα µη κατευθυντικό γράφηµα αποτελείται από εκείνες τις εξαρτήσεις που σχηµατίζουν αποσυνθέσιµα µοντέλα, δηλαδή κατανοµές πιθανότητας των οποίων τα τριγωνοποιηµένα γραφήµατα αποτελούν perfect maps. Οι σχέσεις αυτές φαίνονται σχηµατικά στην παρακάτω εικόνα. Κατευθυντικά γραφήµατα Τριγωνοποιηµένα γραφήµατα Μη Κατευθυντικά γραφήµατα Πιθανοκρατικές εξαρτήσεις Πεδία Markov Causal models Αποσυνθέσιµα µοντέλα 109 5.2 Τα ∆ίκτυα Πεποίθησης ως υπόστρωµα για τη δηµιουργία Expert Systems - Συµπερασµατολογία µε δίκτυα πεποίθησης και διαγράµµατα επιρροής Μετά την κατασκευή του δικτύου πεποίθησης ή του διαγράµµατος επιρροής στο σχεσιακό επίπεδο και την αποτίµηση των λεπτοµερειών των πιθανοκρατικών εξαρτήσεων στο αριθµητικό επίπεδο, µπορούµε να εξάγουµε συµπεράσµατα σχετικά µε το πώς αλλαγές στην πεποίθηση µιας ή περισσοτέρων προτάσεων θα τροποποιήσουν την πεποίθηση σε άλλες προτάσεις. Υπάρχουν διάφορες κατηγορίες συµπερασµατολογίας. Μπορεί να υπολογιστεί η κατανοµή περιθωριακής πιθανότητας µιας µεταβλητής. Για παράδειγµα, ο καθορισµός της πιθανότητας εµφράγµατος µυοκαρδίου για ένα συγκεκριµένο ασθενή. Μπορεί να υπολογιστεί η ενηµερωµένη κατανοµή πιθανότητας µιας µεταβλητής (π.χ. η πιθανότητα διαφόρων τιµών της «Στεφανιαία νόσου» του παραδείγµατος της παραγράφου 4.3) όταν είναι γνωστή η τιµή άλλων µεταβλητών (π.χ. «Πόνος στο στήθος» = όχι, «Αγγειογραφία» = αρνητική). Τέλος, µπορεί να επιλεγεί η καλύτερη απόφαση, όπως αν πρέπει να διαταχθεί αγγειογραφία και να γίνει η επέµβαση, µε δεδοµένη τη διαθέσιµη πληροφορία. Αντίθετα µε τη συµπερασµατολογία ενός δικτύου συµπερασµατολογίας (inference net) που βασίζεται σε κανόνες, τα δίκτυα πεποίθησης και τα διαγράµµατα επιρροής επιτρέπουν συµπερασµατολογία σε κατεύθυνση αντίθετη προς την κατεύθυνση αποτίµησης της επίδρασης. Κατά συνέπεια, είναι δυνατή η διαβίβαση του αποτελέσµατος της παρατήρησης οποιουδήποτε συνόλου µεταβλητών στην κατανοµή πιθανότητας οποιασδήποτε άλλης µεταβλητής ή συνάρτησης µεταβλητών. Στα επόµενα εξετάζονται αλγόριθµοι, ακριβείς όσο και προσεγγιστικοί για πιθανοκρατική συµπερασµατολογία στα δίκτυα πεποίθησης. 5.2.1 Πιθανοκρατική συµπερασµατολογία probabilistic inference) πυγµής (Brute-Force Ένα δίκτυο πεποίθησης στο οποίο έχουν ανατεθεί πιθανότητες σε όλους τους πηγαίους (χωρίς προγόνους) κόµβους και σε όλους τους κόµβους που είναι γονείς άλλων, καθορίζει µια πλήρη κατανοµή συνδυαστικής πιθανότητας των µεταβλητών στο δίκτυο. Η κατανοµή συνδυαστικής πιθανότητας µπορεί να δηµιουργηθεί παίρνοντας το γινόµενο όλων αυτών των κατανοµών. Όταν είναι γνωστή η κατανοµή συνδυαστικής πιθανότητας, είναι εύκολος ο υπολογισµός της περιθωριακής πιθανότητας για οποιαδήποτε τιµή µιας µεταβλητής ή ενός Boolean συνδυασµού τιµών, µε άθροισµα επί των σχετικών διαστάσεων της συνδυαστικής κατανοµής. Με παρόµοιο τρόπο µπορεί να υπολογιστεί η δεσµευµένη πιθανότητα p( x | e,ξ ) για p ( x, e | ξ ) . οποιαδήποτε τιµή του x, µε δεδοµένη την ένδειξη e, ως το πηλίκο p (e | ξ ) ∆υστυχώς, το µέγεθος της συνδυαστικής κατανοµής είναι εκθετική συνάρτηση του αριθµού των µεταβλητών. Αν και αυτή η προσέγγιση είναι εννοιολογικά απλή, απαιτεί υπολογιστική προσπάθεια που είναι εκθετική µε τον αριθµό των µεταβλητών και άρα δεν είναι πρακτική για προβλήµατα µε περισσότερες από 6-7 µεταβλητές. 5.2.2 Ακριβείς µέθοδοι (exact methods) Ένας αποφασιστικός παράγοντας για υπολογιστική αποτελεσµατικότητα στη συµπερασµατολογία µε δίκτυα πεποίθησης είναι η εκµετάλλευση καθορισµένων 110 σχέσεων ανεξαρτησίας ώστε να αποφευχθεί ο υπολογισµός της πλήρους κατανοµής συνδυαστικής πιθανότητας. Έχουν αναπτυχθεί διάφορες µέθοδοι, κάθε µια εστιασµένη σε συγκεκριµένες οικογένειες τοπολογιών δικτύων πεποίθησης. Οι Kim και Pearl [76] έχουν αναπτύξει έναν κατανεµηµένο αλγόριθµο για την επίλυση δικτύων απλής σύνδεσης ή πολυδέντρων (polytrees). Ο αλγόριθµος είναι γραµµική συνάρτηση του αριθµού των µεταβλητών στο δίκτυο. Σ’ αυτό το σχήµα, κάθε κόµβος στο δίκτυο δέχεται µηνύµατα τόσο από κάθε προγονικό κόµβο όσο και από τους απογόνους του, αναπαριστώντας το σύνολο των διαθεσίµων ενδείξεων από εναλλακτικά τµήµατα του δικτύου. Η απλή συνδεσιµότητα του δικτύου εγγυάται ότι η πληροφορία σε κάθε µήνυµα είναι ανεξάρτητη και ότι ένα βαθµωτό επαρκεί για την αναπαράσταση της συνολικής πληροφορίας από κάθε συνδεδεµένο κόµβο (αν οι κόµβοι είναι λογικοί). Κάθε φορά που γίνεται µια νέα παρατήρηση, µηνύµατα διαβιβάζονται σε όλο το δίκτυο για την ενηµέρωση των πιθανοτήτων που σχετίζονται µε τις άλλες µεταβλητές. ∆υστυχώς τα περισσότερα πραγµατικά δίκτυα είναι πολλαπλά συνδεδεµένα και άρα απαιτούνται πιο πολύπλοκες µέθοδοι. Μια προσέγγιση του προβλήµατος, αναπτυγµένη από τον Shachter [117], επιτρέπει τον υπολογισµό της κατανοµής δεσµευµένης πιθανότητας για οποιαδήποτε συνάρτηση f, ενός συνόλου µεταβλητών Χ, µε δεδοµένες τις ενδείξεις Ε, ως p[ f ( X ) | E ,ξ ] . Ο αλγόριθµος αυτός εστιάζει σε µία µόνο συνάρτηση των µεταβλητών παρά στην ενηµέρωση της πιθανότητας όλων των κόµβων µε δεδοµένες τις ενδείξεις. Εφαρµόζει µια ακολουθία τελεστών στο δίκτυο για να αντιστρέψει την κατεύθυνση των δεσµών, µε χρήση του θεωρήµατος του Bayes, και εκτελεί αθροίσµατα επί των κόµβων για να τους απαλείψει. Η διεργασία αυτή συνεχίζεται µέχρι να µείνει µόνον ο κόµβος που εκπροσωπεί την αρχική πιθανοκρατική ερώτηση. Μπορεί να εφαρµοστεί σε πολλαπλά συνδεδεµένα δίκτυα αλλά για τη λειτουργία του απαιτεί λεπτοµερή γνώση της τοπολογίας. Ο αλγόριθµος του Shachter µπορεί να είναι σηµαντικά πιο αποτελεσµατικός από την προσέγγιση πυγµής (brute force) του υπολογισµού της πλήρους κατανοµής συνδυαστικής πιθανότητας. Η έκταση του κέρδους στην αποτελεσµατικότητα εξαρτάται από την τοπολογία του δικτύου. Άλλες ακριβείς προσεγγίσεις βασίζονται στην µετατροπή πολλαπλά συνδεδεµένων δικτύων [108] σε δίκτυα απλής σύνδεσης. Ο αλγόριθµος των Kim και Pearl ή παρόµοιες µέθοδοι µπορούν τότε να εφαρµοστούν στο δίκτυο. Η παρατήρηση κόµβων σε ένα βρόγχο µπορεί αποτελεσµατικά να σπάσει το βρόγχο. Έτσι ο Pearl έχει προτείνει [108] τον καθορισµό των ελάχιστων υποσυνόλων από κόµβους, των οποίων η παρατήρηση θα εξάλειπτε τους βρόγχους [108]. Αυτοί οι κόµβοι θα πρέπει να παρατηρηθούν µε κάθε δυνατή τιµή ή συνδυασµούς τιµών. Οι πιθανότητες που προκύπτουν κατόπιν σταθµίζονται σύµφωνα µε τα αποτελέσµατα από κάθε παρατήρηση, µε βάρη τις a priori πιθανότητες των παρατηρηθεισών µεταβλητών. Οι Lauritzen και Spiegelhalter προτείνουν µια διαφορετική προσέγγιση που βασίζεται σε µια επαναδιατύπωση του δικτύου πεποίθησης [81]. Πρώτα το δίκτυο γίνεται µη κατευθυντικό, µετατρέποντας τα βέλη σε γραµµές. ∆εύτερον, καθορίζεται το αντίστοιχο ηθικό γράφηµα. Τρίτον, το γράφηµα τριγωνοποιείται, µε την πρόσθεση µη κατευθυντικών δεσµών ώστε να µην υπάρχουν άχορδοι κύκλοι µήκους µεγαλύτερου του 3. Κατόπιν αναγνωρίζονται όλες οι οµάδες (cliques). Οι Lauritzen και Spiegelhalter έχουν αποδείξει ότι µέσα από ένα µετασχηµατισµό οποιοδήποτε δίκτυο µπορεί να µετατραπεί σε ένα αντίστοιχο απλά συνδεδεµένο δίκτυο οµάδων. Παρέχουν έναν αλγόριθµο για τη διαβίβαση των ενδείξεων σ’ αυτό το δέντρο των 111 οµάδων που είναι ανάλογος του µηχανισµού διαβίβασης πεποίθησης σε ένα απλά συνδεδεµένο δίκτυο µεταβλητών. Οι ενδείξεις διαδίδονται από οµάδα σε οµάδα διασφαλίζοντας ότι η περιθωριακή πιθανότητα του συνόλου των µεταβλητών που ανήκουν και στις δύο οµάδες παραµένει η ίδια, άσχετα µε το ποια από τις δύο οµάδες περιθωριοποιείται. Τελικά, όταν η διαδικασία διάδοσης τελειώσει, η a posteriori πιθανότητα µιας µεταβλητής υπολογίζεται προβάλλοντας (περιθωριοποιώντας) την κατανοµή της οµάδας-ξενιστή πάνω στη µεταβλητή. Η διάδοση στα δέντρα οµάδων αποτελεί την πιο δηµοφιλή µέθοδο διαβίβασης µηνυµάτων σήµερα (2000). Η υπολογιστική πολυπλοκότητα αυτών των αλγορίθµων δεν έχει πλήρως αναλυθεί ως προς την τοπολογία του δικτύου. Όλοι όµως οι αλγόριθµοι υπόκεινται σε προβλήµατα tractability εάν υπάρχουν πολλοί τεµνόµενοι βρόγχοι στο δίκτυο. Για παράδειγµα, στην προσέγγιση των Lauritzen και Spiegelhalter, η συνδυαστική κατανοµή για κάθε οµάδα πρέπει να αναπαρασταθεί εκπεφρασµένα· άρα ο αλγόριθµος είναι εκθετική συνάρτηση του µεγέθους της µεγαλύτερης οµάδας. Αυτή η οµάδα µπορεί να είναι πολύ µεγάλη σε ένα δίκτυο µε πολλούς τεµνόµενους βρόγχους. Ευτυχώς αυτές οι πολυπλοκότητες είναι δυνατόν να υπολογιστούν πριν από την πραγµατική επεξεργασία και κατά συνέπεια εάν οι εκτιµήσεις ξεπερνούν κάποια λογικά όρια, µπορούν να χρησιµοποιηθούν προσεγγιστικές µέθοδοι όπως η στοχαστική προσοµοίωση. Γενικότερα, ο Cooper έχει αποδείξει ότι το γενικό πρόβληµα συµπερασµατολογίας σε ένα δίκτυο πεποίθησης είναι NP-hard [21], και άρα δεν αναµένουµε την εύρεση µιας ακριβούς µεθόδου που να είναι υπολογιστικά αποτελεσµατική για τυχαία δίκτυα. Παρ’ όλα αυτά, η ανάπτυξη µεθόδων για την ακριβή λύση ειδικών κλάσεων δικτύων πεποίθησης είναι εφικτή. 5.2.3 Στοχαστικές µέθοδοι (stochastic methods) Έχουν αναπτυχθεί διάφορες τεχνικές που κάνουν χρήση προσεγγιστικών µεθόδων· η απόδειξη από τον Cooper ότι το πρόβληµα της ακριβούς πιθανοκρατικής συµπερασµατολογίας σε ένα δίκτυο πεποίθησης είναι NP-hard καθιστά σε πολλές περιπτώσεις τις προσεγγιστικές τεχνικές πιο παραγωγικές από τις ακριβείς µεθόδους. Μια µέθοδος, η στοχαστική προσοµοίωση είναι ελκυστική επειδή αναπαριστά το πιθανοκρατικό πρόβληµα ως ένα δείγµα αιτιοκρατικών, λογικών γεγονότων και ανάγει την πιθανοκρατική αναπαράσταση σε µια απλούστερη, και ίσως πιο διαφανή, λογική αναπαράσταση. Η ακρίβεια της αναπαράστασης εξαρτάται από το µέγεθος του δείγµατος ή από τον αριθµό των κύκλων προσοµοίωσης. Το σφάλµα της προσέγγισης µπορεί να υπολογιστεί από ένα δεδοµένο µέγεθος δείγµατος µε τη χρήση τυπικών στατιστικών τεχνικών, ενώ η απροσδιοριστία µπορεί να µειωθεί σε έναν αυθαίρετο βαθµό µε την αύξηση του µεγέθους του δείγµατος. Ο Henrion [66] ανέπτυξε µια µέθοδο για συµπερασµατολογία µε τον όρο πιθανοκρατική λογική δειγµατοληψία. Μέσω αυτής της τεχνικής, ένα δίκτυο πεποίθησης αναπαρίσταται προσεγγιστικά από ένα δείγµα αιτιοκρατικών γεγονότων. Για κάθε γεγονός ή κύκλο προσοµοίωσης, κάθε πηγαίος κόµβος (κόµβος χωρίς γονείς) και σηµείο εισόδου βελών δεσµευµένης πιθανότητας δηµιουργείται τυχαία ως τιµή αλήθειας ή ως κανόνας λογικής επίπτωσης χρησιµοποιώντας τις καθορισµένες πιθανότητες. Η διαγνωστική συµπερασµατολογία επιτυγχάνεται µέσω της εκτίµησης της πιθανότητας µιας υπόθεσης ως το κλάσµα των κύκλων προσοµοίωσης που οδηγούν στο παρατηρηθέν σύνολο ενδείξεων. Αυτή η µέθοδος είναι γραµµική συνάρτηση του αριθµού των κόµβων στο δίκτυο, άσχετα από το βαθµό 112 διασυνδεσιµότητας των κύκλων από κόµβους. ∆υστυχώς όµως, είναι εκθετική συνάρτηση του αριθµού των ενδείξεων που παρατηρούνται. Οι Chin και Cooper [13] χρησιµοποιούν την προσέγγιση της λογικής δειγµατοληψίας για τη δηµιουργία δειγµάτων ιατρικών παρατηρήσεων για λόγους προσοµοίωσης. Αποφεύγουν την εκθετική πολυπλοκότητα του γενικού προβλήµατος αναδιατάσσοντας την κατεύθυνση των βελών στο δίκτυο χρησιµοποιώντας τον αλγόριθµο του Shachter, έτσι ώστε όλες οι παρατηρηθείσες µεταβλητές να γίνουν είσοδοι (πηγαίοι κόµβοι) στο δίκτυο. ∆υστυχώς, αυτό δεν αποτελεί γενική λύση στο πρόβληµα, επειδή η αναδιάταξη υπόκειται σε εκθετική πολυπλοκότητα για δίκτυα υψηλής συνδεσιµότητας. Ο Pearl [107] έχει αναπτύξει ένα σχήµα στοχαστικής δειγµατοληψίας που διαφοροποιείται από την κλασική στοχαστική δειγµατοληψία ως προς το ότι εκτελεί άµεση διαβίβαση και προς τις δύο κατευθύνσεις κατά µήκος κάθε επίδρασης, αντί µόνον προς την κωδικοποιηµένη κατεύθυνση. Σύµφωνα µε αυτή τη µέθοδο, υπολογίζεται για κάθε κόµβο η κατανοµή δεσµευµένης πιθανότητας µε δεδοµένους όλους τους γείτονες στο µανδύα Markov του κόµβου (µανδύας Markov ενός κόµβου ονοµάζεται το σύνολο που αποτελείται από τους γονείς και τα παιδιά ενός κόµβου, καθώς επίσης και τους άλλους γονείς των παιδιών του). Πρώτα, αποδίδονται αρχικές τιµές (τυχαίες τιµές αλήθειας) σε όλους τους κόµβους. Κατά τη διάρκεια της προσοµοίωσης, η τιµή αλήθειας ενός κόµβου ενηµερώνεται σύµφωνα µε τις τιµές των γειτόνων του όταν ο κόµβος ενεργοποιείται. Η νέα τιµή αλήθειας του κόµβου δηµιουργείται τυχαία χρησιµοποιώντας τη δεσµευµένη πιθανότητα αυτού του κόµβου µε δεδοµένη την κατάσταση όλων των γειτόνων του. Η πιθανότητα κάθε κόµβου εκτιµάται ως το κλάσµα των κύκλων προσοµοίωσης για τους οποίους είναι αληθής. Ένα πλεονέκτηµα της προσέγγισης του Pearl είναι ότι µπορεί να υλοποιηθεί ως ένα δίκτυο παράλληλα κατανεµηµένων επεξεργαστών, µε κάθε έναν από αυτούς να λειτουργεί ανεξάρτητα, δεχόµενος µηνύµατα από τους γείτονές του και στέλνοντας µηνύµατα σ’ αυτούς. ∆υστυχώς, όπως οι Chin και Cooper έχουν δείξει, οι προσεγγίσεις που χρησιµοποιούν προσοµοίωση υπόκεινται σε προβλήµατα σύγκλισης όταν το δίκτυο περιέχει πιθανότητες που είναι κοντά στο 0 ή το 1. Αντίθετα µε την προσέγγιση λογικής δειγµατοληψίας, διαδοχικοί κύκλοι προσοµοίωσης δεν είναι ανεξάρτητοι, και το δίκτυο µπορεί να παγιδευτεί σε µια κατάσταση από την οποία διαφεύγει µετά από πολλούς κύκλους. 5.2.4 Οριακές µέθοδοι (bounding methods) Όταν πολλαπλές , ο συνολικός αριθµός διαγνώσεων είναι εκθετική συνάρτηση του αριθµού των υποθέσεων. Για τον υπολογισµό της ακριβούς a posteriori πιθανότητας οποιασδήποτε διάγνωσης, p ( D | E,ξ ) , πρέπει να υπολογιστεί η p (E | ξ ) = ∑ p (E | D , ξ ) p ( D , ξ ) Di ∈ 2 H i i στον παρονοµαστή του θεωρήµατος του Bayes, που εµπεριέχει το εκθετικό πρόβληµα της άθροισης επί όλων των διαγνώσεων. Ο υπολογισµός, όµως, του λόγου των πιθανοτήτων δύο διαγνώσεων είναι κατά πού απλούστερος, επειδή η ποσότητα p(E | ξ ) στους παρονοµαστές απλοποιείται και άρα δε χρειάζεται να υπολογιστεί. ∆ηλαδή ισχύει: p( D1 | E,ξ ) p( D1 | ξ ) p(E | D1 ,ξ ) = p( D2 | E,ξ ) p( D2 | ξ ) p(E | D2 ,ξ ) 113 Οι Cooper [20] και Peng [111] περιγράφουν µεθόδους για διερεύνηση στο χώρο των δυνατών διαγνώσεων, οι οποίες µπορούν να αναγνωρίσουν τις πιο πιθανές διαγνώσεις χωρίς να εξετάσουν όλες τις δυνατές. Οι µέθοδοι αυτές είναι ικανές να συντοµεύσουν τη διερεύνηση, εξαλείφοντας όλες τις επεκτάσεις µιας διάγνωσης που αποδεδειγµένα είναι λιγότερο πιθανές από την τρέχουσα καλύτερη διάγνωση, και έτσι µπορεί να είναι πολύ αποτελεσµατικότερες από τις εξαντλητικές µεθόδους. Η µέθοδος του Peng είναι πιο αποτελεσµατική αλλά απευθύνεται σε δίκτυα πεποίθησης δύο µόνο επιπέδων, που αποτελούνται από το επίπεδο των διαγνώσεων και από το επίπεδο των ενδείξεων, µε βέλη να υπάρχουν µόνον από διαγνώσεις σε ενδείξεις. Οι οριακές µέθοδοι µπορούν να χρησιµοποιηθούν για τον υπολογισµό των φραγµάτων της απόλυτης πιθανότητας για οποιαδήποτε διάγνωση. Μερικές φορές επιτρέπουν την αναγνώριση των n πιο πιθανών διαγνώσεων από ένα σύνολο διαγνώσεων D χωρίς υπολογισµούς σε ολόκληρο το χώρο της συνδυαστικής πιθανότητας. Για παράδειγµα, το µερικό άθροισµα της p( Di | ξ ) p(E | Di ,ξ ) δίνει ένα κάτω φράγµα της p(E | ξ ) . Ο Cooper έχει δείξει [20] ότι αυτή η προσέγγιση µπορεί επίσης να χρησιµοποιηθεί για τον υπολογισµό άνω φραγµάτων των απολύτων a posteriori πιθανοτήτων. Έχει επίσης δώσει µια σχετική µέθοδο για υπολογισµό κάτω φραγµάτων. 5.3 Μήτρες διασύνδεσης στα ∆ίκτυα Πεποίθησης Όπως είδαµε η αναπαράσταση της γνώσης µέσω δικτύων πεποίθησης βασίζεται σε τρία επίπεδα: σχεσιακό, συναρτησιακό και αριθµητικό. Αν η ποιοτική δοµή του προβλήµατος καθορίζεται από την τοπολογία του δικτύου, η οποία µπορεί είτε να είναι αποτύπωση ήδη συγκεντρωµένης γνώσης ειδικών ή, όπως θα δούµε παρακάτω, αποτέλεσµα διαδικασιών µάθησης από βάσεις δεδοµένων, η συναρτησιακή µορφή των σχέσεων µεταξύ των κόµβων καθορίζεται από τις µήτρες διασύνδεσης. Οι µήτρες διασύνδεσης αναφέρονται τόσο στο συναρτησιακό όσο και στο αριθµητικό επίπεδο αναπαράστασης. Η µορφή τους, µαρτυρά την επιλογή των πιθανών καταστάσεων των µεταβλητών ενώ η αριθµητική τιµή των στοιχείων τους αναπαριστά τις ποσοτικές λεπτοµέρειες της εξάρτησης κάθε µεταβλητής από τους γονείς της (τους κόµβους που επιδρούν σ’ αυτή). Κατά τη διαδικασία της συµπερασµατολογίας, οι µήτρες διασύνδεσης παίζουν κεντρικό ρόλο, καθώς διαµορφώνουν την παρατηρούµενη πληροφορία καθώς αυτή διαβιβάζεται κατά µήκος του δικτύου για να προκαλέσει την ενηµέρωση της πεποίθησης στους κόµβους που δεν έχουν παρατηρηθεί. Μπορεί κανείς να θεωρήσει ότι οι µήτρες διασύνδεσης εδράζονται στους κόµβους, αν και λειτουργικά αναφέρονται στους δεσµούς που συνδέουν γειτονικούς κόµβους. Κάθε µήτρα διασύνδεσης περιέχει την κατανοµή δεσµευµένης πιθανότητας του κόµβου, µε δεδοµένες όλες τις πιθανές καταστάσεις των γονέων του. Τα στοιχεία που αφορούν τους γονείς ενός κόµβου είναι τα µόνα απαραίτητα για τη διαβίβαση µηνυµάτων και άρα για τη διαδικασία συµπερασµατολογίας, αφού σ’ ένα δίκτυο πεποίθησης ένας κόµβος είναι ανεξάρτητος από τους κόµβους που δεν είναι απόγονοί του, όταν είναι δεδοµένοι οι γονείς του. Θεωρήστε το παράπλευρο τµήµα ενός δικτύου πεποίθησης, στο οποίο η µεταβλητή Α αποτελεί το µόνο γονέα της µεταβλητής Β. 114 Εάν η µεταβλητή Α έχει τρεις πιθανές καταστάσεις (Α1, Α2, Α3) και η Β δύο (Β1, Β2), τότε η µήτρα διασύνδεσης στον κόµβο Β θα είναι: Α M B|A Β p ( B1 | A1 ) = p ( B1 | A2 ) p( B1 | A3 ) p( B2 | A1 ) p ( B2 | A2 ) p( B2 | A3 ) δηλαδή µια µήτρα µε αριθµό γραµµών ίσο µε τον αριθµό των καταστάσεων του γονέα και αριθµό στηλών ίσο µε τον αριθµό καταστάσεων του απογόνου Το άθροισµα των πιθανοτήτων σε κάθε γραµµή του πίνακα είναι ίσο µε ένα, αφού αναπαριστά την πιθανότητα να συµβεί οποιοδήποτε από τα δυνατά ενδεχόµενα Β1 ή Β2. Στην περίπτωση που ένας κόµβος έχει δύο ή περισσότερους γονείς, ο όρος «µήτρα διασύνδεσης» θα πρέπει να αντιστοιχεί σε τανυστή τάξης ίσης µε τον αριθµό των γονέων. Τα στοιχεία του τανυστή θα πρέπει να καλύπτουν το σύνολο των πιθανών καταστάσεων των γονέων. Θεωρήστε για παράδειγµα την περίπτωση που ο κόµβος Β έχει έναν ακόµη γονέα, τον κόµβο Γ µε τέσσερις πιθανές καταστάσεις (Γ1, Γ2, Γ3, Γ4). Α Β Γ Τότε η µήτρα (τανυστής 2ης τάξης) διασύνδεσης θα είναι η ακόλουθη: p ( B1 | A1 , Γ 4 ) p ( B2 | A1 , Γ 4 ) p ( B1 |pA(2B,1Γ| 4A)1 , Γp3()B2 |pA(2B, 2Γ|4 A )1, Γ3 ) p ( B1 |pA(3B,1Γ|p4A()B ()B |pA( B, Γ|4A )1 , Γ 2 ) |p3A ()B 2 ,1Γ 2 ,2 Γ| 3A 1 ,2Γ 2 )3 2 p M B|A,Γ = p ( B1 |pA (B |p3A()B ( B3 ,2 Γp| 3(A)B2 2, Γ| A |p2A()1B, 2Γp|1 )A 3 ,1 Γ 2 ,1Γ 2 )1 , Γ 1 ) p ( B1 |pA (B | 2A)2 , Γp1 )( B2 p| (AB3 2, Γ| A 3 ,1 Γ 2 )2 , Γ 1 ) p ( B1 | A3 , Γ1 ) p( B2 | A3 , Γ 1 ) Οι τιµές των στοιχείων του πίνακα (δεσµευµένες πιθανότητες) µπορούν να εξάγονται από µια βάση δεδοµένων που περιέχει παρατηρήσεις συνδυασµών των Α, Β και Γ ή από την εµπειρία ειδικών. 115 116 ΕΙ∆ΙΚΟ ΜΕΡΟΣ 6. ΕΜΠΕΙΡΟ ΣΥΣΤΗΜΑ ΓΙΑ ΠΡΟΓΝΩΣΗ ΑΣΘΕΝΩΝ ΜΕ ΚΕΚ Το θέµα της παρούσας διατριβής αναφέρεται στην ανάπτυξη ενός έµπειρου συστήµατος, που βασίζεται σε δίκτυο πεποίθησης, στο χώρο της Ιατρικής και συγκεκριµένα στην πρόγνωση των ασθενών µε κρανιοεγκεφαλικές κακώσεις. Το σύστηµα αυτό βασίζεται τόσο σε κλινικά όσο και εργαστηριακά ευρήµατα και κάνει εκτίµηση της πορείας του ασθενή για τις επόµενες 24 ώρες. Στο πλαίσιο της διατριβής πραγµατοποιήθηκε µελέτη σε δύο κατευθύνσεις. Πρώτον, αναφορικά µε τους ασθενείς των Εξωτερικών Ιατρείων και δεύτερον µε εκείνους. της Μονάδας Εντατικής Θεραπείας (ΜΕΘ) Πιο συγκεκριµένα, τα βήµατα που ακολουθήθηκαν για την κατασκευή του έµπειρου συστήµατος ήταν τα ακόλουθα: 1. Επιλογή καταλλήλων προγνωστικών µεταβλητών Αποφασίζεται, σύµφωνα µε τη διεθνή βιβλιογραφία, ποιες είναι εκείνες οι µεταβλητές (κλινικά και εργαστηριακά ευρήµατα) που λειτουργούν ως προγνωστικοί δείκτες για ασθενείς που έχουν κρανιοεγκεφαλική κάκωση, καθώς επίσης και ο τρόπος µε τον οποίο η έννοια «πρόγνωση» µπορεί να κωδικοποιηθεί µε ένα σαφή και αδιαµφισβήτητο τρόπο. 2. Επιλογή ενδεχοµένων των µεταβλητών Αποφασίζεται ποιες είναι οι πιθανές καταστάσεις των υπό µελέτη µεταβλητών. Οι µεταβλητές που παίρνουν συνεχείς τιµές θα πρέπει να γίνουν διακριτές, χωρίζοντας το πεδίο τιµών τους σε διαστήµατα. Οι καταστάσεις θα πρέπει να αµοιβαία αποκλειόµενες και η ένωσή τους θα πρέπει να εξαντλεί το δειγµατικό χώρο της µεταβλητής. Ο αριθµός των καταστάσεων έχει επίπτωση τόσο στην υπολογιστική προσπάθεια που απαιτεί η λειτουργία του έµπειρου συστήµατος όσο και στην ακριβή περιγραφή της µεταβλητής. 3. ∆ηµιουργία βάσης δεδοµένων ∆ηµιουργείται µια βάση δεδοµένων στην οποία καταγράφονται (προοπτικά) οι προαναφερθείσες µεταβλητές ασθενών µε κρανιοεγκεφαλική κάκωση οι οποίοι προσέρχονται στα Εξωτερικά Ιατρεία. Επίσης καταγράφεται η πραγµατική έκβαση του ασθενή στις 24 ώρες από τη στιγµή της προσέλευσής του. 4. Επιλογή µοντέλου Με βάση τις τεχνικές που αναφέρθηκαν στην παράγραφο 5.11 «Επιλογή µοντέλου», επιλέγεται µε διαφορετικά κριτήρια το «καλύτερο» µοντέλο, αξιοποιώντας τη βάση δεδοµένων. 117 5. Κατασκευή ∆ικτύων Πεποίθησης Το µη κατευθυντικό γράφηµα που αντιστοιχεί σ’ αυτό το µοντέλο µετατρέπεται σε κατευθυντικό ώστε να αποτελέσει τη δοµή των δικτύων πεποίθησης. Από τη βάση δεδοµένων υπολογίζονται τα στοιχεία των πινάκων διασύνδεσης, µε βάση τη συγκεκριµένη αρχιτεκτονική του δικτύου. 6. Λειτουργία Εµπείρου Συστήµατος Η δοµή και οι παράµετροι (δεσµευµένες πιθανότητες) συνιστούν το δίκτυο πεποίθησης. Με βάση νέες παρατηρήσεις, υπολογίζεται η a posteriori πιθανότητα για κάθε έκβαση στις 24 ώρες, δηλαδή εκτελείται συµπερασµατολογία. 7. Αξιολόγηση εµπείρου συστήµατος Εκτιµάται η απόδοση (µε όρους επιτυχών προγνώσεων) του συστήµατος και συγκρίνεται µε αυτή του ειδικού ιατρού (Νευροχειρουργού). Προκειµένου να αναπτυχθούν διακριτά έµπειρα συστήµατα για τους ασθενείς των εξωτερικών ιατρείων και για τους ασθενείς της ΜΕΘ, επελέγησαν διαφορετικές µεταβλητές και δηµιουργήθηκαν ξεχωριστές βάσεις δεδοµένων. Συνεπώς και η διαδικασία επιλογής µοντέλου οδήγησε σε διαφορετικά µοντέλα και άρα σε διαφορετικά δίκτυα πεποίθησης. Το τελικό αποτέλεσµα είναι το ακόλουθο. Για τους ασθενείς των Εξωτερικών Ιατρείων δηµιουργούνται δύο έµπειρα συστήµατα πρόγνωσης µέσω της διαδικασίας επιλογής µοντέλου,. Η αξιολόγηση γίνεται µε σύγκριση της προγνωστικής ικανότητας των δύο δικτύων πεποίθησης και του Νευροχειρουργού. Για τους ασθενείς της ΜΕΘ δηµιουργείται ένα έµπειρο σύστηµα µέσω της διαδικασίας επιλογής µοντέλου. Επίσης δηµιουργείται ένα έµπειρο σύστηµα που βασίζεται στο αντίστοιχο αφελές δίκτυο πεποίθησης για τους ίδιους ασθενείς. Η αξιολόγηση γίνεται µε σύγκριση της προγνωστικής ικανότητας των δύο (αφελούς και πεπλεγµένου) δικτύων πεποίθησης και του Νευροχειρουργού. Το λογισµικό που χρησιµοποιήθηκε για την επίτευξη αυτών των στόχων, είναι το ακόλουθο: 1. η βάση δεδοµένων µε τις κλινικές και εργατηριακές µεταβλητές των ασθενών µε ΚΕΚ, υλοποιήθηκε σε περιβάλλον Microsoft Access 2. για την επιλογή του µοντέλου, αξιοποιήθηκε ένας µεγάλος αριθµός προγραµµάτων, αλλά κατά κύριο λόγο τα MIM (Hypergraph Software, Denmark) και CoCo [1]. 3. για την κατασκευή των δικτύων πεποίθησης, από τα αντίστοιχα µηκατευθυντικά γραφήµατα που επελέγησαν, χρησιµοποιήθηκε το λογισµικό Dxpress (Knowledge Industries Inc.) και Netica (Norsys Software). 4. για τη συµπερασµατολογία επί των δικτύων πεποίθησης, χρησιµοποιήθηκε το λογισµικό WinDX (Knowledge Industries Inc.) 5. για την εγκυροποίηση των δικτύων πεποίθησης και τη σύγκρισή τους µε άλλες τεχνικές, χρησιµοποιήθηκε το λογισµικό S-Plus (Mathsoft Inc.) 118 Σχηµατικά, η αλληλεπίδραση ορισµένων από τα λογισµικά που χρησιµοποιήθηκαν, φαίνεται στο διάγραµµα που ακολουθεί. Συγκεκριµένα φαίνονται τα βήµατα επεξεργασίας των δεδοµένων για επιλογή µοντέλου, οικοδόµηση του δικτύου πεποίθησης και συµπερασµατολογίας επί αυτού. DX Press MIM CoCo Win DX Προκειµένου να καταστεί δυνατή η επικοινωνία των προγραµµάτων αυτών, τα δεδοµένα και τα αποτελέσµατα κάθε ενός λογισµικού προσαρµόστηκαν κατάλληλα. 119 6.1 Ασθενείς Εξωτερικών Ιατρείων 6.1.1 Μεταβλητές Οι µεταβλητές που ελήφθησαν υπ’ όψιν φαίνονται στους Πίνακες 6.1 και 6.2. Είναι γενικά αποδεκτό ότι συµβάλλουν στην εκτίµηση της πρόγνωσης [2, 14, 45, 49, 70, 79, 89, 101, 127]. Η πρόγνωση του ασθενή, δηλαδή η έκβασή του στις 24 ώρες από τη στιγµή που προσήλθε στο Νοσοκοµείο, αποφασίστηκε να αναπαρασταθεί από την κλίµακα έκβασης της Γλασκώβης (Glasgow Outcome Scale – GOS), σύµφωνα µε την οποία ο ασθενής µε κρανιοεγκεφαλικές κακώσεις κατατάσσεται σύµφωνα µε έναν αριθµό παραµέτρων σε µια από 5 κατηγορίες βαρύτητας [70]. Η ανάγκη για τήρηση των προϋποθέσεων του θεωρήµατος του Bayes, σύµφωνα µε τις οποίες οι καταστάσεις µιας µεταβλητής πρέπει να είναι αµοιβαία αποκλειόµενες και όλες µαζί να καλύπτουν το σύνολο των πιθανών ενδεχοµένων της µεταβλητής, οδήγησε στη διατύπωση µιας νέας κλίµακας για τα ευρήµατα της αξονικής τοµογραφίας (Πίνακας 6.2). Η κλίµακα DIS (Diffuse Injury Scale) [91] επεκτάθηκε και αναδιαµορφώθηκε. Συγκεκριµένα, οι κατηγορίες 5 και 6 της κλίµακας DIS απαλείφθηκαν, ενώ νέες κατηγορίες εισήχθησαν, δηµιουργώντας τελικά 7 πιθανές καταστάσεις ευρηµάτων CT. Η µέση αρτηριακή πίεση (ΜΑΡ) καταγράφηκε ως η σταθµισµένη µέση τιµή [MAP = (SBP + 2xDBP) / 3] της συστολικής (SBP) και διαστολικής (DBP) αρτηριακής πίεσης κατά την εισαγωγή. Το φάσµα τιµών της ΜΑΡ χωρίστηκε σε τρία διαστήµατα: κάτω από 60 mmHg, µεταξύ 60 και 120 mmHg και πάνω από 120 mmHg. Η ηλικία του ασθενή καθώς και η χρονική καθυστέρηση από την κρανιοεγκεφαλική κάκωση έως την προσέλευση στα Εξωτερικά Ιατρεία, επίσης κατετάγησαν σε 5 και 3 κατηγορίες αντίστοιχα. Η οφθαλµική, οµιλητική και κινητική αντίδραση του ασθενή καταγράφηκαν αναλυτικά, αλλά και το άθροισµά τους, δηλαδή το score του ασθενή στην Κλίµακα Κώµατος της Γλασκώβης (Glasgow Coma Scale – GCS) [127]. ∆ύο ακόµη µεταβλητές καταγράφηκαν: η αιτία της κάκωσης (τροχαίο, πτώση ή άλλο) και η πιθανή παρουσία συνοδών κακώσεων. 120 Οι κλινικές και εργαστηριακές µεταβλητές Κλίµακα έκβασης Γλασκώβης Ηλικία [GOS] [Age] Κατ. 1: Θάνατος Κατ. 1: 0-10 ετών Κατ. 2: Φυτική Κατάσταση Κατ. 2: 11-20 ετών Κατ. 3: Σοβαρή ανικανότητα Κατ. 3: 21-40 ετών Κατ. 4: Μέτρια ανικανότητα Κατ. 4: 41-60 ετών Κατ. 5: Καλή αποκατάσταση Κατ. 5: > 60 ετών Μέση Αρτηριακή Πίεση Καθυστέρηση [MAP] [Delay] Κατ. 1: < 60 mmHg Κατ. 1: < 2 ώρες Κατ. 2: 60 - 120 mmHg Κατ. 2: 2-6 ώρες Κατ. 3: > 120 mmHg Κατ. 3: > 6 ώρες Κλίµακα κώµατος Γλασκώβης Αιτία κάκωσης [GCS] [Cause] Κατ. 1: Score 3-8 Κατ. 1: Τροχαίο ατύχηµα Κατ. 2: Score 9-13 Κατ. 2: Πτώση Κατ. 3: Score 14-15 Κατ. 3: Άλλο Συνοδές κακώσεις Αξονική Τοµογραφία [Injuries] [CT] Κατ. 1: Παρούσες Κατ. 2: Απούσες 7 καταστάσεις (βλέπε επόµενο πίνακα) Πίνακας 6.1 Οι κλινικές και εργαστηριακές µεταβλητές που συµπεριελήφθησαν στο δίκτυο πεποίθησης, και οι αντίστοιχες καταστάσεις τους (δυνατά ενδεχόµενα). Οι καταστάσεις επελέγησαν ώστε να ικανοποιούν τις απαιτήσεις του θεωρήµατος του Bayes· είναι αµοιβαία αποκλειόµενες και εξαντλούν το σύνολο του δειγµατικού χώρου. Επί πλέον, ακολουθούν µια κλίµακα βαρύτητας. 121 Οι καταστάσεις της µεταβλητής CT Αξονική τοµογραφία [CT] Κατ. 1 Χωρίς ορατή ενδοκρανιακή βλάβη στην αξονική τοµογραφία. Κατ. 2 ∆εξαµενές παρούσες µε µετατόπιση µέσης γραµµής 0-5 mm. Χωρίς υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Χωρίς επισκληρίδιο αιµάτωµα. Κατ. 3 ∆εξαµενές παρούσες µε µετατόπιση µέσης γραµµής 0-5 mm. Χωρίς υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Με επισκληρίδιο αιµάτωµα Κατ. 4 ∆εξαµενές συµπιεσµένες ή απούσες µε µετατόπιση µέσης γραµµής 0-5 mm. Χωρίς υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Χωρίς επισκληρίδιο αιµάτωµα. Κατ. 5 ∆εξαµενές συµπιεσµένες ή απούσες µε µετατόπιση µέσης γραµµής 0-5 mm. Χωρίς υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Με επισκληρίδιο αιµάτωµα. Κατ. 6 Μετατόπιση µέσης γραµµής >5 mm. Χωρίς υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Χωρίς επισκληρίδιο αιµάτωµα Κατ. 7 Μετατόπιση µέσης γραµµής >5 mm. Χωρίς υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Με επισκληρίδιο αιµάτωµα. Πίνακας 6.2 Τα δυνατά ενδεχόµενα της αξονικής τοµογραφίας. Προκειµένου να ικανοποιηθούν οι απαιτήσεις του θεωρήµατος του Bayes, η κλίµακα DIS (diffuse injury scale) τροποποιήθηκε και επεκτάθηκε. 122 6.1.2 Βάση δεδοµένων 600 συνολικά περιστατικά ασθενών µε κρανιοεγκεφαλικές κακώσεις που προσήλθαν στα Εξωτερικά Ιατρεία του ΠΠΓΝ Πατρών καταγράφηκαν κατά την περίοδο 19941996. 75 περιστατικά από το 1996 κρατήθηκαν για τον έλεγχο απόδοσης του συστήµατος ενώ τα υπόλοιπα 525 αποτέλεσαν το σύνολο των παρατηρήσεων από τις οποίες αντλήθηκε η δοµή και οι δεσµευµένες πιθανότητες. Τα στοιχεία αναφορικά µε τις υπό µελέτη µεταβλητές καταγράφονταν από κλινικούς ιατρούς της Νευροχειρουργικής Κλινικής κατά την εισαγωγή του ασθενούς. Σε κάθε περιστατικό καταγράφονταν οκτώ µεταβλητές, συµπεριλαµβανοµένης και της πραγµατικής έκβασης στις 24 ώρες, σύµφωνα µε την κλίµακα GOS. Η µέση αρτηριακή πίεση, η ηλικία καθώς και η χρονική καθυστέρηση καταγράφηκαν αρχικά ως συνεχείς µεταβλητές και κατόπιν µετατράπηκαν σε διακριτές. Η καταγραφή στη βάση δεδοµένων της πρωτογενούς πληροφορίας είναι χρήσιµη για µελλοντικό πειραµατισµό σε διαφορετικά διαστήµατα διακριτοποίησης. Προκειµένου να ελαττωθούν οι (13) πιθανές καταστάσεις της GCS, εφαρµόσαµε τα εξής διαστήµατα: 3-8, 9-13 και 14-15. Τα δεδοµένα λοιπόν αναπαριστούν έναν πίνακα συνάφειας µε 28350 (= γινόµενο των πιθανών καταστάσεων όλων των µεταβλητών) κελιά (πιθανές διαµορφώσεις) και µόνον 525 καταγραφές. Εποµένως τα δεδοµένα εµφανίζουν εξαιρετικά µεγάλη διασπορά, φαινόµενο σύνηθες σε πραγµατικές συνθήκες. 123 6.1.3 Επιλογή µοντέλου Η ανάπτυξη ενός δικτύου πεποίθησης για την πρόγνωση ασθενών µε κρανιοεγκεφαλικές κακώσεις προϋποθέτει τον καθορισµό της αρχιτεκτονικής του δικτύου και τον υπολογισµό των παραµέτρων του, δηλαδή των πινάκων δεσµευµένης πιθανότητας που φυλάσσονται στους κόµβους του και εξυπηρετούν το µηχανισµό συµπερασµατολογίας. Η βάση δεδοµένων των ευρηµάτων των ασθενών µπορεί να µας παράσχει όχι µόνο τις σχετικές συχνότητες εµφάνισης των διαφόρων συνδυασµών κλινικών και εργαστηριακών µεταβλητών, αλλά και την αρχιτεκτονική του δικτύου. Έχουν αναπτυχθεί πολλές µέθοδοι [9, 16, 61, 80, 116] για την εξαγωγή της δοµής. Στο παράρτηµα αναλύονται µέθοδοι για µάθηση δοµής από τα δεδοµένα βασιζόµενες σε Bayesian µεθόδους [19]. Στο πλαίσιο αυτής της διατριβής το κλινικό πρόβληµα της πρόγνωσης αντιµετωπίστηκε ως µια πολυπαραγοντική ανάλυση διακριτών µεταβλητών, που προσεγγίζεται µέσω ενός γραφικού λογαριθµικού-γραµµικού µοντέλου. Η αντιστοιχία που υπάρχει µεταξύ µιας κλάσης γραφικών λογαριθµικών-γραµµικών µοντέλων [17, 138] (δηλ. της κλάσης των αποσυνθέσιµων µοντέλων) και των δικτύων πεποίθησης διακριτών µεταβλητών, µας επιτρέπει να χρησιµοποιήσουµε µεθόδους επιλογής µοντέλου για να βρούµε γραφικά µοντέλα συµβατά µε τα δεδοµένα µας και κατόπιν να τα µετατρέψουµε σε ισοδύναµα δίκτυα πεποίθησης. Υπενθυµίζουµε ότι αποσυνθέσιµα είναι εκείνα τα µοντέλα των οποίων οι εκτιµητές µέγιστης πιθανοφάνειας δίνονται αναλυτικά και των οποίων το γράφηµα ανεξαρτησίας είναι τριγωνοποιηµένο. Έχουν την ιδιότητα ότι η συνάρτηση πυκνότητάς τους µπορεί να παραγοντοποιηθεί, και η παραγοντοποίηση αυτή µπορεί να απλοποιηθεί πλήρως µε την εφαρµογή µιας τέλειας αρίθµησης των κόµβων, η οποία υπάρχει. Αυτή η αρίθµηση εγγυάται ότι για κάθε κόµβο στο γράφηµα, οι γειτονικοί του κόµβοι µε µικρότερο δείκτη, σχηµατίζουν πλήρη σύνολα, δηλαδή σύνολα στα οποία κάθε κόµβος συνδέεται µε όλους τους υπόλοιπους. Κατευθύνοντας όλους τους υπάρχοντες δεσµούς από κόµβους µε µικρότερο δείκτη σε κόµβους µε υψηλότερο δείκτη, λαµβάνουµε ένα κατευθυντικό γράφηµα του οποίου οι ιδιότητες Markov είναι ταυτοτικά όµοιες µε αυτές του µη κατευθυντικού [29, 86]. Μια ερµηνεία της τοπικής ιδιότητας Markov για κατευθυντικά γραφήµατα δίνεται από τους Lauritzen [84] και Kiiveri [75] και µπορεί να διατυπωθεί ως εξής: ένας κόµβος είναι ανεξάρτητος από τους κόµβους που δεν είναι απόγονοί του, µε δεδοµένους τους γονείς του. Αυτή η ιδιότητα αποτελεί, όπως είδαµε νωρίτερα, την κύρια δήλωση ανεξαρτησίας που αναπαρίσταται από ένα δίκτυο πεποίθησης. Στη µελέτη αυτή εφαρµόστηκαν δύο βηµατικές διαδικασίες επιλογής µοντέλου, η προσθετική και η αφαιρετική, που αναπτύχθηκαν στην παράγραφο «Επιλογή µοντέλου». Οι διαδικασίες αυτές ξεκινούν από ένα µοντέλο και προσθέτουν ή αφαιρούν δεσµούς ανάλογα µε κάποιο κριτήριο. Για την αφαιρετική διαδικασία, το αρχικό µοντέλο είναι το κορεσµένο ή πλήρες µοντέλο, στο οποίο όλοι οι κόµβοι είναι συνδεδεµένοι µε όλους. Αντίστοιχα, η προσθετική διαδικασία ξεκινά από το µοντέλο στο οποίο κανείς δεσµός δεν υφίσταται. 124 Το κριτήριο που χρησιµοποιείται είναι η σηµαντικότητα της κατάλληλης στατιστικής συνάρτησης (test statistic). Για την αφαιρετική διαδικασία, αυτές είναι οι συναρτήσεις για τον έλεγχο του τρέχοντος µοντέλου έναντι των µοντέλων µε ένα δεσµό απόντα. Για την προσθετική, είναι οι συναρτήσεις για τον έλεγχο του τρέχοντος µοντέλου έναντι των µοντέλων µε έναν επί πλέον δεσµό παρόντα. Η σηµαντικότητα των ελέγχων µετράται µε τις τιµές πιθανότητας (p-values). Μια στατιστική συνάρτηση αποτυγχάνει να αποκτήσει ένα προκαθορισµένο επίπεδο σηµαντικότητας α εάν p>α και διατηρεί το επίπεδο σηµαντικότητας εάν p<α. Στη δική µας περίπτωση το επίπεδο αυτό καθορίστηκε στο 5% ή 0.05. Άρα, στην αφαιρετική µέθοδο, ο δεσµός µε τη λιγότερο σηµαντική στατιστική συνάρτηση απαλείφεται και η διαδικασία συνεχίζεται έως ότου όλοι οι δεσµοί διατηρούν το επίπεδο σηµαντικότητας 0.05. Αντίστοιχα, στην προσθετική διαδικασία, ο δεσµός µε τη µεγαλύτερη σηµαντικότητα προστίθεται στο µοντέλο· η διαδικασία συνεχίζεται µέχρι που κανείς δεσµός δεν επιτυγχάνει το επίπεδο σηµαντικότητας. Συνήθως η στατιστική συνάρτηση που χρησιµοποιείται κατά την προσθετική διαδικασία είναι η διαφορά των αποκλινουσών, η οποία ακολουθεί κατά προσέγγιση χ2 κατανοµή, όταν το δείγµα είναι µεγάλο. Επειδή τα δεδοµένα µας είναι διεσπαρµένα και ο αντίστοιχος πίνακας συνάφειας έχει πολλές µηδενικές εγγραφές, τα αποτελέσµατα της εφαρµογής αυτής της συνάρτησης µπορεί να µην είναι αξιόπιστα. Γι’ αυτό το λόγο χρησιµοποιήθηκε η µέθοδος δειγµατοληψίας Monte Carlo, µε την εκτίµηση 1000 τυχαίων πινάκων [78, 102]. Η προσθετική διαδικασία κατέληξε σε ένα µοντέλο, το οποίο ακολούθως ελέγχθηκε µε βάση την αφαιρετική µέθοδο για πιθανούς δεσµούς που µπορούν να αποκοπούν. Στην περίπτωση της αφαιρετικής διαδικασίας, χρησιµοποιήσαµε τη συνάρτηση Joncheere – Terpstra, που είναι κατάλληλη για ordinal µεταβλητές, εκτός από ελέγχους που συµπεριελάµβαναν nominal µεταβλητές (Αιτία κάκωσης, Συνοδές κακώσεις), οπότε χρησιµοποιήθηκε η συνάρτηση Kruskal – Wallis. Και πάλι χρησιµοποιήθηκε η µέθοδος δειγµατοληψίας Monte Carlo, µε τις ίδιες προδιαγραφές. Για την επιλογή του καταλληλότερου µοντέλου χρησιµοποιήθηκε το λογισµικό MIM (HyperGraph Software, Denmark) [41], σε συνδυασµό µε το λογισµικό CoCo [1]. Το λογισµικό ΜΙΜ αξιοποιήθηκε για τις βηµατικές διαδικασίες διερεύνησης, ενώ το CoCo για την εύρεση της αρίθµησης των κόµβων, για τη µετατροπή του µη κατευθυντικού γραφήµατος σε κατευθυντικό. Η αφαιρετική διαδικασία κατέληξε στο µοντέλο µε συµβολική διατύπωση [GIOIU][CGOU][CGMO][CDGO][ACM] (Εικόνα 6.1). Η προσθετική διαδικασία, ξεκινώντας από το µοντέλο πλήρους ανεξαρτησίας [M][A][G][D][U][C][I][O] κατέληξε στο µοντέλο [IU][CDO][AM][AGU][ACGO]. Το µοντέλο αυτό διερευνήθηκε περαιτέρω, καθώς αποτέλεσε το αρχικό µοντέλο µιας αφαιρετικής διαδικασίας, και αποκόπηκαν οι δεσµοί AO, DO, AC και AG. Το τελικό αποτέλεσµα ήταν το µοντέλο [IU][GU][CGO][CD][AU][AM]. (Εικόνα 6.2). Και τα δύο µοντέλα είναι αποσυνθέσιµα και άρα µπορούν εύκολα να µετατραπούν σε δίκτυα πεποίθησης. Μετά την απόδοση δεικτών στους κόµβους και κατευθύνοντας τους δεσµούς από κόµβους µικρότερου δείκτη σε κόµβους µεγαλύτερο δείκτη καταλήξαµε στα δίκτυα πεποίθησης ΒΝ-1 και ΒΝ-2 (Εικόνες 6.3 και 6.4). Πριν προχωρήσουµε στην ενεργοποίηση των δικτύων, δηλαδή την τροφοδοσία τους µε δεδοµένα για νέες περιπτώσεις ασθενών και εξαγωγή συµπερασµάτων, µπορούν να γίνουν ορισµένες παρατηρήσεις ανεξαρτησίας από τη δοµή και µόνον των δικτύων. 125 Αναφορικά µε το ΒΝ-1, η πρόγνωση (GOS) συνδέεται µε όλες τις µεταβλητές εκτός από την Ηλικία. Άρα, η µόνη δήλωση ανεξαρτησία που συµπεριλαµβάνει την πρόγνωση είναι ότι είναι ανεξάρτητη της ηλικίας, εάν µας δίνεται πληροφορία σχετικά µε την ηλικία του ασθενούς και τα ευρήµατα της αξονικής τοµογραφίας. Για το ΒΝ-2, µπορούν να γίνουν περισσότερες παρατηρήσεις. Εάν η αιτία της κάκωσης είναι γνωστή, η GOS καθίσταται ανεξάρτητη από τη µέση αρτηριακή πίεση, την ηλικία του ασθενή και την πιθανή ύπαρξη συνοδών κακώσεων. Εάν το score του ασθενή στην GCS είναι γνωστό, η GOS είναι περαιτέρω ανεξάρτητη της αιτίας της κρανιοεγκεφαλικής κάκωσης. Η γνώση του χρονικού διαστήµατος µεταξύ κάκωσης και εισαγωγής στα Εξωτερικά Ιατρεία δεν προσφέρει νέα στοιχεία για τροποποίηση της ήδη αποκτηθείσας πεποίθησης, εάν ήδη γνωρίζουµε τα ευρήµατα της αξονικής τοµογραφίας (CT). 126 Εικόνα 6.1: Ξεκινώντας από το κορεσµένο µοντέλο, η αφαιρετική µέθοδος οδηγεί στο µοντέλο [GIOU][CGOU][CGMO] [CDGO][ACM]. Η αντιστοιχία µεταξύ γραµµάτων και µεταβλητών είναι η ακόλουθη: A: Age G: GCS D: Delay O: GOS C: CT I: Injuries M: MΑΡ U: Cause Εικόνα 6.2: Η προσθετική µέθοδος που ξεκινά από το µοντέλο πλήρους ανεξαρτησίας καταλήγει στο µοντέλο [IU][CDO] [AM][AGU][ACGO]. Το µοντέλο αυτό αποτέλεσε το αρχικό µοντέλο για την αφαιρετική µέθοδο που ακολούθησε. Αυτή η περαιτέρω διερεύνηση οδήγησε στην αποκοπή τεσσάρων δεσµών (AO, DO, AC και AG). Το τελικό µοντέλο είναι το [IU][GU][CGO][CD][AU][AM]. 127 Εικόνα 6.3: Το δίκτυο πεποίθησης ΒΝ-1 προκύπτει από την απόδοση κατεύθυνσης στους δεσµούς του µη κατευθυντικού γραφήµατος της εικόνας 6.1. Οι δεσµοί κατευθύνονται πάντα από κόµβους µικρότερου δείκτη σε κόµβους µε µεγαλύτερο δείκτη, σύµφωνα µε την απόλυτη αρίθµηση που υπάρχει στα αποσυνθέσιµα µοντέλα. 128 Εικόνα 6.4: Το δίκτυο πεποίθησης (ΒΝ-2) που αντιστοιχεί στο µοντέλο της εικόνας 6.2. 129 6.1.4 Συµπερασµατολογία. Η τελική δοµή των δικτύων, καθώς και οι απαραίτητες µήτρες δεσµευµένων πιθανοτήτων εισάγονται κατόπιν στο λογισµικό DXpress, στο οποίο γίνεται και η συµπερασµατολογία. Το µέγεθος της βάσης δεδοµένων σχετίζεται άµεσα µε τη διαδικασία συµπερασµατολογίας και µε την τελική απόδοση του δικτύου, µια και στην πραγµατικότητα οι δεσµευµένες πιθανότητες που χρησιµοποιούνται δεν είναι παρά οι σχετικές συχνότητες εµφάνισης στη βάση. Για να αποτελούν αυτές οι συχνότητες αξιόπιστο εκτιµητή των πραγµατικών πιθανοτήτων, θα πρέπει οι αντίστοιχοι υποπληθυσµοί επί των οποίων υπολογίζονται να είναι αρκετά µεγάλοι. Για ένα συγκεκριµένο αριθµό εγγραφών στη βάση, η τήρηση της συνθήκης αυτής εξαρτάται από τον αριθµό των υποπληθυσµών, ο οποίος µε τη σειρά του έχει να κάνει αφ’ ενός µε τον αριθµό των δυνατών καταστάσεων κάθε µεταβλητής και κυρίως µε τη δοµή του δικτύου. Για κάθε κόµβο µε n γονείς, ο αριθµός των υποπληθυσµών που δηµιουργούνται είναι ίσος µε το γινόµενο των δυνατών καταστάσεων των γονέων. Έτσι, σε δίκτυα στα οποία αρκετές µεταβλητές έχουν πάνω από 2 γονείς, οι υποπληθυσµοί αυξάνονται γρήγορα. Ο πίνακας 6.3 δείχνει την a priori (πριν οποιαδήποτε ένδειξη) και την ενηµερωµένη πεποίθηση στα ενδεχόµενα πρόγνωσης, µετά από την εισαγωγή ενός στοιχείου ένδειξης κάθε φορά, για τα δίκτυα ΒΝ-1 και ΒΝ-2 αντίστοιχα. Αναφορικά µε το ΒΝ2, φαίνεται καθαρά ότι πληροφορία σχετικά µε οποιαδήποτε µεταβλητή εκτός από τις GCS, CT και «Αιτία κάκωσης», έχει πολύ µικρή επίπτωση στην εκτίµηση της πρόγνωσης, δηλ. οι a posteriori τιµές πεποίθησης είναι παρόµοιες µε τις a priori τιµές. Εάν από την άλλη πλευρά µας δίνονται πληροφορίες σχετικά µε τη GCS και CT, οι υπόλοιπες µεταβλητές δε συνεισφέρουν καθόλου, αφού καθίστανται ανεξάρτητες της GOS. Τόσο στο ΒΝ-1 όσο και στο ΒΝ-2, η σχετική θέση των κόµβων GOS, GCS και CT είναι η ίδια, και τα βέλη κατευθύνονται προς την GOS. Αναµένεται λοιπόν ότι η επίδραση των ενδείξεων από αυτές τις µεταβλητές επί της GOS θα είναι η ίδια. Αυτό µπορεί εύκολα να επιβεβαιωθεί από τον πίνακα 6.3. 130 GCS CT AGE 2.3 3 21.2 1 6.2 36.7 7 2 43.2 16.4 3 6 3.6 2 12.7 1.2 1 5 6.0 5 29.5 5.5 4 4 5.4 8.2 2 3 3.7 1 2.7 6.1 20.4 31.9 40.0 14.7 27.2 16.0 3.2 1.0 5.4 5.4 6.4 6.3 4.7 a posteriori πεποίθηση 1.0 1.1 27.7 48.0 28.1 1.3 29.8 1.0 5.3 1.7 3.8 5.9 5.8 5.0 4.2 BN-1 BN-1 BN-2 5.1 1.8 1.2 27.4 42.0 25.2 5.8 27.2 1.0 5.5 1.8 4.9 4.9 6.3 6.1 3.9 BN-2 Φυτική Κατάσταση 5.7 a priori πεποίθηση Θάνατος 1.0 13.0 39.1 12.7 26.1 36.0 19.9 30.7 16.8 2.1 11.8 9.2 8.0 10.1 4.2 BN-1 8.5 1.8 12.9 39.9 14.5 25.2 32.2 20.0 31.0 17.1 2.1 8.0 8.0 10.3 10.0 6.5 BN-2 Σοβαρή ανικανότητα Ενδεχόµενα πρόγνωσης κατά GOS (πεποιθήσεις σε %) Η ενηµέρωση της πεποίθησης 5.8 41.5 7.9 1.3 1.3 13.4 19.4 31.1 37.0 3.5 17.7 10.4 11.9 11.4 5.0 BN-1 11.3 6.6 41.5 7.9 5.8 4.8 14.1 20.0 31.0 37.2 3.5 11.4 11.4 12.1 12.0 10.9 BN-2 Μέτρια ανικανότητα 89.9 38.2 4.1 1.3 1.3 36.6 1.4 20.8 37.3 91.5 60.7 69.0 68.9 65.3 82.9 BN-1 69.4 87.1 38.3 4.4 5.8 4.8 33.2 5.6 21.0 37.0 91.6 70.3 70.3 64.9 65.6 74.0 BN-2 Καλή αποκατάσταση 131 3.1 6.3 1 3 3.7 2 5.5 9.6 1 2 1.3 3 6.8 1 4.7 4.1 3 2 5.6 2 6.2 5.4 5.8 5.5 5.4 6.4 3.3 3.8 7.1 3.3 6.4 5.8 3.1 3.8 9.5 3.3 8.5 1.8 1.3 7.6 1.6 6.4 5.1 4.9 5.4 5.1 4.9 6.3 2.0 2.7 7.2 2.8 5.4 5.7 BN-2 3.1 8.8 7.7 7.9 9.8 4.1 4.4 11.3 3.6 9.6 8.8 BN-1 8.5 8.0 8.9 8.4 8.0 10.4 3.3 4.5 11.8 8.3 12.4 7.9 BN-2 Σοβαρή ανικανότητα 87.6 12.5 6.3 10.0 13.8 1.9 11.2 12.6 12.2 24.8 7.3 BN-1 11.3 11.4 11.7 11.5 11.4 12.1 10.3 10.3 12.5 13.4 18.4 9.6 BN-2 Μέτρια ανικανότητα 3.1 69.4 70.2 75.1 58.3 90.9 78.4 61.7 78.5 54.6 72.6 BN-1 69.4 70.3 68.2 69.5 70.3 64.8 81.1 78.7 61.5 72.2 57.5 71.0 BN-2 Καλή αποκατάσταση 132 Η πεποίθηση που συγκεντρώνεται σε κάθε ένα προγνωστικό ενδεχόµενο (έκβαση του ασθενή), µετά την εισαγωγή ενός στοιχείου ένδειξης. Το άνω τµήµα του πίνακα δείχνει την a priori πεποίθηση, δηλαδή τη σχετική συχνότητα εµφάνισης των εκβάσεων στη βάση δεδοµένων. Ο υπόλοιπος πίνακας δείχνει την a posteriori πεποίθηση µετά την εισαγωγή µίας ένδειξης. Εάν για παράδειγµα γνωρίζουµε ότι η αξονική τοµογραφία κάποιας ασθενούς δείχνει συµπιεσµένες δεξαµενές, µετατόπιση µέσης γραµµής µικρότερη από 5 mm, χωρίς επισκληρίδιο αιµάτωµα (κατάσταση 4), η πεποίθηση στο ενδεχόµενο «Θάνατος» αυξάνεται από την αρχική 5.7% στο 29.5% (σύµφωνα µε το δίκτυο ΒΝ-1). Αντίθετα µια αξονική τοµογραφία χωρίς ευρήµατα µειώνει την ίδια πεποίθηση από 5.7% σε 1.2%. Πίνακας 6.3 MAP INJURIES CAUSE DELAY 1 a posteriori πεποίθηση BN-1 BN-1 BN-2 5.1 Φυτική Κατάσταση 5.7 a priori πεποίθηση Θάνατος Ενδεχόµενα πρόγνωσης κατά GOS (πεποιθήσεις σε %) Οι Εικόνες 6.5 και 6.6 δείχνουν την a priori πεποίθηση στην πρόγνωση και την απόκριση του δικτύου ΒΝ-1 µετά από την εισαγωγή διαφόρων σχηµατισµών ενδείξεων. Στην εικόνα 6.5 για παράδειγµα, δίνεται η ένδειξη ότι το GCS score είναι 9 έως 13 (κατάσταση 2) και ότι η τοµογραφία δείχνει επισκληρίδιο αιµάτωµα µε δεξαµενές παρούσες και µετατόπιση µέσης γραµµής 0-5 mm (κατάσταση 3). Η εικόνα 6.7 αναφέρεται στο ΒΝ-2. ∆είχνει την πεποίθηση στα ενδεχόµενα πρόγνωσης µετά τη συγκέντρωση πληροφορίας σχετικά µε την αιτία της κάκωσης (αυτοκινητιστικό ατύχηµα) και την καθυστέρηση της εισαγωγής στο Νοσοκοµείο (2 έως 6 ώρες). Η εικόνα 6.8 αποκαλύπτει τα διαφορετικά αποτελέσµατα που τα δύο δίκτυα δίνουν κάτω από τις ίδιες διαθέσιµες πληροφορίες: η αιτία της κάκωσης είναι κάτι άλλο από τροχαίο ή πτώση και η τοµογραφία δείχνει µετατόπιση µέσης γραµµής 0-5 mm. Αν και τα δύο δίκτυα αποδίδουν µεγαλύτερη πεποίθηση στην καλή έκβαση, η πιθανότητα που αποδίδεται από το ΒΝ-1 είναι πολύ µεγαλύτερη. 100.0 90.0 80.0 70.0 60.0 50.0 40.0 30.0 20.0 10.0 0.0 69.4 a priori πεποιθήσεις 49.2 36.2 ση τα ατ άσ ότ ητ α αν απ οκ αν ικ αν ικ Σο βα ρή αν κα υτ ικ ή CT=3, GCS=2 Κα λή η τα σ τά σ άν α Θ Φ ότ ητ α 1.0 12.6 11.3 8.5 5.11.0 Μ έτ ρι α 5.7 το ς Πεποίθηση (%) BN-1: a priori και ενηµερωµένη (a posteriori) πεποίθηση στα προγνωστικά ενδεχόµενα Προγνωστικά ενδεχόµενα κατά GOS Εικόνα 6.5: Η a priori πεποίθηση στα προγνωστικά ενδεχόµενα και η ενηµερωµένη (a posteriori) πεποίθηση µετά την εισαγωγή των παρακάτω ενδείξεων: το score του ασθενή στην κλίµακα GCS είναι από 9 ως 13 (GCS κατάσταση 2) και η αξονική τοµογραφία δείχνει επισκληρίδιο αιµάτωµα µε δεξαµενές παρούσες και µετατόπιση µέσης γραµµής 0-5 mm (CT κατάσταση 3). 133 100.0 90.0 80.0 70.0 60.0 50.0 40.0 30.0 20.0 10.0 0.0 a priori πεποιθήσεις 69.4 45.8 28.6 η ασ στ οκ α τά νό τη τα ικ α απ αν ικ αν Μ έτ ρι α ρή αν κα ή Σο βα Κα λή η τα σ τά σ άν Θ υτ ικ Φ Delay=2, Injuries=1, Age=3 8.5 9.1 11.3 ότ ητ α 5.19.0 5.7 7.5 ατ ος Πεποίθηση (%) BN-1: a priori και ενηµερωµένη (a posteriori) πεποίθηση στα προγνωστικά ενδεχόµενα Προγνωστικά ενδεχόµενα κατά GOS Εικόνα 6.6: Όπως στην εικόνα 5, για το συνδυασµό ενδείξεων: η ηλικία του ασθενή είναι µεταξύ 20 και 40, µεσολάβησαν 2 ως 6 ώρες από την κάκωση µέχρι την εισαγωγή και παρατηρήθηκαν συνοδές κακώσεις. 100.0 90.0 80.0 70.0 60.0 50.0 40.0 30.0 20.0 10.0 0.0 69.4 50.3 5.7 7.3 19.3 16.1 11.3 7.0 8.5 5.1 a priori πεποιθήσεις Delay=2, Cause=1 Φ υτ ικ ή κα τά Σο στ βα ασ ρή η αν ικ αν Μ ότ έτ ητ ρι α α αν ικ αν Κα ότ λή ητ απ α οκ ατ άσ τα ση Θ άν ατ ος Πεποίθηση (%) BN-2: a priori και ενηµερωµένη (a posteriori) πεποίθηση στα προγνωστικά ενδεχόµενα Προγνωστικά ενδεχόµενα κατά GOS Εικόνα 6.7: Η ενηµερωµένη πεποίθηση στα προγνωστικά ενδεχόµενα σύµφωνα µε το ΒΝ-2, µετά τη συγκέντρωση πληροφοριών σχετικά µε την αιτία της κρανιοεγκεφαλικής κάκωσης (τροχαίο ατύχηµα) και το χρόνο που µεσολάβησε µεταξύ της κάκωσης και της εισαγωγής στο νοσοκοµείο (2 έως 6 ώρες). 134 81.6 a priori πεποιθήσεις 43.2 6.3 5.3 1.83.8 1.4 5.04.7 46.9 BN-1 BN-2 Φ υτ Θ ι άν Σο κή α βα κατ τος άσ ρή Μ αν τασ έτ η ρι ικα νό Κα α α τ λή ητ νι απ καν α οκ ότη ατ τ άσ α τα ση 100.0 90.0 80.0 69.4 70.0 60.0 50.0 40.0 30.0 11.3 20.0 5.7 5.1 8.5 10.0 0.0 Φ υτ Θ ι άν Σο κή α κ βα ατ τος άσ ρή Μ αν τασ έτ η ρι ικα νό Κα α α τ λή ητ νι απ καν α ό οκ τ α τ ητα άσ τα ση Πεποίθηση (%) Ενηµερωµένες (a posteriori) πεποιθήσεις, µε δεδοµένες τις ενδείξεις: Cause=3, CT=2 Προγνωστικά ενδεχόµενα κατά GOS Εικόνα 6.8: Η διαφορά στα αποτελέσµατα όταν τα δύο δίκτυα τροφοδοτούνται µε τις ίδιες ενδείξεις: η αιτία της κάκωσης δεν είναι τροχαίο ατύχηµα ή πτώση και η αξονική τοµογραφία δείχνει µετατόπιση µέσης γραµµής 0-5 mm χωρίς επισκληρίδιο αιµάτωµα. Αν και τα δύο δίκτυα προτείνουν την καλή αποκατάσταση ως την πιο πιθανή έκβαση, η πιθανότητα που αποδίδεται σ’ αυτήν από το ΒΝ-1 είναι πολύ µεγαλύτερη. 135 6.1.5 Αποτίµηση απόδοσης δικτύων Η προγνωστική απόδοση των δικτύων αποτιµήθηκε χρησιµοποιώντας ως απόλυτο κριτήριο την πραγµατική έκβαση του ασθενή στις 24 ώρες. Για το σκοπό αυτό τα δίκτυα δοκιµάστηκαν µε τις 75 περιπτώσεις ασθενών των οποίων η έκβαση ήταν γνωστή. Ειδικοί ιατροί, έχοντας στη διάθεσή τους ακριβώς τα ίδια δεδοµένα αναφορικά µε τους 75 αυτούς ασθενείς, έκαναν τη δική τους εκτίµηση για την έκβαση του ασθενή, η οποία καταγράφηκε. Τα δίκτυα, όπως είναι φυσικό, απέδωσαν αριθµητικές τιµές πιθανότητας στα διάφορα ενδεχόµενα έκβασης, και έτσι η σύγκριση της απόδοσής τους µε αυτή των ιατρών έγινε για την πιο πιθανή πρόγνωση. Η απόδοση των δικτύων φαίνεται στον πίνακα 4. Το ΒΝ-1 προέβλεψε σωστά την έκβαση του ασθενή σε 61 από τις 75 περιπτώσεις (επιτυχία 81%), ενώ το ΒΝ-2 ήταν σωστό σε 52 περιπτώσεις (69%). Το αντίστοιχο ποσοστό επιτυχίας του ειδικού ιατρού ήταν 89% (67 σωστές προβλέψεις). Η απόδοση του δικτύου που προέκυψε από την αφαιρετική διαδικασία είναι συγκρίσιµη µε αυτή του ιατρού ενώ η απόδοση του ΒΝ-2 είναι σαφώς κατώτερη. Είναι κάτι που αναµενόταν, αφού η προσθετική διαδικασία κατά τη διερεύνηση κινείται ανάµεσα σε µοντέλα που εµφανίζουν a priori κακή προσαρµογή µε τα δεδοµένα λόγω των υπερβολικά πολλών παραδοχών ανεξαρτησίας που κάνουν. Υπάρχουν, όπως έχει ειπωθεί σε προηγούµενο κεφάλαιο, µέθοδοι επιλογής που δεν καταλήγουν σε ένα µοντέλο, το οποίο θεωρείται το καλύτερο δυνατό, αλλά σε έναν αριθµό µοντέλων [38]. Αυτό µπορεί να θεωρηθεί ως πλεονέκτηµα, µια που αποδεικνύει την εγγενή απροσδιοριστία ως προς τη δοµή. 136 4 8 12 48 75 Φυτική Κατάσταση Σοβαρή ανικανότητα Μέτρια ανικανότητα Καλή αποκατάσταση Συνολικά 67 45 10 6 3 3 αριθµός επιτυχών προγνώσεων 89 94 83 75 75 100 ποσοστό επιτυχίας (%) Πρόβλεψη ειδικού 61 42 9 5 2 3 αριθµός επιτυχών προγνώσεων 81 88 75 63 50 100 ποσοστό επιτυχίας (%) Πρόβλεψη δικτύου ΒΝ-1 52 40 5 3 2 2 αριθµός επιτυχών προγνώσεων 69 83 42 38 50 67 ποσοστό επιτυχίας (%) Πρόβλεψη δικτύου ΒΝ-2 137 Η απόδοση των δικτύων πεποίθησης, συγκρινόµενη µε τις προγνωστικές εκτιµήσεις των ειδικών. Το ποσοστό επιτυχίας του δικτύου ΒΝ-1 (81%) είναι καλύτερο από εκείνο του ΒΝ-2 (69%) και συγκρίσιµο µε του ειδικού Νευροχειρουργού (89%). Πίνακας 6.4 3 Θάνατος αριθµός ασθενών Πραγµατική έκβαση στις 24 ώρες Η απόδοση των δικτύων πεποίθησης 6.2 Ασθενείς Μονάδας Εντατικής Θεραπείας 6.2.1 Μεταβλητές Με τρόπο αντίστοιχο µε το πρόβληµα πρόγνωσης ασθενών των Εξωτερικών Ιατρείων, καθορίστηκαν οι µεταβλητές και γι αυτό το κλινικό πρόβληµα. Υπάρχουν ωστόσο ορισµένες διαφορές, που οφείλονται στο ότι το πρόβληµα των ασθενών της ΜΕΘ προηγήθηκε χρονικά αυτού των Εξωτερικών Ιατρείων. Συγκεκριµένα: • οι συνοδές κακώσεις δεν ελήφθησαν υπ’ όψιν • η αιτία της κάκωσης δεν ελήφθη υπ’ όψιν • συµπεριελήφθη η ανισοκορία, κ.φ.) • η µεταβλητή «Κλίµακα Κώµατος της Γλασκώβης» έχει περισσότερα ενδεχόµενα, δηλαδή έγινε µικρότερη οµαδοποίηση • τέλος, τα ευρήµατα αξονικής τοµογραφίας κατηγοριοποίηση από αυτήν της Diffuse Injury Scale µεταβλητή «Οφθαλµική αντίδραση» ακολουθούν Οι µεταβλητές που ελήφθησαν υπ’ όψιν φαίνονται στον Πίνακα 6.5. 138 (µυδρίαση, άλλη Οι κλινικές και εργαστηριακές µεταβλητές Κλίµακα έκβασης Γλασκώβης Ηλικία [GOS] [Age] Κατ. 1: Θάνατος Κατ. 1: 0-10 ετών Κατ. 2: Φυτική Κατάσταση Κατ. 2: 11-20 ετών Κατ. 3: Σοβαρή ανικανότητα Κατ. 3: 21-40 ετών Κατ. 4: Μέτρια ανικανότητα Κατ. 4: 41-60 ετών Κατ. 5: Καλή αποκατάσταση Κατ. 5: > 60 ετών Μέση Αρτηριακή Πίεση Καθυστέρηση [MAP] [Delay] Κατ. 1: < 60 mmHg Κατ. 1: < 2 ώρες Κατ. 2: 60 - 120 mmHg Κατ. 2: 2-6 ώρες Κατ. 3: > 120 mmHg Κατ. 3: > 6 ώρες Κλίµακα κώµατος Γλασκώβης Αξονική Τοµογραφία [GCS] [CT] Κατ. 1: Score 3-4 Κατ. 1: Μετατόπιση µέσης γραµµής Κατ. 2: Score 5-7 Κατ. 2: Βλάβη >25 cm3 Κατ. 3: Score 8-10 Κατ. 3: Βλάβη <25 cm3 Κατ. 4: Score 11-13 Κατ. 4: Οίδηµα Κατ. 5: Score 14-15 Κατ. 5: Χωρίς ευρήµατα Οφθαλµική αντίδραση [Pupil Response] Κατ. 1: Μυδρίαση άµφω Κατ. 2: Ανισοκορία Κατ. 3: κ.φ. Πίνακας 6.5 Οι κλινικές και εργαστηριακές µεταβλητές που συµπεριελήφθησαν στο δίκτυο πεποίθησης, των ασθενών της ΜΕΘ. 139 6.2.2 Βάση δεδοµένων Η βάση δεδοµένων περιέχει τα κλινικά και εργαστηριακά ευρήµατα 637 ασθενών µε κρανιοεγκεφαλική κάκωση της Μονάδας Εντατικής Θεραπείας του ΠΠΓΝΠ. Τα δεδοµένα συγκεντρώθηκαν την περίοδο 1994-1998. Οι καρτέλες για τους ασθενείς συµπληρώνονταν από ιατρούς της ΜΕΘ και της Νευροχειρουργικής κλινικής εντός της 1ης ώρας από την εισαγωγή του ασθενή. Για κάθε ασθενή καταγράφονταν οι τιµές επτά µεταβλητών, συµπεριλαµβανοµένης και της πραγµατικής έκβασης του ασθενούς στις 24 ώρες, σύµφωνα µε την κλίµακα έκβασης της Γλασκώβης (Glasgow Outcome Scale – GOS). Το σκορ της Κλίµακας Κώµατος της Γλασκώβης καταγράφηκε κατά την εισαγωγή του ασθενή στο Νοσοκοµείο. Οι ασθενείς διασωληνώθηκαν στο Τµήµα Επειγόντων Περιστατικών πριν την είσοδό τους στη ΜΕΘ. Είτε είχαν σκορ από 3 έως 8 είτε το αρχικό σκορ από 9 έως 15 επιδεινωνόταν γρήγορα. Για τους ασθενείς των οποίων η Αξονική Τοµογραφία εγκεφάλου έδειξε περισσότερα από ένα εκ των πιθανών ευρηµάτων (για παράδειγµα τόσο οίδηµα όσο και µετατόπιση µέσης γραµµής), ελήφθη υπ’ όψιν το χειρότερο εύρηµα (στο παράδειγµα, η µετατόπιση µέσης γραµµής). Προκειµένου να ελαττωθεί η υποκειµενικότητα στην εκτίµηση τόσο του σκορ GCS όσο και των ευρηµάτων της Αξονικής Τοµογραφίας, οι τιµές που τελικά εισήχθησαν στη βάση δεδοµένων ήταν οι µέσες τιµές των εκτιµήσεων επτά ειδικών από τα αντίστοιχα πεδία (Νευροχειρουργοί και Ακτινολόγοι). Οι τυπικές αποκλίσεις των εκτιµήσεών τους ήταν πολύ µικρές, όπως ήταν αναµενόµενο, µε αποτέλεσµα να είναι εξασφαλισµένος ο αντικειµενικός χαρακτήρας των πληροφοριών που εισήχθησαν στη βάση δεδοµένων. 140 6.2.3 Επιλογή µοντέλου Η ανάπτυξη ενός δικτύου πεποίθησης, όπως είπαµε και νωρίτερα, προϋποθέτει τον καθορισµό της αρχιτεκτονικής του δικτύου και τον υπολογισµό των παραµέτρων του, δηλαδή των πινάκων δεσµευµένης πιθανότητας. Σε αντιστοιχία µε όσα αναφέρθηκαν για την περίπτωση των ασθενών από τα Εξωτερικά Ιατρεία, η επιλογή της αρχιτεκτονικής έγινε µε βηµατική διαδικασία διερεύνησης µέσα στο χώρο των αποσυνθέσιµων γραφικών λογαριθµικών µοντέλων. Στη συγκεκριµένη περίπτωση, ακολουθήθηκε η προσθετική διαδικασία. Αυτή ξεκινά θεωρώντας αρχικά το µοντέλο στο οποίο όλες οι µεταβλητές είναι ανεξάρτητες και ελέγχει αν βελτιώνεται η περιγραφή του συνόλου των δεδοµένων (data) αποδεχόµενη ένα µοντέλο στο οποίο σταδιακά προστίθενται δεσµοί, δηλαδή υποθέτοντας σταδιακά απουσία ανεξαρτησιών µεταξύ των µεταβλητών. Η προσθετική διαδικασία, ξεκινώντας από το µοντέλο πλήρους ανεξαρτησίας [M][A][G][D][P][C][O] κατέληξε στο µοντέλο [AC][CGO][COP][MO][DO]. (Εικόνα 6.8). Πρόκειται για αποσυνθέσιµο µοντέλο και άρα µπορεί να µετατραπεί σε δίκτυο πεποίθησης (Εικόνα 6.9). Η αξιολόγηση της απόδοσης του εµπείρου συστήµατος γίνεται µέσω της σύγκρισής της µε αυτήν του αφελούς δικτύου πεποίθησης της εικόνας 6.10. Εικόνα 6.8: Η προσθετική µέθοδος που ξεκινά από το µοντέλο πλήρους ανεξαρτησίας [M][A][G][D][P][C][O] κατέληξε στο µοντέλο [AC][CGO][COP][MO][DO] Η αντιστοιχία µεταξύ γραµµάτων και µεταβλητών είναι η ακόλουθη: A: Age G: GCS D: Delay C: CT P: Pupil Response M: MΑΡ O: GOS 141 Εικόνα 6.9: Το δίκτυο πεποίθησης που προκύπτει από την απόδοση κατεύθυνσης στους δεσµούς του µη κατευθυντικού γραφήµατος της εικόνας 6.8. Οι δεσµοί κατευθύνονται πάντα από κόµβους µικρότερου δείκτη σε κόµβους µε µεγαλύτερο δείκτη, σύµφωνα µε την απόλυτη αρίθµηση που υπάρχει στα αποσυνθέσιµα µοντέλα. Εικόνα 6.10: Το αφελές δίκτυο πεποίθησης (naïve ΒΝ) για τους ασθενείς της ΜΕΘ. 142 6.2.4 Συµπερασµατολογία. Αυτό που ζητούµε από ένα έµπειρο σύστηµα που στηρίζεται σε δίκτυα πεποίθησης είναι ο υπολογισµός της a posteriori πεποίθησης στα πιθανά ενδεχόµενα έκβασης του ασθενούς (GOS) καθώς τίθενται στη διάθεσή µας νέα στοιχεία αναφορικά µε τις υπόλοιπες µεταβλητές. Η πληροφορία πο αποκτούµε από την κλινική και εργαστηριακή εξέταση του ασθενή τροφοδοτείται στο σύστηµα και διαδίδεται µέσω αυτού µέχρι να φτάσει στον κόµβο GOS. Κάθε στοιχείο πληροφορίας έχει διαφορετική επίδραση στα ενδεχόµενα της πρόγνωσης. Αυτό εξαρτάται τόσο από τη σχετική θέση του συγκεκριµένου κόµβου ως προς τον κόµβο GOS, ;όσο και από τις µήτρες διασύνδεσης που µεσολαβούν από τον κόµβο που παρατηρήθηκε µέχρι τον κόµβο της πρόγνωσης. Ακριβώς λόγω αυτών των παραγόντων, τα δύο δίκτυα πεποίθησης (σύνθετο και αφελές) δίνουν διαφορετικά αποτελέσµατα, ενώ στηρίζονται στις ίδιες πληροφορίες αναφορικά µε τον ασθενή. Ο πραγµατικός λόγος για αυτή τη συµπεριφορά είναι οι διαφορετικές δηλώσεις ανεξαρτησίας που τα δύο συστήµατα υιοθετούν. Ο Πίνακας 6.6 δείχνει πόσο ευαίσθητος είναι ο κόµβος της πρόγνωσης σε ευρήµατα που καθίστανται διαθέσιµα αναφορικά µε άλλες µεταβλητές. Μετρήθηκαν δύο ποσότητες, η αµοιβαία πληροφορία (ή ελλάττωση της εντροπίας – mutual information, entropy reduction) και το quadratic score. Η αµοιβαία πληροφορία µεταξύ της έκβασης (GOS) και µιας άλλης µεταβλητής ισούται µε την αναµενόµενη ελάττωση της ςεντροπίας της GOS εξ’ αιτίας ενός ευρήµατος σε µια άλλη µεταβλητή. Η ποσότητα αυτή παίρνει την ελάχιστη τιµή της (µηδέν) όταν η µεταβλητή είναι ανεξάρτητη της GOS, ενώ η µέγιστη τιµή της ισούται µε την εντροπία τής GOS (τιµή βάσης – base value στον Πίνακα 6.6). Το quadratic score δείχνει την αναµενόµενη διαφορά µεταξύ της κατανοµής της µεταβλητής GOS χωρίς κάποιο εύρηµα σε άλλη µεταβλητή και της κατανοµής της µεταβλητής GOS µε την παρουσία κάποιου ευρήµατος σε άλλη µεταβλητή. Η Ελάχιστη τιµή του είναι µηδέν αν η µεταβλητή είναι ανεξάρτητη της GOS και η µέγιστη τιµή που µπορεί να λάβει είναι ένα (1). Στον Πίνακα 6.6 οι µεταβλητές καταχωρήθηκαν σε φθίνουσα σειρά ισχύος. Σύνθετο BN Node Αφελές BN Mutual Information Quadratic Score Base value 1.87 Node Mutual Information Quadratic Score Base value 1.87 CT 0.31771 0.0985610 CT 0.20702 0.0335458 PUPIL 0.30235 0.0767133 PUPIL 0.20647 0.0375259 GCS 0.19838 0.0369472 GCS 0.09126 0.0163234 MAP 0.05621 0.0060566 MAP 0.03623 0.0060612 DELAY 0.02285 0.0020431 AGE 0.03534 0.0055444 AGE 0.00951 0.0015747 DELAY 0.02285 0.0020438 Πίνακας 6.6 Η ευαισθησία του κόµβου GOS σε ευρήµατα άλλων µεταβλητών. Μετρήθηκαν δύο ποσότητες, η αµοιβαία πληροφορία (mutual information ή entropy reduction) και το quadratic score. 143 Η a priori πεποίθηση σε κάθε ενδεχόµενο έκβασης ταυτίζεται µε τη σχετική συχνότητα εµφάνισης του αντίστοιχου ενδεχοµένου στο υποσύνολο εκµάθησης της βάσης δεδοµένων και άρα είναι κοινή και για τα δύο δίκτυα πεποίθησης. Με άλλα λόγια, το 38.2% των 637 ασθενών του υποσυνόλου εκµάθησης στην πραγµατικότητα πέθαναν ή βρέθηκαν σε φυτική κατάσταση στις 24 ώρες, ενώ το 24.9% είχαν πλήρη αποκατάσταση. Η Εικόνα 6.11 δείχνει την απόκριση των δύο δικτύων πεποίθησης µετά την ακολουθιακή εισαγωγή ευρηµάτων. Για την περίπτωση ασθενούς µε ανισοκορία και αξονική τοµογραφία που δείχνει µετατόπιση µέσης γραµµής, το µέν σύνθετο ΒΝ αποδίδει πεποίθηση 61.1% στο ενδεχόµενο «θάνατος στις 24 ώρες» ενώ το αφελές ΒΝ υποστηρίζει το ίδιο ενδεχόµενο µε πιθανότητα 70.7%. Αν ο ασθενής έχει ανισοκορία, η αξονική του τοµογραφία δείχνει την ύπαρξη οιδήµατος και βρίσκεται σε κώµα (GCS από 5 έως 7), τα δύο δίκτυα πεποίθησης προτείνουν διαφορετικές εκβάσεις. Το σύνθετο ΒΝ υποστηρίζει το ενδεχόµενο «θάνατος» ενώ µε τα ίδια ευρήµατα στη διάθεσή του, το αφελές επιλέγει την «καλή αποκατάσταση» ως πιο πιθανό ενδεχόµενο. Το παραπάνω αποτελεί παράδειγµα περιστατικών για τα οποία τα δύο δίκτυα πεποίθησης αποδίδουν υψηλές a posteriori πεποιθήσεις σε δύο διαµετρικά αντίθετα ενδεχόµενα («θάνατος» και «καλή αποκατάσταση»). Ενώ είναι διαισθητικά εύκολο να αναγνωρίσουµε µια τάση όταν τα δίκτυα πεποίθησης αποδίδουν παραπλήσιες πεποιθήσεις σε γειτονικά ενδεχόµενα πρόγνωσης, τέτοιου είδους περιστατικά φαινοµενικά οδηγούν σε αντιφάσεις. Ο λόγος για µια τέτοια συµπεριφορά από µέρους των δικτύων είναι ότι κάποια σχήµατα (ακολουθίες) ευρηµάτων είναι συµβατά τόσο µε ασθενείς που στις 24 ώρες πέθαναν, όσο και µε ασθενείς που είχαν καλή αποκατάσταση. Πέραν αυτού, θα πρέπει επίσης να ληφθεί υπ’ όψιν ότι η a priori πεποίθηση δεν είναι ισοκατανεµηµένη στα ενδεχόµενα έκβασης. Άρα υπάρχουν σχήµατα ευρηµάτων που δεν οδηγούν υποχρεωτικά σε a posteriori πεποιθήσεις οι οποίες ακολουθούν µια σαφή τάση προς ένα ενδεχόµενο έκβασης. 144 2.4 2.4 25.0 22.4 14.1 25.0 22.4 14.1 36.1 36.1 Good Moderate Severe Vegetative Dead Good Moderate Severe Vegetative Dead Οφθαλµική αντίδραση : 5 έως 7 GCS 18.0 13.7 21.9 14.6 31.8 Good Moderate Severe Vegetative Dead : Οίδηµα Αξονική Τοµογραφία Σύνθετο BN 6.1 2.9 Αφελές BN 34.1 28.4 21.1 13.5 9.2 10.2 3.8 : Ανισοκορία Good 10.1 Severe Vegetative Dead Moderate 12.6 61.1 Αφελές BN : Μετατόπιση µέσης γραµµής 11.0 5.2 Σύνθετο BN Αξονική Τοµογραφία : Ανισοκορία 70.7 145 Για κωµατώδη ασθενή (GCS από 5 έως 7) µε ανισοκορία και εγκεφαλικό οίδηµα, τα δύο δίκτυα επιλέγουν διαφορετικές εκβάσεις. Το σύνθετο ΒΝ εµφανίζει µια µείωση της πεποίθησης στα ενδεχοµένα «καλή αποκατάσταση» και «µέτρια ανικανότητα» προς όφελος χειρότερων εκβάσεων. Το ενδεχόµενο «θάνατος» λαµβάνει την υψηλότερη πεποίθηση (31.8%). Το αφελές ΒΝ, αντίθετα, ελαττώνει την πεποίθηση στο ενδεχόµενο «θάνατος» και προβλέπει καλή αποκατάσταση (34.1%). Επίσης αποδίδει υψηλή πεποίθηση στο ενδεχόµενο «µέτρια ανικανότητα» (28.4%) Οι διαφορές στν απόκριση των δύο δικτύων όταν τροφοδοτούνται µε τα ίδια ευρήµατα. Για ασθενή µε ανισοκορία και αξονική τοµογραφία που δείχνει µετατόπιση µέσης γραµµής, και τα δύο δίκτυα υποστηρίζουν το ενδεχόµενο «θάνατος» µε διαφορετικές πεποιθήσεις. Η αρχική πεποίθηση στο ενδεχόµενο «θάνατος» (36.1%) αυξάνεται δραµτικά υπό το φώς των δεδοµένων αυτών σε 61.1% (σύνθετο ΒΝ) ή σε 70.7% (αφελές ΒΝ). Εικόνα 6.11: Good Moderate Severe Vegetative Dead A priori πεποιθήσεις Good Moderate Severe Vegetative Dead A priori πεποιθήσεις Οφθαλµική αντίδραση 6.2.5 Αποτίµηση απόδοσης δικτύων Η προγνωστική απόδοση των δικτύων αποτιµήθηκε χρησιµοποιώντας ως απόλυτο κριτήριο την πραγµατική έκβαση του ασθενή στις 24 ώρες. Η απόδοσή τους συγκρίνεται µε την απόδοση ειδικών ιατρών, οι οποίοι, έχοντας στη διάθεσή τους ακριβώς τα ίδια δεδοµένα έκαναν τη δική τους εκτίµηση για την έκβαση των ασθενών. Η σύγκριση όµως της απόδοσης των συστηµάτων δεν περιορίζεται εκεί. Τα δύο έµπειρα συστήµατα τίθενται σε σύγκριση και µε δύο τεχνικές που είναι αποδεδειγµένα επιτυχείς [88] σε διαδικασίες κατηγοριοποίησης: την polychotomous regression [77] και τους k-nearest neighbours. Και οι δύο τεχνικές προϋποθέτουν το διαχωρισµό των δεδοµένων σε δύο υποσύνολα: το υποσύνολο εκµάθησης (training set) και το υποσύνολο δοκιµών (test set). Οι τεχνικές αυτές διαµορφώνονται από το υποσύνολο εκµάθησης και δοκιµάζονται στο υποσύνολο δοκιµών. Επειδή όµως δεν υπάρχει πληθώρα αριθµού ασθενών µε ΚΕΚ, τα ιατρικά δεδοµένα είναι πολύτιµα και διστάζει κανείς να µην χρησιµοποιήσει το σύνολο των δεδοµένων για εκµάθηση. Αντί λοιπόν να χρησιµοποιήσουµε ένα συγκεκριµένο υποσύνολο των δεδοµένων για δοκιµές, ακολουθήσαµε την τακτική της cross validation 10 πτυχών (10-fold cross validation) [123]. Το σύνολο των δεδοµένων επιµερίζεται µε τυχαίο τρόπο σε 10 ξένα µεταξύ τους υποσύνολα. Ένα από αυτά τα υποσύνολα χρησιµοποιείται ως υποσύνολο δοκιµών ενώ τα υπόλοιπα εννέα χρησιµοποιούνται για το fitting και την πρόγνωση των δεδοµένων του υποσυνόλου δοκιµών. Η διαδικασία αυτή επαναλαµβάνεται 10 φορές ώστε κάθε στοιχείο των δεδοµένων να έχει προγνωσθεί από τις τεχνικές. Τότε υπολογίζεται η απόδοση των τεχνικών. Η τακτική της cross validation εφαρµόζεται γενικά σε περιπτώσεις που το σύνολο των δεδοµένων είναι σχετικά µικρό. Στη δική µας µελέτη χρησιµοποιείται για να αντιµετωπίσουµε το πρόβληµα του µικρού αριθµού ασθενών που υπάγονται στην κατηγορία «φυτική κατάσταση». Οι k-nearest neighbours είναι µια µη-παραµετρική τεχνική κατηγοριοποίησης σύµφωνα µε την οποία ανευρίσκονται τα k πιο κοντινά παραδείγµατα ασθενών στο υποσύνολο εκµάθησης και η κατανοµή την οποία ακολουθούν οι µεταβλητές GOS στα παραδείγµατα αυτά παρέχει την εκτίµηση για την τιµή GOS που θα λάβει ο ασθενής που ανήκει στο υποσύνολο δοκιµών. Το πόσο κοντινά είναι τα παραδείγµατα καθορίζεται µε Ευκλείδεια µέτρα απόστασης στον εξαδιάστατο χώρο των προγνωστικών µεταβλητών. Κάνοντας πειράµατα µε διάφορες τιµές του k βρήκαµε ότι τα καλύτερα αποτελέσµατα δίνει η τιµή k=3. Η polychotomous regression από την άλλη πλευρά προσαρµόζει ένα µοντέλο polychotomous logistic regression χρησιµοποιώντας γραµµικά splines και τα γινόµενα των τανυστών τους. Η µέθοδος παρέχει εκτιµήσεις για τις υπό συνθήκη πιθανότητες έκβασης (conditional probabilities) οι οποίες µπορούν να χρησιµοποιηθούν για την πρόγνωση της έκβασης κατά GOS. Ο πίνακας που ακολουθεί παρουσιάζει αναλυτικά την απόδοση των υπό µελέτη τεχνικών. Η µέθοδος 3-nearest neighbours παρουσιάζει την καλύτερη απόδοση (91% επιτυχείς προγνώσεις), ακολουθούµενη από τον ειδικό Νευροχειρουργό (83%) και το σύνθετο BN (80%). Η polychotomous regression προέβλεψε σωστά την έκβαση των 146 ασθενών στο 74% των περιπτώσεων ενώ το αφελές δίκτυο πεποίθησης στο 64% των περιπτώσεων. Πραγµατική Έκβαση στις 24 ώρες Αριθµός περιστατικών Ποσοστό επιτυχών προγνώσεων (%) Νευροχειρουργός Σύνθετο BN Αφελές BN 3-Nearest Neighbors Polychotomous Logistic Regression Death 230 83 85 72 95 71 Vegetative Sate 15 77 62 53 90 49 Severe disability 90 86 76 59 85 81 Moderate disab. 143 81 68 53 87 72 Good recovery 159 82 89 67 93 80 ΣΥΝΟΛΟ 637 83 80 64 91 74 Οι παραπάνω διαφορές είναι στατιστικά σηµαντικές (p<0.01), εκτός εκείνης µεταξύ του Νευροχειρουργού και του σύνθετου BN (p>0.05). Το ποσοστό επιτυχών προγνώσεων του σύνθετου BN είναι µεγαλύτερο από εκείνο του αφελούς ΒΝ για όλα τα ενδεχόµενα έκβασης ενώ και τα δύο παρουσιάζουν τα µεγαλύτερα ποσοστά επιτυχών προγνώσεων στα ακραία ενδεχόµενα (θάνατος-καλή αποκατάσταση). Η απόδοση των τριών παραµετρικών τεχνικών (τα δύο δίκτυα πεποίθησης και η polychotomous regression) είναι συνεπής προς την πολυπλοκότητα των παραδοχών που υιοθετούν. Η polychotomous regression µπορεί να θεωρηθεί ως µια επέκταση του αφελούς ΒΝ αλλά δεν λαµβάνει υπ’ όψιν τις αλληλεπιδράσεις µεταξύ των έξ προγνωστικών µεταβλητών, πράγµα το οποίο συµβαίνει στο σύνθετο BN. Το σύνθετο BN αξιοποιεί γι αυτό το σκοπό τη βάση δεδοµένων των κλινικών και εργαστηριακών ευρηµάτων και είναι κατά συνέπεια πιο συµβατό µε το συγκεκριµένο πληθυσµό ασθενών. Αν κάποιος δεν ενδιαφέρεται για συµπερασµατολογία ποιοτικού τύπου (π.χ. δηλώσεις δεσµευµένης ανεξαρτησίας) αλλά µόνον για µια επιτυχή κατηγοριοποίηση, τότε µπορεί να προτιµήσει τεχνικές του τύπου «µαύρο κουτί» (όπως οι k-nearest neighbours ή τα νευρωνικά δίκτυα) οι οποίες επιδεικνύουν πολύ καλές αποδόσεις. Ο Πίνακας 6.7 παρουσιάζει µια άλλη πτυχή της απόδοσης των δικτύων πεποίθησης, και συγκεκριµένα πόσες φορές τα δύο ΒΝ απέδωσαν µεγάλη πεποίθηση σε κάποιο από τα ενδεχόµενα της έκβασης αλλά τελικά έκαναν λάθος. Για παράδειγµα, το σύνθετο ΒΝ απέδωσε στο ενδεχόµενο «θάνατος» πεποίθηση µικρότερη από 10% σε 101 περιπτώσεις ασθενών. Σε 4 από αυτές (3.96%) έκανε λάθος, αφού ο «θάνατος» ήταν η πραγµατική έκβαση. Το αντίστοιχο σφάλµα για το αφελές ΒΝ ήταν 9.95%. Με την εξαίρεση των εκτιµήσεων για το ενδεχόµενο «µέτρια ανικανότητα», τα επίπεδα σφάλµατος των δύο δικτύων διαφέρουν στατιστικώς σηµαντικά (p<0.05), προς όφελος του σύνθετου δικτύου. 147 Ενδεχόµενο κατά GOS Predicted Probability (πεποίθηση) <10% >90% Σύνθετο BN Αφελές BN Σηµαντικότητα διαφοράς Σύνθετο BN Αφελές BN Σηµαντικότητα διαφοράς Death 3.96 % (4/101) 9.95 % (19/191) p < 0.05 9.09 % (4/44) 10.59 % (9/85) p > 0.05 Vegetative state 1.04 % (6/578) 2.38 % (15/630) p < 0.05 0.00 % (0/0) 0.00 % (0/0) – Severe disability 2.67 % (6/225) 7.99 % (25/313) p < 0.005 0.00 % (0/0) 0.00 % (0/0) – Moderate disability 5.70 %(11/193) 6.06 % (12/198) p > 0.05 0.00 % (0/0) 0.00 % (0/0) – Good recovery 3.08 % (6/195) 6.87 % (16/233) p < 0.05 0.00 % (0/0) 0.00 % (0/4) – ΣΥΝΟΛΟ 2.55 % (33/1292) 5.56 % (87/1565) p < 0.001 9.09 % (4/44) 10.11 % (9/89) p > 0.05 Πίνακας 6.7 Το σύνθετο δίκτυο επίσης παρουσιάζει καλύτερη βαθµονόµηση (calibration). Η εικόνα που ακολουθεί δείχνει την παρατηρηθείσα σχετική συχνότητα κάποιου ενδεχοµένου για διάφορες τιµές πεποίθησης που έχουν αποδοθεί σ’ αυτό το ενδεχόµενο. Για παράδειγµα, από το σύνολο των περιπτώσεων που το αφελές δίκτυο απέδωσε πεποίθηση ίση µε 70% σε ένα ενδεχόµενο, το ενδεχόµενο αυτό πραγµατικά παρατηρήθηκε σε 55% από αυτές. Η ιδανική τεχνική κατηγοριοποίησης θα ακολουθούσε τη διαγώνιο του γραφήµατος. Η απόσταση από τη διαγώνιο είναι εποµένως ένα µέτρο της υπό µελέτη µεθόδου. Το σύνθετο ΒΝ είναι προφανώς πιο κοντά στη διαγώνιο, εν σχέσει µε το αφελές. Calibration plot for the two BNs 100 Observed relative frequency (%) 90 80 70 60 complex BN 50 optimal naive BN 40 30 20 10 0 0 10 20 30 40 50 60 70 80 Belief in prognostic outcome (%) 148 90 100 7. ΣΥΜΠΕΡΑΣΜΑΤΑ Μέσα από την ανάπτυξη του εµπείρου συστήµατος για το συγκεκριµένο κλινικό πρόβληµα, αποκαλύφθηκαν τα βασικά χαρακτηριστικά των δικτύων πεποίθησης, τόσο ως µέσο αποτύπωσης της γνώσης, όσο και ως βοήθηµα λήψεως ιατρικών αποφάσεων. Συγκεκριµένα, έγινε σαφές ότι τα ∆ίκτυα Πεποίθησης: • είναι συµβατά µε τον τρόπο σκέψης του Ιατρού, καθώς αξιοποιούν τον ίδιο µηχανισµό αποτίµησης της αξίας της πληροφορίας και του συνδυασµού των διαθέσιµων στοιχείων για την επίτευξη του διαγνωστικού/προγνωστικού στόχου • κωδικοποιούν την ιατρική σκέψη µέσω της αρχιτεκτονικής τους, καθώς αποτυπώνουν µε γραφικό τρόπο τις σχέσεις δεσµευµένης ανεξαρτησίας µεταξύ των µεταβλητών, όπως αυτές προκύπτουν όχι από γνώση των ειδικών του πεδίου εφαρµογής, αλλά από τις στατιστικές σχέσεις µεταξύ τους, στη βάση δεδοµένων • ποσοτικοποιούν την εκτίµηση του Ιατρού µε όρους πιθανότητας, αποδίδοντας µε όρους πιθανότητας τα µέτρο της πεποίθησης στα διάφορα προγνωστικά ενδεχόµενα, συνεκτιµώντας όλα τα διαθέσιµα στοιχεία • επιτρέπουν την εισαγωγή ελλιπών δεδοµένων, καθώς δεν είναι απαραίτητη η διάθεση του συνόλου της πληροφορίς για την τροποποίηση της πεποίθησης. • επιτρέπουν την εισαγωγή στοιχείων υποκειµενικού χαρακτήρα, όπως για παράδειγµα την εκτίµηση του ιατρού για την τιµή κάποιας µεταβλητής • προσφέρουν ένα µοντέλο αναπαράστασης του προβλήµατος, και όχι απλά ένα µαύρο κουτί που εκτελεί κατηγοριοποιήσεις • έχουν επιδόσεις παραπλήσιες µε των έµπειρων Ιατρών, πράγµα που τα καθιστά ιδιάιτερα χρήσιµα σε περιβάλλοντα στα οποία η παρουσία εµπείρων ιατρών είναι είτε αδύνατη είτε ασύµφορη • αποκαλύπτουν τις αλληλεπιδράσεις µεταξύ των µεταβλητών, και αναδεικνύουν τις µεταβλητές µε τη µεγαλύτερη επίπτωση στην τελική έκβαση, δηλαδή τις µεταβλητές που φέρουν το κατά περίπτωση µεγαλύτερο ποσό πληροφορίας • εµπεριέχουν και αξιοποιούν τη συλλογική εµπειρία ετών, καθώς αξιοποιούν βάσεις δεδοµένων µε περιστατικά πολλών ετών • παρέχουν τη δυνατότητα µεταφοράς της εµπειρίας σε οποιοδήποτε περιβάλλον παροχής υγείας, αφού η χρήση τους είναι αυτόνοµη κα υλοποιήσιµη σε έναν φορητό προσωπικό υπολογιστή Τα ζητήµατα που παραµένουν ανοικτά για βελτίωση στην ανάπτυξη παρόµοιων συστηµάτων είναι τα ακόλουθα: 1) Αξιοποίηση βάσεων δεδοµένων για τροποποίηση δοµής του ΒΝ και τροποποίηση των παραµέτρων του 149 Όπως παρουσιάστηκε στις αντίστοιχες παραγράφους νωρίτερα, η βάση δεδοµένων µε τις µεταβλητές των ασθενών, έχει διπλή σηµασία στην οικοδόµηση ενός δικτύου πεποίθησης. Αφ’ ενός παίζει πρωταρχικό ρόλο στην επιλογή της αρχιτεκτονικής του και αφ’ ετέρου χρησιµοποιείται για την εξαγωγή των δεσµευµένων πιθανοτήτων για τις µήτρες διασύνδεσης µεταξύ των κόµβων του δικτύου. Είναι εποµένως θεµιτό να αναπτυχθεί µεθοδολογία αυτόµατης ενηµέρωσης και των δύο αυτών πτυχών ενός δικτύου, καθώς τα περιεχόµενα της βάσης δεδοµένων τροποποιούνται. 2) Αυτοµατοποίηση διαδικασίας επικοινωνίας µεταξύ διαφόρων λογισµικών Η ανταλλαγή δεδοµένων µεταξύ των διαφόρων λογισµικών, από την αποθήκευση των δεδοµένων µέχρι την κατασκευή του δικτύου πεποίθησης απαιτεί σηµαντική παρέµβαση από πλευράς του ειδικού αναλυτή. Η διαδικασία αυτή θα ήταν βέλτιστη µε τη υιοθέτηση κάποιου προτύπου ανταλλαγής δεδοµένων µεταξύ των εφαρµογών αυτών ή µε την αυτοµατοποίηση της διαδικασίας µε κατάλληλο λογισµικό 3) Συνδυασµός µε Νευρωνικά ∆ίκτυα για υλοποίηση unsupervised learning Η ύπαρξη κρυµµένων (µη παρατηρήσιµων) µεταβλητών, αυξάνει δραµατικά την πολυπλοκότητα του προβλήµατος. Ο συνδυασµός µε τα Νευρωνικά ∆ίκτυα θα µπορούσε να αποδειχθεί πολύ χρήσιµος σε παρόµοιες καταστάσεις. 150 8. ΠΕΡΙΛΗΨΗ Η εκτίµηση της πρόγνωσης ασθενών µε κρανιοεγκεφαλικές κακώσεις αποτελεί ένα πρόβληµα που απαιτεί για τη λύση του τον συνυπολογισµό πολλών κλινικών και εργαστηριακών παραµέτρων. Ο κλινικός Ιατρός λειτουργεί σε καθεστώς αβεβαιότητας κατά την αποτίµηση των διαθεσίµων δεδοµένων. Παρ’ όλα αυτά, η κρίση του είναι συχνά εξαιρετική, επειδή οι άνθρωποι έχουν αποδειχθεί ότι είναι ιδιαίτερα ικανοί στην αποτλεσµατική διαχείριση της αβεβαιότητας. Η ανθρώπινη ευρετική προσέγγιση του συνδυασµού των στοιχείων προκειµένου να εκτιµηθεί µια πρόγνωση µπορεί να ιαχειριστεί έναν περιορισµένο αριθµό τέτοιων στοιχείων. Η αυξηµένη χρήση υπολογιστών όµως, στους χώρους παροχής υγείας, έχει οδηγήσει στην εµφάνιση µεγάλων βάσεων δεδοµένων και κατά συνέπεια στην προσφορά πληθώρας δεδοµένων. Η περιορισµένη ανθρώπινη ικανότητα στην διαδικασία έµµεσης συµπερασµατολογίας, τίθεται πλέον υπό δοκιµασία. Τα συστήµατα υποστήριξης λήψης αποφάσεων µπορούν να αποτελέσουν χρήσιµα εργαλεία στα χέρια ειδικευµένων Ιατρών, καθώς µπορούν αφ’ ενός να προσφέρουν µοντέλα διαχείρισης της αβεβαιότητας και αφ’ ετέρου να διαχειριστούν ετερόκλητες πηγές πληροφορίας. Η διαχείριση της αβεβαιότητας στην Ιατρική έχει προσεγγιστεί µέσω πολλών µεθοδολογιών. Τα συστήµατα που στηρίζονται σε παραγωγικούς κανόνες δεν κατάφεραν να κερδίσουν την αποδοχή των κλινικών Ιατρών λόγω του ότι ο ιατρικός χώρος καλύπτει πολλά προβλήµατα που δύσκολα εκφράζονται µε ένα σύνολο κανόνων. Κατά συνέπεια, η χρήση τους στην καθηµερινή κλινική ρουτίνα παρέµεινε περιορισµένη. Τα νευρωνικά δίκτυα από την άλλη πλευρά, ενώ γενικά είναι πολύ αποτελεσµατικά, µπορούν ορισµένες φορές να οδηγήσουν σε καταστάσεις που δεν είναι αυτοσυνεπείς, για παράδειγµα η διάγνωση κάποιας νόσου να εξαρτάται από τη σειρά µε την οποία δηλώνονται στο δίκτυο τα ευρήµατα. Επίσης, πααµένοντας «µαύρα κουτιά», δεν προτείνουν κάποιο µοντέλο που να µπορεί να γίνει αντιληπτό από τον τελικό χρήστη, ώστε εκείνος να το εµπιστευτεί, αποδεχόµενός το. Τα κατά Bayes ∆ίκτυo Πεποίθησης χρησιµοποιούνται συνεχώς και περισσότερο στον ιατρικό χώρο ως αναπαράσταση γνώσης για τη συµπερασµατολογία σε καθεστώς αβεβαιότητας. Επιτρέπουν το βηµατικό συνδυασµό προγνωστικών στοιχείων και παρέχουν ένα ποσοτικό µέτρο της πεποίθησης στην τλική απόφαση, µε όρους πιθανότητας (τιµών από 0 έως 1). Η ικανότητά τους να αποτιµούν υποκειµενικά στοιχεία είναι συµβατή µε την καθηµερινή κλινική πρακτική, καθώς τα κλινικά και εργαστηριακά ευρήµατα είναι υποκειµενικού χαρκτήρα . Τα δίκτυα πεποίθησης είναι γραφήµατα που αποτελούνται από κοµβους και δεσµούς. Οι κόµβοι συνιστούν πιθανοκρατικές µεταβλητές και οι δεµοί αναπαριστούν τη σχέση µεταξύ δύο κόµβων. Οι δεσµοί ποσοτικοποιούνται από µια µήτρα δεσµευµένων πιθανοτήτων που εκφράζει την πιθανοκρατική σχέση µεταξύ των ενδεχοµένων του κόµβου-πατέρα µε τα ενδεχόµενα του κόµβου-παιδί. Η παρούσα διατριβή αφορά την ανάπτυξη εµπέιρων συστηµάτων βασιζοµένων σε δίκτυα πεποίθησης για την πρόγνωση ασθενών µε κρανιοεγκεφαλικές κακώσεις, που προέρχονται είτε από τα εξωτερικά ιατρεία είτε από τη Μονάδα Εντατικής Θεραπείας. ∆ιαφορετικές προσεγγίσεις ανάπτυξης τέτοιων συστηµάτων υλοποιούνται και συγκρίνονται. Η επιλογή των παραµέτρων των δικτύων (αρχιτεκτονικής και µητρών δεσµευµένων πιθανοτήτων) γίνεται µε την εκµετάλλευση βάσεων δεδοµένων 151 στις οποίες φυλάσσονται τα κλινικά και εργαστηριακά ευρήµατα των ασθενών. Οι επιδόσεις των συστηµάτων αυτών συγκρίνονται τόσο µε τις αντίστοιχες επιδόσεις ειδικευµένων ιατρών όσο και µε άλλες µεθόδους, όπως οι k-nearest neighbours και η multiple logistic regression. 152 9. SUMMARY The task of estimating a head-injured patient’s prognosis involves the evaluation of many clinical and laboratory parameters. The clinician acts under uncertainty when evaluates the available data to reach a patient’s prognosis. Yet, often clinical judgment is excellent, because people have proven their skill in managing uncertainty efficiently. The human heuristic approach of combining evidence to reach a prognosis can deal successfully with a limited amount of evidence. The proliferation of large databases of patient findings, however, due to the increased use of computers in clinical settings, offers an abundance of available data, challenging the limited human capacity for indirect inference. Decision support systems able to model uncertainty and analyze diverse sources of information can therefore become a useful tool for medical experts. The management of uncertainty in Medicine has been approached by many methodologies. Systems based on production rules did not manage to gain the acceptance of the clinicians, since the medical domain covers many problems that are very difficult to express with a set of rules. Consequently their use in routine settings remained limited. Neural networks, on the other hand, while generally efficient, may sometimes lead to inconsistencies, e.g. diagnosis depending on the order in which findings are entered. Bayesian belief networks (BNs) are being increasingly used in the medical domain as a knowledge representation for reasoning under uncertainty. They permit the stepwise combination of prognostic evidence and provide a quantitative measure of belief in the final decision, in terms of probabilities (values between 0 and 1). Their ability to evaluate subjective evidence is compatible with routine clinical practice, since clinical and laboratory data are rarely of objective character. BNs are graphs comprised of nodes and directed links. The nodes constitute probabilistic variables and the links represent the relation between two nodes. The links are quantified by a conditional probability matrix (CP matrix) that expresses the probabilistic relation between the outcomes of the parent node with the outcomes of the descendent child node. The present dissertation concerns the development of expert systems based on Bayesian networks for the prognosis of head-injured patients, coming from either the Outpatient’s Department or the Intensive Care Unit. Various approaches of such systems are realizes and compared. The selection of the networks’ parameters (network architecture and conditional probabilities matrices) is made using data exploration methods in the database of patient clinical and laboratory findings. The performance of these expert systems is compared to that of expert clinicians and to the performance of other methodologies, like the non-parametric method of k-nearest neighbors and a model for multiple logistic regression. 153 154 10. ΠΑΡΑΡΤΗΜΑ: ΜΑΘΗΣΗ ∆ΟΜΗΣ ΚΑΙ ΠΑΡΑΜΕΤΡΩΝ 10.1 Εισαγωγή Για ορισµένα προβλήµατα είναι δυνατή η οικοδόµηση ενός δικτύου πεποίθησης χρησιµοποιώντας µόνον πρότερη γνώση, χωρίς τη χρήση µετρήσεων. Αυτό σηµαίνει ότι τόσο η αρχιτεκτονική του δικτύου όσο και οι παράµετροί του –δηλαδή οι πίνακες δεσµευµένων πιθανοτήτων– µπορούν να εξαχθούν από τη γνώση κάποιων ειδικών στο συγκεκριµένο πεδίο. Υπάρχουν πολλές καταστάσεις όµως, για τις οποίες οι παράµετροι ή / και η δοµή του δικτύου δε µπορούν να προσδιοριστούν µε ευκολία. Η ύπαρξη όµως του αυστηρού πιθανοκρατικού φορµαλισµού επιτρέπει τη µάθηση των παραµέτρων και της δοµής ενός δικτύου πεποίθησης από δεδοµένα ή από συνδυασµό δεδοµένων και κεκτηµένης (prior) γνώσης. Η ανάπτυξη µεθόδων γι’ αυτό ακριβώς το σκοπό αποτελεί την αιχµή της επιστηµονικής έρευνας στο αντικείµενο των γραφικών µοντέλων και ειδικότερα των δικτύων πεποίθησης. Η έρευνα περιλαµβάνει δίκτυα µόνον διακριτών, µόνο συνεχών αλλά και δίκτυα που περιλαµβάνουν και τα δύο είδη µεταβλητών. Όπως και στο υπόλοιπο βιβλίο, θα ασχοληθούµε µε τεχνικές µάθησης που αναφέρονται µόνο στην περίπτωση των δικτύων µε αµιγώς διακριτές µεταβλητές. Μια βασική διάκριση ανάµεσα στις προσεγγίσεις ανάπτυξης τέτοιων µεθόδων είναι ανάµεσα σ’ αυτές που ακολουθούν τεχνικές κατά Bayes και σ’ αυτές που ακολουθούν άλλες τεχνικές. Η βασική εκπρόσωπος των µη-Bayesian προσεγγίσεων αναπτύχθηκε στο κεφάλαιο «Επιλογή µοντέλου» και αναφέρεται σε µη-κατευθυντικά µοντέλα. Μπορεί πολύ εύκολα να χρησιµοποιηθεί και στα δίκτυα πεποίθησης, αφού µπορούµε πάντα να βρούµε ένα δίκτυο πεποίθησης που να αποτυπώνει τις ίδιες ακριβώς σχέσεις ανεξαρτησίας µε ένα µη-κατευθυντικό µοντέλο. Με άλλα λόγια αυτή η προσέγγιση κινείται στο χώρο των µη-κατευθυντικών µοντέλων, επιλέγει µέσα από µια λιγότερο ή περισσότερο σύνθετη διαδικασία ένα ή περισσότερα αποδεκτά µοντέλα και τελικά βρίσκει τα ισοδύναµα δίκτυα πεποίθησης. Ο καθορισµός της δοµής και των παραµέτρων του δικτύου γίνεται ήδη κατά την επιλογή του µη κατευθυντικού µοντέλου. Στη συνέχεια θα αναφερθούµε σε τεχνικές που ακολουθούν την Bayesian φιλοσοφία, ξεκινώντας από το πρόβληµα µάθησης των παραµέτρων της κατανοµής µιας µεταβλητής και επεκτείνοντας τη µεθοδολογία σε συνθετότερα προβλήµατα. 155 10.2 Μάθηση παραµέτρων: µεταβλητής Η περίπτωση της µιας Ας θεωρήσουµε µια απλή πινέζα µε κυκλικό επίπεδο κεφάλι. Αν την πετάξουµε ψηλά στον αέρα και την αφήσουµε να πέσει σε µια σκληρή επίπεδη επιφάνεια, θα καταλήξει να ακουµπά στην επιφάνεια είτε µε την ακίδα της (κεφαλή) ή µε το κεφάλι της (γράµµατα), όπως φαίνεται στην παρακάτω εικόνα. Εικόνα 10.1 Υποθέστε ότι δίνουµε την πινέζα σε κάποιον που επαναλαµβάνει την παραπάνω διαδικασία πολλές φορές και µετράει πόσες φορές η πινέζα φέρνει κεφαλή. Επί πλέον ας υποθέσουµε ότι οι φυσικές ιδιότητες της πινέζας και οι συνθήκες κάτω από τις οποίες ρίχνεται παραµένουν σταθερές στο χρόνο. Ένας οπαδός της αντικειµενικής ή frequentist ερµηνείας της πιθανότητας θα έλεγε ότι η σχετική συχνότητα εµφάνισης του ενδεχοµένου «κεφαλή» σε µεγάλο αριθµό επαναλήψεων είναι ίσο µε την πιθανότητα και θα παρατηρούσε ρίψεις της πινέζας για να εκτιµήσει αυτή την πιθανότητα. Αντίθετα, κάτω από την Bayesian οπτική γωνία, ορίζουµε µια µεταβλητή Θ της οποίας η πραγµατική τιµή θ αντιστοιχεί στο ποσοστό µετά από µεγάλο αριθµό επαναλήψεων. Στη συνέχεια εκφράζουµε την απροσδιοριστία σχετικά µε την Θ µε µια συνάρτηση πυκνότητας πιθανότητας p(θ), και ανανεώνουµε αυτή την κατανοµή πιθανότητας καθώς παρατηρούµε τις ρίψεις της πινέζας. Ας σηµειωθεί ότι, παρά το ότι η θ δεν αντιπροσωπεύει ένα βαθµό πεποίθησης, συλλογές σχετικών συχνοτήτων εµφάνισης µεγάλων αριθµών επαναλήψεων ικανοποιούν τους κανόνες των πιθανοτήτων. Έτσι η θ µερικές φορές ονοµάζεται φυσική, αντικειµενική ή πραγµατική πιθανότητα ώστε να διακρίνεται από ένα βαθµό πεποίθησης. Μια από τις δυνατές κατανοµές πιθανότητας για τη Θ φαίνεται στην εικόνα που ακολουθεί. Εικόνα 10.2 156 Υποθέστε τώρα ότι ρίχνουµε την πινέζα Ν φορές. Έστω ότι µε Χl συµβολίζουµε τη µεταβλητή που αντιπροσωπεύει το αποτέλεσµα της l-στής ρίψης και µε D = {X 1 = x1 , K, X N = x N } το σύνολο των παρατηρήσεών µας, δηλαδή τα δεδοµένα µας. Υπό την προϋπόθεση ότι οι ιδιότητες της πινέζας και οι συνθήκες του πειράµατος δεν αλλάζουν µε το χρόνο, εάν ξέρουµε την θ τότε τα ενδεχόµενα στην D είναι αµοιβαίως ανεξάρτητα και η πιθανότητα για κεφαλή (ή γράµµατα) σε οποιαδήποτε ρίψη είναι θ (ή 1-θ). ∆ηλαδή, N p( X 1 , K, X N | θ ) = ∏ p( X l | θ ) l =1 p( X l = κεφαλή | θ ) = θ p( X l = γράµµατα | θ ) = 1 − θ Ακολουθώντας την ορολογία της Στατιστικής, λέµε ότι τα ενδεχόµενα είναι ανεξάρτητα και πανοµοιότυπα κατανεµηµένα ή ότι η D είναι ένα τυχαίο δείγµα της φυσικής κατανοµής πιθανότητας {θ, 1-θ}, γνωστής ως ∆ιωνυµική κατανοµή. Μερικές φορές η Χl ονοµάζεται γεγονός. Σηµειώστε ότι η δεσµευµένη αµοιβαία ανεξαρτησία των γεγονότων µπορεί να αναπαρασταθεί µέσω ενός δικτύου πεποίθησης, όπως φαίνεται στην εικόνα 10.3. Εικόνα 10.3 Στην πραγµατικότητα δε µπορούµε να προσδιορίσουµε την τιµή της Θ και καθώς παρατηρούµε ρίψεις της πινέζας, µαθαίνουµε ή ανανεώνουµε την κατανοµή πιθανότητας για την Θ. Για παράδειγµα, υποθέστε ότι ρίχνουµε την πινέζα µια φορά και φέρνουµε κεφαλή. Χρησιµοποιώντας το θεώρηµα του Bayes, η κατανοµή της a posteriori πιθανότητας για τη Θ θα είναι: p (θ | X 1 = κεφαλή) = c ⋅ p ( X 1 = κεφαλή | θ ) ⋅ p(θ ) = c ⋅θ ⋅ p (θ ) όπου c µια σταθερά κανονικοποίησης. p(θ) p(κεφαλή | θ) p(θ | κεφαλή) Εικόνα 10.4 157 Με άλλα λόγια, η a posteriori κατανοµή για τη Θ παράγεται από τον πολλαπλασιασµό της αρχικής κατανοµής µε τη συνάρτηση f(θ)=θ και κάνοντας νέα κανονικοποίηση. Αυτή η διαδικασία φαίνεται γραφικά στην εικόνα 10.4. Όπως είναι αναµενόµενο, η a posteriori κατανοµή έχει µετατοπιστεί προς τα δεξιά και είναι ελαφρώς πιο στενή. Με όµοιο τρόπο, αν παρατηρήσουµε µια φορά «γράµµατα», p (θ | X 1 = γράµµατα ) = c ⋅ (1 − θ ) ⋅ p (θ ) όπου c µια (πιθανώς διαφορετική) σταθερά κανονικοποίησης. Γενικότερα, αν παρατηρήσουµε κ φορές «κεφαλή» και γ φορές «γράµµατα», έχουµε p (θ | κ κεφαλές, γ γράµµατα) = c ⋅θ κ (1 − θ )γ ⋅ p (θ ) Άρα, αν είναι γνωστή µια a priori κατανοµή για τη Θ, µπορούµε να καθορίσουµε την a posteriori κατανοµή µε δεδοµένο οποιοδήποτε τυχαίο δείγµα. Ας σηµειωθεί ότι η σειρά µε την οποία παρατηρούνται τα αποτελέσµατα δεν επηρεάζει την a posteriori κατανοµή· το µόνο που έχει σηµασία είναι ο αριθµός των «κεφαλών» και των «γραµµάτων» στο δείγµα. Λέµε τότε ότι τα κ και γ αποτελούν ικανή στατιστική συνάρτηση για το τυχαίο δείγµα. Με δεδοµένη την κατανοµή πιθανότητας της Θ και κάνοντας χρήση του κανόνα ανάπτυξης µπορεί κανείς να καθορίσει την πιθανότητα ότι το αποτέλεσµα της επόµενης ρίψης της πινέζας θα είναι «κεφαλή»: p ( X l = κεφαλή | x1 ,K xl −1 ) = ∫ p (X l = κεφαλή | θ ) p (θ | x1 ,K xl −1 )dθ = = ∫ θ p (θ | x1 ,K xl −1 )dθ ≡ ≡ Ε(θ | x1 ,K xl −1 ) όπου µε Ε(θ | x1 ,K xl −1 ) συµβολίζουµε την αναµενόµενη ή µέση τιµή της θ ως προς την κατανοµή πιθανότητας της Θ µε δεδοµένα τα x1 ,K xl −1 . Με άλλα λόγια η πιθανότητα για «κεφαλή» σε οποιαδήποτε ρίψη είναι απλώς η αναµενόµενη τη στιγµή εκείνη τιµή της θ. Στο παραπάνω απλό παράδειγµα η µεταβλητή είχε µόνο δύο ενδεχόµενα (κεφαλήγράµµατα). Ας θεωρήσουµε τώρα µια διακριτή µεταβλητή Χ µε r ≥ 2 ενδεχόµενα, τα οποία συµβολίζουµε µε x1 , K, x r . Για παράδειγµα, θα µπορούσε να αναπαριστά την έκβαση ενός ζαριού που έχει αλλοιωθεί καθώς έχουµε τοποθετήσει σ’ αυτό κάποιο βαρίδι (r=6). Κατ’ αναλογία µε το παράδειγµα της πινέζας, έχουµε µια φυσική κατανοµή πιθανότητας για τα πιθανά ενδεχόµενα, που συµβολίζονται µε το διάνυσµα θ = {θ 1 ,K,θ r }, και το αντίστοιχο διάνυσµα των µεταβλητών Θ = {Θ1 ,K, Θ r }. Οι µόνοι περιορισµοί που θέτουµε στις φυσικές πιθανότητες είναι θ k > 0, k = 1,K, ri , και r ∑θ k =1 k = 1 . Η κατανοµή θ είναι γνωστή ως Πολυωνυµική κατανοµή. Όπως και στο παράδειγµα της πινέζας, αν ξέρουµε τις φυσικές πιθανότητες θ, τότε τα γεγονότα είναι ανεξάρτητα και πανοµοιότυπα κατανεµηµένα ώστε p( X l = x k | θ ) = θ κ Εποµένως, για οποιοδήποτε τυχαίο δείγµα D = {x1 ,K x N } , 158 r p( D | θ ) = ∏θ kN k k =1 όπου Νk είναι η συχνότητα εµφάνισης Χ=xk στο δείγµα D. Κατά συνέπεια, έχουµε: r p (θ | D) = c ⋅ ∏θ kN k p(θ ) (1) k =1 µε c µια σταθερά κανονικοποίησης. Οι συχνότητες εµφάνισης N1 ,K, N r είναι ικανή στατιστική συνάρτηση για το τυχαίο δείγµα. Περαιτέρω, έχουµε p( X l = xlk | x1 ,K xl −1 ) = ∫ θ k p(θ | x1 ,K xl −1 )dθ ≡ Ε(θ k | x1 ,K xl −1 ) (2) Είµαστε ελεύθεροι να επιβάλουµε στη Θ να ακολουθεί οποιαδήποτε κατανοµή. Στην πράξη, ωστόσο, είναι συνήθης η χρήση της κατανοµής Dirichlet επειδή κατέχει µια σειρά από βολικές ιδιότητες. Οι µεταβλητές Θ ακολουθούν κατανοµή Dirichlet µε εκθέτες a1 ,K, ar όταν η συνάρτηση πυκνότητας πιθανότητας της Θ δίνεται από την p(θ | a1 , K, a r ) = Γ(a ) r r ∏ Γ(a k ) ∏θ a k −1 k , ak > 0 k =1 (3) k =1 r όπου a = ∑ a k , και η Γάµµα συνάρτηση ικανοποιεί τις Γ( x + 1) = xΓ( x) και Γ(1) = 1 . k =1 Οι εκθέτες αk πρέπει να είναι µεγαλύτεροι από µηδέν ώστε να εξασφαλίζεται η κανονικοποίηση της κατανοµής. Όταν r=2, η κατανοµή Dirichlet λέγεται επίσης και Βήτα κατανοµή. Η κατανοµή πιθανότητας στην αριστερή πλευρά της εικόνας 10.4 είναι µια Βήτα κατανοµή µε εκθέτες ακεφαλή=3 και αγράµµατα=2. Αντίστοιχα η κατανοµή στα δεξιά της εικόνας 10.4 έχει εκθέτες ακεφαλή=4 και αγράµµατα=2. Είναι σαφές ότι αν η a priori κατανοµή της Θ είναι Dirichlet, τότε και η a posteriori, υπό τη δέσµευση του τυχαίου δείγµατος D = {x1 ,K x N } , θα είναι κατανοµή Dirichlet: p(θ | a1 ,K, ar , D) = Γ( a + N ) r ∏ Γ(a k + Nk ) r ∏θ k =1 ak + N k −1 k (4) k =1 Το σύνολο των κατανοµών Dirichlet αποτελεί µια συζυγή οικογένεια κατανοµών για δειγµατοληψία από µια Πολυωνυµική κατανοµή. Όταν η Θ ακολουθεί την κατανοµή Dirichlet που φαίνεται σε προηγούµενη εξίσωση, η αναµενόµενη τιµή της θk ως προς αυτή την κατανοµή –που είναι ίση µε την πιθανότητα του Χ=xk στην επόµενη παρατήρηση– έχει την ακόλουθη απλή µορφή: E (θ k ) = p ( X = x k ) = ak a (5) Όπως θα δούµε, αυτές οι ιδιότητες καθιστούν την κατανοµή Dirichlet πολύ χρήσιµη a priori κατανοµή για τη διαδικασία της µάθησης. Υπάρχουν διάφορες µέθοδοι εκτίµησης µιας Βήτα κατανοµής. Μια από αυτές είναι η µέθοδος του ισοδύναµου µεγέθους δείγµατος, που βασίζεται στην εξίσωση 5. Η εξίσωση αυτή δείχνει ότι η εκτίµηση της κατανοµής Dirichlet µπορεί να γίνει µέσω 159 της εκτίµησης της κατανοµής πιθανότητας p(x) για την επόµενη παρατήρηση και της εκτίµησης του α. Η εξίσωση 3 µπορεί να ξαναγραφεί ως r p(θ | a1 ,K, ar ) = c ⋅ ∏θ ka⋅ p ( x k ) −1 (6) k =1 µε c µια σταθερά κανονικοποίησης. Η εκτίµηση της p(x) είναι άµεση. Επί πλέον, τα επόµενα δύο σηµεία δείχνουν µια απλή µέθοδο εκτίµησης του α. Η διασπορά µιας µεταβλητής Θ αντανακλά το βαθµό της εξάπλωσης στις πιθανές για τη µεταβλητή τιµές. Η διασπορά για ην κατανοµή Dirichlet δίνεται από την Var (θ k ) = p( x k )[1 − p( x k )] a +1 (7) Μερικές φορές λέµε ότι αυτή η διασπορά αποτελεί µέτρο της εµπιστοσύνης του χρήστη στην Θ. Ας υποθέσουµε ότι αρχικά δεν έχουµε καµία πληροφορία γύρω από κάποιο πεδίο ενδιαφέροντος, δηλαδή η κατανοµή p(θ) δίνεται από την εξίσωση 3 µε κάθε εκθέτη αk=0. Ας υποθέσουµε τότε ότι παρατηρήσαµε α γεγονότα µε ικανές στατιστικές συναρτήσεις a1 ,K, ar . Τότε, λόγω της εξίσωσης 4 η a priori πιθανότητα θα είχε την κατανοµή Dirichlet που δίνεται από την εξίσωση 3. Εποµένως, µπορούµε να εκτιµήσουµε το α ως ένα ισοδύναµο µέγεθος δείγµατος: τον αριθµό των παρατηρήσεων που θα έπρεπε να έχουµε κάνει ξεκινώντας από πλήρη άγνοια ώστε να αποκτήσουµε την ίδια εµπιστοσύνη στις τιµές της Θ µε την εµπιστοσύνη που πραγµατικά έχουµε. Για παράδειγµα, θα λαµβάναµε την κατανοµή πιθανότητας της Θ που φαίνεται στην εικόνα 2 εάν εκτιµούσαµε την πιθανότητα p(κεφαλή) να είναι ίση µε 3/5 και το ισοδύναµο µέγεθος δείγµατος να είναι ίσο µε 5. Μέχρι τώρα έχουµε θεωρήσει δείγµατα που προέρχονται από πολυωνυµικές κατανοµές. Γενικά, τα δείγµατα µπορεί να εξάγονται από οποιαδήποτε φυσική κατανοµή πιθανότητας. Είναι συχνά βολικό να περιγράφεται αυτή η κατανοµή ως συνάρτηση του x και ενός πεπερασµένου συνόλου παραµέτρων θ: p ( x | θ ) = f ( x, θ ) Στο πολυωνυµικό παράδειγµα, η Χ είναι διακριτή και η φυσική της κατανοµή πιθανότητας έχει µια παράµετρο που αντιστοιχεί σε κάθε φυσική πιθανότητα στην κατανοµή (και κάποιες φορές αυτές οι φυσικές πιθανότητες θα αναφέρονται ως παράµετροι). Ο µόνος περιορισµός σ’ αυτές τις παραµέτρους είναι ότι το άθροισµά τους είναι ίσο µε τη µονάδα. Εναλλακτικά, η Χ µπορεί να έχει διακριτές αριθµητικές τιµές και να είναι λογαριθµικής-γραµµικής µορφής: log p ( x | θ ) = a + β x όπου θ={α, β}. Μια άλλη περίπτωση είναι η Χ να είναι συνεχής και η φυσική πιθανότητα να ακολουθεί κανονική (Gaussian) κατανοµή µε απροσδιόριστη µέση τιµή µ και διασπορά υ : − 1 p( x | θ ) = e 2πυ όπου θ={µ, υ}. 160 ( x− µ )2 2υ Άσχετα από τη µορφή της συνάρτησης, οι παράµετροι θ µπορεί να είναι απροσδιόριστοι. Για να κωδικοποιήσουµε αυτή την απροσδιοριστία, συσχετίζουµε τυχαίες µεταβλητές µε αυτές τις παραµέτρους και ορίζουµε µια κατανοµή πιθανότητας p(θ). Με δεδοµένο ένα τυχαίο δείγµα παρατηρήσεων D από τη φυσική κατανοµή πιθανότητας, η πεποίθησή µας γι’ αυτές τις παραµέτρους ανανεώνεται µε τη χρήση του κανόνα του Bayes: p(θ | D) = p( D | θ ) p(θ ) p( D) (8) Στη στατιστική βιβλιογραφία, οι ποσότητες p(θ|D) και p(θ) ονοµάζονται a posteriori και a priori πιθανότητες της θ αντίστοιχα, όπως έχουµε προαναφέρει. Επίσης, η ποσότητα p(D|θ) για µια συγκεκριµένη τιµή της θ ονοµάζεται πιθανοφάνεια. Η p(D|θ) θεωρούµενη ως συνάρτηση του θ ονοµάζεται συνάρτηση πιθανοφάνειας. Τέλος, η ποσότητα p(D) ονοµάζεται περιθωριακή πιθανοφάνεια ή ένδειξη. Μια κλάση συναρτήσεων πιθανοφάνειας που χρησιµοποιείται συχνά στη στατιστική είναι η εκθετική οικογένεια. Σ’ αυτήν ανήκουν οι κανονική, Γάµµα, Poisson και t κατανοµές. Μια χρήσιµη ιδιότητα αυτής της οικογένειας είναι ότι κάθε µέλος της κατέχει ικανές στατιστικές συναρτήσεις που είναι συγκεκριµένων διαστάσεων για οποιοδήποτε τυχαίο δείγµα, οσοδήποτε µεγάλο. Για περισσότερα στοιχεία σχετικά µε την εκθετική οικογένεια συναρτήσεων ο αναγνώστης παραπέµπεται στα βιβλία των DeGroot και Bernardo - Smith. Όπως θα δούµε, η περιθωριακή πιθανοφάνεια p(D αποτελεί σηµαντική ποσότητα στη µάθηση της δοµής ενός δικτύου πεποίθησης. Παρακάτω παρουσιάζεται µια απλή µέθοδος για τον υπολογισµό της p(D) όταν το είναι ένα τυχαίο δείγµα D = {x1 ,K x N } από µια πολυωνυµική κατανοµή και η a priori κατανοµή για τη Θ είναι η κατανοµή Dirichlet που δίνεται από την εξίσωση 3. Πρώτον, τα γεγονότα αναδιατάσσονται ώστε όλα τα γεγονότα µε Χ=x1 εµφανίζονται πρώτα, τα γεγονότα µε Χ=x2 να εµφανίζονται δεύτερα κλπ. Κατόπιν, εφαρµόζεται ο κανόνας της αλυσίδας N p( D) = ∏ p( xl | x1 ,K, xl −1 ) l =1 µαζί µε τις εξισώσεις 4 και 5, που τελικά µας δίνει την εξίσωση 9: a a + 1 a + N1 − 1 a 2 a2 + 1 a2 + N 2 − 1 p( D) = 1 ⋅ 1 L 1 ⋅ L ⋅ L a + N 1 − 1 a + N 1 a + N1 + 1 a + N 1 + N 2 − 1 a a +1 ar ar + 1 ar + N r − 1 = L L ⋅ r −1 r −1 N + a −1 a + N a +1+ N ∑ ∑ k k k =1 k =1 r Γ( ak + N k ) Γ(a ) ⋅∏ = Γ(a + N ) k =1 Γ(ak ) 161 10.3 Μάθηση πιθανοτήτων: Γνωστή δοµή Το πρόβληµα που θα µας απασχολήσει εδώ είναι ο υπολογισµός των πιθανοτήτων για ένα δεδοµένο δίκτυο πεποίθησης. Υποθέστε ότι, ίσως από την εµπειρία ειδικών του συγκεκριµένου πεδίου, είναι γνωστό µε σιγουριά ότι η φυσική συνδυαστική κατανοµή πιθανότητας της µεταβλητής Χ µπορεί να κωδικοποιηθεί σε κάποια ελάχιστη δοµή δικτύου S. Γράφουµε n p( x | θ s , S h ) = ∏ p ( xi | pa i , θi , S h ) (10) i =1 όπου pai είναι η κατάσταση των µεταβλητών Pai (γονέων της µεταβλητής Χi) τέτοια ώστε Χj = xj για όλες τις Χj ∈ Pai , θi είναι το διάνυσµα των παραµέτρων για την κατανοµή p( xi | pa i , θi , S h ) , και θs είναι το διάνυσµα των παραµέτρων (θ1 , K, θ n ) . Σ’ αυτή την εξίσωση, µε Sh συµβολίζεται η υπόθεση ότι η φυσική συνδυαστική κατανοµή πιθανότητας µπορεί να παραγοντοποιηθεί σύµφωνα µε την S αλλά όχι σύµφωνα µε κάποια άλλη δοµή που παράγεται αν από την S αποκόψουµε ένα ή περισσότερα βέλη. Αυτή η συνθήκη ελαχιστοποίησης αποτρέπει την επικάλυψη των υποθέσεων. Επιπροσθέτως υποθέτουµε ότι µας δίνεται ένα τυχαίο δείγµα D = {x1 ,K x N } από την φυσική συνδυαστική κατανοµή πιθανότητας της µεταβλητής Χ. Αναφερόµαστε σε ένα στοιχείο xl του D ως ένα γεγονός. Όπως και στην προηγούµενη παράγραφο, υποτίθεται ότι οι παράµετροι θs είναι απροσδιόριστες. Η κωδικοποίηση αυτής της απροσδιοριστίας γίνεται εφικτή µέσω της συσχέτισης των παραµέτρων θs µε µια τυχαία διανυσµατική µεταβλητή Θs και της εκτίµησης της a priori κατανοµής p(θ s | S h ) . Υποτίθεται ότι αυτή η a priori κατανοµή είναι µια συνάρτηση πυκνότητας πιθανότητας. Με Θi συµβολίζεται η τυχαία µεταβλητή που συσχετίζεται µε τις παραµέτρους θi. Το πρόβληµα της µάθησης των πιθανοτήτων σε ένα δίκτυο πεποίθησης µπορεί τώρα να διατυπωθεί απλά: Με δεδοµένο ένα τυχαίο δείγµα D πρέπει να υπολογιστεί η a posteriori κατανοµή p(θ s | D, S h ) . Η κατανοµή p( xi | pa i , θi , S h ) , θεωρούµενη ως συνάρτηση των θi είναι µια τοπική συνάρτηση κατανοµής. Όταν η Χi είναι διακριτή (συνεχής) τυχαία µεταβλητή, µια τοπική συνάρτηση κατανοµής αποτελεί ειδική περίπτωση ενός µοντέλου κατηγοριοποίησης (παλινδρόµησης). Τα µοντέλα κατηγοριοποίησης (παλινδρόµησης) είναι πιο γενικά, επειδή µερικά από αυτά παράγουν µη-πιθανοκρατικά εξαγόµενα. Παραδείγµατα µοντέλων κατηγοριοποίησης (παλινδρόµησης) που παράγουν πιθανοκρατικά εξαγόµενα περιλαµβάνουν πιθανοκρατικά νευρωνικά δίκτυα, πιθανοκρατικά δέντρα αποφάσεων και λεξικογραφικές µεθόδους. Μια κλάση τοπικών συναρτήσεων κατανοµής που χρησιµοποιείται συχνά όταν κάθε X i ∈ X είναι συνεχής είναι το µοντέλο γραµµικής παλινδρόµησης µε Gaussian θόρυβο: p ( xi | pa i , θi , S h ) = mi + 162 ∑b x j ∈pa i ji x j + N (0,υ i ) (11) όπου Ν(xi | µ, υ) είναι µια κανονική κατανοµή µε µέση τιµή µ και διασπορά υ>0, και τα mi , υi και bji συνιστούν τις παραµέτρους θi. Αυτή η τοπική συνάρτηση κατανοµής ανήκει στην εκθετική οικογένεια και µπορεί να χρησιµοποιηθεί σχετικά εύκολα για τη µάθηση. Πολύ στενή σχέση µε αυτή την τοπική συνάρτηση κατανοµής έχει το γενικευµένο µοντέλο γραµµική παλινδρόµησης: p( xi = 1 | pa i , θi , S h ) = g (mi + ∑b x j ∈pa i ji xj) (12) 1 είναι η σιγµοειδής ή λογιστική συνάρτηση. Σ’ αυτή την κλάση 1+ e−y των µοντέλων, η Χi πρέπει να είναι µια δυαδική (0, 1) µεταβλητή και οι Pai µπορούν να περιέχουν διακριτές ή/και συνεχείς µεταβλητές. Αυτή η τοπική συνάρτηση κατανοµής δεν ανήκει στην εκθετική οικογένεια και µπορεί δυσκολότερα να χρησιµοποιηθεί για τη µάθηση. όπου g ( y ) = Μετά από αυτά, η προσοχή µας εστιάζεται στο απλό παράδειγµα όπου κάθε r 1 µεταβλητή X i ∈ X είναι διακριτή, έχει ri πιθανές τιµές xi , K, xi i και κάθε τοπική συνάρτηση κατανοµής είναι συλλογή πολυωνυµικών κατανοµών, µια κατανοµή για κάθε πιθανή κατάσταση των Pai . Με άλλα λόγια, υποθέτουµε ότι p ( xik | pa ij , θi , S h ) = θ ijk όπου µε pa1i , K, pa iqi i θi = (θ i j k ) k =1 r και ri ∑θ k =1 i jk (13) ( qi = ∏r ) i συµβολίζουµε τις καταστάσεις των Pai και X i ∈pa i qi j =1 οι παράµετροι. Επίσης υποθέτουµε ότι θijk>0 για όλα τα i, j και k = 1 για όλα τα i και j. Για ευκολία, ορίζουµε το διάνυσµα των παραµέτρων θij = (θ i j 1 ,K,θ i j ri ) για όλα τα i και j. Αυτή η τοπική συνάρτηση κατανοµής είναι γνωστή ως απεριόριστη πολυωνυµική κατανοµή, ώστε να διακρίνεται από τις πολυωνυµικές κατανοµές που είναι λίγων διαστάσεων συναρτήσεις των Pai, όπως για παράδειγµα το γενικευµένο µοντέλο γραµµικής παλινδρόµησης. Με δεδοµένη αυτή την κλάση τοπικών συναρτήσεων κατανοµής, η a posteriori h κατανοµή p (θ s | D, S ) µπορεί να υπολογιστεί αποτελεσµατικά και σε κλειστή µορφή κάνοντας τις ακόλουθες δύο υποθέσεις. Πρώτον, ότι το τυχαίο δείγµα D είναι πλήρες, δηλαδή δεν υπάρχουν ελλιπή στοιχεία στο D. ∆εύτερον, ότι τα διανύσµατα παραµέτρων θi j είναι αµοιβαίως ανεξάρτητα, δηλαδή, n qi i =1 j =1 p(θ s | S h ) = ∏∏ p(θi j | S h ) Η υπόθεση αυτή, που εισήχθη από τους Spiegelhalter, και Lauritzen, είναι γνωστή ως παραµετρική ανεξαρτησία. Με δεδοµένο ότι η φυσική συνδυαστική κατανοµή 163 παραγοντοποιείται σύµφωνα µε κάποια δικτυακή δοµή S, η υπόθεση της παραµετρικής ανεξαρτησίας µπορεί η ίδια να αναπαρασταθεί από µια µεγαλύτερη δικτυακή δοµή. Για παράδειγµα, η δοµή της εικόνας 6 αναπαριστά την υπόθεση της παραµετρικής ανεξαρτησίας για το πεδίο Χ={Χ, Υ} (οι Χ, Υ δυαδικές) και την υπόθεση ότι η δοµή Χ→Υ κωδικοποιεί τη φυσική συνδυαστική κατανοµή της Χ. Υπό τις προϋποθέσεις των πλήρων δεδοµένων και της παραµετρικής ανεξαρτησίας, οι παράµετροι παραµένουν ανεξάρτητες µε δεδοµένο ένα τυχαίο δείγµα: n qi i =1 j =1 p(θ s | D, S h ) = ∏∏ p(θi j | D, S h ) (14) Άρα, κάθε διάνυσµα παραµέτρων θi j µπορεί να ενηµερωθεί ανεξάρτητα, όπως ακριβώς και στην περίπτωση της µιας µεταβλητής. Υποθέτοντας ότι κάθε διάνυσµα θi j ακολουθεί κατανοµή Dirichlet που δίνεται από την ri p (θi j | S h ) = c ⋅ ∏θ i jikj k a −1 (15) k =1 όπου c µια σταθερά κανονικοποίησης, λαµβάνουµε ri p (θi j | D, S ) = c ⋅ ∏θ i jikj k h a + N i j k −1 (16) k =1 όπου c κάποια άλλη σταθερά κανονικοποίησης και Νijk είναι ο αριθµός των γεγονότων στο D στα οποία X i = xik και Pa i = pa ij . Από τη στιγµή που αποκτήσαµε την a posteriori κατανοµή p(θ s | D, S h ) , είναι δυνατή η πραγµατοποίηση διαφόρων προβλέψεων, µέσω ολοκληρώσεων (averaging) αυτής της κατανοµής. Για παράδειγµα, µπορούµε να υπολογίσουµε την p (x N +1 | D, S h ) , όπου xN+1 είναι το επόµενο γεγονός που θα παρατηρηθεί µετά το D. Υποθέστε ότι στο γεγονός xN+1, X i = xik και pa i = pa ij , όπου τα k και j εξαρτώνται από το i. Άρα, ri p (x N +1 | D, S h ) = E ∏θ i j k | D, S h i =1 Για τον υπολογισµό αυτής της αναµενόµενης τιµής, πρώτα χρησιµοποιείται το γεγονός ότι οι παράµετροι παραµένουν ανεξάρτητες µε δεδοµένο το D: ri ri i =1 i =1 p (x N +1 | D, S h ) = ∫ ∏ θ i j k p (θ s | D, S h ) dθ s = ∏ ∫ θ i j k p (θi j | D, S h ) dθi j . Κατόπιν, µε χρήση της εξίσωσης 5, που δίνει την αναµενόµενη τιµή παραµέτρων που ακολουθούν κατανοµή Dirichlet, καταλήγουµε: ri ai j k + N i j k i =1 ai j + N i j p(x N +1 | D, S ) = ∏ h (17) ri ri k =1 k =1 όπου ai j = ∑ ai j k και N i j = ∑ N i j k . 164 10.4 Μέθοδοι για ελλιπή δεδοµένα Σ’ αυτή την παράγραφο συζητούνται µέθοδοι για τη µάθηση παραµέτρων όταν το τυχαίο δείγµα είναι ελλιπές. Όλες οι µέθοδοι που παρουσιάζονται υποθέτουν ότι το κατά πόσον µια παρατήρηση απουσιάζει ή όχι είναι ανεξάρτητο από τις πραγµατικές καταστάσεις των µεταβλητών. Για παράδειγµα, αυτές οι µέθοδοι δεν είναι κατάλληλες για µια ιατρική µελέτη στην οποία τα δεδοµένα σχετικά µε την απόκριση σε ένα φάρµακο λείπουν σ’ αυτούς τους ασθενείς που η βαρύτητα της κατάστασής τους δεν τους επιτρέπει να πάρουν το φάρµακο. Μέθοδοι που αντιµετωπίζουν εξαρτήσεις στους αποκλεισµούς δεδοµένων έχουν µελετηθεί από τους Rubin, Robins και Pearl. Συνεχίζοντας το παράδειγµα µε τη χρήση απεριόριστων πολυωνυµικών κατανοµών, υποθέστε ότι παρατηρείται ένα µόνον ελλιπές γεγονός. Έστω ότι µε Y ⊂ X και Z ⊂ X συµβολίζονται οι παρατηρηθείσες και οι µη-παρατηρηθείσες µεταβλητές σ’ αυτό το γεγονός, αντίστοιχα. Υπό την προϋπόθεση της παραµετρικής ανεξαρτησίας, η a posteriori κατανοµή των θi j για τη δοµή δικτύου S µπορεί να υπολογιστεί ως εξής: p (θi j | y , S h ) = ∑ p(z | y , S h ) p (θi j | y , z, S h ) = z [ ]{ } ri { } = 1 − p (pa | y ) ⋅ p (θi j | S ) + ∑ p ( x , pa | y, S ) p(θi j | x , pa , S ) j i h k =1 k i j i h k i j i h (18) Κάθε όρος µέσα σε άγκιστρα στην παραπάνω εξίσωση είναι µια κατανοµή Dirichlet. Άρα, εκτός αν τόσο η Xi όσο και οι Pai έχουν παρατηρηθεί στο γεγονός y, η a posteriori κατανοµή των θi j θα είναι γραµµικός συνδυασµός κατανοµών Dirichlet. Μια τέτοια κατανοµή συχνά ονοµάζεται µίγµα Dirichlet, ενώ οι πιθανότητες [1 − p(pa ij | C )] και p( xik , pa ij | C ) , k= 1, …, ri ονοµάζονται συντελεστές µίξης. Σ’ αυτό το παράδειγµα, µε δεδοµένο ένα τυχαίο δείγµα µεγέθους Ν, ο αριθµός των στοιχείων στο µίγµα Dirichlet της a posteriori κατανοµής των θi j θα είναι εκθετικός ως προς Ν. Γενικά, για κάθε ενδιαφέρον σύνολο τοπικών συναρτήσεων κατανοµών και a priori κατανοµών πιθανότητας, ο ακριβής υπολογισµός της a posteriori κατανοµής των θ s θα είναι intractable. Άρα, απαιτείται µια προσέγγιση για ελλιπή δεδοµένα. 10.4.1 Σειριακές µέθοδοι Μια µέθοδος διαχείρισης ελλιπών δεδοµένων, που αναπτύχθηκε από τους Spiegelhalter, και Lauritzen και βελτιώθηκε από τον Cowell, επεξεργάζεται τα δεδοµένα σειριακά. Αυτή η προσέγγιση µπορεί να χρησιµοποιηθεί όταν (1) ισχύει η παραµετρική ανεξαρτησία, (2) οι τοπικές συναρτήσεις κατανοµής είναι απεριόριστες πολυωνυµικές κατανοµές, και (3) κάθε διάνυσµα παραµέτρων θi j έχει Dirichlet a priori κατανοµή. Με αυτή την µέθοδο, ενηµερώνουµε την κατανοµή των θi j µε ένα δείγµα κάθε φορά, προσεγγίζοντας κάθε αποτέλεσµα µέσω ενός µίγµατος κατανοµών Dirichlet µε ένα περιορισµένο αριθµό συνιστωσών. Πιο συγκεκριµένα, µε δεδοµένο ένα ελλιπές 165 τυχαίο δείγµα D = {x1 ,K, x N } , πρώτα προσεγγίζουµε την p (θi j | x1 , S h ) ως µίγµα Dirichlet µε κάποιο µικρό αριθµό συνιστωσών. Υποθέτοντας ότι αυτή η προσέγγιση είναι η σωστή κατανοµή, κατόπιν υπολογίζουµε την p (θi j | x1 , x 2 , S h ) και προσεγγίζουµε ξανά το αποτέλεσµα µέσω ενός µίγµατος κατανοµών Dirichlet µε ένα περιορισµένο αριθµό συνιστωσών. Επαναλαµβάνουµε αυτή τη διαδικασία για όλα τα γεγονότα. 10.4.2 ∆ειγµατοληψία Gibbs Μια πιο γενική µέθοδος για τη διαχείριση ελλιπών δεδοµένων είναι η δειγµατοληψία Gibbs. Με τη χρήση αυτής της µεθόδου µπορεί κανείς να προσεγγίσει την a posteriori κατανοµή των θ s για µια ευρεία κατηγορία τοπικών συναρτήσεων κατανοµής και a priori κατανοµών των παραµέτρων, συµπεριλαµβανοµένων και των περιπτώσεων που η παραµετρική ανεξαρτησία δεν ισχύει. Η δειγµατοληψία Gibbs, όπως περιγράφεται για παράδειγµα από τους Geman, και Geman, αποτελεί ειδική περίπτωση των MCMC (Markov chain Monte Carlo) µεθόδων για προσεγγιστική συµπερασµατολογία. Με δεδοµένες τις µεταβλητές X = {X 1 , K, X N } µε κάποια συνδυαστική κατανοµή p(x), µια δειγµατοληψία Gibbs µπορεί να χρησιµοποιηθεί για την προσέγγιση της αναµενόµενης τιµής µιας συνάρτησης f(x) ως εξής: Βήµα 1: επιλέγεται µε κάποιο τρόπο (π.χ. τυχαία) µια αρχική κατάσταση για κάθε µια από τις µεταβλητές του διανύσµατος Χ. Βήµα 2: επιλέγεται κάποια µεταβλητή Xi, της αφαιρείται η τρέχουσα κατάσταση και υπολογίζεται η κατανοµή πιθανότητας που ακολουθεί αυτή η µεταβλητή µε δεδοµένες τις καταστάσεις των υπολοίπων n - 1 µεταβλητών. Βήµα 3: γίνεται δειγµατοληψία για µια κατάσταση της Xi από αυτή την κατανοµή πιθανότητας και υπολογίζεται η f(x). Βήµα 4: επαναλαµβάνονται τα βήµατα 2 και 3, και καταγράφεται ο µέσος όρος των τιµών της f(x). Στο όριο, καθώς το δείγµα προσεγγίζει το άπειρο, αυτός ο µέσος όρος είναι ίσος µε Ε[f(x)], εάν δύο συνθήκες ικανοποιούνται: Η δειγµατοληψία Gibbs πρέπει να είναι µη-αναγώγιµη, δηλαδή η κατανοµή πιθανότητας πρέπει να είναι τέτοια ώστε τελικά να µπορούν να ληφθούν δείγµατα για οποιαδήποτε κατάσταση του διανύσµατος Χ µε δεδοµένη οποιαδήποτε δυνατή αρχική κατάσταση του Χ. Για παράδειγµα, εάν η p(x) δεν περιλαµβάνει πιθανότητες ίσες µε µηδέν, τότε η δειγµατοληψία Gibbs θα να είναι µη-αναγώγιµη. Κάθε Xi πρέπει να επιλέγεται απείρως συχνά. Στην πράξη, χρησιµοποιείται ένας αλγόριθµος που εξετάζει τις µεταβλητές εκ περιτροπής, µε ένα ντετερµινιστικό τρόπο. Εισαγωγικά στοιχεία για τη δειγµατοληψία Gibbs και µεθόδους για απόδοση αρχικών τιµών και ζητήµατα σύγκλισης δίνονται στους York και Neal. Για να διευκρινιστεί η δειγµατοληψία Gibbs, θεωρήστε το παράδειγµα των διακριτών µεταβλητών µε a priori κατανοµή Dirichlet. 166 Για να προσεγγιστεί η p(θ s | D, S h ) , πρώτον αποδίδονται µε κάποιο τρόπο αρχικές συνθήκες στις τιµές των θ s και στις καταστάσεις των µη παρατηρηθεισών µεταβλητών του D. Αποτέλεσµα αυτού είναι ένα τυχαίο πλήρες δείγµα D′ . ∆εύτερον, σε κάθε µεταβλητή X i l (µεταβλητή Xi στην κατάσταση xl) που δεν έχει παρατηρηθεί στο αρχικό δείγµα D, γίνεται νέα ανάθεση κατάστασης σύµφωνα µε την κατανοµή πιθανότητας p ( xi l | D′ \ xi l , θ s , S h ) . Αυτή η διαδικασία παράγει ένα άλλο πλήρες τυχαίο δείγµα D′′ . Τρίτον, υπολογίζεται η a posteriori κατανοµή p (θ s | D ′′, S h ) , όπως περιγράφεται στις εξισώσεις 14 και 16, και επανατίθενται (reassign) τιµές στις θ s σύµφωνα µε αυτή την κατανοµή. Τελικά, επαναλαµβάνονται τα δύο τελευταία βήµατα και χρησιµοποιείται ως προσέγγιση ο µέσος όρος των p (θ s | D ′′, S h ) . 10.4.3 Η Gaussian προσέγγιση Οι µέθοδοι Monte Carlo δίνουν ακριβή αποτελέσµατα αλλά είναι συχνά µη διαχειρίσιµες, όταν για παράδειγµα το µέγεθος του δείγµατος είναι µεγάλο. Μια άλλη προσέγγιση, πιο αποτελεσµατική από τις µεθόδους Monte Carlo και συχνά ακριβής για σχετικά µεγάλα δείγµατα, είναι η κανονική (Gaussian) προσέγγιση. Η βάση αυτής της µεθόδου έγκειται στο ότι για µεγάλες ποσότητες δεδοµένων, η p(θ s | D, S h ) ∝ p( D | θ s , S h ) ⋅ p(θ s | S h ) µπορεί συχνά να προσεγγιστεί ως µια κανονική κατανοµή πολλών µεταβλητών. Συγκεκριµένα, έστω g (θ s ) ≡ log[ p( D | θ s , S h ) ⋅ p(θ s | S h )] (19) ~ και θ s η τιµή της θ s που µεγιστοποιεί την g(θ s ) . Αυτή η τιµή επίσης µεγιστοποιεί την p(θ s | D, S h ) και είναι γνωστή ως µέγιστη a posteriori (MAP) τιµή της θ s . ~ Αναπτύσσοντας την g(θ s ) γύρω από την τιµή θ s , παίρνουµε ~ 1 ~ ~ g (θ s ) ≈ g (θ s ) − (θ s − θ s ) t A(θ s − θ s ) (20) 2 ~ ~ όπου (θ s − θ s ) t είναι το ανάστροφο (transpose )του διανύσµατος – στήλη (θ s − θ s ) ~ και Α η αρνητική Hessian του g(θ s ) υπολογισµένη στην τιµή θ s . Υψώνοντας την g(θs ) εις την e και µε χρήση της εξίσωσης 26, παίρνουµε p(θ s | D, S h ) ∝ p( D | θ s , S h ) ⋅ p (θ s | S h ) ≈ ~ ~ ~ ~ ≈ p ( D | θ s , S h ) ⋅ p(θ s | S h ) ⋅ exp{(θ s − θ s ) t A(θ s − θ s )} (21) ~ Για τον υπολογισµό της προσέγγισης Laplace, πρέπει να υπολογιστεί η θ s καθώς ~ επίσης και η αρνητική Hessian του g(θ s ) υπολογισµένη στην τιµή θs . Στην επόµενη ~ παράγραφο συζητούνται µέθοδοι εύρεσης της θ s . Οι Meng και Rubin περιγράφουν µια αριθµητική τεχνική για τον υπολογισµό των δεύτερων παραγώγων. Ο Raftery δείχνει πώς η Hessian µπορεί να προσεγγιστεί µε τη χρήση δοκιµασιών λόγου πιθανοφάνειας, διαθεσίµων σε πολλά προγράµµατα στατιστικής επεξεργασίας. Ο 167 Thiesson δείχνει ότι οι δεύτερες παράγωγοι απεριορίστων πολυωνυµικών κατανοµών µπορούν να υπολογιστούν µε τη χρήση συµπερασµατολογίας δικτύων πεποίθησης. 10.4.4 Οι MAP και ML προσεγγίσεις και ο αλγόριθµος EM Καθώς το µέγεθος του δείγµατος των δεδοµένων αυξάνεται, η κορυφή της κανονικής κατανοµής θα γίνεται οξύτερη, τείνοντας στη συνάρτηση ∆έλτα στη µέγιστη a ~ posteriori (MAP) τιµή θ s . Σ’ αυτό το όριο, δε χρειάζονται υπολογισµοί µέσων όρων ή αναµενόµενων τιµών. Αντίθετα, οι προβλέψεις βασίζονται στην ΜΑΡ τιµή. Μια περαιτέρω προσέγγιση βασίζεται στην παρατήρηση ότι, καθώς το µέγεθος του δείγµατος αυξάνεται, η επίδραση της a priori κατανοµής p(θ s | S h ) µειώνεται. Άρα, η ~ θ s µπορεί να προσεγγιστεί από την τιµή µέγιστης πιθανοφάνειας (ML: maximum likelihood) της θ s : θˆs = arg max θs { p( D | θ s , S h )} Μια κλάση τεχνικών για την εύρεση της ML ή της ΜΑΡ είναι η βελτιστοποίηση βαθµίδας. Για παράδειγµα, µπορεί να χρησιµοποιηθεί η αυξητική βαθµίδα, σύµφωνα µε την οποία οι παράγωγοι της g(θ s ) ή η πιθανοφάνεια p( D | θ s , S h ) οδηγούνται σε ένα τοπικό µέγιστο. Μια άλλη τεχνική για την εύρεση µιας τοπικής ML ή ΜΑΡ αποτελεί ο αλγόριθµος αναµενόµενης τιµής – µεγιστοποίησης (EM: expectation – maximization). Ο αλγόριθµος ΕΜ µπορεί να θεωρηθεί ως µια ντετερµινιστική έκδοση της µεθόδου δειγµατοληψίας Gibbs. Για την εύρεση µιας τοπικής ML ή ΜΑΡ, πρώτα αποδίδονται µε κάποιο τρόπο (π.χ. τυχαία) τιµές στην θ s . Κατόπιν, αντί να χρησιµοποιηθούν τεχνικές Monte Carlo για τη δηµιουργία ενός πλήρους τυχαίου δείγµατος, υπολογίζονται οι αναµενόµενες τιµές των ικανών στατιστικών συναρτήσεων (expected sufficient statistics) των καταχωρήσεων που λείπουν από τα δεδοµένα. Για το παράδειγµα διακριτών µεταβλητών, υπολογίζεται η ποσότητα ri E ( N i j k | θ s , S ) = ∑ p ( xik , pa ij | x l ,θ s , S h ) h (22) l =1 Όταν η Xi και όλες οι µεταβλητές στο Pai παρατηρούνται στο γεγονός xl, ο όρος γι' αυτό το γεγονός απαιτεί έναν τετριµµένο υπολογισµό: είναι είτε µηδέν ή ένα. Σε αντίθετη περίπτωση µπορεί να χρησιµοποιηθεί οποιοσδήποτε αλγόριθµος συµπερασµατολογίας κατά Bayes για την εκτίµηση του όρου. Αυτός ο υπολογισµός ονοµάζεται το expectation βήµα του ΕΜ αλγορίθµου. Στη συνέχεια, αντί να παράγουµε νέες τιµές για τη θ s , χρησιµοποιούµε τις αναµενόµενες τιµές των ικανών στατιστικών συναρτήσεων σαν να ήταν οι πραγµατικές ικανές στατιστικές συναρτήσεις από ένα πλήρες τυχαίο δείγµα D′′ . Για υπολογισµό της MAP, υπολογίζονται οι τιµές της θ s που µεγιστοποιούν την p (θ s | D′′, S h ) : θi j k = 168 E ( N i j k | θ s ) + ai j k − 1 E ( N i j | θ s ) + ai j − ri Για υπολογισµό της ML, υπολογίζονται οι τιµές της θ s που µεγιστοποιούν την p ( D ′′ | θ s , S h ) : θi j k = E ( N i j k | θs ) E( N i j | θs ) Αυτό αποτελεί το βήµα µεγιστοποίησης του ΕΜ αλγορίθµου. Ο Dempster έδειξε ότι, κάτω από συγκεκριµένες συνθήκες συνέχειας, η επανάληψη των δύο αυτών βηµάτων συγκλίνει σε ένα τοπικό µέγιστο. Ο αλγόριθµος ΕΜ προϋποθέτει παραµετρική ανεξαρτησία και τυπικά χρησιµοποιείται όποτε οι αναµενόµενες τιµές των ικανών στατιστικών συναρτήσεων µπορούν να υπολογιστούν αποτελεσµατικά (π.χ. όταν οι τοπικές συναρτήσεις κατανοµής ανήκουν στην εκθετική οικογένεια). 10.5 Μάθηση παραµέτρων και δοµής Στις προηγούµενες δύο παραγράφους θεωρήσαµε ότι γνωρίζουµε τη δοµή του δικτύου µε βεβαιότητα και προσπαθήσαµε να βρούµε τρόπους προσδιορισµού τω παραµέτρων του δικτύου. Στη συνέχεια αποδίδουµε απροσδιοριστία τόσο στις παραµέτρους όσο και στην ίδια τη δοµή του δικτύου πεποίθησης. Στην πλήρη λύση κατά Bayes του προβλήµατος, η απροσδιοριστία σχετικά µε τη δοµή εκφράζεται αποδίδοντας µια a priori κατανοµή πιθανότητας p(Sh) στις υποθέσεις δικτυακής δοµής. Επίσης, όπως και προηγοµένως, αποδίδονται a priori κατανοµές παραµέτρων p(θs|Sh) για κάθε δυνατή υπόθεση Sh. Με δεδοµένο ένα τυχαίο δείγµα D από τη φυσική κατανοµή πιθανότητας για το πεδίο ενδιαφέροντος (domain), υπολογίζεται η a posteriori κατανοµή πιθανότητας p(Sh|D) και οι a posteriori κατανοµές p(θs|D, Sh) και αξιοποιούνται για τον υπολογισµό των αναµενόµενων τιµών των ποσοτήτων που ενδιαφέρουν. Για παράδειγµα, για την πρόβλεψη του επόµενου γεγονότος αφού παρατηρηθεί το D: p( x N +1 | D) = ∑ p( S h | D) ∫ p( x N +1 | θ s , S h ) p(θ s | D, S h )dθ s S (23) Για τον υπολογισµό του αθροίσµατος υποτίθεται ότι υποθέσεις δοµής δικτύου είναι αµοιβαία αποκλειόµενες. Περαιτέρω σχολιασµός αυτού του σηµείου θα γίνει αργότερα. Ο υπολογισµός της p(θs|D, Sh) γίνεται όπως περιγράφηκε στις προηγούµενες δύο παραγράφους. Ο υπολογισµός της p(Sh|D) είναι επίσης άµεσος, τουλάχιστον κατ’ αρχήν. Από το θεώρηµα του Bayes, p( S h | D) = c ⋅ p( S h ) ⋅ p( D | S h ) (24) όπου c µια σταθερά κανονικοποίησης. Άρα, για τον καθορισµό της a posteriori κατανοµής των δικτυακών δοµών απαιτείται ο υπολογισµός της περιθωριακής πιθανοφάνειας των δεδοµένων για κάθε δυνατή δοµή. Σχετικά µε τον υπολογισµό της περιθωριακής πιθανοφάνειας θα αναφέρουµε παρακάτω. Ως εισαγωγή, θεωρήστε το παράδειγµα µε απεριόριστες πολυωνυµικές κατανοµές, παραµετρική ανεξαρτησία, Dirichlet a priori κατανοµές και πλήρη δεδοµένα. Όπως έχει ήδη αναφερθεί, επειδή τα δεδοµένα δεν είναι ελλιπή, κάθε διάνυσµα παραµέτρων θij ενηµερώνεται ανεξάρτητα. Στην πραγµατικότητα υπάρχει ένα ξεχωριστό πολυπλευρικό πρόβληµα πινέζας για κάθε i και j. Κατά συνέπεια, η 169 περιθωριακή πιθανοφάνεια των δεδοµένων είναι απλώς ίση µε το γινόµενο των περιθωριακών πιθανοφανειών για κάθε ζευγάρι i-j , που δίνεται από την εξίσωση 9: n qi Γ ( ai j ) i =1 j =1 Γ ( ai j + N i j ) p( D | S h ) = ∏∏ ri Γ ( ai j k + N i j k ) k =1 Γ ( ai j k ) ⋅∏ (25) Αυτός ο τύπος οφείλεται στους Cooper και Herskovits. ∆υστυχώς, η πλήρης κατά Bayes προσέγγιση που µόλις περιγράφηκε, δεν είναι πρακτική. Μια σηµαντική δυσκολία στους υπολογισµούς προκύπτει από τη µεσοστάθµιση (averaging) επί των µοντέλων, στην εξίσωση 30. Για ένα πρόβληµα που περιγράφεται από n µεταβλητές, ο αριθµός των δυνατών δοµών είναι µεγαλύτερος από en . Κατά συνέπεια, όταν ο χρήστης δε µπορεί να αποκλείσει τα περισσότερα από αυτά τα µοντέλα, η προσέγγιση καθίσταται µη διαχειρίσιµη. Υπάρχουν δύο προσεγγίσεις αντιµετώπισης του προβλήµατος: η επιλογή µοντέλου (model selection) και η επιλεκτική µεσοστάθµιση µοντέλων (selective model averaging). Η πρώτη επιλέγει ένα –το «καλύτερο»– µοντέλο (υπόθεση δοµής δικτύου) ανάµεσα από όλα τα δυνατά µοντέλα και χρησιµοποιεί αυτό για την πρόβλεψη. Η δεύτερη επιλέγει ένα διαχειρίσιµο αριθµό µοντέλων και προσποιείται ότι αυτά καλύπτουν ολόκληρο το χώρο των µοντέλων. Οι προσεγγίσεις αυτές, που σχετίζονται µεταξύ τους, δηµιουργούν µια σειρά από ερωτήµατα: Είναι τα αποτελέσµατα αυτών των προσεγγίσεων ακριβή όταν αναφερόµαστε σε δοµές δικτύων κατά Bayes; Εάν ναι, µε ποιο τρόπο καθορίζεται ένα «καλό» µοντέλο; Και πώς γίνεται η διερεύνηση για ένα καλό µοντέλο; Τα ζητήµατα αυτά αντιµετωπίζονται στις επόµενες παραγράφους. 10.6 Κριτήρια επιλογής µοντέλου Το µεγαλύτερο µέρος της βιβλιογραφίας που σχετίζεται µε τη µάθηση µε δίκτυα κατά Bayes ασχολείται µε την επιλογή µοντέλου. Σ’ αυτές τις προσεγγίσεις, χρησιµοποιείται κάποιο κριτήριο για τη µέτρηση του βαθµού προσαρµογής µιας δοµής δικτύου (κλάσης ισοδυναµίας) στην a priori γνώση και δεδοµένα. Κατόπιν χρησιµοποιείται ένας αλγόριθµος διερεύνησης για την εύρεση µιας κλάσης ισοδυναµίας η οποία να λαµβάνει ένα υψηλό score σύµφωνα µε αυτό το κριτήριο. 10.6.1 Σχετική a posteriori πιθανότητα Το κριτήριο που πιο συχνά χρησιµοποιείται για την επιλογή µοντέλου είναι ο λογάριθµος της σχετικής a posteriori πιθανότητας της υπόθεσης, h h h log p( D, S ) = log p ( S ) + log p ( D | S ) . Ο λογάριθµος χρησιµοποιείται για µεγαλύτερη ευκολία στους υπολογισµούς. Ένα άλλο κριτήριο που επιλέγει το ίδιο µοντέλο είναι ο λογάριθµος του συντελεστή Bayes, log p( S h | D) − log p( S 0h | D) , όπου S 0h είναι κάποια δικτυακή δοµή αναφοράς όπως η κενή δικτυακή δοµή. Το κριτήριο της a posteriori πιθανότητας έχει δύο συνιστώσες: το λογάριθµο της a priori πιθανότητας της δοµής log p( S h ) και το λογάριθµο της περιθωριακής πιθανοφάνειας log p ( D | S h ) . 170 Ο λογάριθµος της περιθωριακής πιθανοφάνειας έχει την ακόλουθη ενδιαφέρουσα ερµηνεία, που περιγράφεται από τον Dawid. Από τον κανόνα της αλυσίδας ισχύει N log p( D, S h ) = ∑ log p(x l | x1 ,K, x l −1 , S h ) (26) l =1 Ο όρος p(x l | x1 ,K, x l −1 , S h ) είναι η πρόβλεψη για το xl που γίνεται από το µοντέλο Sh µετά από µεσοστάθµιση (averaging) επί των παραµέτρων του. Ο λογάριθµος αυτού του όρου µπορεί να θεωρηθεί ως η ωφελιµότητα ή η αµοιβή για αυτή την πρόβλεψη µέσω της συνάρτησης ωφελιµότητας log p (x) . Άρα, ένα µοντέλο µε τη µέγιστη περιθωριακή πιθανοφάνεια (ή τη µέγιστη a posteriori πιθανότητα αν δεχθούµε ίσες a priori πιθανότητες για τη δοµή) είναι ταυτόχρονα και ένα µοντέλο που δίνει την καλύτερη σειριακή πρόβλεψη των δεδοµένων D µέσω του λογαρίθµου της συνάρτησης ωφελιµότητας. 10.7 Υπολογισµός της περιθωριακής πιθανοφάνειας Ο λογάριθµος της περιθωριακής πιθανοφάνειας αποτελεσµατικά και σε κλειστή µορφή εάν: µπορεί να υπολογιστεί • οι τοπικές συναρτήσεις κατανοµής ανήκουν στην εκθετική οικογένεια • ισχύει η αµοιβαία ανεξαρτησία των παραµέτρων θι • υπάρχουν συζυγείς a priori πιθανότητες γι’ αυτές τις παραµέτρους • τα δεδοµένα είναι πλήρη Η εξίσωση 25 αποτελεί ένα παράδειγµα τέτοιου υπολογισµού για απεριόριστες πολυωνυµικές κατανοµές. Οι Buntine, Ηeckerman και Geiger αναφέρονται σε υπολογισµούς για άλλες τοπικές συναρτήσεις κατανοµής. Στη συνέχεια θα αναφερθούν µέθοδοι που δεν απαιτούν την ύπαρξη παραµετρικής ανεξαρτησίας ή/και πλήρων δεδοµένων. Οι πρώτες δύο τεχνικές χρησιµοποιούν την ανάπτυξη αλυσίδας της εξίσωσης 26: N log p( D, S h ) = ∑ log p(x l | Dl , S h ) (27) l =1 όπου µε Dl συµβολίζεται το σύνολο των γεγονότων {x1 ,K, x l −1} . Μια µέθοδος υπολογισµού των όρων της εξίσωσης 27 χρησιµοποιεί την προσέγγιση της σειριακής ενηµέρωσης. Με άλλα λόγια, για τον υπολογισµό της p (x l | Dl , S h ) πρώτα γίνεται προσέγγιση της p (θi j | Dl , S h ) µε ένα περιορισµένο µίγµα Dirichlet συναρτήσεων, για κάθε i και j. Κατόπιν, µε τη χρήση της ανεξαρτησίας των παραµέτρων συντάσσεται η κατανοµή πιθανότητας θ s : n qi p(θ s | Dl , S ) = ∏∏ p (θi j | Dl , S h ) h i =1 j =1 Τελικά υπολογίζεται η: 171 p(x l | Dl , S h ) = ∑ p(x l , y l | Dl , S h ) = ∑ ∫ p(x l , y l | θ s , S h ) p(θ s | Dl , S h ) dθ s όπου yl yl yl είναι µια κατάσταση των µεταβλητών που δεν έχουν παρατηρηθεί στο δείγµα xl. Ο υπολογισµός κάθε ολοκληρώµατος στο άθροισµα είναι άµεσος, αφού η p (θ s | Dl , S h ) αποτελείται από περιορισµένο µείγµα κατανοµών Dirichlet. Αυτή η σειριακή µέθοδος είναι εφαρµόσιµη µόνον όταν οι τοπικές συναρτήσεις κατανοµής είναι απεριόριστες πολυωνυµικές κατανοµές και ισχύει η ανεξαρτησία των παραµέτρων. Μια άλλη µέθοδος για τον υπολογισµό των όρων της εξίσωσης 27, η οποία χρησιµοποιεί τη δειγµατοληψία Gibbs, δεν υπόκειται σ’ αυτούς τους περιορισµούς. Για την προσέγγιση της p (x l | Dl , S h ) , πρώτα αποδίδονται µε κάποιο τρόπο αρχικές τιµές στις θ s και στις καταστάσεις των µεταβλητών που δεν έχουν παρατηρηθεί στο Dl . Με τον τρόπο αυτό παράγεται ένα πλήρες δείγµα Dl′ . Για κάθε µεταβλητή X i l (µεταβλητή Xi στην κατάσταση xl) που δεν έχει παρατηρηθεί στο αρχικό δείγµα Dl , γίνεται νέα ανάθεση κατάστασης σύµφωνα µε την κατανοµή πιθανότητας p ( xi l | Dl′ \ xi l , θ s , S h ) . Αυτή η διαδικασία παράγει ένα άλλο πλήρες τυχαίο δείγµα Dl′′ . Τρίτον, υπολογίζεται οι a posteriori κατανοµές p(θ s | Dl′′, S h ) και p (x l | Dl′′, S h ) . Τέταρτον, επανατίθενται τιµές στις θ s σύµφωνα µε την πρώτη από τις δύο a posteriori κατανοµές. Τελικά, επαναλαµβάνονται τα τρία τελευταία βήµατα και χρησιµοποιείται ως προσέγγιση ο µέσος όρος των p (θ s | D ′′, S h ) . Η τελευταία οµάδα µεθόδων στην οποία θα γίνει αναφορά βασίζεται στη µέθοδο του Laplace για ολοκλήρωση. Αυτή η µέθοδος επεξεργάζεται τα δεδοµένα ως σύνολο, παρά µε µια σειριακή προσέγγιση. Η µέθοδος του Laplace εκµεταλλεύεται την κανονική (Gaussian) προσέγγιση που αναφέρθηκε νωρίτερα. υπενθυµίζουµε ότι για µεγάλες ποσότητες δεδοµένων, το γινόµενο p ( D | θ s , S h ) ⋅ p(θ s | S h ) µπορεί να προσεγγιστεί ως µια κανονική κατανοµή πολλών µεταβλητών. Κατά συνέπεια η πιθανοφάνεια, p ( D, S h ) = ∫ p ( D | θ s , S h ) ⋅ p(θ s | S h ) dθ s (28) µπορεί να υπολογιστεί σε κλειστή µορφή. Συγκεκριµένα, αντικαθιστώντας την εξίσωση 21 στην 28, ολοκληρώνοντας και παίρνοντας το λογάριθµο του αποτελέσµατος παίρνουµε την προσέγγιση: ~ ~ d 1 log p( D | S h ) ≈ log p( D | θ s , S h ) + log p(θ s | S h ) + log(2π ) − log A 2 2 (29) Η εξίσωση 29 αναφέρεται ως προσέγγιση του Laplace. Πρόκειται για εξαιρετικά ακριβή προσέγγιση, όµως ο υπολογισµός της ορίζουσας |Α| µπορεί να είναι χρονοβόρος. Μια πιο αποτελεσµατική αλλά λιγότερο ακριβής προσέγγιση προκύπτει αν από την 29 διατηρήσουµε µόνον εκείνους τους όρους που αυξάνονται µε το Ν. Για µεγάλες ~ τιµές του Ν, η ορίζουσα |Α| είναι ανάλογη της ποσότητας Νd. Επίσης, η θ s µπορεί να προσεγγιστεί από την ML τιµή της θ s . Άρα, 172 d log p( D | S h ) ≈ log p( D | θˆs , S h ) − log N 2 (30) Η BIC προσέγγιση είναι ενδιαφέρουσα από πολλές απόψεις. Πρώτον, δεν εξαρτάται στις a priori κατανοµές. Κατά συνέπεια µπορεί να εφαρµοστεί χωρίς να απαιτείται εκτίµηση των a priori κατανοµών. ∆εύτερον, η προσέγγιση είναι αρκετά διαισθητική· περιέχει έναν όρο [ log p ( D | θˆs , S h ) ] που µετρά πόσο καλά µπορεί το µοντέλο να προβλέψει τα δεδοµένα και έναν όρο που τιµωρεί την πολυπλοκότητα του µοντέλου d ( log N ). 2 Μια διαφορετική προσέγγιση που σχετίζεται µε την BIC προσέγγιση βασίζεται στις επόµενες δύο παρατηρήσεις: Πρώτον, ο ΕΜ αλγόριθµος χειρίζεται τις αναµενόµενες τιµές των ικανών στατιστικών συναρτήσεων σαν να ήταν οι πραγµατικές στατιστικές συναρτήσεις. στην πραγµατικότητα ο ΕΜ αλγόριθµος «συµπληρώνει» τα ελλιπή δεδοµένα για να σχηµατίσει ένα πλήρες σύνολο δεδοµένων. ∆εύτερον, κάτω από συγκεκριµένες συνθήκες, ο λογάριθµος της περιθωριακής πιθανοφάνειας ενός πλήρους συνόλου δεδοµένων µπορεί να υπολογιστεί αποτελεσµατικά σε κλειστή µορφή. Άρα, ο ΕΜ αλγόριθµος µπορεί να χρησιµοποιηθεί για την κατασκευή ενός πλήρους συνόλου δεδοµένων D′ και για την προσέγγιση της λογαριθµικής περιθωριακής πιθανοφάνειας µε τη χρήση της log p( D | S h ) ≈ log p( D′ | S h ) (31) Η προσέγγιση αυτή µπορεί να εφαρµοστεί όταν οι τοπικές συναρτήσεις κατανοµής προέρχονται από την εκθετική οικογένεια, οι παράµετροι είναι ανεξάρτητες και οι a priori κατανοµές είναι συζυγείς. Με δεδοµένο ότι έχουµε απεριόριστες πολυωνυµικές κατανοµές µε Dirichlet a priori κατανοµές, η προσέγγιση είναι: n qi Γ ( ai j ) i =1 j =1 Γ ( ai j + E ( N i j | D, S h ) p ( D′ | S ) = ∏∏ h ri Γ ( ai j k + E ( N i j k | D , S h ) k =1 Γ ( ai j k ) ⋅∏ (32) 10.8 A priori κατανοµές Για τον υπολογισµό της σχετικής a posteriori πιθανότητας µιας δικτυακής δοµής, πρέπει να γίνει εκτίµηση της a priori κατανοµής πιθανότητας της δοµής p( S h ) και των παραµέτρων p(θ s | S h ) (εκτός αν χρησιµοποιηθεί µέθοδος µεγάλου δείγµατος, όπως η BIC). ∆υστυχώς, όταν υπάρχουν πολλές δυνατές δικτυακές δοµές, τότε οι εκτιµήσεις καθίστανται µη διαχειρίσιµες. Παρ’ όλα αυτά, κάτω από συγκεκριµένες παραδοχές, a priori κατανοµές για δοµές και παραµέτρους µπορούν να εξαχθούν για πολλά δίκτυα µετά από ένα διαχειρίσιµο αριθµό εκτιµήσεων. 10.8.1 Παράµετροι δικτύου Στη συνέχεια κάνουµε την παραδοχή ότι οι τοπικές συναρτήσεις κατανοµής είναι απεριόριστες πολυωνυµικές κατανοµές και ότι ισχύει η ανεξαρτησία των παραµέτρων. 173 Η προσέγγιση του Heckerman βασίζεται σε δύο αρχές: την ισοδυναµία ανεξαρτησίας και την ισοδυναµία κατανοµής. ∆ύο δοµές δικτύου κατά Bayes για το διάνυσµα µεταβλητών Χ λέγονται ισοδύναµες ως προς την ανεξαρτησία αν αναπαριστούν το ίδιο σύνολο υποθέσεων δεσµευµένης ανεξαρτησίας για το Χ. Για παράδειγµα, για το πεδίο των τριών µεταβλητών {Χ, Υ, Ζ}, οι δικτυακές δοµές X→Y→Ζ, Χ←Υ→Ζ και X←Y←Z αναπαριστούν µόνο την υπόθεση ότι οι Χ και Ζ είναι ανεξάρτητες µε δεδοµένη την Υ. Κατά συνέπεια, αυτές οι δικτυακές δοµές είναι ισοδύναµες. Ένα άλλο παράδειγµα αποτελεί η πλήρης δικτυακή δοµή, δηλαδή το δίκτυο στο οποίο δεν απουσιάζει κανείς δεσµός, Ένα τέτοιο δίκτυο δεν αναπαριστά καµία υπόθεση ανεξαρτησίας. Ένα πεδίο που περιέχει n µεταβλητές έχει n! πλήρεις δικτυακές δοµές: µία δικτυακή δοµή για κάθε δυνατή διάταξη των µεταβλητών. Όλες οι πλήρεις δικτυακές δοµές για ένα δεδοµένο πεδίο είναι ισοδύναµες ως προς την ανεξαρτησία. Γενικά, δύο δικτυακές δοµές είναι ισοδύναµες ως προς την ανεξαρτησία εάν και µόνον εάν έχουν την ίδια δοµή αγνοώντας την κατευθυντικότητα των βελών και τις ίδιες υ-δοµές. Υπενθυµίζουµε ότι η υ-δοµή αποτελεί το κρίσιµο στοιχείο ενός κατευθυντικού γραφήµατος ανεξαρτησίας προκειµένου να ελεγχθεί η ισχύς της συνθήκης Wermuth: είναι µια διατεταγµένη τριπλέτα (Χ, Υ, Ζ) τέτοια ώστε υπάρχει βέλος από το Χ στο Υ και από το Ζ προς στο Υ αλλά δεν υπάρχει βέλος µεταξύ των Χ και Ζ. Καταλαβαίνει κανείς ότι δύο κατά Bayes δίκτυα µε ίδιο ηθικό γράφηµα είναι ισοδύναµα ως προς την ανεξαρτησία. Η αρχή της ισοδυναµίας κατανοµής είναι στενά συνδεδεµένη µε αυτή της ισοδυναµίας ανεξαρτησίας. Υποθέστε ότι όλα τα υπό µελέτη δίκτυα κατά Bayes για το X έχουν τοπικές συναρτήσεις κατανοµής που ανήκουν στην οικογένεια F. Αυτό δεν αποτελεί περιορισµό αφ’ εαυτού καθώς η F µπορεί να είναι µια ευρεία οικογένεια. ∆ύο δοµές δικτύων κατά Bayes S1 και S2 για το Χ λέγονται ισοδύναµες κατά την κατανοµή ως προς τη F αν αναπαριστούν την ίδια φυσική συνδυαστική κατανοµή πιθανότητας για το Χ –δηλαδή αν για κάθε θ s1 υπάρχει µια θ s 2 τέτοια ώστε p(x | θ s1 , S1h ) = p(x | θ s 2 , S 2h ) και αντίστροφα. Η ισοδυναµία κατανοµής ως προς κάποια F συνεπάγεται την ισοδυναµία ανεξαρτησίας, αλλά το αντίστροφο δεν ισχύει πάντοτε. Για παράδειγµα, όταν F είναι η οικογένεια των γενικευµένων µοντέλων γραµµικής παλινδρόµησης (εξίσωση 18), οι πλήρεις δοµές δικτύου για περισσότερες από 3 µεταβλητές δεν αναπαριστούν τα ίδια σύνολα κατανοµών. Παρ’ όλα αυτά, υπάρχουν οικογένειες F –για παράδειγµα οι απεριόριστες πολυωνυµικές κατανοµές και τα µοντέλα γραµµικής παλινδρόµησης µε Gaussian θόρυβο– όπου η ισοδυναµία ανεξαρτησίας συνεπάγεται την ισοδυναµία κατανοµής ως προς την F. Η έννοια της ισοδυναµίας κατανοµής είναι σηµαντική επειδή εάν δύο δικτυακές δοµές S1 και S2 είναι ισοδύναµες κατά την κατανοµή ως προς µια δεδοµένη F, τότε οι υποθέσεις που σχετίζονται µε αυτές τις δύο δοµές είναι ταυτόσηµες, δηλαδή S1h = S 2h . Άρα, εάν οι δοµές S1 και S2 είναι ισοδύναµες κατά την κατανοµή, τότε οι πιθανότητές τους θα πρέπει να είναι ίσες για οποιαδήποτε κατάσταση πληροφορίας. Αυτό ονοµάζεται ισοδυναµία υποθέσεων. Υπό το φως αυτής της ιδιότητας κάθε µια υπόθεση θα πρέπει να συσχετίζεται µε µια κλάση ισοδυναµίας δοµών παρά µε µία δικτυακή δοµή, και οι µέθοδοι για µάθηση δικτυακών δοµών θα πρέπει στην πραγµατικότητα να ερµηνεύονται ως µέθοδοι για τη 174 µάθηση κλάσεων ισοδυναµίας δικτυακών δοµών (αν και, χάριν συντοµίας, συχνά αποκρύπτουµε αυτή τη διάκριση). Εποµένως, για παράδειγµα, το άθροισµα επί των υποθέσεων δικτυακής δοµής της εξίσωσης 30 θα πρέπει να αντικατασταθεί από ένα άθροισµα επί των υποθέσεων κλάσεων ισοδυναµίας. Ένας αλγόριθµος για την ταυτοποίηση της κλάσης ισοδυναµίας µιας δεδοµένης δικτυακής δοµής δίνεται από τον Chickering. Θα πρέπει να σηµειωθεί ότι η ισοδυναµία υποθέσεων ισχύει αν µια δικτυακή δοµή ερµηνευθεί απλώς ως αναπαράσταση δεσµευµένης ανεξαρτησίας. Υπάρχουν όµως και πιο ισχυροί ορισµοί των δικτύων κατά Bayes, σύµφωνα µε τους οποίους τα βέλη επιδέχονται αιτιοκρατική ερµηνεία. Αν και είναι παράλογη η παραδοχή της ισοδυναµίας υποθέσεων όταν αναφερόµαστε σε αιτιοκρατικά δίκτυα κατά Bayes, είναι συχνά δυνατόν να υιοθετήσουµε την πιο ασθενή παραδοχή της ισοδυναµίας πιθανοφανειών, η οποία λέει ότι οι παρατηρήσεις σε µια βάση δεδοµένων δε µπορούν να βοηθήσουν στη διάκριση δύο ισοδύναµων δικτυακών δοµών. Επιστρέφοντας στην εξαγωγή των a priori κατανοµών από έναν διαχειρίσιµο αριθµό υποθέσεων, αποδεικνύεται ότι οι παραδοχές της ανεξαρτησίας παραµέτρων και ισοδυναµίας πιθανοφανειών συνεπάγονται ότι οι παράµετροι για κάθε πλήρη δικτυακή δοµή S θα πρέπει να ακολουθεί κατανοµή Dirichlet όπως ορίζεται στην εξίσωση 15, µε τον περιορισµό ai j k = a ⋅ p ( xik , pa ij | S ch ) (33) όπου α είναι το ισοδύναµο µέγεθος δείγµατος του χρήστη για το συγκεκριµένο πεδίο, Sc είναι οποιαδήποτε πλήρης δικτυακή δοµή και p( xik , pa ij | S ch ) είναι η πιθανότητα του χρήστη ότι X i = xik και Pa i = pa ij σε ένα τυχαίο δείγµα µεγέθους ίσου µε ένα. Αυτό αποτελεί ένα αξιοσηµείωτο αποτέλεσµα, καθώς οι δύο παραδοχές που οδηγούν σε λύση Dirichlet υπό περιορισµούς είναι ποιοτικές. Για τον καθορισµό των a priori κατανοµών των παραµέτρων για δικτυακές δοµές που δεν είναι πλήρεις, χρησιµοποιείται η παραδοχή της modularity των παραµέτρων, η οποία λέει ότι εάν η Χi έχει τους ίδιους γονείς στις δικτυακές δοµές S1 και S2, τότε p (θi j | S1h ) = p (θi j | S 2h ) για j = 1,K, qi . Αυτή η ιδιότητα ονοµάζεται έτσι επειδή µας λέει ότι οι κατανοµές για τις παραµέτρους θ i j εξαρτώνται µόνον από τη δοµή του δικτύου που είναι τοπική στη µεταβλητή Χi, δηλαδή από την Χi και τους γονείς της. Με δεδοµένες τις παραδοχές της ανεξαρτησίας και modularity των παραµέτρων, η κατασκευή a priori κατανοµών για τις παραµέτρους µιας τυχαίας δικτυακής δοµής καθίσταται απλή διαδικασία, όταν µας δίνονται οι a priori κατανοµές των παραµέτρων για πλήρεις δοµές. Συγκεκριµένα, λόγω της παραµετρικής ανεξαρτησίας, οι a priori κατανοµές των παραµέτρων κατασκευάζονται για κάθε κόµβο ξεχωριστά. Επί πλέον, εάν ο κόµβος xi έχει γονείς Πi στη δεδοµένη δικτυακή δοµή, τότε αναγνωρίζουµε µια πλήρη δικτυακή δοµή στην οποία ο xi έχει αυτούς τους γονείς και χρησιµοποιούµε την παραµετρική modularity για τον καθορισµό των a priori κατανοµών για τον κόµβο αυτό. Οι όροι ai j k για όλες τις δικτυακές δοµές καθορίζονται από την εξίσωση 33. Άρα, από τις εκτιµήσεις των α και p (x | S ch ) , 175 µπορούν να εξαχθούν οι a priori κατανοµές των παραµέτρων για όλες τις δυνατές δικτυακές δοµές. Με συνδυασµό των εξισώσεων 32 και 43, µπορεί να εξαχθεί ένα κριτήριο επιλογής µοντέλου το οποίο αναθέτει ίσες περιθωριακές πιθανοφάνειες σε ισοδύναµες ως προς την ανεξαρτησία δικτυακές δοµές. Αυτό το µέτρο ονοµάζεται BDe (Bayesian Dirichlet independence equivalent) κριτήριο. 10.8.2 ∆οµές Η απλούστερη και η πιο συχνά χρησιµοποιούµενη προσέγγιση ανάθεσης a priori πιθανοτήτων στις δικτυακές δοµές είναι µέσω της υπόθεσης ότι όλες οι δυνατές δικτυακές δοµές είναι ισοπίθανες. Είναι σαφές ότι µια τέτοια θέση είναι ανακριβής και χρησιµοποιείται µόνο χάριν ευκολίας. Ο Buntine περιγράφει ένα απλό σύνολο παραδοχών που οδηγεί σε µια πλουσιότερη αλλά και αποτελεσµατική προσέγγιση για την ανάθεση a priori πιθανοτήτων. Η πρώτη παραδοχή είναι ότι οι µεταβλητές µπορούν να διαταχθούν (π.χ. µε βάση τη γνώση µιας χρονικής σειράς). Η δεύτερη παραδοχή είναι ότι η παρουσία ή η παρουσία των δυνατών βελών µεταξύ των κόµβων είναι αµοιβαία ανεξάρτητες. Με n (n − 1) βάση αυτές τις παραδοχές, εκτιµήσεις πιθανότητας (µία για κάθε δυνατό 2 βέλος σε µια διάταξη) καθορίζουν την a priori πιθανότητα κάθε δυνατής δικτυακής δοµής. Μια επέκταση αυτής της προσέγγισης αποτελεί η δυνατότητα για πολλαπλές δυνατές διατάξεις. Αντίθετα, η προσέγγιση µπορεί να απλοποιηθεί µε την παραδοχή ότι η πιθανότητα ένα συγκεκριµένο βέλος να υπάρχει ή όχι δεν εξαρτάται από το υπό µελέτη βέλος. Σ’ αυτή την περίπτωση, απαιτείται µόνο µία εκτίµηση πιθανότητας. Μια εναλλακτική προσέγγιση κάνει χρήση ενός αρχικού δικτύου και τιµωρεί την a priori πιθανότητα οποιασδήποτε δοµής σύµφωνα µε την απόσταση αυτής της δοµής από το αρχικό δίκτυο. 10.9 Μέθοδοι διερεύνησης Θεωρήστε το πρόβληµα εύρεσης του καλύτερου δικτύου από το σύνολο όλων των δικτύων στα οποία κάθε κόµβος έχει το πολύ k γονείς. ∆υστυχώς, το πρόβληµα για k>1 είναι NP-hard ακόµη και όταν χρησιµοποιηθεί το περιοριστικό BDe κριτήριο. Έτσι χρησιµοποιούνται ευρετικοί (heuristic) αλγόριθµοι διερεύνησης, συµπεριλαµβανοµένων των: άπληστη διερεύνηση (greedy search), άπληστη διερεύνηση µε επανεκκινήσεις, διερεύνηση άριστης εκκίνησης (best-first search) και µέθοδοι Monte Carlo. Αυτές οι µέθοδοι διερεύνησης καθίστανται αποτελεσµατικότερες όταν το κριτήριο επιλογής είναι διαχωρίσιµο. Με δεδοµένη µια δικτυακή δοµή για το πεδίο ενδιαφέροντος Χ, ένα κριτήριο για τη δοµή αυτή ονοµάζεται διαχωρίσιµο εάν µπορεί να γραφεί ως γινόµενο κριτηρίων που αναφέρονται σε συγκεκριµένες µεταβλητές: n C ( S h , D) = ∏ c( X i , Pa i , Di ) (34) i =1 όπου Di είναι τα δεδοµένα που περιορίζονται στις µεταβλητές Χi και Pai. Ένα παράδειγµα διαχωρίσιµου κριτηρίου είναι το BDe κριτήριο σε συνδυασµό µε κάποια από τις µεθόδους για την εκτίµηση a priori πιθανοτήτων δοµών. 176 Οι περισσότερες από τις συνήθως χρησιµοποιούµενες µεθόδους διερεύνησης για δίκτυα κατά Bayes εκτελούν διαδοχικές µετατροπές στο δίκτυο και κάνουν χρήση της έννοιας της διαχωρισιµότητας για την εκτίµηση του κέρδους κάθε αλλαγής. Οι δυνατές µετατροπές είναι οι ακόλουθες: για κάθε ζευγάρι µεταβλητών, εάν υπάρχει ένα βέλος που τις συνδέει, τότε το βέλος µπορεί είτε να αντιστραφεί ή να αφαιρεθεί. Εάν δε συνδέονται, τότε ένα βέλος µπορεί να προστεθεί µε οποιαδήποτε κατεύθυνση. Όλες οι µετατροπές υπόκεινται στον περιορισµό ότι το δίκτυο που προκύπτει δεν περιέχει κατευθυντικούς κύκλους. Έστω ότι µε Ε συµβολίζεται το σύνολο των υποψηφίων µετατροπών σε ένα γράφηµα και µε ∆(ε) η µεταβολή στο λογάριθµο του score του δικτύου που προκύπτει από τη µετατροπή ε ∈ Ε. Ο υπολογισµός της ποσότητας ∆(ε) στην περίπτωση που η µετατροπή ε έγκειται στην πρόσθεση ή αφαίρεση ενός βέλους προς ή από τη µεταβλητή Χi απαιτεί την εκτίµηση του c( X i , Pa i , Di ) και µόνον. Αντίστοιχα, η αντιστροφή της κατεύθυνσης ενός βέλους που συνδέει τις Χi και Χj απαιτεί την εκτίµηση µόνον των c( X i , Pa i , Di ) και c( X j , Π j , D j ) . Ένας απλός ευρετικός αλγόριθµος αναζήτησης είναι η άπληστη διερεύνηση. Πρώτα, επιλέγεται µια δικτυακή δοµή. Κατόπιν, εκτιµάται η ∆(ε) για όλα τα ε∈Ε και γίνεται η µετατροπή ε για την οποία η ∆(ε) γίνεται µέγιστη, µε δεδοµένο ότι είναι θετική ποσότητα. Η διερεύνηση σταµατά όταν δεν υπάρχει ε που να οδηγεί σε ∆(ε)>0. Όταν το κριτήριο είναι διαχωρίσιµο, ο επανυπολογισµός όλων των ∆(ε) µετά από κάθε µετατροπή µπορεί να αποφευχθεί καθώς, αν ούτε οι Χi και Χj αλλά ούτε και οι γονείς τους υποστούν µετατροπή, η ∆(ε) παραµένει αµετάβλητη για όλες τις µετατροπές ε που έχουν να κάνουν µε αυτούς τους κόµβους –αρκεί το δίκτυο που προκύπτει να είναι ακυκλικό. Υποψήφια γραφήµατα εκκίνησης είναι το κενό γράφηµα, ένα τυχαίο γράφηµα ή το αρχικό (prior) δίκτυο. Ένα εν δυνάµει πρόβληµα µε οποιαδήποτε τοπική µέθοδο διερεύνησης είναι ο πρόωρος τερµατισµός της διαδικασίας σε ένα τοπικό µέγιστο. Ένας τρόπος αποφυγής αυτού του προβλήµατος είναι η άπληστη διερεύνηση µε τυχαίες επανεκκινήσεις. Με αυτή την προσέγγιση εφαρµόζουµε την άπληστη διερεύνηση µέχρι να βρούµε ένα τοπικό µέγιστο. Κατόπιν, διαταράσσουµε τη δικτυακή δοµή µε τυχαίο τρόπο και επαναλαµβάνουµε τη διαδικασία πολλές φορές. Ο χώρος στον οποίο διεξάγεται η διερεύνηση αποτελεί ένα σηµαντικό στοιχείο για όλους τους αλγόριθµους διερεύνησης. Φυσιολογικά, αυτός είναι ο χώρος των δοµών των κατά Bayes δικτύων. Όταν όµως ισχύει η παραδοχή της ισοδυναµίας των υποθέσεων, η διερεύνηση µπορεί να διεξαχθεί στο χώρο των κλάσεων ισοδυναµίας δικτυακών δοµών. Το όφελος µιας τέτοιας προσέγγισης έγκειται στο ότι αυτός ο χώρος είναι µικρότερος ενώ το κόστος που έχουµε είναι ότι η µετακίνηση από ένα στοιχείο του χώρου αυτού σε ένα άλλο είναι πιο δύσκολη. ∆υστυχώς δεν υπάρχουν ακόµη (2000) συγκρίσεις που να αποτιµούν το λόγο κόστος/όφελος αυτού του τύπου διερεύνησης. 10.10 Μάθηση µε κρυµµένες (ή λανθάνουσες) µεταβλητές Έγινε φανερό σε προηγούµενη παράγραφο ότι η έρευνα σχετικά µε τη µάθηση δικτύων πεποίθησης ακολουθεί δύο εναλλακτικές προσεγγίσεις: η µία χρησιµοποιεί ελέγχους ανεξαρτησίας για να κατευθύνει µια διερεύνηση µεταξύ έγκυρων µοντέλων, 177 ενώ η άλλη χρησιµοποιεί ένα score για την εύρεση του µοντέλου µε το µεγαλύτερο score. Το πρόβληµα της επιλογής µοντέλου µεταξύ δικτύων πεποίθησης µε κρυµµένες µεταβλητές, δηλαδή δικτύων µε µεταβλητές των οποίων οι τιµές δεν παρατηρούνται, είναι δυσκολότερο από το αντίστοιχο πρόβληµα στο οποίο όλες οι µεταβλητές είναι παρατηρήσιµες. Πρώτον, ο χώρος των δυνατών δικτύων είναι άπειρος, καθώς δεν υπάρχει περιορισµός τόσο στον αριθµό των δυνατών καταστάσεων µιας κρυµµένης µεταβλητής, όσο και στον αριθµό των µεταβλητών καθαυτών. ∆εύτερον, η απόδοση ενός score σε κάθε δίκτυο είναι υπολογιστικά δυσκολότερη επειδή πρέπει να ληφθούν υπ’ όψιν όλες οι δυνατές τιµές των κρυµµένων µεταβλητών. Είδαµε ότι ένα µέτρο του πόσο καλή είναι η προσαρµογή µιας δοµής δικτύου S στα δεδοµένα D είναι η σχετική a posteriori πιθανότητα p( S h | D) ∝ p( S h ) ⋅ p( D | S h ) , όπου p( D | S h ) είναι η περιθωριακή πιθανοφάνεια των D µε δεδοµένη τη δοµή Sh. Στόχος µας είναι η εύρεση µιας ασυµπτωτικής προσέγγισης της περιθωριακής πιθανοφάνειας, συγκεκριµένα του κατά Bayes κριτηρίου πληροφορίας (BIC), για την περίπτωση δικτύων µε κρυµµένες µεταβλητές. Όταν δεν υπάρχουν κρυµµένες µεταβλητές, η περιθωριακή πιθανοφάνεια των D µε δεδοµένη τη δοµή S δίνεται από την : 1 p( D | S h ) = H ( S , D) N − dim(S ) log( N ) + O(1) 2 (35) όπου Ν είναι το µέγεθος του δείγµατος των δεδοµένων, είναι η εντροπία της κατανοµής πιθανότητας, η οποία εξάγεται µέσω της προβολής των συχνοτήτων εµφάνισης των δεδοµένων επί των πινάκων δεσµευµένης πιθανότητας του δικτύου πεποίθησης S, και dim(S) είναι ο αριθµός παραµέτρων του δικτύου S. Η εξίσωση αυτή αποκαλύπτει τις ποιοτικές προτιµήσεις της κατά Bayes προσέγγισης. Πρώτον, µε ικανή ποσότητα δεδοµένων, µια δοµή δικτύου που είναι I-map της πραγµατικής κατανοµής, είναι πιο προτιµητέα από µια δοµή δικτύου που δεν είναι I-map της πραγµατικής κατανοµής. ∆εύτερον, µεταξύ όλων των δοµών δικτύου που είναι I-map της πραγµατικής κατανοµής, προτιµάται αυτή που έχει το µικρότερο αριθµό παραµέτρων. Η εξίσωση 35 προκύπτει από µια εκπεφρασµένη µαθηµατική έκφραση της πιθανότητας µιας δοµής δικτύου υπό τη δέσµευση των δεδοµένων, επιτρέποντας το µέγεθος του δείγµατος να τείνει στο άπειρο και χρησιµοποιώντας Dirichlet a priori κατανοµές για τις παραµέτρους. Παρ’ όλα αυτά, η εξίσωση 1 δεν εξαρτάται από την a priori κατανοµή. Επίσης, µε τυπική εφαρµογή ασυµπτωτικής ανάλυσης κατά Bayes (µέθοδος Laplace), µπορούµε να καταλήξουµε στην 35 χωρίς την παραδοχή των Dirichlet a priori κατανοµών. Στην παράγραφο 10.10.2 δίνουµε µια προσέγγιση της περιθωριακής πιθανοφάνειας για δίκτυα πεποίθησης µε κρυµµένες µεταβλητές και δίνουµε ένα ευρετικό επιχείρηµα γι’ αυτή την προσέγγιση, χρησιµοποιώντας τη µέθοδο Laplace. Καταλήγουµε στην επόµενη εξίσωση: 1 log p( S | D) ≈ log p( S | D, θˆs ) − dim(S , θˆs ) log( N ) 2 178 (36) όπου θˆs είναι η τιµή µέγιστης πιθανοφάνειας (ML) για τις παραµέτρους του δικτύου και dim( S , θˆs ) η διάσταση του S στην ML τιµή του θ s . Η διάσταση ενός µοντέλου µπορεί να ερµηνευθεί µε δύο ισοδύναµους τρόπους. Πρώτον, είναι ο αριθµός των ελεύθερων παραµέτρων που απαιτούνται για την αναπαράσταση του χώρου των παραµέτρων κοντά στην τιµή µέγιστης πιθανοφάνειας. ∆εύτερον, είναι η τάξη της Ιακωβιανής µήτρας του µετασχηµατισµού µεταξύ των παραµέτρων του δικτύου και των παραµέτρων των παρατηρήσιµων (όχι κρυµµένων) µεταβλητών. Ούτως ή άλλως, η διάσταση εξαρτάται από την τιµή του θˆs , σε αντίθεση µε την εξίσωση 35, όπου η διάσταση είναι σταθερή σε όλο το χώρο των παραµέτρων. Στην παράγραφο 10.10.3 υπολογίζεται η διάστάση του αφελούς µοντέλου Bayes µε έναν κρυµµένο κόµβο. Ο υπολογισµός της p( D | S h ) σε κλειστή µορφή απαιτεί έναν αριθµό παραδοχών. Πρώτον, τα δεδοµένα D υποτίθεται ότι είναι τυχαίο δείγµα από κάποιο δίκτυο κατά Bayes ( S , θ s ) . ∆εύτερον, για κάθε δικτυακή δοµή, τα σύνολα παραµέτρων θ1 ,K, θ n είναι αµοιβαίως ανεξάρτητα (γενική ανεξαρτησία: Spiegelhalter-Lauritzen) και τα σύνολα παραµέτρων θi1 ,K, θiqi , για κάθε i υποτίθεται ότι είναι αµοιβαίως ανεξάρτητα (τοπική ανεξαρτησία: Spiegelhalter-Lauritzen). Τρίτον, εάν ένας κόµβος έχει δύο κόµβους σε δύο διακεκριµένα δίκτυα πεποίθησης, τότε η κατανοµή των παραµέτρων που συνδέονται µε αυτό τον κόµβο είναι ταυτοτικά ίδια και στα δύο δίκτυα (modularity παραµέτρων). Τέταρτον, κάθε εγγραφή στη βάση δεδοµένων είναι πλήρης. Πέµπτον, η a priori κατανοµή των παραµέτρων που συνδέονται µε κάθε a κόµβο είναι Dirichlet, δηλαδή p (θi j | S h ) ∝ ∏ θi ji kj k ,όπου τα ai j k µπορούν να k ερµηνευθούν ως ο ισοδύναµος αριθµός εγγραφών (περιπτώσεων) που έχουν παρατηρηθεί στις οποίες X i = xik και Pa i = pa ij . Με χρήση αυτών των παραδοχών, οι Cooper και Herskovits κατέληξαν στον ακόλουθο ακριβή τύπο για την περιθωριακή πιθανοφάνεια: n qi Γ ( ai j ) i =1 j =1 Γ ( ai j + N i j ) p( D | S h ) = ∏∏ ri Γ ( ai j k + N i j k ) k =1 Γ ( ai j k ) ⋅∏ όπου N i j k είναι ο αριθµός των εγγραφών στη D στις οποίες X i = xik και Pa i = pa ij . Αυτή η έκφραση ονοµάζεται Cooper-Herskovits συνάρτηση διαβάθµισης (scoring function). 10.10.1 Ασυµπτωτική προσέγγιση χωρίς κρυµµένες µεταβλητές Στα επόµενα θα εφαρµοστεί η µέθοδος του Laplace για να φτάσουµε στην εξίσωση 35. Η µέθοδος Laplace συνίσταται στην ανάπτυξη της λογαριθµικής πιθανοφάνειας των δεδοµένων γύρω από την τιµή µέγιστης πιθανοφάνειας και την προσέγγιση αυτής της κορυφής µε χρήση κανονικής κατανοµής πολλών µεταβλητών. Αυτή η µέθοδος δεν απαιτεί τον υπολογισµό της p( DN | S h ) για τα δεδοµένα DN ενός δείγµατος µεγέθους Ν, ο οποίος θα απαιτούσε τις παραδοχές που 179 προαναφέρθηκαν. Αντίθετα, υπολογίζεται το lim N →∞ p( DN | S h ) . Επί πλέον, η µέθοδος αυτή κάνει µόνον την παραδοχή ότι η a priori κατανοµή των θ γύρω από την τιµή µέγιστης πιθανοφάνειας είναι θετική. Στην επόµενη παράγραφο αποδεικνύουµε ότι η µέθοδος αυτή µπορεί να εφαρµοστεί και σε δίκτυα µε κρυµµένες µεταβλητές. Ορίζουµε f (θ ) ≡ log p( DN | θ , S h ) . Άρα, p( DN | S h ) = ∫ p( DN | θ , S h ) p(θ | S h )dθ = ∫ e f (θ ) p (θ | S h )dθ (37) Κάνοντας την παραδοχή ότι η f (θ ) έχει µέγιστο –την ML τιµή θˆ – ισχύει ότι f ′(θˆ ) = 0 . Χρησιµοποιώντας µια ανάπτυξη σειράς Taylor της f (θ ) γύρω από την ML τιµή, έχουµε: 1 f (θ ) ≈ f (θˆ ) + (θ − θˆ ) f ′′(θ )(θ − θˆ ) 2 (38) όπου f ′′(θ ) είναι η Hessian της f –ο τετραγωνικός πίνακας των δεύτερων παραγώγων ως προς κάθε ζεύγος µεταβλητών {θ i j k ,θ i′ j′ k ′ } . Κατά συνέπεια, από τις εξισώσεις 37 και 38, 1 ˆ ( θ −θ ) f log p( D | S h ) ≈ f (θˆ ) + log ∫ e 2 ′′ ( θ )( θ −θˆ ) p(θ | S h )dθ (39) Υποθέτουµε ότι η − f ′′(θ ) είναι θετική και ότι καθώς το Ν τείνει στο άπειρο, η κορυφή στη γειτονιά γύρω από το µέγιστο γίνεται οξύτερη. Επί πλέον, εάν κάνουµε την παραδοχή ότι η a priori πιθανότητα p (θ | S h ) δεν είναι µηδενική γύρω από το θˆ , τότε µπορεί να θεωρηθεί σταθερή καθώς το Ν αυξάνεται και έτσι να απαλειφθεί s από το ολοκλήρωµα στην εξίσωση 39. Το ολοκλήρωµα που αποµένει προσεγγίζεται από τον τύπο για κανονική κατανοµή πολλών µεταβλητών: ∫e 1 ( θ −θˆ ) f ′′ ( θ )( θ −θˆ ) 2 [ dθ ≈ 2π det − f ′′(θˆ ) ] d 2 (40) n όπου d ο αριθµός των παραµέτρων στη θ, d = ∏ (ri − 1)qi . Καθώς το Ν τείνει στο i =1 άπειρο, η παραπάνω προσέγγιση γίνεται πιο ακριβής επειδή ολόκληρη η µάζα συγκεντρώνεται γύρω από την κορυφή. Αντικαθιστώντας την εξίσωση 40 στην 39 και παρατηρώντας ότι η ορίζουσα det[− f ′′(θ )] είναι ανάλογη µε το Ν, καταλήγουµε στο BIC: d p ( DN | S h ) ≈ p ( DN | θˆ, S h ) − log N 2 (41) Για τα δίκτυα πεποίθησης η συνάρτηση f (θ ) είναι γνωστή. Εποµένως, όλες οι παραδοχές σχετικά µε αυτή τη συνάρτηση µπορούν να επιβεβαιωθούν. Η f ′′(θ ) είναι µια block diagonal µήτρα όπου κάθε block αντιστοιχεί στη µεταβλητή Χi και σε µια συγκεκριµένο στιγµιότυπο j των Pa i , και είναι µεγέθους (ri − 1) 2 . Ας εξετάσουµε ένα τέτοιο block Αij. Προκειµένου να απλοποιηθεί ο συµβολισµός, υποθέστε ότι η Χi έχει τρεις καταστάσεις. Έστω ότι µε ω1, ω2 και ω3 συµβολίζουµε τις παραµέτρους θ i j k για k = 1, 2, 3 και τα i και j είναι σταθερά. Θεωρούµε µόνο εκείνες τις περιπτώσεις 180 (εγγραφές) στο DN όπου Pa i = j και εξετάζουµε µόνο τις παρατηρήσεις της Χi. Έστω ότι µε D΄N συµβολίζουµε το σύνολο των Ν τιµών της Χi που εξάγονται µε αυτή τη διαδικασία. Σε κάθε παρατήρηση συσχετίζουµε δύο ενδεικτικές συναρτήσεις xi και yi. Η συνάρτηση xi παίρνει την τιµή 1 όταν η Χi παίρνει την πρώτη της τιµή (κατάσταση) στην εγγραφή i, αλλιώς είναι ίση µε µηδέν. Οµοίως, η συνάρτηση yi παίρνει την τιµή 1 όταν η Χi παίρνει την δεύτερή της τιµή (κατάσταση) στην εγγραφή i, αλλιώς είναι ίση µε µηδέν. Η λογαριθµική συνάρτηση πιθανοφάνειας των D΄N δίνεται από την N λ (ω1 ,ω 2 ) = log ∏ω1x ω 2y (1 − ω1 − ω 2 )1− x − y i i i (42) i i =1 Για την εύρεση του µεγίστου, θέτουµε την πρώτη παράγωγο αυτής της συνάρτησης ίση µε µηδέν. Οι εξισώσεις που προκύπτουν ονοµάζονται εξισώσεις µέγιστης πιθανοφάνειας: xi i =1 ω1 − N yi − N λω (ω1 ,ω 2 ) = ∑ 1 λω (ω1 ,ω 2 ) = ∑ 2 i =1 ω 2 1 − xi − y i =0 1 − ω1 − ω 2 1 − xi − y i =0 1 − ω1 − ω 2 Η µοναδική λύση αυτών των εξισώσεων δίνεται από την ω1 = x = ∑x i N i , ω2 = y = ∑y i N i , η οποία είναι η τιµή µέγιστης πιθανοφάνειας. Η Hessian µήτρα του λ (ω1 ,ω 2 ) στην τιµή µέγιστης πιθανοφάνειας δίνεται από την λω′′ ω λ ′′(ω1 ,ω 2 ) = 1 1 λω′′2ω1 1 1 + 2 = −N x 1− x − y 1 2 1− x − y λω′′ ω λω′′ ω 1 2 1 1− x − y 1 1 + y 1 − x − y (43) Η Hessian µήτρα αποσυντίθεται σε άθροισµα δύο πινάκων, όπως φαίνεται παρακάτω. Επειδή ο πρώτος πίνακας είναι θετικός και ο δεύτερος µη αρνητικός, η µήτρα είναι θετική. Αυτό ισχύει και όταν η µεταβλητή έχει περισσότερες από 3 καταστάσεις. Εφ’ όσον η εξίσωση µέγιστης πιθανοφάνειας έχει µοναδική λύση και η Hessian είναι θετική και επειδή καθώς το Ν αυξάνεται η κορυφή γίνεται οξύτερη (Εξ. 43), όλες οι συνθήκες για τη γενική διαδικασία εξαγωγής του BIC ικανοποιούνται. Αντικαθιστώντας την τιµή µέγιστης πιθανοφάνειας στην εξίσωση 41, η οποία είναι ορθή έως Ο(1), παίρνουµε την εξίσωση 35. 181 1 1− x − y 1 1 + y 1 − x − y 1 1 + x 1− x − y λ ′′(ω1 ,ω 2 ) = − N 1 1− x − y 1 = − N x 0 1 0 1− x − y 1 + 1 + y 1− x − y 1 = − N x 0 0 1 + I 1 1− x − y + y 1 1 − x − y 1 1 − x − y 10.10.2 Ασυµπτωτική προσέγγιση µε κρυµµένες µεταβλητές Υποθέστε τώρα ότι η δοµή S περιέχει κρυµµένες µεταβλητές. σ’ αυτή την περίπτωση δε µπορεί να χρησιµοποιηθεί η διαδικασία που αναφέρθηκε προηγουµένως, καθώς η λογαριθµική συνάρτηση πιθανοφάνειας log p ( DN | S h , θ ) δεν τείνει κατ’ ανάγκη προς µια κορυφή όταν το µέγεθος του δείγµατος αυξάνεται. Αντίθετα, µπορεί να τείνει προς ένα οροπέδιο (πλατώ). Θεωρήστε για παράδειγµα ένα δίκτυο µε ένα βέλος H → X όπου η Η έχει δύο τιµές, h και h , και η Χ έχει επίσης δύο τιµές, x και x . Έστω ότι µόνον οι τιµές της Χ παρατηρούνται, δηλαδή η Η είναι κρυµµένη. Τότε, η συνάρτηση πιθανοφάνειας δίνεται από την ∏ω xi (1 − ω )1− xi όπου ω = θ h θ x | h + (1 − θ h )θ x | h και xi είναι η i ενδεικτική συνάρτηση που ισούται µε 1 εάν η Χ παίρνει την τιµή x στην εγγραφή i και 0 σε άλλη περίπτωση. Η παράµετρος ω είναι η αληθής πιθανότητα του γεγονότος X=x χωρίς καµία δέσµευση. Η τιµή µέγιστης πιθανοφάνειας είναι µοναδική ως προς ∑i xi . το ω: παίρνει τη µέγιστη τιµή της όταν ω = N Ωστόσο, κάθε λύση ως προς θ της εξίσωσης ∑x i i N = θ h θ x | h + (1 − θ h ) θ x | h θα µεγιστοποιήσει την πιθανοφάνεια των δεδοµένων. Υπ’ αυτήν την έννοια, η δικτυακή δοµή έχει µόνον µία µη-πλεονάζουσα παράµετρο για κάθε δίκτυο πεποίθησης µε κρυµµένες µεταβλητές. Με δεδοµένο ένα δίκτυο πεποίθησης για το πεδίο Χ µε παρατηρήσιµες µεταβλητές O ⊂ X , έστω ότι συµβολίζουµε µε W = {wo | o ∈ O} τις παραµέτρους της αληθούς συνδυαστικής κατανοµής που ακολουθούν οι Ο. Σε κάθε τιµή της θ αντιστοιχεί µια τιµή της W. ∆ηλαδή, η δοµή S ορίζει µια λεία σχέση απεικόνισης g από τη θ στη W. Το πεδίο τιµών της g είναι ένα καµπύλος πολλαπλός τοπολογικός χώρος (curved manifold) Μ µέσα στο χώρο που ορίζει η W. Έστω g (θˆ ) η εικόνα όλων των τιµών 182 µέγιστης πιθανοφάνειας της θ. Σε µια µικρή περιοχή γύρω από το g (θˆ ) , ο Μ θα φαίνεται σαν Rd µε ορθογώνιες συντεταγµένες Φ = {φ1 ,K,φ d } . Άρα, η λογαριθµική συνάρτηση πιθανοφάνειας, εκφρασµένη ως συνάρτηση των Φ – log p( DN | Φ ) – θα αποκτήσει κορυφή καθώς το µέγεθος του δείγµατος αυξάνεται, και µπορούµε να χρησιµοποιήσουµε την BIC προσέγγιση: ˆ ,Sh) − log p( DN | S h ) ≈ log p ( DN | Φ d log N 2 (44) ˆ , S h ) = p ( DN | θˆ, S h ) . Παραµένει να εξακριβωθεί τι Ας σηµειωθεί ότι log p ( DN | Φ είναι το d και πώς µπορεί να υπολογιστεί. Για ένα γραµµικό µετασχηµατισµό j : R n → R m , ο µετασχηµατισµός είναι µια µήτρα µεγέθους n × m . Η διάσταση d της εικόνας του j ισούται µε την τάξη του πίνακα. Όταν k : R n → R m είναι µια λεία απεικόνιση, µπορεί να προσεγγισθεί τοπικά ως ένας γραµµικός µετασχηµατισµός, όπου η Ιακωβιανή µήτρα J (x) λειτουργεί ως η µήτρα γραµµικού µετασχηµατισµού για τη γειτονιά του x ∈ R n . Η διάσταση της εικόνας του k σε µια µικρή περιοχή γύρω από το k (x) είναι η τάξη του J (x) . Αυτή η παρατήρηση παραµένει ισχυρή όταν η τάξη της Ιακωβιανής µήτρας δεν µεταβάλλεται σε µια µικρή σφαίρα γύρω από το x, οπότε το x ονοµάζεται σύνηθες σηµείο (regular point). Επιστρέφοντας στο πρόβληµά µας, η απεικόνιση από τη θ στη W είναι µια πολυωνυµική συνάρτηση της θ. Άρα, όπως το επόµενο θεώρηµα δείχνει, η τάξη της Ιακωβιανής µήτρας είναι σχεδόν παντού κάποια σταθερή d, την οποία ονοµάζουµε οµαλή τάξη της Ιακωβιανής µήτρας. Η τάξη αυτή είναι ο αριθµός των non-redundant παραµέτρων της S, δηλαδή η διάσταση της S. Θεώρηµα: Έστω θ οι παράµετροι ενός δικτύου S για τις µεταβλητές Χ µε παρατηρήσιµες µεταβλητές O ⊂ X . Έστω W οι παράµετροι της αληθούς συνδυαστικής κατανοµής των παρατηρήσιµων µεταβλητών. Εάν κάθε παράµετρος ∂θ (θ ) = d στο W είναι πολυωνυµική συνάρτηση των θ, τότε ισχύει ότι rank ∂W σχεδόν παντού, όπου d είναι µια σταθερή. Η τάξη της J (θ ) είναι µικρότερη από d µόνο για τιµές της θ που αποτελούν ρίζες κάποιων από τα πολυώνυµα στη διαγωνιοποιηµένη µήτρα. 10.10.3 Υπολογισµός της τάξης της Ιακωβιανής Στα επόµενα θα επεξηγηθεί ο τρόπος υπολογισµού της τάξης. Το παραπάνω θεώρηµα προτείνει έναν τυχαίο αλγόριθµο για τον υπολογισµό αυτό. Πρώτα υπολογίζεται η Ιακωβιανή µήτρα J (θ ) συµβολικά από την εξίσωση W = g (θ ) . Υπολογισµός αυτός είναι εφικτός αφού το g είναι διάνυσµα πολυωνύµων ως προς θ. Κατόπιν ανατίθεται µια τυχαία τιµή στη θ και η αριθµητική µήτρα J (θ ) διαγωνιοποιείται. Το θεώρηµα εγγυάται ότι, µε πιθανότητα 1, η τάξη που προκύπτει είναι η οµαλή τάξη της J. Για κάθε δίκτυο επιλέγονται, για παράδειγµα, δέκα τιµές για τις θ και καθορίζεται το r ως η µέγιστη των τάξεων που προκύπτουν. 183 Θεωρήστε ως παράδειγµα για ένα αφελές µοντέλο κατά Bayes µε µια κρυµµένη µεταβλητή Η και δύο παρατηρήσιµες µεταβλητές Χ1 και Χ2. Υποθέστε ότι όλες οι µεταβλητές είναι δίτιµες. Το σύνολο παραµέτρων W = g (θ ) δίνεται από τις: wx1 x2 = θ h θ x1 | h θ x2 | h + (1 − θ h )θ x1 | h θ x2 | h wx1 x2 = θ h (1 − θ x1 | h )θ x2 | h + (1 − θ h ) (1 − θ x1 | h )θ x2 | h ) wx1 x2 = θ h θ x1 | h (1 − θ x2 | h ) + (1 − θ h )θ x1 | h (1 − θ x2 | h ) Η 3 x 5 Ιακωβιανή µήτρα γι’ αυτό το µετασχηµατισµό είναι η ακόλουθη, θ h θ x |h θ h θ x1 | h 2 − θ h θ x2 | h θ h θ x1 | h (1 − θ h θ x2 | h ) − θ h θ x1 | h (1 − θ h )θ x2 | h − (1 − θ h )θ x2 | h (1 − θ h )θ x2 | h στην οποία θ xi1 | h − 1 −θ xi | h (1 − θ h )θ x1 | h (1 − θ h )θ x1 | h − (1 − θ h )θ x1 | h θ x | h θ x | h − θ x | h θ x | h θ x |h θ x |h −θ x |h θ x |h θ x | h θ x | h − θ x | h θ x | h 1 2 1 2 1 2 1 2 1 2 1 2 (i = 1, 2) . Οι στήλες αντιστοιχούν σε παραγώγιση ως προς θ x1 | h , θ x2 | h , θ x1 | h , θ x2 | h και θ h αντίστοιχα. Ο συµβολικός υπολογισµός της τάξης της µήτρας είναι εφικτός και δείχνει ότι η οµαλή τάξη είναι ίση µε τη διάσταση της µήτρας, δηλαδή 3. Ωστόσο, όπως αναφέρθηκε παραπάνω, προκειµένου να υπολογιστεί η οµαλή τάξη της µήτρας, απλώς επιλέγονται τυχαίες τιµές για τη θ και διαγωνιοποιείται η αριθµητική µήτρα που προκύπτει. Για αφελή δίκτυα κατά Bayes, µε ένα δυαδικό κρυµµένο ριζικό (root) κόµβο και n ≤ 7 δυαδικούς παρατηρήσιµους µη-ριζικούς κόµβους, αποδεικνύεται ότι το µέγεθος των σχετικών πινάκων είναι (1 + 2n) × (2 n − 1) . Η οµαλή τάξη για n = 3,K, 7 βρίσκεται ότι είναι ίση µε 1+2n, και κάνουµε την υπόθεση ότι αυτή η σχέση δίνει την τάξη για n>2. Για n = 1, 2 η τάξη είναι 1 και 3 αντίστοιχα, που είναι το µέγεθος ολόκληρου του χώρου των παραµέτρων για µία και δύο δίτιµες µεταβλητές αντίστοιχα. Η τάξη δε µπορεί να είναι µεγαλύτερη από 1+2n, αφού αυτή είναι η µέγιστη δυνατή διάσταση της Ιακωβιανής µήτρας. Θεώρηµα: Έστω S ένα αφελές µοντέλο κατά Bayes µε ένα δίτιµο κρυµµένο ριζικό κόµβο και n>2 δίτιµοι παρατηρήσιµοι µη-ριζικοί κόµβοι. Τότε, 2n ≤ r ≤ 2n + 1 όπου r η συνήθης τάξη της Ιακωβιανής µήτρας µεταξύ των παραµέτρων του δικτύου και των παραµέτρων των παρατηρήσιµων µεταβλητών. Η απόδειξη προκύπτει µε διαγωνιοποίηση της Ιακωβιανής µήτρας µε συµβολικό τρόπο και αποδεικνύοντας ότι υπάρχουν τουλάχιστον 2n ανεξάρτητες γραµµές. 184 11. ΑΝΑΦΟΡΕΣ 1. Badsberg JH, Model search in contingency tables by CoCo, in: Y. Dodge, J. Whittaker, Eds., Computational Statistics, COMPSTAT 1992, Neuchatel, Physica Verlag, Heidelberg, pp. 251-256, 1992. 2. Barlow P, Murray L, Teasdale G: Outcome after severe head injury-the Glasgow model, in Corbett WA (eds): Medical applications of microcomputers. Wiley, 1987, pp 105-126. 3. Bayes T. An essay tpwards solving a problem in the doctrine of chances. Biometrika, 46:293-8, 1958. Reprint of Bayes’ 1763 manuscript. 4. Bibbo M, Bartels PH, Pfeifer T, Thompson D, Minimo C, Davidson HG. Belief network for grading prostate lesions. Analytical and Quantitative Cytology and Histology: 15:124-135, 1993 5. Birch MW. Maximum likelihood in three-way contingency tables. J Roy Statist Soc 25:220-3, 1963 6. Bishop YM, Fienberg S, Holland P. Discrete Multivariate Analysis MIT Press, Cambridge, MA, 1975 7. Bishop YM. Full contingency tables, logits and split contingency tables Biometrics 25:19-28 (1969) 8. Buchanan BG, Shortliffe EH (Eds). Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project. Addison-Wesley, Reading, MA, 1984 9. Buntine WL: Operations for learning with graphical models. JAIR 2:159-225, 1994 10. Carrol N. Expert systems for clinical diagnosis: Are they worth the effort? Behavioral Science, 32:274-292, 1987 11. Chatelier G, Zapletal E, Lemaitre D, Menard J, Dagoulet P. The number needed to treat: a clinically useful nomogram in its proper context. Br. Med J 1996; 312: 426-9 12. Cheeseman P. In defense of probability, in: Proceedings of the 9th International Joint Conference on Artificial Intelligence, William Kaufmann, Los Angeles, 1985 13. Chin HL, Cooper GF. Bayesian belief network inference using simulation. In Kanal LN, Lemmer JF and Levitt TS (Eds), Uncertaint in AI 3, pp. 129-148, North Holland, New York, 1989 14. Choi SC, Narayan RK, Anderson RL et al. : Enhanced specificity of prognosis in severe head injury. J Neurosurg 69:381-385, 1988 15. Chow CK, Liu CN, Approximating discrete probability distributions with dependence trees, IEEE Transactions on Information Theory IT-14, (1968), 462-467 185 16. Chow GC: A comparison of the information and posterior probability criteria for model selection. Journal of Econometrics 16:21-33, 1981 17. Christensen R. Log-Linear models. Springer Verlag, 1990. 18. Cohen PR. HeuristicReasoning About Uncertainty: An AI Approach. Pitman, London, 1985 19. Cooper G, Herskovits E: A Bayesian method for the induction of probabilistic networks from data. Machine Learning 9:309-347, 1992 20. Cooper GF. NESTOR: A Computer-Based Medical Diagnostic Aid that Integrates Causal and Probabilistic Knowledge. PhD thesis, Computer Science Department, Stanford University, November 1984. STAN-CS-84-48. 21. Cooper GF. The computational complexity of probabilistic inference using belief networks. Artificial Intelligence, 42:393-405, 1990. 22. Cox DR and Snell EJ. The choice of variables in observational studies. Appl Statistics 23(1):51-59. 1974 23. Cox R. Probability, frequency and reasonable expectation. American Journal of Physics, 14:1-13, 1946 24. Dagum P, Luby M. Approximating probabilistic inference in Bayesian belief networks is NP-hard. Artificial Intelligence, 60:141-153, 1993 25. Darroch JN, Lauritzen SL and Speed TP, Markov fields and log linear interaction models for contingency tables. Ann Stat 8:522-539, 1980 26. Davis R. Consultation, knowledge acquisition, and instruction. In P. Szolovits (ed). Artificial Intelligence in Medicine, pp57-8. Westview Press, Boulder, CO, 1982 27. Davis R. Diagnosis via causal reasoning: Paths of interaction and the locality principle. In Proceedings of the 8th International Joint Conference on Artificial Intelligence, Karlsruhe, West Germany, pp. 88-94. National Conference on Artificial Intelligence, August 1983 28. Dawes RM and Corrigan B. Linear models in decision making Psychological Bulletin, 81:95-106, 1974 29. Dawid AP, Lauritzen SL. Hyper Markov laws in the statistical analysis of decomposable graphical models. Annals of Statistics, 21:1272-1317, 1993 30. de Dombal FT, Leaper DJ, Horrocks JC, Staniland JR and McCain AP. Human and computer-aided diagnosis of abdominal pain: further report with emphasis on performance. British Medical Journal, 1:376-380, 1974. 31. de Dombal FT, Leaper DJ, Staniland JR, McCann AP and Horrocks JC. Computer-aided diagnosis of acute abdominal pain. British Medical Journal, 2:9-13, 1972. 32. de Dombal FT, The diagnosis of acute abdominal pain with computer assistance: Worldwide perspective, Annals Chir. 45, (1991), 273-277. 33. de Finetti B. Theory of Probability. Wiley and Sons, New York, 1970. 186 34. de Kleer J and Williams B. Diagnosis multiple faults. Artificial Intelligence, 32:97-130, 1987. 35. Dempster AP. Elements of Continuous Multivariate Analysis Addison-Wesley, Reading, MA, 1972 36. Dempster AP: Covariance selection. Biometrics 28:157:175, 1972 37. Duda R, Gaschnig J, and Hart P. Model design in the PROSPECTOR consultant system for mineral exploration. In Michie D, editor, Expert Systems in the Microelectronic Age, pages 153-167. Edinburg University Press, Edinburgh, Scotland, 1979. 38. Edwards DE and Havranek T. A fast model selection procedure for large families of models. J Amer Statist Assoc, 82:205-211, 1987 39. Edwards DE and Havranek T. A fast procedure for model search in multidimensional contingency tables. Biometrika, 72(2):339-351, 1985 40. Edwards DE and Kreiner S The analysis of contingency tables by graphical models. Biometrika 70(3):553-565, 1983 41. Edwards DE. Introduction to graphical modelling. Springer Verlag, 1995. 42. Edwards FH and Davies RS, Use of a Bayesian algorithm in the computerassisted diagnosis of appendicitis, Surg. Gynecol. Obstet. 158, (1984), 219222. 43. Eisenberg HM, Gary HE, Aldrich EF et al.: Initial CT findings in 753 patients with severe head injury. J Neurosurg 73:688-698, 1990 44. Elstein AS. Clinical Judgment: Psychological research and medical practice. Science, 194:696-700, 1976 45. Feldman Z, Contant CF, Robertson et al.: Evaluation of the Leeds prognostic score for severe head injury. Lancet 337:1451-1453, 1991 46. Fishburn PC. Subjective expected utility: A review of normative theories. Theory and Decision, 13:139-199,1981. 47. Geiger D, Verma T, Pearl J: Identifying independence in Bayesian Networks. Networks: 20:507-534, 1990 48. Genesereth M. The use of design descriptions in automated diagnosis. Artificial Intelligence, 24:311-319,1984. 49. Gibson RM, Stephenson GC: Aggressive management of severe closed head trauma: time for reappraisal. Lancet :369-371, 1989 50. Goodman LA. On partitioning and detecting partial association in three way contingency tables J Roy Statist Soc B 31(3):486-98, 1969 51. Goodman LA. Partitioning of chi-square, analysis of marginal contingency tables and estimation and expected frequencies in multidimensional contingency tables J Amer Statist Assoc 66:339-344, 1971 52. Goodman LA. The multivariate analysis of qualitative data: interaction among multiple classifications J Amer Statist Assoc 65:226-256, (1970) 53. Gorry GA and Barnett GO. Experience with a model of sequential diagnosis. Computers and Biomedical Research, 1:490-507, 1968. 187 54. Gorry GA. Computer-assisted clinical decision making. Methods of Information in Medicine, 12:45-51,1973. 55. Haberman SJ. The analysis of Frequency Data Univ. Chicago Press: Chicago, 1974 56. Hamilton PW, Anderson N, Bartels PH, Thompson D: Expert system support using Bayesian belief networks in the diagnosis of fine needle aspiration biopsy specimens of the breast. J Clin Pathol: 47:329-336, 1994 57. Hammond KR. Towards a unified approach to the study of expert judgment. In Mumpower JL, editor, Expert Judgment and Expert Systems, pages 1-16. Springer-Verlag, Berlin, Heidelberg, 1987. 58. Harris NL, Probabilistic belief networks for genetic counseling, Computer Methods and Programs in Biomedicine 32, (1990), 37-44. 59. Havranek T. A procedure for model search in multi-dimensional contingency tables. Biometrics 40:95-100, 1984 60. Heckerman D, Chickering DM: A comparison of scientific and engineering criteria for Bayesian model selection. Technical Report, Microsoft MSR-TR96-12, 1996 61. Heckerman D, Geiger D, Chickering D: Learning Bayesian Networks: the combination of knowledge and statistical data. Technical Report, Microsoft MSR-TR-94-09, 1994 62. Heckerman D, Probabilistic interpretations for MYCIN’s certainty factors. Uncertainty in Artificial Intelligence (North-Holland, 1986). 63. Heckerman DE and Horvitz EJ. On the expressiveness of rule-based systems for reasoning under uncertainty. In Prodeedings AAAI-87 Sixth National Conference on Artificial Intelligence, Seattle, WA, pages 121-126. Morgan Kaufmann, San Mateo, CA, July 1987. 64. Heckerman DE. An empirical comparison of three inference methods. In Shachter R, Levitt TS, Lemmer J, and Kanal LN, editors, Uncertainty in Artificial Intelligence 4. North Holland, New York, 1990. 65. Henrion M, Pradhan M, Del Favero B, Huang K, Provan G and O'Rorke P, Why is diagnosis using belief networks insensitive to imprecision in probabilities?, in: Proceedings of the 12th Conference on Uncertainty in Artificial Intelligence, 1996, (Morgan Kaufmann, San Francisco). 66. Henrion M. Propagation of uncertainty by Bayesian networks by probabilistic logic sampling. In J. F. Lemmer and L. N. Kanal, editors, Uncertainty in Artificial Intelligence 2, pages 149-163. Elsevier/North-Holland, Amsterdam, London, New York, 1988. 67. Horvitz EJ and Heckerman DE. The inconsistent use of measures of certainty in artificial intelligence research. In kanal LN and Lemmer JF, editors, Uncertainty in Artificial Intelligence, pages 137-151. North Holland, new York, 1986. 188 68. Horvitz Ej, Heckerman DE, and Langlotz CP. A framework for comparing alternative formalisms for plausible reasoning. In Proceedings AAAI-86 Fifth National Conference on Artificial Intelligence, Philadelphia, PA, pages 210214. Morgan Kaufmann, San Mateo, CA, August 1986. 69. Howard RA and Matheson JE. Influence diagrams. In Howard RA and Matheson JE, editors, Readings on the Principles and Applications of Decisions Analysis, volume II, pages 721-762. Strategic Decisions Group, Menlo Park, CA, 1981. 70. Jennett B, Bond M: Assessment of outcome after severe brain damage. Lancet i:480-484, 1975 71. Jennett B, Teasdale G: Management of head injuries, F. A. Davis Co. Philadelphia, 1981 72. Jensen FV, Lauritzen SL, Olesen KG. Bayesian updating in causal probabilistic networks by local computations. Computational Statistics Quarterly 1990; 4:269-282. 73. Kahneman D, Slovic P, and Tversky A, editors. Judgment Under Uncertainty: Heuristics and Biases. Cambridge University Press, New York, 1982. 74. Keeney RL and Raiffa H. Decisions with Multiple Objectives: Preferences and Value Trade-offs. Wilwy and Sons, New York, 1976. 75. Kiiveri H, Speed TP and Carlin JB. Recursive causal models. Journal of the Australian Mathematical Society A, 36:30-52, 1984 76. Kim JH and Pearl J. A computational model for combined causal and diagnostic reasoning in inference systems. In Proceedings of the Eighth International Joint Conference on Artificial Intelligence (IJCAI), pages 190193, Los Angeles, 1983. 77. Kooperberg C, Bose S and Stone CJ, Polychotomous regression, Journal of the American Statistical Association 92, (1997), 117-127. 78. Kreiner S. Graphical modelling using DIGRAM. Research report 11/89, Statistical Research Unit, Univ. of Copenhagen 1989 79. Kruse JA, Thill-Baharozian MC, Carlson RW: Comparison of clinical assessment with APACHE II for predicting mortality risk in patients admitted in a medical intensie care unit. JAMA 260:1739-1742, 1988 80. Lam W, Bacchus F. Learning Bayesian belief networks. An approach based on the MDL principle. Computational Intelligence 1994; 10:269-293. 81. Lauritzen SL and Spiegelhalter DJ. Fast manipulation of probabilities with local representations with applications to expert systems. Technical Report R87-7, Institute of Electronic Systems. Aalborg University, 1987 82. Lauritzen SL and Spiegelhalter DJ. Local computations with probabilities on graphical structures and their applications to expert systems (with discussion) J Roy Statist Soc B 50(2): 157-224, 1988 189 83. Lauritzen SL and Wermuth N. Mixed interaction models. Research Report R84-8. Institute of Electronic Systems. Aalborg University, 1984 84. Lauritzen SL, Dawid AP, Larsen BN, Leimer HG. Independence properties of directed Markov fields. Networks 1990; 20:491-505. 85. Lauritzen SL, Thiesson B, Spiegelhalter DJ: Lecture notes in Statistics, in Cheeseman P, Oldford R, (eds) Selecting Models from Data: Artificial Intelligence and Statistics IV. Springer Verlag, New York, pp. 143-152. 86. Lauritzen SL, Wermuth N: Graphical models for associations between variables, some of which are qualitative and some quantitative. Annals of Statistics 17:31-57, 1989 87. Lemmer JF. Generalized Bayesian updating of incompletely specified distributions. Large Scale Systems, 5, 1983. 88. Lim TS, Loh WY and Shih YS, A comparison of prediction accuracy, complexity and training time of thirty-three old and new classification algorithms, Machine Learning 89. Luerssen TG, Klauber MR, Marshall LF: Outcome from head injury related to patient's age : a longitudinal prospective study of adult and pediatric head injury. J Neurosurg 68:409-416, 1988 90. Markov AA. Izvestia Phys-Math Society, Kazan Univ, 15(7), 1906 91. Marshall LF, Bowers Marshall S, Klauber MR et al.: A new classification of head injury based on computerized tomography. J Neurosurg 75:S14-S20, 1991 92. McDermott J. R1: A rule-based configurer of computer systems. Artificial Intelligence, 19:39-88, 1982. 93. Minsky M. A framework for representing knowledge. In: P. Winston (ed). The psuchology of computer vision. New YorkQ McGraw-Hill, 1975: pp.21177 94. Montironi R, Bartels PH, Hamilton PW and Thompson D. Atypical adenomatous hyperplasia (adenosis) of the prostate: development of a Bayesian belief network for its distinction from well-differentiated adenocarcinoma, Human Pathology 27, (4), (1996), 396-407. 95. Montironi R, Bartels PH, Thompson D, Diamanti L and Prete E, Androgendeprived prostate adenocarcinoma: evaluation of treatment-related changes versus no distinctive treatment effect with a Bayesian belief network. A methodological approach, European Urology 30, (3), (1996), 307-315. 96. Montironi R, Bartels PH, Thompson D, Scarpelli M, and Hamilton PW, Prostatic intraepithelial neoplasia (PIN). Performance of Bayesian belief network for diagnosis and grading, Journal of Pathology 177, (2), (1995), 153-162. 97. Montironi R, Diamanti L, Pomante R, Thompson D and Bartels PH, Subtle changes in benign tissue adjacent toprostate neoplasia detected with a Bayesian belief network, Journal of Pathology 182, (4), (1997), 442-449. 98. Neapolitan RE, Probabilistic Reasoning in Expert Systems: Theory and Algorithms , (John Wiley & Sons, New York. 1990). 190 99. Olmsted SM. On Representing and Solving Decisions Problems. PhD thesis, Department of Engineering – Economic Systems, Stanford University, December 1983. 100. Owen DL. The use of influence diagrams in structuring complex decision problems. In Howard RA and Matheson JE, editors, Readings on the Principles and Applications of Decision Analysis, volume II chapter 38, pages 763-771. Strategic decisions Group, Menlo Park, Ca.,1978. 101. Parkan C, Hollands L: The use of efficiency linear programs for sensitivity analysis in medical decision making. Med Decis Making 10:116-125, 1990 102. Patefield WM. Algorithm AS 159. An efficient method of generating random r x c tables with given row and column totals. Applied Statistics 1981; 30:9197. 103. Patrick EA. Review of pattern recognition in medicine. IEEE Transactions on Systems, Man and Cybernetics,6,1977. 104. Pauker SG, Gorry GA, Kassirer JP, Schwartz WB. Towards the simulation of clinical cognition. Taking a present illness by computer. Am J Med 1976; 60:981-96 105. Pearl J and Verma T. The logic of representing dependencies by directed graphs. In Proceedings of the Sixth National Conference on AI (AAAI), pages 347-379, Seattle, 1987. 106. Pearl J, Causal diagrams for empirical research, Biometrika 82, (1995), 669710. 107. Pearl J. Evidential reasoning using stochastic simulation of causal models. Artificial Intelligence, 32(2):245-257, 1987. 108. Pearl J. Fusion, propagation and structuring in belief networks. Artificial Intelligence, 29(3):241-288, 1986. 109. Pearl J. Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann, San Mateo, California; 1988. 110. Pearl J: Probabilistic Reasoning in Intelligent Systems, Morgan Kaufman, San Mateo, California. 1988. 111. Peng Y. A formalization of parsimonious covering and probabilistic reasoning in abductive diagnostic inference. PhD thesis, Dept. of Computer Science, University of Maryland, 1986. TR-1615 112. Raiffa H. Decision Analysis: Introductory Lectures on Choice Under Uncertainty. Addison-Wesley, reading, Ma., 1968. 113. Reggia JA. Diagnostic expert systems based on a set covering model. International Journal of Man-Machine Studies, 19:437-460, 1983. 114. Roberts L, Kahn Jr CE and Haddawy P. Development of a Bayesian network for diagnosis of breast cancer, Working notes of the IJCAI workshop on building probabilistic networks, 1995. 115. Rousseau WF. A method for computing probabilities in complex situations. Technical Report 6252-2, Center for Systems research, Stanford University, Stanford, CA, May 1968. 191 116. San Martini A, Spezzaferi F: A predictive model selection criterion. J. R. Statist. Soc B 46:296-303, 1984 117. Schachter RD. Probabilistic inference and influence diagrams. Operations Research, 36:589-604, 1988 118. Seroussi B, Computer-aided diagnosis of acute abdominal pain when taking into account interactions, Methods of Information in Medicine 25, (1986), 194-198. 119. Shachter RD and Heckerman DE. Thinking backward for knowledge acquisition. AI Magazine, 8:55-63, 1987. 120. Shafer G. Probability judgment in artificial intelligence. In Kanal LN and Lemmer JF, editors, Uncertainty in Artificial Intelligence. North-Holland, New York, 1986. 121. Shortliffe EH. Computer-based Medical Consultation: MYCIN. New York: American Elsevier, 1976 122. Spiegelhalter DJ and Knill-Jones RP. Statistical and Knowledge-based approaches to clinical decision support systems, with an application in gastroenterology. Journal of the Royal Statistical Society, 147:35-77,1984. 123. Stone M, Cross-validatory choice and assessment of statistical predictions (with discussion), Journal of the Royal Statistical Society (series B) 36, (1974), 111-147. 124. Szolovits P and Pauker SG. Categorical and probabilistic reasoning in medical diagnosis. Artificial Intelligence, 11:115-144, 1978. 125. Szolovits P. Artificial intelligence in medicine. In Szolovits P, editor, Artificial Intelligence in Medicine, pages 1-19. Westview Press, boulder, CO, 1982 126. Teasdale E, Cardoso E, Galbraith S et al.: CT scan in severe diffuse head injury: physiological and clinical correlations. Journal of Neurology, Neurosurgery and Psychiatry 47:600-603, 127. Teasdale G, Jennett B: Assessment of coma and impaired consciousness. A practical scale. Lancet, 2(7872):81-84, 1974 128. Todd BS and Stamper R. The relative accuracy of a variety of medical diagnostic programs, Methods of Information in Medicine 33 (4), (1994), 402416. 129. Toutant SM, Klauber MR, Marshall LF et al.: Absent or compressed basal cisterns on first CT scan: ominous predictors of outcome in severe head injury. J Neurosurg 61:691-694, 1984 130. van Dongen KJ, Braakman R, Gelpke GJ: The prognostic value of computerized tomography in comatose head-injured patients. J Neurosurg 59:951-957, 1983 131. von Winterfeldt D and Edwards W. Decision Analysis and Behavioral Research. Cambridge University Press, New York, 1986. 192 132. Warner HR, Toronto AF, Veasy LG, and Stephenson R. A mathematical approach to medical diagnosis: Application to congenital heart disease. Journal of the American Medical Association, 177:177-183, 1961. 133. Wermuth N and Lauritzen SL. Graphical and recursive models for contingency tables. Biometrika 70(3):537-552, 1983 134. Wermuth N. Analogies between multiplicative models in contingency tables and covariance selection, Biometrics 32:95-108, 1976 135. Wermuth N. Linear recursive equations, covariance selection and path analysis J amer Stat Ass 75:963-972, 1980 136. Wermuth N. Model search among multiplicative models. Biometrics, 32:253263, 1976 137. Whittaker J. Fitting all possible decomposable and graphical models to multiway contingency tables. In Havranek T. et al. (Eds) Comp-stat, PhysicaVerlag, Vienna, pp.401-6, 1984 138. Whittaker J. Graphical models in applied multivariate statistics. Wiley, 1990 139. Wright S. Correlation and causation. J Agric Res 20:557-85, 1921 140. Zadeh LA. The role of fuzzy logic in the management of uncertainty in expert systems. Fuzzy Sets and Systems, 11:199-227, 1983. 141. Zhang NL, Poole D. Exploiting causal independence in Bayesian network inference. JAIR 1996; 5:301-328. 193
© Copyright 2024 Paperzz