πανεπιστημιο πατρων τμημα ιατρικης – τμημα φυσικης ∆ιατμηματικο

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ
ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ – ΤΜΗΜΑ ΦΥΣΙΚΗΣ
∆ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ
ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ∆ΩΝ ΣΤΗΝ ΙΑΤΡΙΚΗ ΦΥΣΙΚΗ
∆ΙΕΥΘΥΝΤΗΣ: Καθ. ΓΕΩΡΓΙΟΣ ΝΙΚΗΦΟΡΙ∆ΗΣ
«ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΥΠΟΣΤΗΡΙΞΗΣ ΙΑΤΡΙΚΩΝ
ΑΠΟΦΑΣΕΩΝ ΜΕΣΩ ∆ΙΚΤΥΩΝ ΠΕΠΟΙΘΗΣΗΣ ΓΙΑ ΤΗΝ
ΠΡΟΓΝΩΣΗ ΑΣΘΕΝΩΝ ΜΕ ΚΡΑΝΙΟΕΓΚΕΦΑΛΙΚΕΣ ΚΑΚΩΣΕΙΣ»
ΓΕΩΡΓΙΟΣ Χ. ΣΑΚΕΛΛΑΡΟΠΟΥΛΟΣ
∆Ι∆ΑΚΤΟΡΙΚΗ ∆ΙΑΤΡΙΒΗ
ΠΑΤΡΑ 2000
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ
ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ – ΤΜΗΜΑ ΦΥΣΙΚΗΣ
∆ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ
ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ∆ΩΝ ΣΤΗΝ ΙΑΤΡΙΚΗ ΦΥΣΙΚΗ
∆ΙΕΥΘΥΝΤΗΣ: Καθ. ΓΕΩΡΓΙΟΣ ΝΙΚΗΦΟΡΙ∆ΗΣ
«ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΥΠΟΣΤΗΡΙΞΗΣ ΙΑΤΡΙΚΩΝ
ΑΠΟΦΑΣΕΩΝ ΜΕΣΩ ∆ΙΚΤΥΩΝ ΠΕΠΟΙΘΗΣΗΣ ΓΙΑ ΤΗΝ
ΠΡΟΓΝΩΣΗ ΑΣΘΕΝΩΝ ΜΕ ΚΡΑΝΙΟΕΓΚΕΦΑΛΙΚΕΣ ΚΑΚΩΣΕΙΣ»
ΓΕΩΡΓΙΟΣ Χ. ΣΑΚΕΛΛΑΡΟΠΟΥΛΟΣ
∆Ι∆ΑΚΤΟΡΙΚΗ ∆ΙΑΤΡΙΒΗ
ΠΑΤΡΑ 2000
ΤΡΙΜΕΛΗΣ ΣΥΜΒΟΥΛΕΥΤΙΚΗ ΕΠΙΤΡΟΠΗ
1.
2.
3.
Γεώργιος Νικηφορίδης, Καθηγητής (1)
Γεώργιος ∆άσιος, Καθηγητής
(Επιβλέπων Καθηγητής)
(2)
Νικόλαος Παπαδάκης, Καθηγητής
(Μέλος Τριµελούς Επιτροπής)
(1)
(Μέλος Τριµελούς Επιτροπής)
ΕΠΤΑΜΕΛΗΣ ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ
1.
2.
Γεώργιος Νικηφορίδης, Καθηγητής (1)
Γεώργιος ∆άσιος, Καθηγητής
(Μέλος Τριµελούς Επιτροπής)
(1)
3.
Νικόλαος Παπαδάκης, Καθηγητής
4.
Παναγιώτης Πιντέλας, Καθηγητής (3)
5.
6.
7.
(Επιβλέπων Καθηγητής)
(2)
Αθανάσιος Τσακαλίδης, Καθηγητής
(Μέλος Τριµελούς Επιτροπής)
(Μέλος Επταµελούς Εξεταστικής Επιτροπής)
(4)
Αθανάσιος Σκόδρας, Αναπλ. Καθηγητής
(Μέλος Επταµελούς Εξεταστικής Επιτροπής)
(5)
(Μέλος Επταµελούς Εξεταστικής Επιτροπής)
Βασίλειος Αναστασόπουλος, Επικ. Καθηγητής
(5)
(Μέλος Επταµελούς Εξεταστικής Επιτροπής)
(1)
:
Τµήµα Ιατρικής
(2)
:
Τµήµα Χηµικών Μηχανικών
(3)
:
Τµήµα Μαθηµατικών
(4)
:
Τµήµα Ηλεκτρολόγων Μηχανικών
(5)
:
Τµήµα Φυσικής
Στη µητέρα µου
και
στη µνήµη του πατέρα µου
ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ
ΕΙΣΑΓΩΓΗ ..................................................................................................................3
ΓΕΝΙΚΟ ΜΕΡΟΣ ........................................................................................................7
1. ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ..............................................................7
2. ΤΕΧΝΙΚΕΣ ΑΝΑΛΥΣΗΣ ΑΠΟΦΑΣΕΩΝ ΣΤΗΝ ΙΑΤΡΙΚΗ ................................23
3. ΓΡΑΦΙΚΑ ΜΟΝΤΕΛΑ – ΓΡΑΦΗΜΑΤΑ ΑΝΕΞΑΡΤΗΣΙΑΣ ...............................59
4. ΛΟΓΑΡΙΘΜΙΚΑ-ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ .........................................................73
5. ∆ΙΚΤΥΑ ΚΑTΑ BAYES ......................................................................................107
ΕΙ∆ΙΚΟ ΜΕΡΟΣ .....................................................................................................117
6. ΕΜΠΕΙΡΟ ΣΥΣΤΗΜΑ ΓΙΑ ΠΡΟΓΝΩΣΗ ΑΣΘΕΝΩΝ ΜΕ ΚΕΚ .......................117
7. ΣΥΜΠΕΡΑΣΜΑΤΑ ..............................................................................................149
8. ΠΕΡΙΛΗΨΗ ...........................................................................................................151
9. SUMMARY...........................................................................................................153
10. ΠΑΡΑΡΤΗΜΑ: ΜΑΘΗΣΗ ∆ΟΜΗΣ ΚΑΙ ΠΑΡΑΜΕΤΡΩΝ .............................155
11. ΑΝΑΦΟΡΕΣ ........................................................................................................185
2
ΕΙΣΑΓΩΓΗ
Η καλή ιατρική πράξη στηρίζεται στη σωστή ιατρική απόφαση, και αυτή µε την σειρά
της στηρίζεται στην εκµετάλλευση όλων των πληροφοριών που έχει ο γιατρός στη
διάθεσή του. Στο παρελθόν, οι διαθέσιµες πληροφορίες ήσαν περιορισµένες και είχαν
σχέση κυρίως µε τα στοιχεία της φυσικής εξέτασης (συµπτώµατα, σηµεία κ.λ.π.). και
µε κάποια απλά εργαστηριακά ευρήµατα. Σήµερα τα πράγµατα έχουν αλλάξει,
υπάρχει ένα µεγάλο πλήθος εργαστηριακών µεταβλητών, σηµάτων, εικόνων κ.λ.π.
που θα πρέπει να ληφθούν υπόψη από το γιατρό συνδυαστικά.
Η κατάσταση αυτή δηµιουργεί την αναγκαιότητα ενός νέου τύπου διαχείρισης της
πληροφορίας καθώς επίσης πιο σύνθετες προσεγγίσεις στη λήψη της ιατρικής
απόφασης που χρησιµοποιούν την µοντέρνα µεθοδολογία και τεχνολογία της
πληροφορικής. Η ώθηση που έχει δώσει η πληροφορική στην κλινική έρευνα, µε τη
σχεδίαση σχεσιακών βάσεων δεδοµένων και µε τα συστήµατα στατιστικής ανάλυσης,
είναι καθοριστική. Εξελιγµένα εργαλεία στήριξης αποφάσεων άρχισαν να
αναπτύσσονται στα ερευνητικά εργαστήρια και είναι σχεδόν βέβαιο ότι θα έχουν
βαθιά επίδραση στον τρόπο εξάσκησης της Ιατρικής, στο µέλλον.
Η παρούσα διατριβή ασχολείται µε την ανάπτυξη ενός έµπειρου συστήµατος,
βασιζόµενου σε ∆ίκτυο Πεποίθησης, στο χώρο της Ιατρικής και συγκεκριµένα στην
πρόγνωση των ασθενών µε κρανιοεγκεφαλικές κακώσεις. Το σύστηµα αυτό βασίζεται
τόσο σε κλινικά όσο και εργαστηριακά ευρήµατα και κάνει εκτίµηση της πορείας του
ασθενή, σύµφωνα µε την Κλίµακα Έκβασης της Γλασκώβης.
Με γνώµονα τις επιδόσεις ενός συστήµατος που επιτελεί κατηγοριοποίηση
(classification) υπό καθεστώς αβεβαιότητας, θα µπορούσε κανείς να επιλέξει από
τεχνικές που είναι γνωστό ότι είναι ιδιαίτερα επιτυχείς.
Τα Νευρωνικά ∆ίκτυα, για παράδειγµα, που θεωρητικά προσοµοιώνουν λειτουργίες
του ανθρώπινου εγκεφάλου, θα ήταν προτιµητέα, µια που έχουν ως πλεονέκτηµα τη
δυνατότητα της µάθησης από την εµπειρία που αποκτούν. Τα Νευρωνικά ∆ίκτυα
εκπαιδεύονται µε ένα ποσό πληροφορίας και την αξιοποιούν για να βελτιώσουν την
επίδοσή τους στην πρόβλεψη νέων περιστατικών. Η υλοποίησή τους είναι σχετικά
εύκολη ενώ τα ποσοστά επιτυχών προβλέψεών τους είναι υψηλά.
Το µοντέλο όµως που ακολουθούν για την οικοδόµηση και λειτουργία τους, είναι
ξένο προς την ιατρική σκέψη. Τα Νευρωνικά ∆ίκτυα αντιµετωπίζονται από το χρήστη
ως «µαύρα κουτιά». Επιτυγχάνουν µεν σωστές κατηγοριοποιήσεις, αλλά ο τρόπος
είναι αδιαφανής ή πάντως όχι αντιληπτός από τον χρήστη. Ως αποτέλεσµα, δεν
τυγχάνουν της εµπιστοσύνης του ιατρού-χρήστη και τελικώς δεν καταφέρνουν να
γίνουν εργαλείο στην καθηµερινή κλινικί πρακτική του
Μια άλλη διαδεδοµένη µεθοδολογία για αντίστοιχους στόχους κατηγοριοποίησης
είναι τα συστήµατα που βασίζονται σε κανόνες (rule-based systems). Είναι
συστήµατα (βλ. Κεφ. 2) µε µεγάλη ιστορία στο χώρο της Τεχνητής Νοηµοσύνης και
ευρεία χρήση σε συστήµατα διάγνωσης µηχανικών και ηλεκτρονικών σφαλµάτων. Σε
αντίθεση µε τα Νευρωνικά ∆ίκτυα, ο τρόπος διαχείρισης της πληροφορίας και η
διαδικασία κατηγοριοποίησης είναι διαφανής στο χρήστη. Με την εφαρµογή µιας
σειράς κανόνων, οι οποίοι εισάγονται από ειδικούς του πεδίου εφαρµογής του
συτήµατος, καταφέρνουν και αυτά να έχουν υψηλές επιδόσεις.
3
Έχει όµως αποδειχθεί ότι η φύση της ιατρικής πληροφορίας έχει ιδιαιτερότητες και η
διαχείριση της µε µια σειρά από κανόνες είναι –µε την εξαίρεση κάποιων
περιπτώσεων– αδύνατη. Πέρα από τη γενικά παραδεκτή πολυπλοκότητα των
µηχανισµών οι οποίοι εµπλέκονται σε κάθε ιατρικό πρόβληµα, το καθεστώς
αβεβαιότητας κάτω από το οποίο συλλέγεται η ιατρική πληροφορία, καθιστά τέτοιου
είδους συστήµατα είτε µη αποτελεσµατικά, είτε ανελαστικά στις παραδοχές που
υιοθετούν.
Η επιλογή της συγκεκριµένης µεθοδολογίας, των ∆ικτύων Πεποίθησης ή Bayesian
Networks, δε βασίστηκε τόσο σε επιχειρήµατα επίδοσης –σε όρους επιτυχών
προβλέψεων– όσο στο ότι είναι απόλυτα συµβατή µε τον τρόπο σκέψης του τελικού
αποδέκτη και χρήστη ενός τέτοιου συστήµατος, δηλαδή του ιατρού.
Κατά την διαδικασία της διάγνωσης, τα βήµατα της ιατρικής σκέψης, είναι τα
ακόλουθα:
Αρχικά, η εµπειρία του ιατρού, του δίνει µια –έστω και ποιοτική– εκτίµηση της
σπανιότητας κάθε νόσου από την οποία ίσως πάσχει ο υπό εξέταση ασθενής. Με τα
πρώτα δεδοµένα που λαµβάνει, ως κλινικά σηµεία και συµπτώµατα, διατυπώνει µια
υπόθεση εργασίας, αναφορικά µε την πιθανή νόσο. Στη συνέχεια, τα υπόλοιπα
δεδοµένα αξιοποιούνται από τον ιατρό, προκειµένου είτε να επιβεβαιώσει/απόρρίψει
την υπόθεση εργασίας, είτε να διατυπώσει νέες υποθέσεις. Μέσα από τα δεδοµένα
που λαµβάνει, η πεποίθηση που έχει για τη νόσο, τροποποιείται συνεχώς και αναζητά
νέες εξετάσεις, κατά προτίµηση εκείνες που έχουν την µεγαλύτερη αξία πληροφορίας,
που θα τον βοηθήσουν πιο εύκολα να φτάσει σε µια υψηλή πεποίθηση για την
αληθεια ή το ψεύδος της υπόθεσής του.
Στην καθηµερινή του κλινική πράξη, ο ιατρός κάνει χρήση εννοιών όπως
«ευαισθησία», «ειδικότητα» και «προβλεπτική αξία» ενός τεστ. Ουσιαστικά,
µεταχειρίζεται έναν µηχανισµό µε τον οποίο τα αποτελέσµατα των εξετάσεων που
διατάσσει, συνδυάζονται µε τον καλύτερο τρόπο ώστε να τροποποιήσουν την
πεποίθησή του. Αυτός ο µηχανισµός, ο κανόνας του Bayes, που ο ιατρός είναι
εκπαιδευµένος να εφαρµόζει, αποτελεί το βασικό στοιχείο της µεθοδολογίας των
∆ικτύων Πεποίθησης.
Σε αντίθεση µε τις άλλες τεχνικές που αναφέρθηκαν παραπάνω, τα δίκτυα
πεποίθησης διαχειρίζονται την αβεβαιότητα µε έναν σαφή και ρητό τρόπο.
Λαµβάνουν υπ’ όψιν τους την εξάρτηση µεταξύ των µεταβλητών του προβλήµατος,
και όχι µόνο προσφέρουν µια κατανοµή πιθανότητας στις διάφορες κατηγορίες αλλά
και επιτρέπουν την εισαγωγή υποκειµενικής (αβέβαιας) πληροφορίας την οποία και
συνυπολογίζουν.
Είναι λοιπόν σαφές ότι ένα σύστηµα που εφαρµόζει την ίδια µε τον ιατρό
µεθοδολογική προσέγγιση στο πρόβληµα, κερδίζει την εµπιστοσύνη του και µπορεί
στα χέρια του όχι µόνο να αποτελέσει εργαλείο υποστηρικτικό του λειτουργήµατός
του, αλλά και αφορµή για κωδικοποίηση της σκέψης του. Αν επιπλέον ένα τέτοιο
σύστηµα µπορεί να αξιοποιήσει τη συσσωρευµένη πληροφορία που υπάρχει σε
βάσεις δεδοµένων και να εκπαιδευτεί από αυτή, τότε θα µπορεί να λειτουργήσει και
ως ένα σύστηµα µεταφοράς της εµπειρίας αυτής σε αποµακρυσµένα κλινικά
περιβάλλοντα.
Στο Γενικό Μέρος περιγράφεται η φύση της Ιατρικής πληροφορίας, δίνονται οι
βασικές έννοιες της πιθανοκρατικής συλλογιστικής και αναπτύσσονται οι τεχνικές
ανάλυσης αποφασεων στην Ιατρική. Το υπόλοιπο του Γενικού Μέρους έχει σαν
4
αντικείµενο την µοντελοποίηση της Ιατρικής πληροφορίας µε επικέντρωση στα
γραφικά µοντέλα αναπαράστασης της πληροφορίας και ιδιαίτερα στα γραφικά
λογαριθµικά-γραµµικά µοντέλα. Γίνεται µια προσπάθεια διαφορετικής προσέγγισης
των πολυπαραγοντικών προβληµάτων που συναντώνται στην Ιατρική πράξη και που
συνήθως αντιµετωπίζονται µε τις κλασσικές στατιστικές τεχνικές της Multivariate
Analysis.
Τα ∆ίκτυα Πεποίθησης εισάγονται στο Γενικό Μέρος και αναλύονται στο Ειδικό
Μέρος µέσω της µελέτης του συγκεκριµένου προβλήµατος,δηλαδή της πρόγνωσης
ασθενών µε ΚΕΚ. Ξεχωριστά συστήµατα αναπτύχθηκαν αναφορικά µε τους ασθενείς
των Εξωτερικων Ιατρείων και της Μονάδας Εντατικής Θεραπείας. Οι επιδόσεις τους,
συγκρινόµενες τόσο µε αυτές έµπειρων ιατρών αλλά και άλλων τεχνικών
αναφέρονται αναλυτικά.
Η πρώτη µου επαφή µε το χώρο των ∆ικτύων Πεποίθησης έγινε το Καλοκαίρι του
1994, στο πλαίσιο της διπλωµατικής µου εργασίας για το Μεταπτυχιακό ∆ίπλωµα
Ειδίκευσης στην Ιατρική Φυσική.
Σε αυτή µου την εξαετή (συνολικά) προσπάθεια, είχα τη βοήθεια πολλών, τόσο σε
επιστηµονικό αλλά και ψυχολογικό επίπεδο. Οι καθηµερινές επαφές µε τον
Επιβλέποντα Καθηγητή µου κ. Γεώργιο Νικηφορίδη αποτέλεσαν πηγή έµπνευσης,
ιδίως τις δύσκολες εκείνες µέρες που όλοι οι υποψηφίοι διδάκτορες κάποτε περνούν,
τότε που νοµίζουν ότι φτάνουν σε αδιέξοδο. Από το χώρο της Νευροχειρουργικής,
έτυχα της αµέριστης συµπαράστασης όλων ανεξαίρετα των Ιατρών, και ιδίως του κου
Κωνσταντίνου Κωνσταντογιάννη, του οποίου η συνδροµή στη διαδικασία συλλογής
των δεδοµένων υπήρξε αποφασιστική. Ο Καθηγητής κ. Νικόλαος Παπαδάκης
συνέβαλε καταλυτικά στην κατανόηση από µέρους µου εκείνων των εννοιών της
Νευροχειρουργικής που ήταν απαραίτητες για την έρευνα αυτή. Η συνεισφορά του
Καθηγητή κου Γεώργιου ∆άσιου ήταν ιδιαίτερα σηµαντική, καθώς οι µαθηµατικές
απαιτήσεις της έρευνας στα ∆ίκτυα Πεποίθησης είναι υψηλές.
Η έρευνα που διεξήχθη στο πλαίσιο αυτής της διδακτορικής διατριβής οδήγησε στη
δηµοσίευση τριών πλήρων εργασιών σε διεθνή επιστηµονικά περιοδικά µε κριτές και
µια πλήρη δηµοσίευση σε διεθνές Συνέδριο:
1. Sakellaropoulos G, Nikiforidis G, “Comparison of prognostic performance of
two expert systems based on Bayesian belief networks”, Decision Support
Systems, 27(4):431-442 (2000).
2. Sakellaropoulos G, Nikiforidis G, “Development of a Bayesian Network in the
prognosis of head injuries using graphical model selection techniques”,
Methods of Information in Medicine, 38: 37-42 (1999).
3. Nikiforidis G, Sakellaropoulos G, “Expert system support using Bayesian
Belief Networks in the prognosis of head-injured patients of the ICU”,
Medical Informatics, 23(1): 1-18 (1998).
4. Sakellaropoulos G, Antonopoulos P, Papadakis N, Nikiforidis G, “Belief
networks in head injury prognosis”, Health Telematics ’95 Proceedings,
pp.339-344 (1995).
5
6
ΓΕΝΙΚΟ ΜΕΡΟΣ
1. ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ
1.1 Φύση της Ιατρικής πληροφορίας
Η κλινική πληροφορία έχει ένα χαρακτήρα σαφώς διαφορετικό από αυτόν της
πληροφορίας που χρησιµοποιείται στην Φυσική, την Χηµεία ή την Μηχανολογία.
Αυτή η διαφορετικότητα είναι προϊόν πολλών λόγων και έχει να κάνει αφενός µε τα
αντικείµενα της Ιατρικής επιστήµης και αφετέρου µε την τελείως διαφορετική δοµή
της. Αυτό έχει µεγάλες συνέπειες στο τρόπο προσέγγισης και διαχείρισης της
κλινικής πληροφορίας και είναι εν µέρει ο λόγος για τον οποίο αρκετοί ερευνητές
θεωρούν την Ιατρική Πληροφορική κάτι το ξεχωριστό από την συµβατική
Πληροφορική.
Για να γίνουν πιο συγκεκριµένα τα παραπάνω ας εξετάσουµε αυτές που θεωρούνται
επιστήµες βασικού επιπέδου, οι οποίες έχουν δοµηθεί µε αυστηρό τρόπο που
αντανακλάται και στον µαθηµατικό φορµαλισµό που έχουν αναπτύξει. Στην
ιεραρχική σχέση µεταξύ των επιστηµών η Φυσική βρίσκεται στη βάση. Η Φυσική
χαρακτηρίζεται από ένα είδος απλότητας αλλά και γενίκευσης. Οι έννοιες και οι
περιγραφές των αντικειµένων και των µηχανισµών της φυσικής, χρησιµοποιούνται
απαραίτητα σε όλες τις εφαρµοσµένες επιστήµες συµπεριλαµβανοµένης και της
Ιατρικής. Οι φυσικοί νόµοι και οι περιγραφές ορισµένων φυσικών διαδικασιών είναι
ουσιαστικοί παράγοντες στην ανάλυση και εξήγηση των ιατρικών λειτουργιών. Είναι
για παράδειγµα, απαραίτητο να γνωρίζουµε ορισµένες βασικές έννοιες της Μοριακής
Φυσικής για να κατανοήσουµε γιατί το νερό είναι τόσο καλός διαλύτης ή πως
µεταβολίζονται τα θρεπτικά µόρια.
Η εφαρµογή των υπολογιστών για την λύση κάποιου προβλήµατος φυσικής µέσα στα
ιατρικά πλαίσια δεν παρουσιάζει διαφορές σε σχέση µε τις υπολογιστικές εφαρµογές
που συναντώνται στα εργαστήρια φυσικής και µηχανολογίας. Η χρήση των
υπολογιστών στις διάφορες διαδικασίες βασικού επιπέδου (όπως είναι αυτές της
Φυσικής ή Χηµείας) είναι παρόµοια και ανεξάρτητη της συγκεκριµένης εφαρµογής.
Εάν εξετάζουµε τις διαλυτικές ιδιότητες του νερού δεν έχει σηµασία αν αυτές έχουν
να κάνουν µε εφαρµογές στη Γεωλογία, στην Χηµεία ή στην Ιατρική. Οι διαδικασίες
βασικού επιπέδου της φυσικής είναι ιδιαίτερα προσιτές στη µαθηµατική
κωδικοποίηση, έτσι η χρήση των υπολογιστών σε αυτές τις εφαρµογές απαιτεί µόνο
συµβατικό αριθµητικό προγραµµατισµό.
Στην Ιατρική, όµως, υπάρχουν και άλλες διαδικασίες υψηλού επιπέδου, οι οποίες
αναφέρονται σε σύνθετα αντικείµενα όπως οι οργανισµοί (φυσιολογικοί ή
παθολογικοί). Όταν αναλύονται, περιγράφονται ή καταγράφονται ιδιότητες ή
συµπεριφορές ανθρώπων χρησιµοποιούνται περιγραφές αντικειµένων πολύ υψηλού
επιπέδου η συµπεριφορά των οποίων δεν έχει αντίστοιχο στο χώρο της φυσικής ή της
µηχανολογίας. Αυτές οι περιγραφές είναι πολύ δύσκολο να κωδικοποιηθούν
χρησιµοποιώντας µαθηµατικούς αλγορίθµους και λογισµικά πακέτα, τα οποία
εφαρµόζονται τόσο καλά στα βασικά επίπεδα. Μέσα σε αυτά τα πλαίσια
αναπτύσσεται µία νέα επιστηµονική κατεύθυνση που έχει το όνοµα Τεχνητή
Νοηµοσύνη (Artificial Intelligence) και που έχει σαν βασικό στόχο την επίλυση
7
προβληµάτων υψηλού επιπέδου µε εφαρµογή µεθόδων και τεχνικών της
πληροφορικής.
Από τα προηγούµενα συνάγεται ότι η Ιατρική Πληροφορική περιέχει εφαρµογές που
κινούνται µεταξύ της ανάλυσης µηχανισµών χαµηλού επιπέδου και της επεξεργασίας
φαινοµένων εξαιρετικά υψηλού επιπέδου. Όταν µελετώνται ολιστικά ανθρώπινοι
οργανισµοί (συµπεριλαµ-βανοµένων των στοιχείων της αντίληψης, της
αυτοσυνείδησης και της συµπεριφοράς) αναδεικνύονται πολλά και σύνθετα
προβλήµατα για τα οποία η συµβατική λογική και τα συµβατικά µαθηµατικά είναι
δύσκολο να εφαρµοσθούν. Γενικά, τα χαρακτηριστικά των αντικειµένων βασικού
επιπέδου είναι καθαρά ορισµένα και σαφώς διακριτά (για παράδειγµα η “µάζα”, το
“µήκος” κ.λ.π.), ενώ εκείνα των αντικειµένων υψηλού επιπέδου είναι ασαφώς
ορισµένα και όχι µε ακρίβεια διακριτά (για παράδειγµα “δυσάρεστη γεύση”, “καλή
κατάσταση” κ.λ.π.). Όπως η περιγραφή των αντικειµένων υψηλού επιπέδου απαιτεί
την ανάπτυξη νέων µεθόδων, έτσι και οι µέθοδοι στατιστικής συµπερασµατολογίας
αυτών αντικειµένων είναι διαφορετικοί. Η φορµαλιστική λογική, ξεκινά µε την
παραδοχή ότι σε µια δεδοµένη πρόταση πρέπει να είναι ή αληθής ή ψευδής. Αυτό το
ουσιαστικότατο χαρακτηριστικό της συµβατικής λογικής είναι δύσκολο να
διατηρηθεί στην ανάλυση αντικειµένων υψηλού επιπέδου όπου η απάντηση στα
διάφορα ερωτήµατα δεν µπορεί να είναι µόνο να ή όχι.
8
1.2 Σχέση µεταξύ δεδοµένων και υποθέσεων
Μία παρατήρηση ενός συµβάντος προκαλεί µία υπόθεση εργασίας όταν φυσικά έχει
κάποια άµεση σχέση µε την υπόθεση. Ποια είναι όµως τα χαρακτηριστικά αυτής της
σχέσης; Ένα παράδειγµα µπορεί να δείξει ότι µια τόσο απλή σχέση δεν είναι αρκετή
για να εξηγήσει το ξεκίνηµα αυτής της διαδικασίας. Εξετάζουµε την υπόθεση ότι ένας
ασθενής είναι έγκυος που βασίζεται στην παρατήρηση ότι ο ασθενής είναι γυναίκα.
Προφανώς όλοι οι ασθενείς σε κατάσταση εγκυµοσύνης είναι γυναίκες, αλλά εάν
εµφανισθεί ένας ασθενής ο οποίος είναι γυναίκα δεν ενεργοποιείται άµεσα η υπόθεση
ότι αυτή είναι έγκυος. Κατά συνέπεια το θηλυκό γένος είναι ένας πολύ ευαίσθητος
δείκτης εγκυµοσύνης (η πιθανότητα ένας ασθενής σε κατάσταση εγκυµοσύνης να
είναι γυναίκα ισούται µε 100%) αλλά δεν έχει µεγάλη προβλεπτική αξία (οι
περισσότερες γυναίκες δεν είναι σε κατάσταση εγκυµοσύνης). Η έννοια της
ευαισθησίας –ως η πιθανότητα παρατήρησης ενός δεδοµένου όταν ο εξεταζόµενος
έχει µία συγκεκριµένη ασθένεια– είναι πολύ σηµαντική, αλλά δεν εξηγεί από µόνη
της την δηµιουργία µιας υπόθεσης κατά την διαδικασία της ιατρικής διάγνωσης.
Εναλλακτικά, η σχέση µεταξύ παρατήρησης ενός συµβάντος και µιας υπόθεσης
εργασίας µπορεί να στηρίζεται στο ότι η παρατήρηση του συµβάντος γίνεται σπάνια
εάν δεν επαληθεύεται η υπόθεση. Έστω ότι ένα συγκεκριµένο αποτέλεσµα δεν
επαληθεύεται ποτέ, αν ο ασθενής δεν έχει µία συγκεκριµένη ασθένεια. Σ’ αυτές τις
περιπτώσεις τα tests ονοµάζονται παθογνωµονικά. Όχι µόνο υποδεικνύουν µία
διαγνωστική υπόθεση, αλλά ταυτόχρονα αποδεικνύουν ότι αυτή είναι ορθή.
∆υστυχώς τα παθογνωµονικά tests είναι σπάνια στην ιατρική. Εκείνο που συµβαίνει
συνήθως είναι να γίνεται µία παρατήρηση πολύ συχνά όταν υπάρχει µία ασθένεια ή
µία κατηγορία ασθενειών, αλλά η αντιστοίχηση ασθένειας και παρατήρησης δεν είναι
απόλυτη. Για παράδειγµα, µόνο ένας µικρός αριθµός νοσηµάτων, που δεν ανήκουν
στις λοιµώξεις, αυξάνει τον αριθµό των λευκών αιµοσφαιρίων. Βεβαίως η λευχαιµία
όπως και η επίδραση ορισµένων φαρµάκων µπορεί να αυξήσει τον αριθµό των
λευκών αιµοσφαιρίων, αλλά οι περισσότεροι ασθενείς που δεν έχουν λοίµωξη θα
έχουν κανονικό αριθµό λευκών αιµοσφαιρίων. Κατά συνέπεια η αύξηση των λευκών
δεν αποδεικνύει την ύπαρξη λοίµωξης αλλά στηρίζει την υπόθεση για την ύπαρξή
της. Η έννοια που περιγράφει αυτή την σχέση, µεταξύ υπόθεσης και παρατήρησης,
λέγεται ειδικότητα. Μία παρατήρηση είναι πολύ υψηλής ειδικότητας για µια
ασθένεια εάν απουσιάζει σε ασθενείς που δεν έχουν αυτή την ασθένεια, ενώ η
παθογνωµονική παρατήρηση έχει ειδικότητα 100%.
Οι έννοιες της ευαισθησίας και της ειδικότητας ξεκαθαρίζουν αρκετά την υποθετικοσυµπερασµατική προσέγγιση. Παρόλα αυτά ,ακόµη και έµπειροι γιατροί, ορισµένες
φορές αποτυγχάνουν να τις χρησιµοποιήσουν σωστά. Έτσι ακόµα και αν έχει γίνει
µια πολύ ειδική για την ασθένεια παρατήρηση, µπορεί ο ασθενής να πάσχει από άλλη
ασθένεια. Ακριβώς σε τέτοιες περιπτώσεις γίνονται συχνά σφάλµατα που απορρέουν
από την λεγόµενη “κοινή αντίληψη”. Για να εξηγηθούν αυτές οι συχνές
παρεξηγήσεις, πρέπει να εισαχθούν δύο επιπρόσθετες έννοιες : ο επιπολασµός και η
προβλεπτική τιµή
Ο επιπολασµός µιας ασθένειας είναι η συχνότητα ή καλύτερα η πιθανότητα της
ασθένειας στον εξεταζόµενο πληθυσµό. Έστω ότι µία ασθένεια έχει επιπολασµό 5%
στο γενικό πληθυσµό, υπάρχει περίπτωση σε ένα επιλεγµένο υποπληθυσµό της ο
επιπολασµός να είναι πολύ υψηλότερος. Για παράδειγµα, ο καρκίνος του µαστού στο
9
γενικό στο γενικό πληθυσµό είναι 0.3%, αλλά ο επιπολασµός της ίδιας ασθένειας
στον γυναικείο υποπληθυσµό που έχει ηλικία µεταξύ 40 και 50 ετών είναι περίπου 15
φορές µεγαλύτερος και φθάνει το 4.5%.
Προφανώς ο στόχος της διάγνωσης είναι, ξεκινώντας από τον επιπολασµό που έχει ο
ασθενής, για µια συγκεκριµένη ασθένεια, στο πληθυσµό (κατηγορία, οµάδα)
κατατάχθηκε αρχικά, να γίνει κάποια εξέταση και ανάλογα µε το αποτέλεσµά της
(θετικό ή αρνητικό) να καταταχθεί σε ένα νέο υποπληθυσµό στον οποίο ο
επιπολασµός θα είναι σαφώς διαφορετικός. Έτσι η πιθανότητα ένα οποιοδήποτε
άτοµο του πληθυσµού των Ηνωµένων Πολιτειών να έχει καρκίνο του πνεύµονος είναι
µικρή (γιατί ο επιπολασµός αυτής της ασθένειας είναι µικρός), αλλά γίνεται πολύ
υψηλότερη αν η ακτινογραφία θώρακος δείξει µία σκιά που µοιάζει µε όγκο. Αν το
ίδιο άτοµο ανήκει στον υποπληθυσµό των καπνιστών, τότε ο επιπολασµός του
καρκίνου του πνεύµονος θα είναι µεγαλύτερος. Σ’ αυτή την περίπτωση η ίδια
ακτινογραφία θώρακος, θα ανεβάσει ακόµα υψηλότερα την πιθανότητα να έχει το
εξεταζόµενο άτοµο καρκίνο του πνεύµονος.
Προβλεπτική τιµή ενός test καλείται, απλώς, η πιθανότητα της ασθένειας (posttest
probability) µετά την γνωστοποίηση του αποτελέσµατος του test.
Όπως προαναφέρθηκε αν το αποτέλεσµα του test είναι θετικό η προβλεπτική τιµή θα
είναι µεγαλύτερη του επιπολασµού. Εάν το test είναι αρνητικό η εµφάνιση της
ασθένειας έχει µία πιθανότητα µικρότερη του επιπολασµού. Για κάθε test και κάθε
ασθένεια υπάρχει µία προβλεπτική τιµή εάν το test είναι θετικό και άλλη εάν το test
είναι αρνητικό. Οι συµβολισµοί που χρησιµοποιούνται είναι αντίστοιχα PV+ για
προβλεπτική τιµή µε θετικό test και PV- για αρνητικό test.
Η προβλεπτική αξία ενός θετικού test εξαρτάται από την ευαισθησία και την
ειδικότητά του όπως επίσης και από τον επιπολασµό της αναζητούµενης ασθένειας. Ο
τύπος που περιγράφει αυτή την εξάρτηση είναι :
(ευαισθησια )× (επιπολασµος )
PV =
+ (ευαισθησια )× (επιπολασµος ) + (1 − ευαισθησια )(1 - επιπολασµος )
Υπάρχει ένας παρόµοιος τύπος για τον ορισµό της PV-, σαν συνάρτηση της
ευαισθησίας, της ειδικότητας και του επιπολασµού. Και οι δύο αυτοί τύποι
συνάγονται από τα βασικά στοιχεία της θεωρίας πιθανοτήτων. Να σηµειωθεί ότι ένα
θετικό test µε πολλή υψηλή ευαισθησία και ειδικότητα µπορεί να οδηγήσει σε µία
σχετικά χαµηλή πιθανότητα για την ασθένεια (χαµηλή PV+), εάν ο επιπολασµός της
ασθένειας είναι χαµηλός. Είναι ακριβώς αυτή η σχέση της προβλεπτικής τιµής µε την
ευαισθησία, την ειδικότητα και τον επιπολασµό που δεν είναι εύκολα κατανοητή από
τους γιατρούς οι οποίοι σε ορισµένες θεωρούν τα συµπεράσµατά της παράδοξα
(πράγµα που αποδεικνύει ότι συχνά η “κοινή” αντίληψη οδηγεί σε εσφαλµένα
συµπεράσµατα, όταν δεν στηρίζεται σε σταθερές αρχές και κανόνες). Η ευαισθησία
του test και ο επιπολασµός της ασθένειας µπορούν να αγνοηθούν µόνο όταν το test
είναι παθογνωµονικό ( δηλαδή όταν έχει ειδικότητα 100% που σηµαίνει PV+ ίσο µε
100%). Ο τύπος προσδιορισµού του PV+ είναι ένας από τους πολλούς τύπους που
προέρχονται από το θεώρηµα του Bayes το οποίο στηρίζει ένα µεγάλο αριθµό
προσεγγίσεων στη λήψη ιατρικών αποφάσεων.
10
1.2.1 Κατάταξη των αποτελεσµάτων ενός test ως µη φυσιολογικά
Πολλές βιολογικές µετρητέες που αναφέρονται σε ένα πληθυσµό υγιών ατόµων
εκφράζονται σαν συνεχείς µεταβλητές και παίρνουν διαφορετικές τιµές για τα
διάφορα υγιή άτοµα. Τις πιο πολλές φορές η κατανοµή των τιµών τους είναι κατά
προσέγγιση κανονική (Gaussian). Έτσι το 95% του πληθυσµού παίρνει τιµές που
ανήκουν στο διάστηµα που έχει κέντρο τη µέση τιµή µ της µετρητέας και άκρα
αντίστοιχα µ-2σ και µ+2σ (όπου σ είναι η τυπική απόκλιση της κατανοµής). Περίπου
το 2.5% του υγιούς πληθυσµού θα έχει τιµές που είναι µικρότερες από το κάτω άκρο
του προαναφερόµενου διαστήµατος ενώ ένα άλλο 2.5% θα έχει τιµές υψηλότερες από
το άνω άκρο.
Από την άλλη πλευρά, και ο πληθυσµός των ατόµων που έχουν µία συγκεκριµένη
ασθένεια εµφανίζει συνήθως µία κανονική κατανοµή για τις τιµές της ίδιας
µετρητέας. Εάν η βιολογική µετρητέα δεν σχετίζεται µε την ασθένεια οι δύο
κατανοµές θα είναι περίπου οι ίδιες. Στην αντίθετη περίπτωση (δηλαδή η µετρητέα
επηρεάζεται από την ασθένεια) θα είναι διαφορετικές (δηλαδή θα έχουν διαφορετική
µέση τιµή και διαφορετική τυπική απόκλιση) αλλά θα έχουν µερική επικάλυψη
(Σχήµα 1.1).
Ψευδώς θετικά
Ψευδώς αρνητικά
Αριθµός ατόµων
φυσιολογικοί
Φυσιολογικός
πληθυσµός
µη φυσιολογικοί
Όριο
διαχωρισµού
Πληθυσµός
ασθενών
Αποτέλεσµα τον test
Σχήµα 1.1
Το ερώτηµα που τίθεται, είναι πότε το αποτέλεσµα ενός test, που αναφέρεται σε µία
µετρητέα, θα θεωρείται και θα κατατάσσεται σαν µη-φυσιολογικό; Στις περισσότερες
εργαστηριακές εξετάσεις, µαζί µε την εκτίµηση της εργαστηριακής µετρητέας δίνεται
και το διάστηµα των φυσιολογικών της τιµών. το οποίο ορίζεται σαν µ ± 2σ
(δηλαδή οι φυσιολογικές τιµές απέχουν από την µέση τιµή της µετρητέας το πολύ δύο
τυπικές αποκλίσεις). Έτσι αν το αποτέλεσµα του test είναι έξω από το διάστηµα
φυσιολογικών τιµών θεωρείται µη-φυσιολογικό και το test θετικό. Εάν το
αποτέλεσµα περιέχεται στο διάστηµα των φυσιολογικών τιµών, το test θεωρείται
αρνητικό. Για παράδειγµα, η µέση συγκέντρωση χοληστερίνης στο αίµα είναι
11
200mg/dl, εάν η τυπική απόκλιση ης χοληστερίνης στον υγιή πληθυσµό είναι 25mg/dl
τότε το διάστηµα φυσιολογικών τιµών για την χοληστερίνη θα είναι 200 ± 50,
δηλαδή 150 έως 250. Είναι προφανές από όσα ειπώθηκαν ότι τα άκρα του
διαστήµατος των φυσιολογικών τιµών ορίζονται µε στατιστικά κριτήρια που δεν
έχουν βιολογική σηµασία.
Ένα ιδανικό test θα έδινε µία κατανοµή αποτελεσµάτων (της µετρητέας) για τους
ασθενείς, η οποία δεν θα είχε καµία επικάλυψη µε την αντίστοιχη κατανοµή
αποτελεσµάτων των υγιών ατόµων. Έτσι εάν επελέγετο ένα κατάλληλο όριο (cut off)
για τις φυσιολογικές τιµές, το test θα ήταν αρνητικό για όλους τους φυσιολογικούς
και θετικό για όλους τους ασθενείς. Πολύ λίγα tests ανήκουν σ’ αυτή την κατηγορία.
Συνήθως για τον χαρακτηρισµό ενός test σαν µη-φυσιολογικό χρησιµοποιείται το
κριτήριο των 2 τυπικών αποκλίσεων από την µέση τιµή του υγιούς πληθυσµού και
έτσι ένα 2.5% των υγιών ατόµων θα δώσει θετικό test (αυτό χαρακτηρίζεται σαν
σφάλµα τύπου α του test ). Από την άλλη πλευρά, επειδή συνήθως η κατανοµή των
αποτελεσµάτων του test των ασθενών έχει µία επικάλυψη µε αυτή των υγιών, και
µάλιστα περιέχει τιµές οι οποίες ανήκουν στο διάστηµα των φυσιολογικών τιµών,
είναι προφανές ότι ορισµένοι ασθενείς θα δώσουν αρνητικό test (σφάλµα τύπου β).
Συµπερασµατικά, όπως φαίνεται και από το σχήµα (1.1), θα υπάρχει ένα ποσοστό
φυσιολογικών ατόµων που θα δώσει θετικό test και ένα ποσοστό ασθενών που θα
δώσει αρνητικό test. Προφανώς όσο µικρότερα είναι αυτά τα ποσοστά τόσο καλύτερο
είναι το test. Ο γιατρός πρέπει να είναι γνώστης ορισµένων όρων που εκφράζουν
αυτή την κατάσταση:
Αληθώς θετικά (Α.Θ) είναι τα θετικά tests που προέρχονται από τον πληθυσµό των
εχόντων την ασθένεια (δηλαδή τα tests που σωστά ταξινοµούν τον εξεταζόµενο στην
κατηγορία των εχόντων την συγκεκριµένη ασθένεια)
Αληθώς Αρνητικά (Α.Α) είναι τα αρνητικά tests που προέρχονται από τον πληθυσµό
των µη εχόντων την ασθένεια (δηλαδή τα tests που σωστά ταξινοµούν τον
εξεταζόµενο στην κατηγορία των µη εχόντων την συγκεκριµένη ασθένεια.
Ψευδώς θετικά (Ψ.Θ) είναι τα θετικά tests που προέρχονται από τον πληθυσµό των
µη εχόντων ασθένεια (δηλαδή τα tests που εσφαλµένα ταξινοµούν τον εξεταζόµενο
στην κατηγορία των εχόντων την συγκεκριµένη ασθένεια)
Ψευδώς Αρνητικά (Ψ.Α) είναι τα αρνητικά tests που προέρχονται από τον πληθυσµό
εκείνων που έχουν την ασθένεια (δηλαδή εσφαλµένα ταξινοµούν τον ασθενή στην
κατηγορία των µη εχόντων την συγκεκριµένη ασθένεια).
Στο σχήµα 1.1 φαίνεται ότι µεταβάλλοντας το άνω άκρο του διαστήµατος των
“φυσιολογικών τιµών” θα αλλάξουν ουσιαστικά τα προαναφερόµενα ποσοστά.
Καθώς το άνω όριο των φυσιολογικών τιµών µετακινείται προς υψηλότερες τιµές,
αυξάνεται ο αριθµός των ψευδώς αρνητικών (Ψ.Α) και µειώνεται ο αριθµός των
ψευδώς θετικών.
12
Όταν καθοριστεί το ανώτατο φυσιολογικό όριο αυτόµατα προσδιορίζεται και η
επίδοση (performance) του test, δηλαδή η ικανότητά του να διακρίνει µεταξύ
ασθενούς και µη ασθενούς. Η ποσοτικοποίηση της επίδοσης δίνεται µε ένα πίνακα
συνάφειας σαν αυτό του Πίνακα 1.1.Στον πίνακα δίνονται συνοπτικά οι αριθµοί που
αντιστοιχούν στις προηγούµενες 4 οµάδες αποτελεσµάτων (Α.Θ, Α.Α, Ψ.Θ, Ψ.Α).
Παρατηρείται ότι το άθροισµα της πρώτης στήλης δίνει το συνολικό αριθµό των µη
ασθενών, (Ψ.Θ+Α.Α) Το άθροισµα της πρώτης σειράς, (Α.Θ + Ψ.Θ), είναι ο
συνολικός αριθµός των εξετασθέντων που έδωσαν θετικό test. Παροµοίως,
(Ψ.Α+Α.Α), είναι ο αριθµός των εξετασθέντων που έδωσαν αρνητικό test.
Αποτέλεσµα του test
Ασθενείς
Όχι Ασθενείς
Σύνολο
Θετικό test
Α.Θ
Ψ.Θ
Α.Θ+Ψ.Θ
Αρνητικό test
Ψ.Α
Α.Α
Ψ.Α+Α.Α
(Α.Θ)+(Ψ.Α)
(Ψ.Θ)+(Α.Α)
ΠΙΝΑΚΑΣ 1.1: Πίνακας συνάφειας 2x2 που εκφράζει την επίδοση ενός test.
Το ιδανικό test δεν έχει ούτε Ψευδώς Αρνητικά (Ψ.Α) ούτε Ψευδώς Θετικά (Ψ.Θ)
αποτελέσµατα. Στην πραγµατικότητα αυτό δεν επαληθεύεται σχεδόν ποτέ και έτσι ο
έλεγχος µιας διαγνωστικής υπόθεσης, που αναφέρεται σε µία συγκεκριµένη ασθένεια,
γίνεται µε test, που περιέχουν σφάλµατα. Η συνοπτική εικόνα της επίδοσης των
εναλλακτικών tests δίνεται µε τους προαναφερόµενους πίνακες συνάφειας 2x2. Έτσι
ο γιατρός διευκολύνεται στην επιλογή του, η οποία βεβαίως λαµβάνει υπ’ όψη και
άλλους παράγοντες όπως το κόστος και ο χρόνος του test, τον επιπολασµό της
υποτιθέµενης ασθένειας (όπως θα αναλυθεί αργότερα) κ.λ.π.
1.2.2 Παράµετροι της επίδοσης ενός ιατρικού test
Οι παράµετροι της επίδοσης ενός test, όπως διαφαίνεται από την προηγούµενη
ενότητα, είναι δύο ειδών : παράµετροι συµφωνίας και παράµετροι ασυµφωνίας µε
την πραγµατικότητα. Στην ουσία οι παράµετροι συµφωνίας ταυτίζονται µε την έννοια
της ευαισθησίας και της ειδικότητας οι οποίες µπορούν να ορισθούν τώρα
χρησιµοποιώντας τον όρο της δεσµευµένης πιθανότητας και τους προηγούµενους
πίνακες συνάφειας 2x2.
Η ευαισθησία που καλείται και ποσοστό των αληθώς θετικών (Π.Α.Θ) είναι η
πιθανότητα ένας που έχει την ασθένεια να δώσει θετικό test. Χρησιµοποιώντας την
συµβολογία της δεσµευµένης πιθανότητας, η ευαισθησία εκφράζεται σαν την
πιθανότητα το test να βγει θετικό, δεδοµένου ότι ο εξεταζόµενος είναι ασθενής.
 + 
P T A  = P θετικο Test ο εξεταζοµενος ειναι ασθενης


Ένας εναλλακτικός τρόπος έκφρασης της ίδιας ιδιότητας του test, είναι να δοθεί το
(Π.Α.Θ) σαν το κλάσµα των ασθενών µε θετικό test δια του συνόλου των ασθενών:
Π.Α.Θ =
αριθµος των ασθενων µε θετικο test
συνολοκος αριθµος ασθενων
13
∆ηλαδή χρησιµοποιώντας τον πίνακα 1.1 έχουµε ότι :
Π.Α.Θ =
A.Θ
Α.Θ + Ψ.Α
Με ανάλογο τρόπο η ειδικότητα που καλείται και ποσοστό αληθώς αρνητικών
(Π.Α.Α), ορίζεται σαν η πιθανότητα ένας που δεν έχει την ασθένεια να δώσει
αρνητικό test. Με την συµβολογία της δεσµευµένης πιθανότητας, η ειδικότητα
εκφράζεται σαν την πιθανότητα το test να είναι αρνητικό δεδοµένόυ ότι ο
εξεταζόµενος δεν είναι ασθενής.
(
−
PT
A−
) = P Αρνητικο Test ο εξεταζοµενος δεν ειναι ασθενης
Εναλλακτικά το ποσοστό των αληθώς αρνητικών δίνεται µε το κλάσµα:
Π.Α.Α =
( A. A)
( A. A) + (Ψ. A)
1.2.3 Συνεκτίµηση της ευαισθησίας και της ειδικότητας στην επιλογή
του κατάλληλου test.
Ανακεφαλαιώνοντας είναι σαφές ότι οι τιµές της ευαισθησίας και της ειδικότητας,
ενός test συνεχούς µεταβλητής, εξαρτάται από το εκάστοτε καθοριζόµενο όριο
διαχωρισµού µεταξύ φυσιολογικού και µη φυσιολογικού. Η αύξηση της τιµής αυτού
που καθορίζουµε σαν ανώτατο φυσιολογικό όριο, θα µειώσει τον αριθµό των ψευδώς
θετικών και ταυτόχρονα θα αυξήσει τον αριθµό των ψευδώς αρνητικών tests. Με
αυτό τον τρόπο το test γίνεται περισσότερο ειδικό και λιγότερο ευαίσθητο.
Παροµοίως η µείωση της τιµής του ανωτάτου φυσιολογικού ορίου αυξάνει τον
αριθµό των ψευδώς θετικών και µειώνει τον αριθµό των ψευδώς αρνητικών, δηλαδή
αυξάνει αυξάνει την ευαισθησία και µειώνει την ειδικότητα. Είναι φανερό από τα
παραπάνω ότι η ευαισθησία και η ειδικότητα δεν είναι αποκλειστικά χαρακτηριστικά
του test, αλλά εξαρτώνται και από το κριτήριο που τίθεται για την διάκριση του τι
θεωρείται µη φυσιολογικό αποτέλεσµα (θετικό test). Κατά συνέπεια ο καλύτερος
τρόπος για να χαρακτηρισθεί, αποκλειστικά και µόνο, η επίδοση ενός test είναι να
δοθούν οι τιµές της ευαισθησίας και ειδικότητας του σαν συνάρτηση των τιµών που
µπορεί να πάρει το ανώτατο φυσιολογικό όριο (cut off).
Η τυπική γραφική παράσταση αυτής της συνάρτησης δίνεται χρησιµοποιώντας το
καρτεσιανό σύστηµα αξόνων και βάζοντας στον κάθετο άξονα την ευαισθησία και
στον οριζόντιο την µεταβλητή x = (1-ειδικότητα). Η x ισούται µε το ποσοστό των
αληθώς θετικών δια του ποσοστού των ψευδώς θετικών και η τιµή της µεταβάλλεται
άµεσα µε την µεταβολή της τιµής του ανώτατου φυσιολογικού ορίου. Η προκύπτουσα
καµπύλη είναι γνωστή ως καµπύλη ROC (Receiver Operating Characteristic). Κάθε
σηµείο επί της καµπύλης ROC δίνει την ευαισθησία και την ειδικότητα του test για
ένα συγκεκριµένο ανώτατο φυσιολογικό όριο. Εάν ένας γιατρός θέλει να επιλέξει
µεταξύ διαφόρων tests για τον έλεγχο µιας διαγνωστικής υπόθεσης που αφορά µία
συγκεκριµένη ασθένεια ή κατηγορία ασθενειών, θα µπορούσε να συγκρίνει τις ROC
καµπύλες που αντιστοιχούν στα υποψήφια tests.
14
Ποσοστό αληθώς θετικών
Ποσοστό ψευδώς θετικών
Σχήµα 1.3
Στο σχήµα 1.3 παρουσιάζονται δύο εναλλακτικά tests που αφορούν τον έλεγχο της
ίδιας ασθένειας. Η καµπύλη ROC του test B βρίσκεται ψηλότερα, σε όλα τα σηµεία,
από την αντίστοιχη καµπύλη του test A. Με άλλα λόγια το test B έχει µεγαλύτερη
διακριτική ισχύ γιατί έχει µεγαλύτερη ευαισθησία για οποιοδήποτε επίπεδο
ειδικότητας. Υπάρχουν βέβαια πιο σύνθετες περιπτώσεις στις οποίες οι καµπύλες
ROC, εναλλακτικών tests, µπορεί να τέµνονται και εποµένως σε ορισµένες περιοχές
το πρώτο να είναι καλύτερο του δεύτερου και σε άλλες περιοχές να συµβαίνει το
αντίθετο. Το αυστηρά µαθηµατικό κριτήριο επιλογής θα µπορούσε να στηριχτεί στη
σύγκριση των εµβαδών των αντίστοιχων καµπύλων ROC, θεωρώντας σαν καλύτερο
το test του οποίου η καµπύλη ROC περιέχει µεγαλύτερο εµβαδόν. Όµως, αρκετές
φορές για την επιλογή ενός test συνεκτιµώνται και άλλοι παράγοντες, όπως το κόστος
ο κίνδυνος, οι παρενέργειες κ.λ.π.
1.2.4 Προβλεπτική αξία ενός test
Σε προηγούµενη παράγραφο δόθηκε ο τύπος για τον υπολογισµό της θετικής
προβλεπτικής αξίας ενός test που λαµβάνει υπ’ όψη την ευαισθησία, την ειδικότητα
και τον επιπολασµό της ασθένειας η οποία ελέγχεται:
(ευαισθησια )(επιπολασµος )
PV =
+ (ευαισθησια )(επιπολλασµος ) + (1 - ειδικοτητα )(1 - επιπολλασµος )
Για να κατανοηθεί αυτός ο τύπος υπενθυµίζεται ότι η θετική προβλεπτική αξία του test
δίνει την πιθανότητα ενός εξεταζόµενου µε θετικό test να έχει την υποτιθέµενη
ασθένεια. Κατά συνέπεια η PV+ µπορεί να υπολογισθεί άµεσα από ένα πίνακα
συνάφειας 2x2:
PV
+
=
αριθµος των ατοµων που εχουν την ασθενεια και εµφανιζουν θετικο test
συνολ ικος αριθµος των ατοµων µε θετικο test
∆ηλαδή από τον πίνακα συνάφειας 2x2 που δίνεται στον πίνακα 1.1
15
PV
+
=
A. Θ
A. Θ + Ψ. Θ
Παροµοίως η αρνητική προβλεπτική αξία (PV-) είναι η πιθανότητα ένας
εξεταζόµενος µε αρνητικό test να µην έχει την ασθένεια:
PV − =
αριθµος των ατοµων που εχουν την ασθενεια και εµφανιζουν αρνητικο test
συνολ ικος αριθµος των ατοµων µε αρνητικο test
Η τιµή του PV- προσδιορίζεται και πάλι χρησιµοποιώντας τον πίνακα 2.1
PV − =
A. A
A. A + Ψ. A
Είναι πολύ σηµαντικό, σε αυτό το σηµείο, να επαναληφθεί η µεγάλη εννοιολογική
(και πρακτική) διαφορά που υπάρχει µεταξύ της προβλεπτικής αξίας ενός test και
της ευαισθησίας και ειδικότητας του. ∆υστυχώς το σηµείο αυτό είναι αντικείµενο
παρεξηγήσεων µεταξύ ενός µεγάλου µέρους των ιατρών και οδηγεί συχνά σε µεγάλες
παρερµηνεύσεις επηρεάζοντας το σύνολο της υποθετικο-συµπερασµατικής ιατρικής
διαδικασίας. Η ευαισθησία δίνει την πιθανότητα ένα άτοµο που ξέρουµε ότι είναι
ασθενής να δώσει θετικό test και η ειδικότητα δίνει την πιθανότητα ένα άτοµο που
ξέρουµε ότι δεν έχει την ασθένεια να δώσει αρνητικό test. Αντίθετα η προβλεπτική
αξία δίνει την πιθανότητα ένα άτοµο που έδωσε θετικό (αρνητικό) test να έχει την
ασθένεια. Η προβλεπτική αξία του test εξαρτάται από τον επιπολασµό της
ελεγχόµενης ασθένειας και όχι µόνο από τα χαρακτηριστικά του test. Έτσι εάν
κάνουµε ένα Pap-test που έχει ευαισθησία 0.94 και ειδικότητα 0.97 στο γενικό
πληθυσµό των γυναικών, όπου ο επιπολασµός του καρκίνου της µήτρας είναι 0.002
τότε η προβλεπτική αξία ενός θετικού test (δηλαδή η πιθανότητα µία γυναίκα µε
θετικό test να έχει καρκίνο της µήτρας) ισούται µε :
(0.94) ⋅ (0.002)
0.00183
PV =
=
≈ 0.057
+ (0.94)(0.002) + (1 − 0.97)(1 − 0.002) 0.00183 + 0.03
∆ηλαδή για µία γυναίκα, που ανήκε στο γενικό πληθυσµό, µε θετικό Pap-test η
πιθανότητα καρκίνου της µήτρας είναι περίπου 5.5%.
Εάν τώρα η ίδια γυναίκα ανήκε σε ένα ειδικό πληθυσµό, για παράδειγµα είχε ηλικία
µεταξύ 40 και 50 ετών και ταυτόχρονα παρουσίαζε µητρορραγίες, και παρουσίαζε
θετικό Pap-test, η πιθανότητα να έχει καρκίνο της µήτρας είναι τελείως διαφορετική.
Πράγµατι εάν για τον προαναφερόµενο ειδικό πληθυσµό ο επιπολασµός του καρκίνου
της µήτρας είναι 0.10 τότε η προβλεπτική αξία του θετικού Pap-test θα ισούται µε :
( 0.94)( 010
. )
0.094
PV =
=
≈ 0.78
+ ( 0.94)( 010
. ) + (1 − 0.94)(1 − 010
. ) 0.094 + 0.027
Τελικά γίνεται κατανοητό ότι tests πολύ υψηλής ευαισθησίας και ειδικότητας µπορεί
να έχουν χαµηλή προβλεπτική αξία αν η ελεγχόµενη ασθένεια είναι σπάνια 9µικρός
επιπολασµός) στον πληθυσµό που ανήκει ο εξεταζόµενος.
1.3 Θεώρηµα του Bayes
Από την προηγούµενη παράγραφο είναι φανερό ότι η πιθανότητα µιας ασθένειας
έχοντας το αποτέλεσµα ενός test (posttest probability) δίνεται από την προβλεπτική
αξία του test, ενώ ο επιπολασµός ασθένειας δίνει την πιθανότητα της πριν από το test.
16
Εποµένως ο καλός γιατρός πριν επιλέξει κάποιο test µαζεύει πληροφορίες (φυσική
εξέταση, ιστορικό κ.λ.π) οι οποίες του δίνουν την δυνατότητα να εντάξει τον
εξεταζόµενο σε ένα ειδικό πληθυσµό όπου η ελεγχόµενη ασθένεια έχει ένα
επιπολασµό αρκετά υψηλότερο από αυτόν του γενικού πληθυσµού. Αυτός ο
προσαρµοσµένος επιπολασµός (pretest probability) είναι που θα χρησιµοποιηθεί στην
εκτίµηση της προβλεπτικής αξίας του test.
Το θεώρηµα του Bayes είναι µία ποσοτική µέθοδος για τον υπολογισµό της posttest
πιθανότητας χρησιµοποιώντας την προ του test πιθανότητα, την ευαισθησία και την
ειδικότητα του test. Το θεώρηµα απορρέει από τον ορισµό της δέσµευσης
πιθανότητας και τις ιδιότητες των πιθανοτήτων.
Υπενθυµίζεται ότι η δεσµευµένη πιθανότητα ενός ενδεχοµένου Α, είναι η πιθανότητα
επαλήθευσης του ενδεχοµένου Α όταν είναι δεδοµένη η επαλήθευση ενός
ενδεχοµένου Β. Το πρόβληµα που έχει γενικά ο γιατρός είναι να προσδιορίσει την
πιθανότητα ο εξεταζόµενος να έχει την ασθένεια, µε δεδοµένο ότι το test είναι θετικό.
Συµβολίζουµε την παρουσία της ασθένειας µε Α, την απουσία της µε -Α, το
αποτέλεσµα του test (θετικό ή αρνητικό) µε R, και την προ του test πιθανότητα µε
p(A). Τότε η πιθανότητα παρουσίας της ασθένειας µε δεδοµένο ένα συγκεκριµένο
αποτέλεσµα του test συµβολίζεται µε p[A/R] και σύµφωνα µε το θεώρηµα του Bayes
ισούται µε :
[
]
P AR =
p[ A] p[ R A]
p[ A] p[ R / A] + p[− A] p[ R / − A]
Ο προηγούµενος γενικός τύπος µπορεί να ξαναγραφτεί, για την ειδική περίπτωση που
το αποτέλεσµα (R) του test είναι θετικό (+), αντικαθιστώντας όπου p[A/R] το
p[A/+], όπου p[R/A] το p[+/A], όπου p[R/-A] το p[+/-A] και όπου p[-A] το 1-p[A].
Έχοντας υπόψη ότι p[+/A]=Π.Α.Θ και p[+/-A]=Π.Ψ.Θ ο τύπος του Bayes για ένα
θετικό test είναι:
p[ A / + ] =
p[ A] ⋅ (Π. A. Θ )
p[ A] ⋅ (Π. A. Θ ) + (1 − p[ A]) ⋅ (Π. Ψ. Θ )
1.3.1 Συνέπειες του θεωρήµατος του Bayes
Οι συνέπειες του θεωρήµατος του Bayes στην ερµηνεία των αποτελεσµάτων ενός test
ή µιας σειράς από tests, είναι εξαιρετικά σηµαντικές και πολλές φορές όχι άµεσα
κατανοητές.
Στο σχήµα 1.4 παρουσιάζεται γραφικά η πιο σηµαντική από αυτές τις συνέπειες: Η
posttest πιθανότητα µιας ασθένειας αυξάνεται µε την αύξηση της προ του test
πιθανότητας της ασθένειας. Στο σχήµα 1.4.α δίνεται σχηµατικά η posttest πιθανότητα
µιας ασθένειας, µετά από ένα θετικό αποτέλεσµα, για όλες τις ενδεχόµενες
πιθανότητες της ίδιας ασθένειας πριν το test. Στο σχήµα 1.4.β δίνονται τα ίδια, για την
περίπτωση που το αποτέλεσµα του test είναι αρνητικό. Η διακεκοµµένη ευθεία, µε
κλίση 45ο, που εµφανίζεται στο σχήµατα 1.4α και 1.4β αναπαριστά ένα test για το
οποίο η προ του test και η µετά του test πιθανότητα της ελεγχόµενης ασθένειας είναι
το ίδιο, δηλαδή αναπαριστά το τελείως άχρηστο test.
Η καµπύλη στο σχήµα 1.4α συσχετίζει την προ και την µετά το test πιθανότητα όταν
το τελευταίο έχει ευαισθησία και ειδικότητα ίση µε 0.90. Παρατηρείται ότι, για
χαµηλή προ του test πιθανότητα της ασθένειας, ένα θετικό αποτέλεσµα (θετικό test)
17
αυξάνει πάρα πολύ την πιθανότητα της ελεγχόµενης ασθένειας. Αντίθετα όταν η προ
του test πιθανότητα είναι αρκετά υψηλή, ένα θετικό test δεν θα την αυξήσει
σηµαντικά.
Το σχήµα 1.4β δείχνει τη σχέση µεταξύ της προ και µετά το test πιθανότητας όταν το
αποτέλεσµα του τελευταίου είναι αρνητικό (αρνητικό test). Όπως φαίνεται όταν η προ
του test πιθανότητα της ασθένειας είναι υψηλή και το αποτέλεσµα του test είναι
αρνητικό τότε η πιθανότητα της ασθένειας µειώνεται πάρα πολύ (δηλαδή η επίδραση
του test στην διαγνωστική πεποίθηση του γιατρού είναι µεγάλη). Αντίθετα όταν η προ
του test πιθανότητα είναι χαµηλή ένα αρνητικό αποτέλεσµα του τελευταίου έχει
µικρή επίδραση, δηλαδή αλλάζει λίγο την πιθανότητα της ελεγχόµενης ασθένειας.
Πιθανότητα µετά το test
Πιθανότητα µετά το test
Η όλη συζήτηση επικεντρώνει το ενδιαφέρον σε ένα σηµαντικό σηµείο της
διαγνωστικής διαδικασίας: η ερµηνεία του αποτελέσµατος ενός test εξαρτάται από
την πιθανότητα που έχει η ελεγχόµενη ασθένεια πριν από την εκτέλεση του test. Εάν
η προ του test πιθανότητα είναι χαµηλή, τότε ένα θετικό test έχει µεγάλη επίδραση
και ένα αρνητικό µικρή. Εάν η προ του test πιθανότητα είναι υψηλή, ένα θετικό
αποτέλεσµα έχει µικρή επίδραση ενώ ένα αρνητικό έχει µεγάλη. Με άλλα λόγια, όταν
ένας κλινικός γιατρός είναι σχεδόν σίγουρος για την διάγνωση του πριν από το test,
ένα επιβεβαιωτικό test έχει µικρή επίδραση στην πεποίθηση του. Εάν η πριν από το
test άποψη του είναι αµφιλεγόµενη ή το αποτέλεσµα του test είναι αντίθετο µε την
αρχική του κλινική αντίληψη τότε το test έχει µεγάλη επίδραση στην συνέχεια της
διαγνωστικής διαδικασίας.
Πιθανότητα πρίν το test
(α)
Πιθανότητα πρίν το test
(β)
Σχήµα 1.4 (α) και (β)
Στο σχήµα 1.4α παρατηρείται ότι, όταν η πριν το test πιθανότητα είναι πολύ χαµηλή,
ένα θετικό αποτέλεσµα µπορεί να ανεβάσει την µετά το test πιθανότητα µόνο σε ένα
ενδιάµεσο επίπεδο και αφήνει µεγάλες αµφιβολίες για την τελική διάγνωση.
Παροµοίως, εάν η πριν το test πιθανότητα είναι πολύ υψηλή, είναι απίθανο ότι ένα
αρνητικό test θα µειώσει τόσο πολύ την πιθανότητα της ελεγχόµενης ασθένειας ώστε
να την αποκλείσει σαν διαγνωστικό ενδεχόµενο.
18
Το σχήµα 1.5 αναδεικνύει µια άλλη σηµαντική έννοια: η ειδικότητα του test
επηρεάζει κυρίως την ερµηνεία ενός θετικού αποτελέσµατος. Και στα δύο µέρη α)
και β) του σχήµατος 1.5 οι επάνω καµπύλες αντιστοιχούν σε θετικά αποτελέσµατα
και οι κάτω σε αρνητικά. Το σχήµα 1.5α δείχνει τις µετά το test πιθανότητες για
διάφορες ειδικότητες (Π.Α.Α). Παρατηρείται ότι η αλλαγή της ειδικότητας µεταβάλει
σηµαντικά τις επάνω καµπύλες (θετικά tests). ∆ηλαδή µία αύξηση της ειδικότητας
αλλάζει σηµαντικά την πιθανότητα όταν το test είναι θετικό, αλλά έχει µικρή
επίδραση όταν το test είναι αρνητικό. Έτσι εάν κάποιος θέλει να επιβεβαιώσει, θα
πρέπει να επιλέξει ένα test µε υψηλή ειδικότητα.
ΠΑ
Πιθανότητα µετά το test
ΠΑ
ΠΑ
ΠΑ
ΠΑ
ΠΑ
Πιθανότητα πρίν το test
Σχήµα 1.5 (α)
Το σχήµα 1.5β δείχνει την µεταβολή της µετά το test πιθανότητας µε την µεταβολή
της ευαισθησίας. Είναι φανερό ότι αλλαγές στην ευαισθησία επηρεάζουν πολύ τις
κάτω καµπύλες (αρνητικά tests), αλλά έχουν µικρή επίδραση στις επάνω καµπύλες.
Έτσι, εάν κάποιος θέλει να αποκλείσει µία ασθένεια, από την διαγνωστική
διαδικασία, θα πρέπει να επιλέξει ένα test µε µεγάλη ευαισθησία.
19
ΠΑ
Πιθανότητα µετά το test
ΠΑ
ΠΑ
ΠΑΘ=0.60
ΠΑΘ=0.80
ΠΑ
Πιθανότητα πρίν το test
Σχήµα 1.5 (β)
1.3.2 Προβλήµατα στην εφαρµογή του θεωρήµατος του Bayes
Το θεώρηµα του Bayes είναι η απαρχή µιας σειράς µεθόδων που χρησιµοποιούνται µε
υψηλή απόδοση σε πολλές εφαρµογές της θεωρίας λήψης αποφάσεων (Decision
Theory). Στη συνέχεια θα αναλυθούν λεπτοµερώς ορισµένες από αυτές τις µεθόδους
και θα αποσαφηνισθούν ορισµένες από τις προδιαγραφές χρήσης του. Είναι όµως
σκόπιµο να αναφερθούν, από την αρχή, µερικά από τα συνηθέστερα σφάλµατα που
γίνονται στη χρήση του θεωρήµατος. Τα πιο κοινά προβλήµατα είναι η όχι ακριβής
εκτίµηση της πριν το test πιθανότητας, εσφαλµένος προσδιορισµός της ευαισθησίας
και της ειδικότητας του test και κυρίως παραβίαση των παραδοχών που αφορούν
την δεσµευµένη ανεξαρτησία (conditional independence) και τον αµοιβαίο
αποκλεισµό (mutual exclusivity) των ενδεχοµένων που εµφανίζονται στον τύπο του
Bayes.
Το θεώρηµα του Bayes δίνει τα µέσα για την τροποποίηση της πριν από το test
πιθανότητας έτσι ώστε να ληφθεί υπόψη κάθε νεότερη πληροφορία. Είναι όµως
προφανές ότι κάθε ανακρίβεια στον προσδιορισµό της πριν το test πιθανότητας θα
µεταφερθεί και θα ενισχυθεί στην posttest πιθανότητα.
Επειδή ο επιπολασµός µιας ασθένειας και ειδικότερα η εκτίµηση για την πιθανότητά
της σε ένα ειδικό πληθυσµό (που έχει για παράδειγµα τα συµπτώµατα του
εξεταζόµενου) δεν µπορεί να είναι πολύ ακριβής συνήθως χρησιµοποιούµε, στην
ανάλυση των αποφάσεων, ένα διάστηµα τιµών επιπολασµού (ή pretest πιθανοτήτων).
Έτσι η πιθανότητα που έχει η ασθένεια µετά το αποτέλεσµα του test δίνεται και αυτή
υπό µορφή διαστήµατος τιµών (δηλαδή σε αντιστοιχία µε τις πριν το test
πιθανότητες).
20
Το δεύτερο σφάλµα, που αναφέρεται στην όχι συχνά σωστή εκτίµηση της
ευαισθησίας και ειδικότητας, είναι πολύ συχνό όταν παίρνουµε σαν σίγουρες τις τιµές
που έχουν δηµοσιευθεί γι’ αυτές τις παραµέτρους χωρίς να λάβουµε υπόψη ορισµένες
ιδιαιτερότητες (bias) των µελετών από τις οποίες απορρέουν. Πράγµατι οι ιδιαίτερες
συνθήκες εφαρµογής ενός test µπορούν να επηρεάσουν πολύ την απόδοση του.
Το πιο σοβαρό σφάλµα στην εφαρµογή του θεωρήµατος του Bayes γίνεται όταν
ερµηνεύεται µία ακολουθία από tests. Εάν ο ασθενής κάνει δύο εργαστηριακές
εξετάσεις στη σειρά, µπορεί να χρησιµοποιηθεί η posttest πιθανότητα της πρώτης
(αφού υπολογισθεί χρησιµοποιώντας το θεώρηµα του Bayes) σαν pretest πιθανότητα
της δεύτερης. Αυτή η προσέγγιση είναι σωστή µόνο εάν οι εξετάσεις είναι µεταξύ
τους ανεξάρτητες υπό συνθήκες (conditional indpendence). Tests που αναφέρονται
στην ίδια ασθένεια είναι ανεξάρτητα υπό συνθήκες όταν η πιθανότητα για κάποιο
συγκεκριµένο αποτέλεσµα του δεύτερου test δεν εξαρτάται από το αποτέλεσµα του
πρώτου test, µε δεδοµένη την ασθένεια. Χρησιµοποιώντας την συµβολογία της
δεσµευµένης πιθανότητας, για την περίπτωση που υπάρχει η ασθένεια, η δεσµευτική
ανεξαρτησία των tests γράφεται ως εξής :
P[δεύτερο test θετικό/ πρώτο test θετικό και ασθένεια παρούσα]=
P[δεύτερο test θετικό/ πρώτο test αρνητικό και ασθένεια παρούσα]=
P[ δεύτερο test θετικό/ ασθένεια παρούσα].
Εάν εφαρµοσθεί το θεώρηµα του Bayes σειριακά, όταν παραβιάζεται η ανεξαρτησία
υπό συνθήκες των tests, τα αποτελέσµατα είναι ανακριβή.
Το τέταρτο πρόβληµα απορρέει από την παραδοχή ότι όλα τα θετικά tests
προκύπτουν από µία (και µόνο) ασθένεια. Η κατά Bayes προσέγγιση της
διαγνωστικής διαδικασίας προϋποθέτει ότι οι ασθένειες που ελέγχονται είναι
αµοιβαία αποκλειόµενες (δηλαδή όταν υπάρχει η µία δεν υπάρχει η άλλη). Εάν αυτό
δεν συµβαίνει τότε πρέπει να έχουµε επιφυλάξεις για τα αποτελέσµατα της
εφαρµογής του θεωρήµατος του Bayes.
21
22
2. ΤΕΧΝΙΚΕΣ ΑΝΑΛΥΣΗΣ ΑΠΟΦΑΣΕΩΝ ΣΤΗΝ
ΙΑΤΡΙΚΗ
Η λήψη αποφάσεων αποτελεί µια από τις βασικότερες δραστηριότητες ενός ιατρού.
Σε θεωρητικό επίπεδο, η διαδικασία λήψης µιας απόφασης περιλαµβάνει τη
δηµιουργία ενός καταλόγου των πιθανών στρατηγικών και ενεργειών, τον καθορισµό
των συνεπειών κάθε απόφασης και την επιλογή της καταλληλότερης λύσης για το
συγκεκριµένο πρόβληµα. Στην Ιατρική πραγµατικότητα όµως, σπάνια τα πράγµατα
εξελίσσονται µε αυτή τη σειρά. Η βασική ιατρική πληροφορία είναι συχνά ατελής,
υποκειµενική και ανακριβής. Οι πιθανές υποθέσεις είναι υπερβολικά πολλές και έτσι
δεν είναι εφικτή η µελέτη κάθε µιας ξεχωριστά. Οι συνέπειες µιας απόφασης είναι
µόνον κατά ένα τµήµα γνωστές ενώ εικασίες µπορούν να γίνουν για τα αναµενόµενα
αποτελέσµατα µιας θεραπείας. Οι ιατρικές αποφάσεις λαµβάνονται υπό καθεστώς
αβεβαιότητας. Ο στόχος της ιατρικής πράξης είναι η ελάττωση αυτής της
αβεβαιότητας µέσα από τη συλλογή συµπληρωµατικών πληροφοριακών στοιχείων,
χρησιµοποιώντας γνώση από ετερόκλητες πηγές.
Οι ηλεκτρονικοί υπολογιστές είναι σε θέση να υποβοηθήσουν τη λήψη ιατρικών
αποφάσεων και να βελτιώσουν την ποιότητα των διαγνώσεων ή την
αποτελεσµατικότητα της θεραπείας. Η δηµιουργία τέτοιων υποβοηθητικών
συστηµάτων απαιτεί σηµαντική ανάλυση προκειµένου να διατυπωθούν τόσο τα
προβλήµατα, όσο και οι δυνατές λύσεις. Μέσω αυτής της ανάλυσης οδηγούµαστε σε
καλύτερη κατανόηση των µηχανισµών που εµπλέκονται στη διαδικασία του ιατρικού
συλλογισµού αλλά και της επεξεργασίας της γνώσης που υποστηρίζει το συλλογισµό
αυτό.
2.1 Μορφές Λογικής
2.1.1 Συµπερασµατολογία
Η συµπερασµατική λογική βασίζεται στις αρχές της λογικής συνέπειας. Μας
επιτρέπει να βγάζουµε συµπεράσµατα των οποίων ο βαθµός αληθείας δεν είναι παρά
µια συνάρτηση του βαθµού αληθείας των αρχικών προτάσεων του συλλογισµού. Η
συµπερασµατική λογική λειτουργεί από το γενικό στο ειδικό. Για παράδειγµα, αν ο
κανόνας «όλοι οι άνθρωποι είναι θνητοί» είναι αληθής, τότε ο Σωκράτης, που είναι
άνθρωπος, είναι θνητός. Το αποτέλεσµα µιας συµπερασµατολογίας µπορεί να
χρησιµοποιηθεί ως αρχικός συλλογισµός για περαιτέρω συµπεράσµατα. Αν το Α έχει
ως συνέπεια το Β και το Β έχει ως συνέπεια το Γ, τότε λόγω µεταβατικότητας, το Α
έχει ως συνέπεια το Γ.
Η συµπερασµατική λογική βασίζεται σε λογικούς κανόνες ή σε απόλυτη γνώση που
µας επιτρέπουν να συσχετίσουµε προτάσεις. Οι προτάσεις µπορούν να είναι είτε
αληθείς είτε ψευδείς.
23
2.1.2 Επαγωγή
Η επαγωγική λογική κάνει γενικεύσεις, βασιζόµενη σε συγκεκριµένα παραδείγµατα,
µε αποτέλεσµα τη δηµιουργία γενικών κανόνων. Παράγει συµπεράσµατα των οποίων
η ισχύς έχει ένα βαθµό αξιοπιστίας ή πιθανότητας. Για παράδειγµα, αν οι x, y και z
είναι άνθρωποι που είναι θνητοί, τότε µέσω της επαγωγής µπορούµε να
διαµορφώσουµε την υπόθεση ότι όλοι οι άνθρωποι είναι θνητοί. Η υπόθεση αυτή θα
επιβεβαιωθεί ή θα απορριφθεί µέσα από πειράµατα.
Η εφαρµογή της επαγωγικής λογικής είναι περιορισµένη στην Ιατρική πρακτική
επειδή τα συνήθη συµβάντα είναι πολύ πιο εύκολα αντιληπτά από τα σπάνια. Γι αυτό
το λόγο διαγνώσεις και κλινικά σηµεία, αν και άσχετα µεταξύ τους, είναι δυνατόν να
θεωρηθεί ότι εµφανίζουν συνδιακύµανση. Αυτές οι λανθασµένες συσχετίσεις
ελαττώνουν την ποιότητα και την αξιοπιστία των δεδοµένων.
Συµπερασµατολογική
λογική
Επαγωγική
Απαγωγική
λογική
λογική
Συλλογιστική πρόταση ή
προϋπάρχον γεγονός
Συλλογιστική πρόταση ή
προϋπάρχον γεγονός
Συλλογιστική πρόταση ή
προϋπάρχον γεγονός
Λογικός κανόνας
Κανόνας, Νόµος
Κανόνας, Νόµος
Συµπέρασµα
Συµπέρασµα
Συµπέρασµα
2.1.3 Απαγωγή
Η απαγωγική λογική, η οποία συχνά αναφέρεται και ως επιστηµονική µέθοδος,
αποτελεί σηµαντικό τµήµα της επιστηµονικής έρευνας. Στηρίζεται στην προσπάθεια
δηµιουργίας δεσµών µεταξύ παρατηρήσεων, όπως η αιτία και το αποτέλεσµα.
Υποθέτοντας ότι η υπόθεση είναι αληθής, η απαγωγική λογική µας επιτρέπει να
εξάγουµε συµπεράσµατα τα οποία πρέπει να επιβεβαιωθούν µέσω εξετάσεων που θα
ακολουθήσουν ή µέσω νέων επιστηµονικών πειραµάτων.
2.1.4 Αιτιοκρατική
Τα ιατρικά σηµεία και συµπτώµατα συχνά εµφανίζονται µε µια συγκεκριµένη
χρονολογική σειρά, όπως για παράδειγµα στις λοιµώδεις ή παρασιτικές νόσους. Η
µεθοδολογία αυτή περιλαµβάνει λεπτοµερή ανάλυση της χρονολογικής σειράς, όπως
και των σχέσεων µεταξύ της αιτίας και των υποτιθεµένων αποτελεσµάτων. Για
παράδειγµα, όταν θέλουµε να συσχετίσουµε µια παρενέργεια µε ένα φάρµακο,
ελέγχουµε ότι:
24
•
Το φάρµακο χορηγήθηκε πριν την εµφάνιση της παρενέργειας
•
Ο χρόνος που µεσολάβησε µέχρι την εµφάνιση της παρενέργειας είναι
συµβατός µε τη γνώση µας για την επίδραση του φαρµάκου
Και τελικά ότι:
•
Αίροντας την αιτία, αίρεται και το αποτέλεσµα
•
Αν είναι ηθικά εφικτό, επαναχορήγηση του φαρµάκου οδηγεί σε
επανεµφάνιση της παρενέργειας
•
Η ένταση του αποτελέσµατος είναι ανάλογη της ποσότητας που χορηγείται
Η αιτιοκρατική λογική χρησιµοποιεί κατά περίπτωση στοιχεία τόσο της απαγωγικής
όσο και της συµπερασµατολογικής µεθόδου.
2.2 Τα βήµατα της διαδικασίας λήψης ιατρικής απόφασης
Τρία είναι τα βασικά βήµατα σε κάθε ιατρική απόφαση:
2.2.1 Αναγνώριση του προβλήµατος
Το πρώτο βήµα είναι η αναγνώριση του προβλήµατος, η οποία καθορίζει την
αρµόζουσα περιοχή γνώσης. Οι αποφάσεις που αφορούν διάγνωση ξεκινούν µε την
πρωτογενή µετάφραση των κλινικών δεδοµένων και την επιλογή της σηµαντικής
πληροφορίας µέσα από το σύνολο των αρχικών δεδοµένων (αφαίρεση). Η
αναγνώριση της πληροφορίας που έχει σχέση µε το πρόβληµα εξαρτάται από την
εµπειρία αυτού που λαµβάνει την απόφαση και γίνεται µε µεθόδους απαγωγικής
λογικής.
2.2.2 ∆όµηση του προβλήµατος
Το δεύτερο βήµα είναι η δόµηση του προβλήµατος και της κλινικής πληροφορίας. Οι
διαγνωστικές υποθέσεις διαµορφώνονται µε δόµηση και ιεράρχηση των
πληροφοριών, καθώς είναι δυνατόν να γίνουν πολλές ερµηνείες των ίδιων δεδοµένων
ή τµηµάτων των δεδοµένων. Η µεθοδολογία που ακολουθείται µπορεί να είναι η
συµπερασµατολογική (π.χ. για ένα παθογνωµονικό τεστ), η επαγωγική (π.χ. για τη
διάγνωση µιας µεταδοτικής ασθένειας σε έναν πληθυσµό) ή απαγωγική.
2.2.3 Επιλογή της λύσης
Πολλές φορές η λύση ενός προβλήµατος προϋποθέτει το µετασχηµατισµό του.
Ξεκινώντας από ένα όχι καλά ορισµένο πρόβληµα –«Από τι πάσχει ο ασθενής;»– ο
ιατρός πρέπει να φτάσει σε ένα καλά ορισµένο πρόβληµα –«Υποφέρει ο ασθενής από
τη νόσο x;».
Ξεκινούµε από ένα αριθµό υποθέσεων εργασίας. Χρησιµοποιώντας τη
συµπερασµατολογική µέθοδο, και αν είναι απαραίτητο µε συµπληρωµατικές
εξετάσεις, µπορούµε να εντοπίσουµε τα αναµενόµενα σηµεία και συµπτώµατα. Με
χρήση της επαγωγικής ή/και της απαγωγικής µεθόδου, ο ιατρός µπορεί να απορρίψει
εκείνες τις υποθέσεις που δεν αντιστοιχούν στις παρατηρήσεις. Τα αποτελέσµατα
25
συµπληρωµατικών εξετάσεων µπορούν να συµβάλλουν στην ελάττωση της
αβεβαιότητας της σχετικής µε την κλινική κατάσταση και στον αποκλεισµό
υποθέσεων ή την διατύπωση άλλων.
Η διαδικασία αυτή βασίζεται στη γνώση που έχει συλλεχθεί, αποµνηµονευθεί και
δοµηθεί. Ο ιατρός αναζητά νέες διαγνωστικές ερµηνείες όταν µια υπόθεση δεν είναι
ικανοποιητική ή είναι σε αντίθεση µε τη γνώση την οποία ο ίδιος κατέχει. Αυτό το
βήµα της διαγνωστικής διαδικασίας χαρακτηρίζεται από γνωστικές λειτουργίες που
αποτιµούν τις ερµηνείες. Απαιτεί την ενεργό συµµετοχή του επιστήµονα της Ιατρικής
Πληροφορικής για τον έλεγχο της ροής της χρήσιµης πληροφορίας. Ο επιστήµονας
της Ιατρικής Πληροφορικής πρέπει επίσης να λάβει υπ’ όψιν του το κόστος των
διαφόρων στρατηγικών.
Αναγνώριση του
προβλήµατος
∆όµηση του
προβλήµατος
Επιλογή της
λύσης
•
∆υνατές εναλλακτικές λύσεις
•
∆υνατές καταστάσεις του ασθενούς
•
Ανάπτυξη στρατηγικής
•
Συνυπολογισµός συχνοτήτων νόσων
•
Συγκριτική αποτίµηση διαφορετικών υποθέσεων
•
Σύνθεση και επιλογή
2.3 Αβεβαιότητα και Ιατρική Κρίση
2.3.1 Ιατρική Κρίση
Μια συγκεκριµένη κατάσταση µπορεί να αντιµετωπιστεί µε διαφορετικές
στρατηγικές λήψης ιατρικής απόφασης. Αυτό ισχύει κυρίως για εκείνες τις
περιπτώσεις που εµπλέκονται εξειδικευµένες και επεµβατικές εξετάσεις. Η κρίση του
ιατρού µπορεί να αναπαρασταθεί από το µοντέλο του συγκλίνοντα φακού του
Brunswick. Οι κρίσεις βασίζονται σε κριτήρια (Α, Β, Γ κλπ) και στις σχέσεις που
συνδέουν αφ’ ενός την αβέβαια κατάσταση µε τα επιλεγµένα κριτήρια και, αφ’
ετέρου, τα κριτήρια µε την ιατρική κρίση. Ο Brunswick τονίζει ότι οι κρίσεις γίνονται
σε ένα περιβάλλον µε ανακρίβειες και πιθανοκρατούµενο. Οποιαδήποτε πληροφορία
που συλλέγεται πρέπει να συνεκτιµάται εν σχέσει µε το περιβάλλον και τη µνήµη του
κριτή (ιατρού) και τα στοιχεία αυτά συνδυάζονται για να εξαχθεί η τελική κρίση.
26
Περιβάλλον
Κριτήρια
Κριτής
Α
Υπάρχουσα
Β
κατάσταση
Γ
Προσωπική
κρίση
∆
Ε
Η διαδικασία λήψης αποφάσεων µας επιτρέπει:
•
να συνδυάζουµε διαφορετικές πηγές πληροφορίας που δεν είναι στατιστικά
ανεξάρτητες, όπως πλεονάζουσες κλινικές και παρακλινικές πληροφορίες
•
να λαµβάνουµε υπ’ όψιν την αξιοπιστία των διαφόρων πηγών πληροφορίας
•
να λαµβάνουµε υπ’ όψιν την προβλεπτική αξία των διαφόρων πηγών
πληροφορίας,
2.3.2 Αβεβαιότητα και προκαταλήψεις στην κρίση
Η ιατρική κρίση µπορεί να παρεµποδισθεί από τη γνωστική προκατάληψη (cognitive
bias) που εµφανίζεται σε ολόκληρη τη διαδικασία λήψης ιατρικής απόφασης:
•
Κατά τη συλλογή των δεδοµένων, η σειρά µε την οποία παρέχεται η
πληροφορία είναι µια πιθανή πηγή σφαλµάτων, καθώς η πρώτη χρονολογικά
πληροφορία ίσως επικρατήσει επί των υπολοίπων
•
Η ανθρώπινη κρίση δεν συνυπολογίζει πλήρως την αξιοπιστία των δεδοµένων
(οι πηγές της πληροφορίας θεωρούνται εσφαλµένα ως πλήρως αξιόπιστες)
•
Η συλλογή πληροφοριών βασίζεται σε προσδοκίες που εξαρτώνται από το
συγκεκριµένο πρόβληµα και τις προεκτάσεις που του δίνει ο λήπτης των
αποφάσεων
•
Συντηρητισµός αποκαλείται ο δυσκολία αναµόρφωσης των αποφάσεων, η
τάση να προτιµούµε µια συγκεκριµένη ερµηνεία και να αγνοούµε ή να
εξηγούµε µε λάθος τρόπο στοιχεία που είναι αντίθετα µε την απόφαση που
λάβαµε.
•
Η ασυνέπεια κάποιας κρίσης αναπαριστά την αντίφαση που προκύπτει όταν
δίνονται διαφορετικές εκτιµήσεις για ταυτόσηµες καταστάσεις
•
∆ικαιολογησιµότητα (Justifiability) είναι η τάση να εφαρµόζεται ένας
κανόνας εάν βρεθεί ένας λόγος που τον δικαιολογεί, ακόµα και αν ο κανόνας
δεν είναι κατάλληλος
Τα παραδείγµατα αυτά δείχνουν τη δυσκολία στη κατανόηση της διαδικασίας λήψης
αποφάσεων και το αποτέλεσµά της: πώς αποτιµώνται οι αποφάσεις αυτές
27
2.4 Θεωρία πιθανοτήτων και Ανάλυση Αποφάσεων
Όλες οι αιτίες για την ύπαρξη αβεβαιότητας που αναφέρθηκαν προηγουµένως
δείχνουν την ανάγκη για την ύπαρξη ενός ακριβούς επιστηµονικού πλαισίου που θα
περιγράφει και θα διαχειρίζεται το πρόβληµα. Μέθοδοι ανάλυσης αποφάσεων που θα
έχουν µια µαθηµατική αυστηρότητα είναι χρήσιµες για διάφορους λόγους:
•
Παρέχουν µια γλώσσα µέσω της οποίας εκφράζεται και ποσοτικοποιείται η
αβεβαιότητα. Η γλώσσα αυτή είναι πιο αυστηρή και λιγότερο ασαφής από την
καθηµερινή γλώσσα
•
Προσφέρουν µια συστηµατική µέθοδο για την δόµηση και την ανάλυση
προβληµάτων
Οι πιθανότητες αποτελούν την αξιωµατική βάση της θεωρίας αποφάσεων επειδή
µετρούν την αξιοπιστία αβέβαιων προτάσεων.
2.4.1 Σύγκριση διαφόρων διαγνωστικών υποθέσεων
Για να υπολογίσουµε τις πιθανότητες διαφόρων διαγνωστικών υποθέσεων µπορούµε
να χρησιµοποιήσουµε το θεώρηµα του Bayes. Καθώς τα σηµεία και συµπτώµατα
αποτιµώνται (υπάρχουν ή δεν υπάρχουν), οι πιθανότητες που αποδίδονται σε κάθε
διαγνωστική υπόθεση τροποποιούνται, όπως φαίνεται στην παρακάτω εικόνα.
D1
D5
D2
P(D1)
P(D2/S)
P(D3)
P(D4/S)
D3
P(D4)
D5
P(D5/S) P(D1/S)
P(D2)
P(D5)
D1
P(D3/S)
D2
D3
D4
D4
Σ’ αυτό το παράδειγµα, θεωρούµε τρεις διαγνωστικές υποθέσεις (σκωληκοειδίτις,
σαλπιγγίτις και µια άλλη διάγνωση) και δύο συµπτώµατα (πόνος στο κάτω δεξιά
τεταρτηµόριο - PRLQ, και πόνος κάτω αριστερά τεταρτηµόριο – PLLQ) µε τις
παρακάτω πιθανότητες:
Di
A priori
πιθανοτητα P(Di)
P(PRLQ|Di)
P(PLLQ|Di)
Σκωληκοειδίτις
0.10
0.80
0.10
Σαλπιγγίτις
0.05
0.50
0.50
Άλλο
0.85
0.05
0.05
28
Κατόπιν υπολογίζονται οι a posteriori πιθανότητες των τριών διαγνώσεων
(σκωληκοειδίτις, σαλπιγγίτις, άλλη) για κάποιον ασθενή που εµφανίζει τόσο το
σύµπτωµα PRLQ όσο και το σύµπτωµα. Για τον υπολογισµό πρώτα χρησιµοποιούµε
το σύµπτωµα PRLQ και κατόπιν το σύµπτωµα PLLQ, γνωρίζοντας ότι το σύµπτωµα
PRLQ είναι παρόν.
P (Di |PRLQ)
P (Di |PRLQ ∩ PLLQ)
Σκωληκοειδίτις
0.54
0.35
Σαλπιγγίτις
0.17
0.55
Άλλο
0.29
0.09
Di
Υπολογισµοί όπως και ο παραπάνω εµπεριέχουν ορισµένες παραδοχές:
•
Οι νόσοι είναι αµοιβαία αποκλειόµενες
•
Τα διάφορα σηµεία και συµπτώµατα που συµπεριλαµβάνονται στη διάγνωση
είναι ανεξάρτητα µεταξύ τους
2.4.2 Αποτιµώντας τα οφέλη µιας θεραπείας
Μια θεραπεία µπορεί να είναι θεραπευτική (π.χ. χορήγηση αντιβιοτικών, αφαίρεση
όγκων), προληπτική (π.χ. αποκλεισµός ή ελάττωση κάποιου παράγοντα κινδύνου),
παρηγορητική (π.χ. αντιµετώπιση πόνου) ή υποστηρικτική (π.χ. ψυχολογική βοήθεια).
Είναι πολύ σηµαντικό να µπορεί κανείς να υπολογίσει τα οφέλη ενός συγκεκριµένου
τύπου θεραπείας για ένα συγκεκριµένο ασθενή, καθώς τα οφέλη αυτά επηρεάζουν
την απόφαση του ιατρού. Στην πράξη, σπάνια τα οφέλη αυτά ποσοτικοποιούνται.
Παρ’ όλα αυτά, σε µερικές περιπτώσεις, τα οφέλη αυτά µπορούν να αποτιµηθούν µε
τη χρήση πληροφοριών που παρέχονται από ελεγχόµενα θεραπευτικά τεστ. Η
πρόσβαση στα αποτελέσµατα αυτών των τεστ γίνεται µέσω ερωτηµάτων (queries) σε
βάσεις γνώσης, όπως η COCHRANE, η οποία αποτελέσµατα χιλιάδων κλινικών τεστ
και είναι προσβάσιµη από το ∆ιαδίκτυο (http://www.cochrane.org/).
Έστω ότι µε Pi αναπαριστούµε την πιθανότητα εµφάνισης (risk) κάποιας κακής
έκβασης Ε σε µια οµάδα ατόµων στην οποία έχουµε παρέµβει θεραπευτικά και µε Pc
την πιθανότητα εµφάνισης της ίδιας κακής έκβασης σε κάποια οµάδα ελέγχου (η
ποσότητα Pc ονοµάζεται βασικός κίνδυνος - baseline risk). Ο λόγος Pi / Pc ονοµάζεται
σχετικός κίνδυνος (relative risk – RR). Αποτελεί ένα µέτρο της ελάττωσης του
κινδύνου Pi στην οµάδα που δέχθηκε την παρέµβαση, εν σχέσει µε την οµάδα
ελέγχου. Τέτοιες µετρήσεις παρέχονται από ελεγχόµενες µελέτες (controlled trials).
Ο σχετικός κίνδυνος εξαρτάται ελάχιστα από το βασικό κίνδυνο. Αν εφαρµόσουµε τη
θεραπευτική αγωγή στον ασθενή, ο κίνδυνος εµφάνισης επιπλοκής θα ισούται µε το
γινόµενο του βασικού κινδύνου Pc επί το σχετικό κίνδυνο που µετρήθηκε από το
τεστ. Η τιµή του βασικού κινδύνου για τον ασθενή µπορεί να βρεθεί από
βιβλιογραφικά επιδηµιολογικά δεδοµένα.
Για να υπολογίσουµε το όφελος µιας θεραπείας χρησιµοποιούµε µια ποσότητα που
µετρά τον αριθµό ταυτοτικά οµοίων ασθενών που πρέπει να υποστούν τη θεραπεία
για να αποφευχθεί ένα περιστατικό κακής έκβασης. Υπολογίζεται από την:
29
N=
1
Pc × (1 − RR)
Ο ακόλουθος πίνακας αποτελεί ένα παράδειγµα αυτών των εννοιών αναφορικά µε την
ελάττωση της πιθανότητας θανάτου µετά από θρόµβωση στεφανιαίας κατά τη
διάρκεια ISIS τεστ. Το ποσοστό θανάτων στην οµάδα ελέγχου είναι 7.8%. Για
συγκρίσιµους ασθενείς, 111 άτοµα θα έπρεπε να υποστούν θεραπεία µε Captopril για
να αποφευχθεί ένας θάνατος ενώ 500 άτοµα θα απαιτούνταν για θεραπεία µε
mononitrate [11].
Θάνατοι
στην
οµάδα
ελέγχου
Θάνατοι
Απόλυτη
στην
ελάττωση
οµάδα
κινδύνου
δοκιµασίας
Σχετικός
κίνδυνος
Σχετική
ελάττωση
κινδύνου
(1)
(1)
(1)-(2)
(2)/(1)
[(1)-(2)]/(1)
Captopril
7.80%
6.90%
0.9%
88.5%
11.5%
111
Mononitrate
7.80%
7.60%
0.2%
97.4%
2.6%
500
Φάρµακο
Ν
2.4.3 ∆έντρα αποφάσεων
Η λήψη της ιατρικής απόφασης δεν στηρίζεται πάντα στην παθοφυσιολογία. Συχνά ο
γιατρός έχει να επιλέξει, µεταξύ πολλών, µία θεραπευτική αγωγή της οποίας το
αποτέλεσµα δεν είναι απόλυτα προβλεπόµενο. Η λύση αυτού του προβλήµατος είναι
πολλές φορές δύσκολη και απαιτεί τη χρήση στατιστικών µεθόδων για τη σύγκριση
των αναµενόµενων (µέσων) αποτελεσµάτων των εναλλακτικών θεραπευτικών
αγωγών.
Παρακάτω θα αναλυθεί µία από αυτές τις µεθόδους και συγκεκριµένα αυτή που
στηρίζεται στα “δέντρα απόφασης” [112].
Παράδειγµα: Έστω ότι υπάρχουν δύο θεραπευτικές αγωγές για µία θανατηφόρο
ασθένεια. Το διάστηµα επιβίωσης του ασθενούς µετά από καθεµία από τις αγωγές
είναι απρόβλεπτο όπως φαίνεται από την κατανοµή των συχνοτήτων του σχήµατος
2.1. Ανεξάρτητα από την ακολουθούµενη αγωγή ο ασθενής θα πεθάνει µέχρι το τέλος
του τέταρτου έτους, αλλά δεν γνωρίζουµε πότε. Το σχήµα 2.1 δείχνει ότι η επιβίωση
µέχρι το τέλος του τέταρτου έτους είναι πιο πιθανή µε την θεραπεία Β, αλλά ο
ασθενής µπορεί να πεθάνει τον πρώτο χρόνο µε την αγωγή Β και να επιβιώσει µέχρι
το τέταρτο µε την αγωγή Α.
30
Σχήµα 2.1
Το ερώτηµα που τίθεται είναι πως θα επιλεγεί η προτιµότερη αγωγή. Η µέθοδος που
θα χρησιµοποιηθεί για να απαντηθεί αυτό το ερώτηµα καλείται “λήψη απόφασης µε
βάση την αναµενόµενη τιµή (expected-value decision making)”.
Το κριτήριο που θα χρησιµοποιηθεί είναι ένας αριθµός που ονοµάζεται ωφελιµότητα
(Utility) και δίνει το µέτρο της απόδοσης των εναλλακτικών αποφάσεων που µπορούν
να αναδειχθούν κατά τη διαδικασία της διάγνωσης, πρόγνωσης, θεραπείας κ.λ.π.
Η Προτιµότερη απόφαση είναι εκείνη που δίνει την µεγαλύτερη ωφελιµότητα. Στην
πιο απλή περίπτωση η ωφελιµότητα µπορεί να εκφράζει τον χρόνο επιβίωσης ενώ σε
πιο σύνθετες περιπτώσεις µπορεί να περιλαµβάνει και την ποιότητα ζωής ή άλλους
παράγοντες.
Η διαδικασία επιλογής µεταξύ των θεραπειών Α και Β δίνεται σχηµατικά στο σχήµα
2.2. Το τυχαίο ενδεχόµενο παρίσταται γραφικά µε τον λεγόµενο κόµβο τύχης (chance
node). Κατά σύµβαση ο κόµβος τύχης δίνεται µε ένα κύκλο από τον οποίο ξεκινούν
διάφορες γραµµές. Κάθε γραµµή αντιπροσωπεύει τη διαδροµή προς καθένα από τα
δυνατά ενδεχόµενα.
Το ενδεχόµενο ενός τυχαίου συµβάντος µπορεί να αντιπροσωπευτεί µε την
αναµενόµενη τιµή ενός κόµβου τύχης. Στο υπό συζήτηση παράδειγµα η
αναµενόµενη τιµή υπολογίζεται σαν µέση τιµή επιβίωσης των ασθενών που θα
ακολουθούσαν την αγωγή που δίνεται στον κόµβο τύχης του σχήµατος 2.2. Έτσι στην
περίπτωση της αγωγής Α η αναµενόµενη τιµή είναι 2.3 χρόνια και στην περίπτωση
της αγωγής Β η τιµή είναι 3.1 χρόνια. Υπάρχουν περιπτώσεις που η ωφελιµότητα και
εποµένως η αναµενόµενη τιµή µιας αγωγής δεν µετριέται σε επιβίωση, αλλά σε
ποιότητα ζωής, σε οικονοµικό κόστος ή καµιά φορά στην συνεκτίµησή τους.
Η λήψη απόφασης µε βάση την αναµενόµενη τιµή απαιτεί τα παρακάτω βήµατα:
•
∆ηµιουργία ενός δένδρου απόφασης µέσου του οποίου θα δοθούν οι
διαδροµές και οι διακλαδώσεις κάθε εναλλακτικής απόφασης και θα
προσδιορισθούν οι πιθανότητες κάθε ενδιάµεσου ενδεχοµένού.
•
Υπολογισµό της αναµενόµενης τιµής κάθε εναλλακτικής απόφασης.
31
•
Επιλογή της εναλλακτικής απόφασης µε την υψηλότερη αναµενόµενη τιµή.
•
Χρήση της ανάλυσης ευαισθησίας για τον έλεγχο των συµπερασµάτων της
ανάλυσης.
Σχήµα 2.2
Το πιο δύσκολο βήµα είναι το πρώτο, δηλαδή η µετάφραση ή το σπάσιµο ενός
σύνθετου προβλήµατος απόφασης σε ένα δένδρο απλών προβληµάτων τα οποία
πρέπει να συνεκτιµηθούν.
Παράδειγµα προσδιορισµού ωφελιµότητας µιας απόφασης
Ένας άνδρας 42 ετών πριν 18 µήνες υπέστη µε επιτυχία µεταµόσχευση πτωµατικού
νεφρού. Από τότε έχει µία φυσιολογική νεφρική λειτουργία. Ενώ εξακολουθεί να
παίρνει ανοσοκατασταλτική θεραπεία, εµφάνισε ταυτόχρονα δυο µελανώµατα, που
αντιµετωπίσθηκαν χειρουργικά µε επιτυχία.
Εάν συνεχιστεί η ανοσοκαταστολή, πιθανότατα θα εµφανισθεί ένα νέο µελάνωµα,
ίσως θανατηφόρο αυτή τη φορά.
Εάν σταµατήσει τα φάρµακα τότε είναι βέβαιο ότι θα απορριφθεί ο πτωµατικός
νεφρός και ο ασθενής θα επιστρέψει στην αιµοκάθαρση, πράγµα που επιθυµεί να
αποφύγει.
Το πρώτο βήµα για την επίλυση του συγκεκριµένου προβλήµατος είναι η παράσταση
κάθε εναλλακτικής απόφασης µέσω του δέντρου απόφασης.
Το συγκεκριµένο δέντρο συνίσταται από περισσότερους του ενός κόµβους και από τις
διακλαδώσεις τους.
Οι κόµβοι απόφασης αντιπροσωπεύουν τις δυνατές επιλογές του αποφασίζοντος.
Στην προκειµένη περίπτωση υπάρχει ένας κόµβος απόφασης (θα µπορούσαν να
υπήρχαν περισσότεροι) που παρίσταται µε ένα τετραγωνάκι και οι επιλογές είναι δύο,
(θα µπορούσαν να ήσαν περισσότερες) δηλαδή συνεχίζεται ή σταµατά η
ανοσοκατασταλτική θεραπεία. Τα ενδεχόµενα των κόµβων τύχης (που δεν
32
επιλέγονται αλλά είναι τυχαία) είναι απόρριψη του µοσχεύµατος και υποτροπή του
µελανώµατος (βλέπε σχήµα 2.3).
Σε κάθε διακλάδωση ενός κόµβου τύχης αντιστοιχεί µία πιθανότητα που είναι η
πιθανότητα επαλήθευσης του συµβάντος που εκφράζεται στην διακλάδωση. Τα
ενδεχόµενα που ορίζονται από ένα κόµβο τύχης πρέπει να καλύπτουν το σύνολο του
δειγµατικού χώρου (δηλαδή η ένωσή τους να έχει πιθανότητα 1.0) και να µην έχουν
επικαλύψεις. Τα τελικά ενδεχόµενα του παραδείγµατος όπως “απόρριψη του
µοσχεύµατος” “µη υποτροπή του µελανώµατος” αποτελούν καταληκτικούς κόµβους
οι οποίοι παρίστανται µε ορθογώνια κουτάκια (σχήµα 2.3).
Οι ατοµικές αυτές συνιστώσες συνδυάζονται για να σχηµατίσουν ένα δέντρο
απόφασης. Η δοµή του δέντρου πρέπει να είναι τέτοια ώστε να είναι εµφανείς όλες οι
προδιαγραφές και παραδοχές του προβλήµατος.
Σχήµα 2.3
Στο παράδειγµά µας οι παραδοχές είναι οι παρακάτω:
•
Εάν η ανοσοκατασταλτική θεραπεία συνεχισθεί, ο ασθενής µπορεί να
απορρίψει ή να µην απορρίψει το µόσχευµα.
•
Εάν το µόσχευµα απορριφθεί, παρά την ανοσοκατασταλτική θεραπεία, η
θεραπεία θα σταµατήσει.
•
Εάν η ανοσοκατασταλτική θεραπεία σταµατήσει µε την θέληση του ασθενούς,
το µόσχευµα θα απορριφθεί άµεσα και ο ασθενής θα γυρίσει στην
αιµοκάθαρση.
•
∆εύτερη µεταµόσχευση δεν εξετάζεται.
•
Η θνησιµότητα του ασθενούς και η ποιότητα της ζωής του επηρεάζεται
αρνητικά µε την επιστροφή στην αιµοκάθάρση.
•
Όσο πιο πολύ παραµένει ο ασθενής στην ανοσοκατασταλτική θεραπεία, τόσο
µεγαλύτερος είναι ο κίνδυνος υποτροπής του µελανώµατος.
Το πλήρες σχήµα του δέντρου απόφασης δίνεται στο σχήµα 2.4. Η κατασκευή του
δέντρου είναι τέτοια ώστε τα γεγονότα που εµφανίζονται στα αριστερά προηγούνται
εκείνων που εµφανίζονται στα δεξιά του δέντρου. Οι ετικέτες των τερµατικών
κόµβων αντανακλούν τους συνδυασµούς συµβάντων που λαµβάνουν χώρα κατά την
µοναδική διαδροµή του δέντρου που ξεκινά από τον αρχικό κόµβο απόφασης και
καταλήγει στον τερµατικό κόµβο.
33
Σχήµα 2.4
Προσδιορισµός πιθανοτήτων
Οι πιθανότητες που εµφανίζονται στις διακλαδώσεις των κόµβων τύχης µπορεί να
προσδιορισθούν µε ανάλυση της Ιατρικής βιβλιογραφίας ή µε βάση την άποψη
ειδικών. Σε κάθε περίπτωση πρέπει να αντανακλούν τις παραδοχές του αναλυτικού
µοντέλου της απόφασης.
Για παράδειγµα ένας παράγων ο οποίος διαφοροποιεί τον κόµβο τύχης που
προσοµοιώνει την υποτροπή µελανώµατος µετά από απόρριψη του µοσχεύµατος, από
τον ανάλογο κόµβο µετά από µη απόρριψη του µοσχεύµατος είναι ότι η πιθανότητα
υποτροπής του µελανώµατος είναι µικρότερη. Κατά συνέπεια για αυτούς τους δύο
κόµβους τύχης η πιθανότητες που χρησιµοποιούνται στο υπό συζήτηση παράδειγµα
εµφανίζονται στις αντίστοιχες θέσεις του δένδρου απόφασης του σχήµατος 2.4
Προσδιορισµός ωφελιµοτήτων
Σε κάθε τερµατικό κόµβο η έκφραση που περιέχεται στο ορθογώνιο αντιπροσωπεύει
την τιµή της ωφελιµότητας (utility) του αντίστοιχου τερµατικού ενδεχόµενου. Οι
µονάδες µε τις οποίες µετράται η ωφελιµότητα µπορούν να είναι διάφορες
(αυθαίρετες µονάδες , δολάρια, χρόνια επιβίωσης) µε τον περιορισµό ότι σε µία
δεδοµένη ανάλυση πρέπει να είναι οι ίδιες. Στο παράδειγµα, και ο χρόνος επιβίωσης
αλλά και η ποιότητα ζωής µπορούν να θεωρηθούν σηµαντικότατοι παράγοντες. Για
να συνεκτιµηθούν αυτοί οι δύο παράγοντες στο µέτρο της ωφελιµότητας θα πρέπει το
προσδόκιµο ζωής του ασθενούς για ένα ενδεχόµενο να πολλαπλασιασθεί µε ένα
συντελεστή που εκφράζει την ποιότητα ζωής που αντιστοιχεί στο ίδιο ενδεχόµενο.
Στην περίπτωση αυτή οι µονάδες µέτρησης αναφέρονται ως χρόνια ζωής διορθωµένα
ως προς την ποιότητα (QALYs = quality adjusted life years). Σύµφωνα µε αυτό το
µέτρο ωφελιµότητας µπορεί µια µικρότερη επιβίωση σε συνδυασµό µε υψηλή
ποιότητα ζωής µπορεί να είναι προτιµότερη από µια µεγαλύτερη επιβίωση µε χαµηλή
ποιότητα ζωής . Για την υπό ε3έταση περίπτωση, ο ασθενής µαζί µε τον γιατρό του
χρησιµοποιώντας ειδικές τεχνικές ,εκχώρησαν ένα συντελεστή 0.7 για την ποιότητα
ζωής σε αιµοκάθαρση και ένα συντελεστή 1.0 για επιβίωση µε λειτουργικό
µόσχευµα.
34
Υπολογισµός της αναµενόµενης ωφελιµότητας
Για τον υπολογισµό της αναµενόµενης ωφελιµότητας κάθε επιλογής, χρησιµοποιείται
η διαδικασία της “αναδίπλωσης”. Λέγεται έτσι γιατί ξεκινάει από τις τιµές των
τερµατικών κόµβων και υπολογίζει τις τιµές των ενδιάµεσων κόµβων και
πηγαίνοντας προς τα πίσω φθάνει µέχρι την τιµή της ρίζας του δένδρου που είναι ο
αρχικός κόµβος απόφασης . Η αναµενόµενη τιµή ενός κόµβου τύχης ισούται µε το
άθροισµα των γινοµένων που αναφέρονται στην ωφελιµότητα καθενός κλάδου του
κόµβου επί την αντίστοιχη πιθανότητα του. Έτσι στο παράδειγµα, βλ. Σχήµα 2.5α η
αναµενόµενη ωφελιµότητα του τερµατικού κόµβου ΝΕΟ ΜΕΛΑΝΩΜΑ ,στο πάνω
δεξιά µέρος του δένδρου είναι 3.71. Η τιµή του τερµατικού κόµβου ΟΧΙ
ΜΕΛΑΝΩΜΑ, ακριβώς από κάτω, είναι 6.44. Η τιµή του κόµβου τύχης “απόρριψη”
που έχει αυτούς τους δύο τερµατικούς κόµβους ισούται µε : (3.71) x (0.25) + (6.44) x
(0.75). Το αποτέλεσµα, 5.8, είναι η σταθµισµένη µέση τιµή των δύο κλάδων του
κόµβου. Με την διαδικασία µπορεί να φθάσει κανείς, πηγαίνοντας προς τα πίσω ,
στον κόµβο απόφασης “συνεχίζεται ή σταµατά η ανοσοκατασταλτική θεραπεία” και
βρίσκει αντίστοιχα για τους δύο κλάδους της τις τιµές 7.9 και 6.3.
2.4.4 Ανάλυση ευαισθησίας
Πολλά από τα δεδοµένα που χρησιµοποιούνται στην ανάλυση είναι προσεγγίσεις και
είναι χρήσιµο να προσδιορισθεί σε ποιο βαθµό η µεταβολή της τιµής µιας
παραµέτρου επηρεάζει το τελικό αποτέλεσµα. Με την ανάλυση ευαισθησίας το
δένδρο αναδιπλώνεται χρησιµοποιώντας διάφορες τιµές µιας αριθµητικής
παραµέτρου (π.χ. µελετάται η επίδραση της µεταβολής της πιθανότητας απόρριψης
του µοσχεύµατος ή ο συντελεστής ποιότητας ζωής στην αιµοκάθαρση). Με άλλα
λόγια η ωφελιµότητα στον αρχικό κόµβο απόφαση µελετάται σαν συνάρτηση
περισσοτέρων της µιας µεταβλητών όπου µεταβλητές είναι οι παράµετροι που
εµφανίζονται στο δένδρο.
Βεβαίως όταν γίνεται ανάλυση ευαισθησίας σε σχέση µε µια πιθανότητα το πεδίο
µεταβλητότητάς της είναι από το µηδέν έως το ένα.
Στο σχήµα 2.5β περιγράφεται η ανάλυση ευαισθησίας της πιθανότητας υποτροπής
του µελανώµατος όταν συνεχίζεται η ανοσοκατασταλτική θεραπεία. Η αναµενόµενη
ωφελιµότητα κάθε στρατηγικής υπολογίζεται για µια σειρά από τιµές αυτής της
πιθανότητας (συνάρτηση µιας µεταβλητής ή one way sensitivity analysis).
Γίνεται άµεσα αντιληπτό ότι η αύξηση της πιθανότητας υποτροπής του µελανώµατος
µειώνει σταθερά και γραµµικά την αναµενόµενη ωφελιµότητα της επιλογής
“συνέχιση της ανοσοκατασταλτικής θεραπείας”. Από την άλλη πλευρά η µεταβολή
αυτής της πιθανότητας αφήνει ανεπηρέαστη (σταθερή) την επιλογή της “διακοπής της
ανοσοκατασταλτικής θεραπείας”. Όταν η πιθανότητα υποτροπής γίνεται ίση µε 0.89
οι δύο στρατηγικές έχουν την ίδια αναµενόµενη ωφελιµότητα. Αυτή η τιµή της
πιθανότητας ονοµάζεται πιθανότητα “κατωφλίου”.Η ταυτόχρονη επίδραση δύο
παραµέτρων (συνάρτηση δύο µεταβλητών) µπορεί να εξετασθεί µε την λεγόµενη twoway sensitivity analysis. Αυτή η ανάλυση είναι πολύ σηµαντική γιατί δείχνει πως
διαφορετικοί παράγοντες της ανάλυσης αλληλεπιδρούν.
35
Σχήµα 2.5α
Σχήµα 2.5β
Στο σχήµα 2.6 δίνεται η “two-way analysis” όπου µεταβλητές είναι η πιθανότητα
υποτροπής του µελανώµατος κατά την συνέχιση της ανοσοκατασταλτικής θεραπείας
και συντελεστής ποιότητας ζωής στην αιµοκάθαρση.
Η γραµµή χωρίζει τα γράµµατα σε δύο περιοχές. Για όλους τους συνδυασµούς των
τιµών που πέφτουν στην κατώτερη περιοχή η βέλτιστη απόφαση είναι η συνέχιση
της; θεραπείας. Το αντίθετο συµβαίνει για όλους τους συνδυασµούς που πέφτουν
στην ανώτερη περιοχή του γραφήµατος, όπου η βέλτιστη επιλογή είναι το σταµάτηµα
της ανοσοκατασταλτικής θεραπείας.
36
Σχήµα 2.6
2.5 Συµβολική λογική και έµπειρα συστήµατα
Τα τελευταία 15 χρόνια, τα συστήµατα λήψης αποφάσεων που αναπτύχθηκαν,
σχεδιάστηκαν έτσι ώστε να αντιµετωπίζουν προβλήµατα µε το γενικότερο δυνατό
τρόπο. Η έρευνα σ αυτό τον τοµέα εστιάστηκε στην επίλυση προβληµάτων για τα
οποία δεν υπάρχει αλγοριθµική λύση. Η µεθοδολογία αυτή οδήγησε τους ερευνητές
να προτείνουν µέσα για την αναπαράσταση και τη χρήση συµβολικής και δηλωτικής
λογικής που εµπλουτίζουν και συµπληρώνουν τις αριθµητικές και αλγοριθµικές
µεθόδους. Οι µέθοδοι και οι τεχνικές της Τεχνητής Νοηµοσύνης παρείχαν ένα
πλαίσιο για έρευνα σε γνωστικό επίπεδο και οδήγησαν στην ανάπτυξη εµπείρων
συστηµάτων. Οι πολυάριθµες αυτές εξελίξεις χρησιµοποιούνται τώρα σε όλες τις
ιατρικές ειδικότητες.
2.5.1 Αναπαράσταση Γνώσης
Η συµβολική λογική απαιτεί διάφορους τύπους γνώσης: ανατοµική, παθολογική,
επιδηµιολογική, φαρµακολογική και θεραπευτική. Στο γνωστικό επίπεδο, µπορούµε
να ορίσουµε δύο κύρια µοντέλα γνώσης:
1. το εµπειρικό µοντέλο. Η εµπειρική γνώση αφορά τις συσχετίσεις µεταξύ
ασθενειών και συµπτωµάτων. Μπορούν να προκύψουν είτε από ειδικούς, είτε
από την ανάλυση µιας βάσης δεδοµένων.
2. Μοντέλα που βασίζονται σε φυσιολογική και παθολογική γνώση. Αυτός ο
τύπος γνώσης, όταν είναι διαθέσιµος, µας επιτρέπει να εισάγουµε
συλλογισµούς που περιγράφουν τους µηχανισµούς παθογένειας. Οι εξηγήσεις
που παρέχει η αιτιοκρατική γνώση είναι πιο εύκολα αντιληπτή από κάποιον
χρήστη που δεν έλαβε µέρος στην ανάπτυξη του συστήµατος λήψης
αποφάσεων
∆ύο είναι τα κύρια συστήµατα που χρησιµοποιούνται για την αναπαράσταση της
γνώσης: οι παραγωγικοί κανόνες (production rules) και τα πλαίσια (frames).
37
Παραγωγικοί κανόνες
Οι κανόνες αυτοί έχουν τη γενική µορφή:
ΑΝ <συνθήκες> ΤΟΤΕ <συµπεράσµατα>
Έµπειρα συστήµατα όπως το MYCIN, που αναπτύχθηκε από ειδικούς σε λοιµώδη
νοσήµατα, εφαρµόζουν τέτοιους κανόνες συνδυάζοντας το βαθµό αξιοπιστίας που
έχει αποδοθεί σε κάθε κανόνα. Η επίπτωση που µπορεί να έχει ένα συµπέρασµα στην
απόφαση µπορεί να τροποποιηθεί από έναν συντελεστή αξιοπιστίας (credibility
factor-CF) που λαµβάνει τιµές από –1 έως +1. Όσο πιο κοντά είναι ο CF στην τιµή
+1, τόσο πιο πιθανό είναι το συµπέρασµα. Αντίστοιχα, αρνητικές τιµές του CF
εκφράζουν τη λογική άρνηση στο συµπέρασµα.
Τα συστήµατα λήψης αποφάσεων που αναπτύχθηκαν από το MYCIN λαµβάνουν υπ’
όψιν πληροφορίες που αφορούν τον ασθενή, τις καλλιέργειες µικροβίων,
αποµονωµένους οργανισµούς και τα φάρµακα που χορηγήθηκαν [121].
Το συντακτικό Arden είναι το πρότυπο που έχει προταθεί για την αναπαράσταση των
παραγωγικών κανόνων. Σχεδιάστηκε σε ένα σεµινάριο στο Arden Homestead, NY,
USA, το 1989. Οι κανόνες αναπαριστώνται µέσω των Μονάδων Ιατρικής Λογικής
(Medical Logic Module – MLM) ώστε να είναι εφικτή η επαναχρησιµοποίηση των
κανόνων από ένα ίδρυµα σε άλλο.
Πλαίσια
Τα δοµηµένα αντικείµενα ή πλαίσια µας επιτρέπουν να περιγράψουµε σύνθετες
ιατρικές έννοιες προσδιορίζοντας τα χαρακτηριστικά τους και τα µέσα για την
αποτίµησή τους [93, 104].
ΟΝΟΜΑ: Acute glomerulonephritis
Ενεργοποιείται από
Οίδηµα προσώπου,
συµµετρικό κλπ
χωρίς
Επιβεβαιώνεται από
Malaise, asthenia, anorexia etc
Προκαλείται από
Πρόσφατη λοίµωξη από στρεπτόκοκκο
Αιτίες
Κατακράτηση νατρίου,
syndrome, κλπ
Επιπλοκές
Οξεία νεφρική ανεπάρκεια
∆ιαφορική διάγνωση
(ΑΝ χρόνια υψηλή αρτηριακή πίεση ΤΟΤΕ χρόνια
glomerulonephritis)
(ΑΝ επαναλαµβανόµενο
syndrome)
38
πόνο,
οξεία
χωρίς
ερύθηµα,
υπέρταση,
nephritic
οίδηµα
ΤΟΤΕ
nephritic
2.5.2 Χρήση της γνώσης
Η χρήση της γνώσης εξαρτάται σε ένα µεγάλο βαθµό από τη µέθοδο που
χρησιµοποιείται για την αναπαράσταση της γνώσης και την επιλεχθείσα στρατηγική.
Παρακάτω θα παρουσιασθούν οι κλασσικές στρατηγικές που ακολουθούνται σε
συστήµατα που βασίζονται σε παραγωγικούς κανόνες.
Backward chaining
Το σύστηµα δηµιουργεί όλα τα δυνατά µονοπάτια που οδηγούν σε κάθε δυνατό
συµπέρασµα. Τα µονοπάτια οικοδοµούνται µε τη χρήση κανόνων γνώσης. Μέσω της
στρατηγικής διερεύνησης που ονοµάζεται backward chaining (επίσης γνωστή ως
goal-oriented στρατηγική διερεύνησης), το σύστηµα χρησιµοποιεί όλους τους
κανόνες που οδηγούν σε ένα συγκεκριµένο στόχο (Σ στην ακόλουθη εικόνα). Για να
επιβεβαιωθεί ο στόχος, οι κανόνες χρησιµοποιούνται ο ένας µετά τον άλλο
Μπορούµε να αναπαραστήσουµε τη χρήση όλων των κανόνων που οδηγούν στην
επίτευξη ενός στόχου µέσω ενός δέντρου AND/OR.
Α
Κανόνας που επιβεβαιώνει
την κατάσταση Β
Β
Κανόνας που επιβεβαιώνει
την κατάσταση ∆
Κανόνας που επιβεβαιώνει
την κατάσταση Σ
∆
Γ
Σ
Κανόνας που επιβεβαιώνει
την κατάσταση ∆
Ε
Κανόνας που επιβεβαιώνει
την κατάσταση Σ
Σε συστήµατα µε σταθµισµένα συµπεράσµατα, οι συντελεστές αξιοπιστίας
δηµιουργούνται µε τη χρήση διαφόρων µοντέλων. Στο MYCIN, για παράδειγµα, η
αξιοπιστία για ένα συµπέρασµα του τύπου ΑΝ Α ΤΟΤΕ Β υπολογίζεται
χρησιµοποιώντας τον τύπο:
CF (C ) = ∂ ⋅ min[CF ( A), CF ( B )]
όπου ∂ είναι ο συντελεστής αξιοπιστίας του παραγωγικού κανόνα που παρέχεται από
τον ειδικό και min[CF ( A), CF ( B)] είναι το ελάχιστο των CF(A) και CF(B).
Στην παρακάτω εικόνα φαίνονται οι κανόνες µέσω των οποίων συνδυάζονται οι
συντελεστές αξιοπιστίας στο MYCIN.
39
Α
Κανόνες
• ΑΝ
Α
ΤΟΤΕ
Γ(x)
• ΑΝ
Β
ΤΟΤΕ
Γ(y)
• ΑΝ
Γ
ΤΟΤΕ
∆(z)
x
z
Γ
Β
∆
y
 x + y − xy
αν x, y > 0

( x + y)
1. Συνδυασµός OR: CF(Γ) = 
αν x, y ετερόσηµα
 [1 − min( x, y )]
αν x, y < 0
− ( x + y − xy )
2. Συµπέρασµα: CF(∆) = z . max[0, CF(Γ)]
Forward chaining
Σύµφωνα µε αυτή τη στρατηγική, επίσης γνωστή ως data-oriented στρατηγική, το
σύστηµα δεν προτείνει στόχους οι οποίοι θα επιβεβαιωθούν. Αντίθετα, µετατρέπει
όλη τη διαθέσιµη πληροφορία σε κανόνες γνώσης και αποπειράται να διατυπώσει όλα
τα συµπεράσµατα που µπορούν να διατυπωθούν.
Αυτή η στρατηγική µπορεί να συνυπολογίζει το σύνολο της νέας πληροφορίας στη
συλλογιστική διαδικασία αλλά εκτίθεται στους κινδύνους που επιφέρει ο πολλές
φορές ασύλληπτα µεγάλος αριθµός πιθανών συµπερασµάτων, τα οποία είναι και
άσχετα µε το υπό µελέτη πρόβληµα.
40
2.6 Κατά Bayes θεωρία αποφάσεων
2.6.1 Η πιθανότητα ως µέτρο προσωπικής πεποίθησης.
Κάποιος που εκφράζεται σύµφωνα µε την κατά Bayes ή υποκειµενική οπτική,
αντιµετωπίζει την πιθανότητα κάποιου ενδεχοµένου ως ένα µέτρο του βαθµού της
πεποίθησης κάποιου σε ένα ενδεχόµενο, δοθείσης της διαθέσιµης σ’ αυτόν
πληροφορίας. Πιθανότητα ίση µε 1 αντιστοιχεί στην απόλυτη πεποίθηση ότι µια
πρόταση είναι αληθής, πιθανότητα ίση µε 0 αντιστοιχεί στην απόλυτη πεποίθηση ότι
είναι αληθής η άρνηση µιας πρότασης και ενδιάµεσες τιµές αντιστοιχούν σε µερική
πεποίθηση ή γνώση. Σύµφωνα µε αυτή την οπτική, οι πιθανότητες είναι ιδιότητες της
κατάστασης της γνώσης ενός ατόµου παρά ιδιότητες µιας ακολουθίας γεγονότων (π.χ.
ρίψεις ενός γνησίου νοµίσµατος). Αυτή η προσέγγιση γενικεύει την κλασσική έννοια
της πιθανότητας ως τη µακροπρόθεσµη συχνότητα ενός επαναλήψιµου γεγονότος.
Αυτός που ακολουθεί την υποκειµενική θεώρηση, είναι πρόθυµος στο να σχηµατίσει
πεποιθήσεις µε βάση µια µοναδική δοκιµασία, που δεν αποτελεί µέλος κάποιας
προφανούς επαναλήψιµης ακολουθίας δοκιµασιών (π.χ. η πιθανότητα να
ολοκληρώσουµε τη συγγραφή του άρθρου αυτή την εβδοµάδα). Ο καθορισµός µιας
υποκειµενικής πιθανότητας θα πρέπει να βασίζεται στο σύνολο της διαθέσιµης στο
άτοµο πληροφορίας, συµπεριλαµβανοµένων των στοιχείων που είναι γνωστό ότι είναι
αληθή ή που συνάγονται µε ένα λογικό τρόπο καθώς επίσης και πληροφορίας που
προέρχεται από εµπειρικές συχνότητες.
Ένας πραγµατικός αριθµός χρησιµοποιείται για να αντιπροσωπεύσει την πεποίθηση
που κάποιος έχει στην αλήθεια µιας πρότασης. Οι υποκειµενικοί παρατηρητές συχνά
εφιστούν την προσοχή στην κατάσταση της πληροφορίας στην οποία η πιθανότητα
βασίζεται, ή δεσµεύεται, καθορίζοντάς την εκπεφρασµένα. Ο συµβολισµός για την
πιθανότητα µιας πρότασης ή ενός ενδεχοµένου Χ δεσµευµένου σε µια κατάσταση
πληροφορίας ξ µπορεί να καθοριστεί ως p( X | ξ ) . Αν για παράδειγµα συµβολίσουµε
µε Χ την πρόταση «Ο πολιτικός Κ. θα είναι υποψήφιος στις επόµενες εκλογές», τότε
p( X | ξ ) είναι η υποκειµενική πεποίθηση κάποιου ατόµου στην πρόταση Χ, µε
δεδοµένη τη γνώση ξ που έχει και που µπορεί να συµπεριλαµβάνει τις απόψεις του
ατόµου για την πολιτική στη χώρα του, συγκεκριµένες δηλώσεις του Κ. και µια
εκτίµηση του παρελθόντος και της προσωπικότητας του Κ. Για να καταστεί σαφές ότι
οποιοσδήποτε σχηµατισµός πεποίθησης βασίζεται σε εδραία γνώση, η ξ
συµπεριλαµβάνεται εκπεφρασµένα στη δήλωση δέσµευσης. Στην περίπτωση που η
γνώση ξ θεωρείται σταθερή, µπορούµε να γράφουµε p(Χ) αντί για p(Χ | ξ), αφού ο
σκοπός της p είναι η σύνοψη της ξ και όχι η ανάπτυξή της. Όταν όµως η γνώση
διαφοροποιείται πρέπει να αναγνωρίζονται µε συγκεκριµένο τρόπο οι παραδοχές που
γίνονται για την τιµή της πεποίθησης και η ξ ή κάποια στοιχεία της να αναλύονται
εκπεφρασµένα. Άρα, η αναθεωρηµένη πιθανότητα του Χ δοθέντος ενός νέου
στοιχείου (ένδειξης) Ε γράφεται p( X | E ,ξ ) , όπου µε κόµµα συµβολίζεται ο
συνδυασµός (τοµή) των Ε και ξ.
Οι υποκειµενικές πιθανότητες υπακούουν στο ίδιο σύνολο αξιωµάτων όπως και οι
κλασσικές πιθανότητες. Τα αξιώµατα είναι κανόνες που εξασφαλίζουν το συνεπή
συνδυασµό πιθανοτήτων για ενδεχόµενα που συσχετίζονται. Ένας κλασσικό σύνολο
αξιωµάτων ορισµού της πιθανότητας περιλαµβάνει τους ακόλουθους ορισµούς:
41
0 ≤ p( X | ξ ) ≤ 1
p ( X | ξ ) + p(not X | ξ ) = 1
p( X or Y | ξ ) = p ( X | ξ ) + p(Y | ξ ) − p( X and Y | ξ )
p( X and Y | ξ ) = p( X | Y ,ξ ) p(Y | ξ )
Σε αντίθεση µε την παραδοσιακή πρακτική, σύµφωνα µε την οποία η δεσµευµένη
πιθανότητα ορίζεται µε όρους συνδυαστικής πιθανότητας,
p( A | B) =
p( A, B)
,
p( B)
οι κατά Bayes φιλόσοφοι θεωρούν τη σχέση δέσµευσης ως πιο βασική από εκείνη του
συνδυασµού των ενδεχοµένων, δηλαδή πιο συµβατή µε τον τρόπο οργάνωσης της
ανθρώπινης γνώσης. Υπό αυτή την οπτική γωνία, το Β λειτουργεί ως δείκτης για µια
έννοια ή ένα πλαίσιο γνώσης και το Α|Β ως ένα ενδεχόµενο µέσα στην έννοια που
καθορίζει το Β (για παράδειγµα, ένα σύµπτωµα Α µέσα στη έννοια ασθένεια Β). Κατά
συνέπεια, η εµπειρική γνώση κωδικοποιείται µε δηλώσεις δεσµευµένης πιθανότητας
ενώ η πεποίθηση σε συνδυασµούς ενδεχοµένων –εάν ποτέ χρειασθεί– υπολογίζεται
µέσω της σχέσης (κανόνας γινοµένου)
p( A, B) = p( A | B ) p( B) .
Η πιθανότητα οποιουδήποτε ενδεχοµένου Α µπορεί να υπολογιστεί µέσω της
δέσµευσής του σε οποιοδήποτε σύνολο αµοιβαία αποκλειοµένων ενδεχοµένων που
εξαντλούν το δειγµατικό χώρο Βi, i=1, 2, …, n:
p ( A) = ∑ p ( A | Bi ) p( Bi ) .
i
Αυτή η αποσύνθεση αποτελεί τη βάση για µια συλλογιστική βασισµένη σε υποθέσεις
µέσα στον κατά Bayes φορµαλισµό. Μας δείχνει ότι η πεποίθηση σε οποιοδήποτε
ενδεχόµενο Α είναι το σταθµισµένο άθροισµα των πεποιθήσεων για όλους τους
διακριτούς τρόπους κάτω από τους οποίους το Α µπορεί να πραγµατοποιηθεί.
Στην πραγµατικότητα η παραπάνω σχέση αποτελεί συντόµευση της σχέσης
p( A | K ) = ∑ p( A | Bi , K ) p( Bi | K )
i
όπου µε Κ συµβολίζουµε το ευρύτερο πλαίσιο που ορίζει τις υποθέσεις που κάνουµε
ως κοινή γνώση.
∆ιαδικασίες απόδοσης πεποίθησης που είναι συνεπείς προς τα αξιώµατα της θεωρίας
πιθανοτήτων ονοµάζονται συνεκτικές (coherent). Υπ’ αυτή την έννοια, η θεωρία
παρέχει έναν έλεγχο συνέπειας για πεποιθήσεις υπό απροσδιοριστία. Πειστικά
παραδείγµατα υποδηλώνουν ότι ένα λογικό άτοµο θα απέφευγε τη λήψη αποφάσεων
που βασίζονται σε πεποιθήσεις που δεν έχουν συνοχή. Για παράδειγµα, κάποιος που
είναι πρόθυµος να στοιχηµατίσει σύµφωνα µε πιθανότητες που δεν έχουν συνοχή, θα
δεχόταν ένα ‘Dutch book’, δηλαδή ένα συνδυασµό στοιχηµάτων που οδηγούν σε
σίγουρη αποτυχία για οποιοδήποτε αποτέλεσµα.
42
2.6.2 Η επάρκεια της πιθανότητας για την αναπαράσταση της
απροσδιοριστίας
Μια σειρά από ερευνητές έχουν παράσχει θεµελιώδεις διαισθητικές ιδιότητες, οι
οποίες πρέπει να πληρούνται από ένα µέτρο πεποίθησης στην αλήθεια µιας πρότασης.
Μια πρόσφατη αναµόρφωση [68] των επιθυµητών ιδιοτήτων της πεποίθησης είναι:
Σαφήνεια: Οι προτάσεις θα πρέπει να είναι καλά ορισµένες.
Βαθµωτή συνέχεια: Ένας πραγµατικός αριθµός είναι αναγκαίος και ικανός για την
αναπαράσταση του βαθµού της πεποίθησης σε µια πρόταση.
Πληρότητα: Ένας βαθµός πεποίθησης µπορεί να ανατεθεί σε οποιαδήποτε καλά
ορισµένη πρόταση.
Θεµατική εξάρτηση ή εξάρτηση συνάφειας (context dependency): Η πεποίθηση που
ανατίθεται σε µια πρόταση µπορεί να εξαρτάται από την πεποίθηση σε άλλες
προτάσεις
Υποθετική δέσµευση: Υπάρχει κάποια συνάρτηση που επιτρέπει η πεποίθηση σε ένα
συνδυασµό (τοµή) προτάσεων Β(Χ and Y) να υπολογίζεται από την πεποίθηση σε µια
πρόταση και την πεποίθηση σε µια άλλη πρόταση, δοθέντος ότι η πρώτη πρόταση
είναι αληθής. ∆ηλαδή,
B ( X and Y ) = f [B( X | Y ), B(Y )]
Συµπληρωµατικότητα: Η πεποίθηση στην άρνηση µιας πρότασης είναι µια γνησίως
φθίνουσα συνάρτηση της πεποίθησης της ίδιας της πρότασης.
Συνέπεια: Προτάσεις λογικά ισοδύναµες απολαύουν ίσες πεποιθήσεις.
Ο Cox [43] και άλλοι ερευνητές έχουν αποδείξει ότι η εκπλήρωση των παραπάνω
ιδιοτήτων λογικά συνεπάγεται ότι το µέτρο της πεποίθησης πρέπει να ικανοποιεί τα
αξιώµατα της θεωρίας πιθανοτήτων. Η απόδειξη της αναγκαιότητας της σχέσης
µεταξύ των διαισθητικών ιδιοτήτων και των αξιωµάτων της θεωρίας πιθανοτήτων
βασίζεται στην ανάλυση των λύσεων που επιδέχονται οι συναρτησιακές µορφές που
υπαινίσσονται οι διαισθητικές ιδιότητες. Άρα, σύµφωνα µε τον Cox, αν κάποιος
αποδέχεται αυτές τις διαισθητικές ιδιότητες ως επιθυµητές, θα πρέπει να αποδεχτεί
και τις πιθανότητες ως ένα επιθυµητό µέτρο της πεποίθησης.
Οι αρχές αυτές σχηµατίζουν ένα χρήσιµο πλαίσιο για τη σύγκριση εναλλακτικών
φορµαλισµών αναπαράστασης της απροσδιοριστίας [68] σύµφωνα µε το ποιες από τις
αρχές αυτές απορρίπτονται από τους φορµαλισµούς. Για παράδειγµα, η θεωρία των
ασαφών συνόλων (fuzzy set) [140] απορρίπτει την ιδιότητα της σαφήνειας,
επιτρέποντας γλωσσικές ανακρίβειες στον ορισµό των προτάσεων. Μερικοί
ερευνητές στο χώρο της τεχνητής νοηµοσύνης (ΑΙ) επίσης απορρίπτουν την βαθµωτή
συνέχεια, µε το επιχείρηµα ότι ένας αριθµός δεν είναι επαρκώς πλούσιος ώστε να
αναπαριστά την απροσδιοριστία [18]. Η θεωρία Dempster-Shafer [120] απορρίπτει
την πληρότητα, αρνούµενη ότι είναι δυνατή η απόδοση πεποίθησης σε κάθε καλά
ορισµένη πρόταση. Οι περισσότερες ευρετικές ποσοτικές προσεγγίσεις για
αναπαράσταση της απροσδιοριστίας στην ΑΙ, ακόµη και όταν χρησιµοποιούν τον όρο
πιθανότητα, άδηλα παραβιάζουν την ιδιότητα της συνέπειας [37].
43
2.6.3 Η
δυνατότητα
αντιστροφής
της
πιθανοκρατικής συµπερασµατολογίας
κατεύθυνσης
της
Η θεωρία πιθανοτήτων, και συγκεκριµένα το θεώρηµα του Bayes, µας επιτρέπει να
αντιστρέψουµε την κατεύθυνση της συµπερασµατολογίας. ∆οθείσης της επίδρασης
της υπόθεσης Η σε µια παρατηρήσιµη ένδειξη Ε, εκφρασµένης ως p( E | H ,ξ ) , το
θεώρηµα του Bayes µας επιτρέπει να υπολογίσουµε την επίδραση της Ε επί της Η,
που εκφράζεται ως p( H | E ,ξ ) . Συνήθως η υπόθεση Η θεωρείται ότι αποτελεί την
αιτία της Ε. Αν η Η είναι µια ασθένεια και Ε είναι ένα παρατηρήσιµο σύµπτωµα, η
αποδεικτική (evidential) σχέση µπορεί να εκφραστεί σύµφωνα µε την αιτιοκρατική
κατεύθυνση (δηλ. p( E | H ,ξ ) ), και µετά να χρησιµοποιηθεί το θεώρηµα του Bayes
για να αντιστραφεί [119] η συµπερασµατολογία ακολουθώντας τη διαγνωστική
κατεύθυνση (δηλ. p( H | E ,ξ ) ). Αυτή η διπλή κατευθυντικότητα είναι µια συνέπεια
του θεωρήµατος του Bayes.
Το θεώρηµα του Bayes προκύπτει από το τελευταίο αξίωµα της πιθανότητας και
συσχετίζει την πιθανότητα ενός συνδυαστικού ενδεχοµένου µε δεσµευµένες
πιθανότητες [3]. Το θεώρηµα, γραµµένο στην τυπική του µορφή, για τη σχέση της
υπόθεσης Η µε την ένδειξη Ε είναι:
p ( H | E ,ξ ) =
p( E | H ,ξ ) p( H | ξ )
p( E | ξ )
Η εξίσωση µπορεί να αναπτυχθεί ως εξής:
p ( H | E ,ξ ) =
p( E | H ,ξ ) p( H | ξ )
p ( E | H ,ξ ) p ( H | ξ ) + p ( E | H ,ξ ) p ( H | ξ )
Το θεώρηµα απλά δείχνει ότι η πεποίθηση στην υπόθεση υπό το φως της ένδειξης,
p( H | E ,ξ ) (η a posteriori πιθανότητα), εξαρτάται από το πόσο πιθανό είναι να
παρατηρηθεί ένα συγκεκριµένο στοιχείο ένδειξης, µε δεδοµένη την υπόθεση και την
άρνησή της, p( E | H ,ξ ) και p( E | H ,ξ ) , και την a priori πιθανότητα της υπόθεσης,
p( H | ξ ) .
Η συµπερασµατολογική συµµετρία της πιθανοκρατικής συλλογιστικής αποδεικνύεται
χρήσιµη όταν οι πιθανότητες για τη µια κατεύθυνση είναι διαθέσιµες ενώ απαιτούνται
για την αντίθετη κατεύθυνση. Για παράδειγµα, ειδικοί σε κάποιο πεδίο ίσως
καθορίζουν πιο εύκολα πιθανότητες στην αιτιοκρατική κατεύθυνση αλλά θα ήθελαν
να υπολογίσουν πιθανότητες στη διαγνωστική κατεύθυνση, για τον υπολογισµό της
πεποίθησης σε υποθέσεις όταν υπάρχουν ενδείξεις. Μιλώντας µε ιατρικούς όρους,
p( H | E ,ξ ) µπορεί να είναι η πιθανότητα κάποιος να πάσχει από µια ασθένεια µε
δεδοµένο ότι µια συγκεκριµένη εξέταση είχε θετικό αποτέλεσµα. Η παραπάνω σχέση
δείχνει ότι αυτή µπορεί να υπολογιστεί από την ευαισθησία της εξέτασης p( E | H ,ξ )
και από τον επιπολασµό της ασθένειας p( H | ξ ) . Η αναπαράσταση της πεποίθησης
στην αιτιοκρατική κατεύθυνση αποτελεί συνήθως πιο φειδωλή και αµετάβλητη
αναπαράσταση των απροσδιόριστων σχέσεων από ότι η διαγνωστική σχέση, η οποία
µεταβάλλεται µε τις a priori πιθανότητες (π.χ. για διαφορετικούς πληθυσµούς). Επί
πλέον, η αιτιοκρατική µορφή παρέχει τη δυνατότητα αποσύνθεσης πολύπλοκων
σχέσεων µεταξύ πολλαπλών υποθέσεων και αποτελεσµάτων σε απλούστερες σχέσεις,
από κάθε υπόθεση στα ατοµικά της αποτελέσµατα, οι οποίες µπορούν να εκτιµηθούν
ξεχωριστά.
44
2.6.4 Η θεωρία πιθανοτήτων ως πλαίσιο συλλογιστικής επί των
προτιµήσεων
Η θεωρία αποφάσεων βασίζεται σε αξιώµατα πιθανότητας και ωφελιµότητας. Η
θεωρία πιθανότητας παρέχει ένα πλαίσιο για ένα συνεκτικό τρόπο σχηµατισµού
πεποιθήσεων κάτω από συνθήκες ελλιπούς πληροφόρησης, ενώ η θεωρία
ωφελιµότητας εισάγει ένα σύνολο αρχών για την τήρηση της συνέπειας µεταξύ
προτιµήσεων και αποφάσεων. Απόφαση είναι η ανέκκλητη κατανοµή των πόρων που
τελούν υπό τον έλεγχο αυτού που λαµβάνει τις αποφάσεις. Οι προτιµήσεις
περιγράφουν τις σχετικές αποτιµήσεις αυτού που λαµβάνει τις αποφάσεις για τις
δυνατές καταστάσεις του κόσµου, ή τις εκβάσεις. Η αποτίµηση ενός αποτελέσµατος
µπορεί να βασίζεται σε παραδοσιακά χαρακτηριστικά, όπως το χρήµα ή ο χρόνος,
όπως επίσης και σε άλλες διαστάσεις της αξίας, συµπεριλαµβανοµένης της
ευχαρίστησης, του πόνου, της διάρκειας ζωής και της υπολογιστικής προσπάθειας.
Η θεωρία ωφελιµότητας βασίζεται σε ένα σύνολο απλών αξιωµάτων ή κανόνων που
αφορούν επιλογές σε απροσδιοριστία. Όπως και τα αξιώµατα της θεωρίας
πιθανοτήτων, αυτοί οι κανόνες είναι αρκετά διαισθητικοί [33, 46]. Το πρώτο σύνολο
αξιωµάτων αφορά προτιµήσεις για αποτελέσµατα υπό καθεστώς απροσδιοριστίας. Το
αξίωµα της διάταξης (orderability) ισχυρίζεται ότι όλες οι εκβάσεις µπορούν να
συγκριθούν ακόµη κι αν περιγράφονται από πολλά χαρακτηριστικά. Άρα, για κάθε
ζεύγος δυνατών εκβάσεων x και y, κάποιος είτε προτιµά το x περισσότερο από το y,
είτε προτιµά το y περισσότερο από το x, ή είναι αδιάφορος. Το αξίωµα της
µεταβατικότητας δηλώνει ότι αυτές οι διατάξεις είναι συνεπείς· αν κάποιος προτιµά το
x περισσότερο από το y και το y περισσότερο από το z, τότε προτιµά το x περισσότερο
από το z. Αυτά τα αξιώµατα, µαζί µε δύο βοηθητικά αξιώµατα, εξασφαλίζουν µια
διάταξη ασθενούς προτίµησης των εκβάσεων. Αυτό το αποτέλεσµα συνεπάγεται την
ύπαρξη µιας βαθµωτής συνάρτησης V(x), που αντιστοιχίζει όλες τις εκβάσεις x σε
βαθµωτές τιµές έτσι ώστε κάποιος να προτιµά πάντα τις εκβάσεις µε υψηλότερη τιµή.
Το δεύτερο σύνολο αξιωµάτων περιγράφει τις προτιµήσεις υπό απροσδιοριστία.
Χρησιµοποιείται η έννοια της κληρωτίδας, µιας απροσδιόριστης κατάστασης µε
περισσότερες από µία δυνατές εκβάσεις. Σε κάθε έκβαση µπορεί να αποδοθεί µια
πιθανότητα εµφάνισης. Το αξίωµα της µονοτονίας λέει ότι όταν συγκρίνουµε δύο
κληρωτίδες, κάθε µία µε τις ίδιες δύο δυνατές εκβάσεις αλλά µε διαφορετικές
πιθανότητες, εκείνος που λαµβάνει την απόφαση θα πρέπει να προτιµήσει τη
κληρωτίδας µε την υψηλότερη πιθανότητα στην προτιµώµενη έκβαση. Το αξίωµα της
αποσυνθεσιµότητας λέει ότι εκείνος που λαµβάνει την απόφαση θα πρέπει να είναι
αδιάφορος ανάµεσα στις κληρωτίδες που έχουν το ίδιο σύνολο εκβάσεων και ίδιες
πιθανότητες, ακόµη κι αν επιτυγχάνονται µε διαφορετικά µέσα. Για παράδειγµα, µια
κληρωτίδα της οποίας οι εκβάσεις είναι άλλες κληρωτίδες µπορεί να αποσυντεθεί σε
µια ισοδύναµη κληρωτίδα µιας φάσης, µε τη χρήση των τυπικών κανόνων της
πιθανότητας. Το αξίωµα της υποκατάστασης λέει ότι εάν αυτός που παίρνει την
απόφαση είναι αδιάφορος µεταξύ µιας κληρωτίδας και κάποιας βεβαίας έκβασης (το
ισοδύναµο βεβαιότητας της κληρωτίδας), τότε αντικαθιστώντας τη µία µε την άλλη
ως δυνατή έκβαση σε κάποια πολυπλοκότερη κληρωτίδα δε θα επηρέαζε την
προτίµησή του για εκείνη τη κληρωτίδα. Τέλος, το αξίωµα της συνέχειας λέει ότι αν
κάποιος προτιµά το x από το y και το y από το z, τότε υπάρχει κάποια πιθανότητα p
τέτοια ώστε να είναι αδιάφορος µεταξύ του να θεωρήσει την ενδιάµεση έκβαση y ως
45
βέβαια και µιας κληρωτίδας µε πιθανότητα p για την έκβαση x (την καλύτερη
έκβαση) και πιθανότητα (1-p) για την z (τη χειρότερη έκβαση).
Από την αποδοχή των αξιωµάτων της ωφελιµότητας συνάγεται ότι υπάρχει µια
βαθµωτή συνάρτηση ωφελιµότητας U(x, d), η οποία αποδίδει µια τιµή σε µια
θεµελιώδη κλίµακα σε κάθε έκβαση x και απόφαση d, ενδεικτική του πόσο
επιθυµητές είναι. Περαιτέρω συνάγεται ότι όταν υπάρχει απροσδιοριστία σχετικά µε
την y, προτιµώµενες αποφάσεις d είναι εκείνες που µεγιστοποιούν την αναµενόµενη
ωφελιµότητα E [U ( x, d ) | ξ ] επί της κατανοµής πιθανότητας που ακολουθεί η x.
Τα κριτήρια συνέπειας που είναι ενσωµατωµένα στην κλασσική θεωρία αποφάσεων
µπορούν να διατυπωθούν ως εξής: ∆οθέντος ενός συνόλου προτιµήσεων
εκφρασµένων ως µια συνάρτηση ωφελιµότητας, πεποιθήσεων εκφρασµένων ως
κατανοµές πιθανότητας και ενός συνόλου εναλλακτικών αποφάσεων, κάποιος που
λαµβάνει αποφάσεις θα πρέπει να επιλέξει εκείνες την ακολουθία ενεργειών που
µεγιστοποιούν την αναµενόµενη ωφελιµότητα. Η ισχύς αυτού του αποτελέσµατος
έγκειται στο ότι επιτρέπει τον υπολογισµό προτιµήσεων για πολύπλοκους και
απροσδιόριστους συνδυασµούς εκβάσεων µε πολλά χαρακτηριστικά, µέσω
προτιµήσεων εκφρασµένων για απλές συνιστώσες. Άρα, µπορεί να χρησιµοποιηθεί
σαν εργαλείο για την αντιµετώπιση πολύπλοκων επιλογών µέσω της αποσύνθεσής
τους σε απλούστερες επιλογές.
Μια συνάρτηση ωφελιµότητας για καταστάσεις απροσδιοριστίας µας επιτρέπει
επίσης να εκφράζουµε στάσεις απέναντι σε κινδύνους, όπως η αποστροφή προς τον
κίνδυνο, όταν µελετούµε κληρωτίδες που ενέχουν ποσοτικά στοιχεία όπως το χρήµα.
Η αποστροφή του κινδύνου επιδεικνύεται από πολλούς ανθρώπους µέσω της
προτίµησής τους να λαµβάνουν µε βεβαιότητα χρηµατικά βραβεία παρά µια
κληρωτίδα µε ακριβώς την ίδια αναµενόµενη τιµή. Η θεωρία πιθανοτήτων παρέχει
διάφορες τεχνικές για τη συγκέντρωση και κωδικοποίηση διαφορετικών στάσεων
έναντι του κινδύνου για την υποστήριξη της λήψης αποφάσεων υπό καθεστώς
απροσδιοριστίας.
Αν και η αποτίµηση των εναλλακτικών καταστάσεων και επιλογών σχετικά µε τη
διανοµή των πόρων συχνά είναι κεντρικής σηµασίας σε υπολογιστικούς
διαµεσολαβητές (agents), οι κρίσιµες έννοιες της απόφασης και της προτίµησης δεν
έχουν αντιµετωπιστεί µε έναν καλά ορισµένο τρόπο στην ΑΙ.
2.6.5 Η θεωρία αποφάσεων είναι κανονιστική (normative).
Εάν τα αξιώµατα της θεωρίας αποφάσεων θεωρηθούν ως υποχρεωτικές αρχές στις
οποίες οι επιλογές που βασίζονται στη λογική θα πρέπει να υπακούουν, τότε η θεωρία
είναι κανονιστική. Με άλλα λόγια, τα αξιώµατα παρέχουν ένα σύνολο κριτηρίων
συνέπειας µεταξύ των πεποιθήσεων, προτιµήσεων και επιλογών, στα οποία θα έπρεπε
να βασίζεται ένας λογικός λήπτης αποφάσεων. Εναλλακτικά, δοθέντος ενός συνόλου
πεποιθήσεων και προτιµήσεων, η θεωρία κατατάσσει ως λογικές µόνον εκείνες τις
αποφάσεις που µεγιστοποιούν την αναµενόµενη ωφελιµότητα. Ένα σύστηµα που
λαµβάνει αποφάσεις ή κάνει υποδείξεις συνεπείς προς τα αξιώµατα µπορεί επίσης να
ονοµαστεί κανονιστικό.
Είναι σηµαντικό να γίνει αντιληπτό ότι η θεωρία αποφάσεων γενικά δεν προτείνεται
ως περιγραφική θεωρία· δεν αποσκοπεί στο να παράσχει µια περιγραφή του πώς οι
άνθρωποι πραγµατικά συµπεριφέρονται όταν κάνουν συλλογισµούς υπό
46
απροσδιοριστία. Πράγµατι, µελέτες έχουν επιδείξει [73] ότι οι άνθρωποι συχνά δε
συµπεριφέρονται σύµφωνα µε τη θεωρία αποφάσεων. Χαρακτηριστικές (και πολλές
φορές µε µεγάλο κόστος) προκαταλήψεις που κυριαρχούν στη διαισθητική ανθρώπινη
κρίση αποτελούν τµήµα της δικαιολόγησης για την αρωγή των επιστηµών απόφασης
στον τοµέα της λήψης αποφάσεων.
2.6.6 Καλή απόφαση – Καλή έκβαση
Υπό το πρίσµα της θεωρίας αποφάσεων, υπάρχει διάκριση µεταξύ µιας καλής
απόφασης (µιας επιλογής που είναι συνεπής µε τις προτιµήσεις και τις πεποιθήσεις)
και της καλής έκβασης (το αποτέλεσµα µιας επιλογής που αποδεικνύεται να είναι
επιθυµητό). Είναι δυνατόν να εργαστούµε σκληρά για να εξάγουµε τις πιθανότητες,
να ιεραρχήσουµε τις αξίες, να αποτιµήσουµε τις εναλλακτικές λύσεις και, παρ’ όλα
αυτά, να κάνουµε µια επιλογή που οδηγεί σε µια κακή έκβαση. Αντίστοιχα, µια
τυχαία ή αδικαιολόγητη επιλογή µπορεί να αποδειχθεί τυχερή. Τέτοια είναι η φύση
των πράξεων υπό καθεστώς ελλιπούς πληροφορίας. Η θεωρία αποφάσεων επιδιώκει
τη λήψη καλών αποφάσεων που οδηγούν κατά µέσο όρο σε καλές εκβάσεις.
2.6.7 Η έλλειψη πληρότητας
αναπόφευκτες
και
η
απροσδιοριστία
είναι
Συστήµατα που κάνουν συλλογισµούς σχετικά µε πραγµατικά προβλήµατα µπορούν
να αναπαραστήσουν ένα µόνο µέρος της πραγµατικότητας. Οποιαδήποτε
υπολογιστική αναπαράσταση θα είναι µια δραµατική απλούστευση των αντικειµένων
και σχέσεων που στην πραγµατικότητα σχετίζονται µε το πρόβληµα. Η έλλειψη
πληρότητας στην αναπαράσταση, από την οποία δε µπορούµε να ξεφύγουµε, οδηγεί
σε αναπόφευκτες απροσδιοριστίες σχετικά µε την κατάσταση του κόσµου και σχετικά
µε τις συνέπειες των πράξεών µας. Στην πράξη, η απροσδιοριστία είναι ιδιαίτερα
οξεία όταν το πρόβληµα περιλαµβάνει πολύπλοκες προτιµήσεις, υψηλό ρίσκο,
δράσεις πολλών ατόµων και µακροπρόθεσµες συνέπειες.
2.6.8 Η ανάλυση αποφάσεων ως εφαρµοσµένη θεωρία αποφάσεων.
Η ανάλυση αποφάσεων [69, 74, 131] ασχολείται µε τα απτά προβλήµατα της
εφαρµογής της θεωρίας αποφάσεων σε προβλήµατα της πραγµατικότητας. Η θεωρία
αποφάσεων υπαγορεύει µόνον ένα αυστηρό σύνολο περιορισµών συνέπειας· δε µας
πληροφορεί για τον τρόπο µε τον οποίο εξάγουµε ή αναπαριστούµε µια συνάρτηση
ωφελιµότητας ή µια κατανοµή πιθανότητας, ή σχετικά µε τον τρόπο που
αναπαριστούµε ή κάνουµε συλλογισµούς σχετικά µε ένα πρόβληµα απόφασης.
Επίσης δεν αναφέρεται στις διαδικασίες διερεύνησης για µια απόφαση που
µεγιστοποιεί την ωφελιµότητα. Αντίθετα, η ανάλυση αποφάσεων απευθύνεται σ’
αυτά τα θέµατα άµεσα, µε όρους λήψης αποφάσεων και µπορεί να τα διαχειριστεί.
Η ανάλυση αποφάσεων µπορεί να θεωρηθεί ως ένα σύνολο τεχνικών για την εστίαση
της προσοχής. Παρέχει µεθόδους που βοηθούν τους λήπτες αποφάσεων να
αποσαφηνίσουν το πρόβληµα επεξηγώντας τις εναλλακτικές αποφάσεις, αξίες και
πληροφορίες. Παρέχει επίσης µια ποικιλία τεχνικών για ανάλυση ευαισθησίας, για
την αναγνώριση των απροσδιοριστιών και των παραδοχών που θα µπορούσαν να
έχουν σηµαντική επίδραση στις υποδείξεις απόφασης. Ο λήπτης αποφάσεων µπορεί
47
τότε να εστιάσει την προσοχή του σ’ εκείνους τους παράγοντες που οδηγούν σε
διαφορετικές αποφάσεις και να αγνοήσει πτυχές του προβλήµατος που αποδεικνύεται
ότι έχουν σχετικά µικρή σχέση µε το πρόβληµα. Οι πόροι, κατά συνέπεια, µπορούν να
κατευθυνθούν στις σηµαντικότερες ή στις πιο ευαίσθητες πτυχές του προβλήµατος.
2.7 Πρώιµη έρευνα στα έµπειρα συστήµατα
Ο χώρος της ΑΙ στον οποίο η θεωρία αποφάσεων είχε την πιο εµφανή επίδραση είναι
αυτός των διαγνωστικών έµπειρων συστηµάτων, και αυτό επειδή τα έµπειρα
συστήµατα συχνά ασχολούνται µε συµπερασµατολογία και λήψη αποφάσεων υπό
καθεστώς απροσδιοριστίας. Σ’ αυτή την παράγραφο γίνεται µια επισκόπηση της
πρώιµης εφαρµογής πιθανοκρατικών µεθόδων στα έµπειρα συστήµατα. Κατόπιν
γίνεται αναφορά στις πιο γνωστές ευρετικές προσεγγίσεις που αναπτύχθηκαν
αργότερα, κυρίως ως αντίδραση στους περιορισµούς που γρήγορα έγιναν αντιληπτοί.
Με τον όρο έµπειρο σύστηµα, εννοείται ένα συλλογιστικό σύστηµα του οποίου η
επίδοση είναι επιπέδου συγκρίσιµου ή καλύτερου από εκείνο ενός ανθρώπου που
είναι ειδικός σε ένα καθορισµένο πεδίο. Έχει αποδειχθεί χρήσιµη η διάκριση των
αποστολών για τις οποίες τα έµπειρα συστήµατα κατασκευάζονται σε δύο
κατηγορίες, την αναλυτική και τη συνθετική. Στα συστήµατα αναλυτικών
αποστολών, οι εναλλακτικές επιλογές, όπως δυνατές διαγνώσεις ή αποφάσεις,
µπορούν να απαριθµηθούν ή είναι σχετικά εύκολο να απαριθµηθούν· κεντρικό στόχο
αποτελεί η αξιολόγηση των εναλλακτικών επιλογών. Όταν η αποστολή του
συστήµατος είναι συνθετική, ο χώρος των εναλλακτικών επιλογών (π.χ. το σύνολο
των δυνατών διαµορφώσεων ή σχεδίων) µπορεί να είναι εξαιρετικά µεγάλος και το
κύριο πρόβληµα είναι η οριοθέτηση µιας ή περισσοτέρων εφικτών επιλογών. Οι
αναλυτικές αποστολές περιλαµβάνουν την πρόβλεψη, κατηγοριοποίηση, διάγνωση
και λήψη αποφάσεων γύρω από ένα περιορισµένο σύνολο επιλογών. Οι συνθετικές
αποστολές περιλαµβάνουν τη δηµιουργία εναλλακτικών επιλογών, σχεδιασµό,
διαµόρφωση και προγραµµατισµό. Πολλά από τα πιο γνωστά έµπειρα συστήµατα
εκτελούν αναλυτικές αποστολές, όπως η ιατρική διάγνωση. Μερικά όµως από τα πιο
επιτυχηµένα συστήµατα εφαρµόζονται σε συνθετικά προβλήµατα, όπως το R1 για
διαµορφώσεις hardware υπολογιστών [92].
Η θεωρία αποφάσεων προσφέρει µια ελκυστική προσέγγιση των αναλυτικών στόχων,
ειδικά αυτών που εµπεριέχουν συµπερασµατολογία και λήψη αποφάσεων υπό
καθεστώς απροσδιοριστίας. Κατά συνέπεια, η προσοχή µας εστιάζεται στα έµπειρα
συστήµατα για αναλυτικές αποστολές. Η θεωρία αποφάσεων µπορεί επίσης να
σχετίζεται µε συνθετικούς στόχους, επειδή συχνά απαιτείται η επιλογή χρήσιµων
εναλλακτικών από ένα µεγάλο αριθµό επιλογών.
Πολλή από την πρωτοπόρο δουλειά στα αναλυτικά έµπειρα συστήµατα έχει γίνει σε
ιατρικές εφαρµογές, αν και έχει επίσης εξεταστεί η διάγνωση σφαλµάτων [34, 48] σε
ηλεκτρονικά εξαρτήµατα και µηχανικές συσκευές. Γενικά τρία είδη στόχων
αντιµετωπίζονται. Ο πρώτος στόχος είναι η διάγνωση: Πώς µπορούν να εξαχθούν
συµπεράσµατα για τις πιο πιθανές αιτίες των παρατηρούµενων προβληµάτων (π.χ.
ασθένειες ή αστοχίες µηχανικών εξαρτηµάτων) µε δεδοµένο ένα σύνολο ενδείξεων
(π.χ. συµπτώµατα, κλινικά χαρακτηριστικά, συνθήκες λειτουργίας ή αποτελέσµατα
ελέγχων); Ο δεύτερος στόχος είναι η απόφαση συγκέντρωσης πληροφορίας: Ποια επί
πλέον πληροφορία θα πρέπει να ζητηθεί ή ποιοι επί πλέον έλεγχοι θα πρέπει να
γίνουν; Αυτή η επιλογή εµπεριέχει τη στάθµιση του κόστους απόκτησης πληροφορίας
48
και του οφέλους από µια πιο ακριβή διάγνωση. Ο τρίτος στόχος αφορά τη λήψη
αποφάσεων: Τι µπορεί να γίνει για τη βελτίωση ή τη λύση του προβλήµατος;
2.7.1 Το πρόβληµα της διάγνωσης
Πρώτα διατυπώνουµε το πρόβληµα της διαγνωστικής συµπερασµατολογίας. Έστω
ένα σύνολο Η δυνατών υποθέσεων,
H = {H 1 , H 2 ,K, H n }
και ένα σύνολο Ε από m ενδείξεις,
E = {E1 , E2 ,K, Em }
Ας υποθέσουµε ότι όλες οι υποθέσεις και ενδείξεις είναι δίτιµες λογικές µεταβλητές,
κάθε µία αληθής ή ψευδής. Σ’ έναν αιτιοκρατικό (ντετερµινιστικό) κόσµο θα
µπορούσε να γίνει η παραδοχή µιας σχέσης C (H,E) µεταξύ υποθέσεων και
ενδείξεων, τέτοιας ώστε c ( H i , E j ) σηµαίνει ότι η υπόθεση Hi συνεπάγεται ή
προκαλεί την ένδειξη Ej. Μια διάγνωση ή εξήγηση είναι ένα σύνολο υποθέσεων που
πιστεύεται ότι είναι παρούσες (ενώ όλες οι άλλες απουσιάζουν). Με δεδοµένο ένα
σύνολο ενδείξεων E′ το αιτιοκρατικό διαγνωστικό πρόβληµα είναι η ανακάλυψη
µιας ή περισσοτέρων διαγνώσεων D ⊆ H που µπορούν να εξηγήσουν τις
παρατηρούµενες ενδείξεις. Συγκεκριµένα, το D θα πρέπει να περιέχει, για κάθε Ej στο
E′ , µια υπόθεση Hi τέτοια ώστε να υπάρχει η c ( H i , E j ) [113].
Στον πραγµατικό κόσµο, οι σχέσεις µεταξύ υποθέσεων και ενδείξεων γενικά είναι
απροσδιόριστες. Η πιθανοκρατική προσέγγιση είναι να αναπαρίστανται αυτές οι
σχέσεις µε την κατανοµή δεσµευµένης πιθανότητας των ενδείξεων p(E′ | D,ξ ) , µε
δεδοµένη κάθε δυνατή διάγνωση D στο Η. Εάν επιπρόσθετα µας δίνεται η a priori
πιθανότητα p(D | ξ ) για κάθε υποσύνολο D στο Η, που αναπαριστά την
πιθανοφάνεια συνδυασµών υποθέσεων, µπορούµε να εφαρµόσουµε το θεώρηµα του
Bayes για να υπολογίσουµε την a posteriori πιθανότητα κάθε διάγνωσης, αφού
παρατηρηθούν οι ενδείξεις E′ :
p(D | E′,ξ ) =
p(E′ | D,ξ ) p(D | ξ )
p ( E′ | ξ )
Το πρόβληµα της διάγνωσης είναι υπολογιστικά πολύπλοκο. Επειδή ένας ασθενής
µπορεί να πάσχει από περισσότερες από µια ασθένεια από ένα σύνολο n δυνατών
ασθενειών, ο αριθµός των δυνατών διαγνώσεων (δηλαδή συνδυασµών ασθενειών)
είναι 2 n . Έτσι ο αριθµός των ανεξάρτητων παραµέτρων που απαιτούνται για τον
καθορισµό της πλήρους a priori κατανοµής είναι 2 n − 1 . Για m ενδείξεις, η κατανοµή
δεσµευµένης πιθανότητας έχει 2 m − 1 ανεξάρτητες παραµέτρους για κάθε υπόθεση,
απαιτώντας τον καθορισµό 2 n (2 m − 1) ανεξαρτήτων παραµέτρων συνολικά για όλες
τις διαγνώσεις. Είναι σαφές ότι αυτή η προσέγγιση του προβλήµατος δεν είναι
πρακτική για περισσότερες από δύο ή τρεις υποθέσεις και ενδείξεις χωρίς κάποιου
είδους απλοποίηση.
49
2.7.2 Πρώιµες πιθανοκρατικές προσεγγίσεις
Κατά τη δεκαετία του ’60 εκπονήθηκε ένας αριθµός ερευνητικών προγραµµάτων για
αυτοµατοποιηµένη πιθανοκρατική συλλογιστική για διάγνωση. Έγιναν δύο
απλουστευτικές παραδοχές. Πρώτον (Α1), ότι οι υποθέσεις στο Η είναι αµοιβαίως
αποκλειόµενες και συλλογικά εξαντλούν το δειγµατικό χώρο των υποθέσεων.
∆εύτερον (Α2), ότι ισχύει η δεσµευµένη ανεξαρτησία των ενδείξεων, µε δεδοµένη
κάποια υπόθεση. ∆ηλαδή, µε δεδοµένη οποιαδήποτε υπόθεση Η, η εµφάνιση κάποιας
ένδειξης Ei είναι ανεξάρτητη από την εµφάνιση κάποιας άλλης ένδειξης Ej:
p ( Ei | H , ξ ) = p ( Ei | E j , H , ξ )
Με την παραδοχή Α1, οι µόνες διαγνώσεις που χρειάζεται να ληφθούν υπ’ όψιν είναι
οι n απλές υποθέσεις Hi. Με την παραδοχή Α2, η κατανοµή δεσµευµένης πιθανότητας
των ενδείξεων E′ µε δεδοµένη µια ασθένεια Hi, (όπως απαιτείται από το θεώρηµα
του Bayes) µπορεί να αποσυντεθεί στο γινόµενο των κατανοµών δεσµευµένης
πιθανότητας για ατοµικές ενδείξεις ως εξής:
p (E′ | H i ,ξ ) = p ( E1 , E2 ,K, E j | H i ,ξ ) =
= p ( E1 | H i ,ξ ) p ( E1 | H i ,ξ )K p ( E j | H i ,ξ )
Κάτω από τις παραδοχές Α1 και Α2, απαιτούνται µόνον mn δεσµευµένες πιθανότητες
και n-1 a priori πιθανότητες. Η απλότητα των πιθανοκρατικών συστηµάτων που
βασίζονται σ’ αυτές τις δύο παραδοχές κατέστησαν αυτή την προσέγγιση δηµοφιλή
[124].
Πολλά
ιατρικά
διαγνωστικά
συστήµατα
κατασκευάστηκαν
συµπεριλαµβανοµένων συστηµάτων για τη διάγνωση καρδιακών ασθενειών [53, 132]
και οξέος κοιλιακού πόνου [31]. Η δηµοτικότητα της απλοποιηµένης πιθανοκρατικής
συµπερασµατολογίας έχει οδηγήσει στην παρανόηση ότι οι παραδοχές αυτές είναι
απολύτως απαραίτητες για την απλοποιηµένη πιθανοκρατική συµπερασµατολογία.
Στην παράγραφο που αφορά στην τρέχουσα έρευνα θα δούµε πιο εκφραστικές
αναπαραστάσεις των πιθανοκρατικών εξαρτήσεων.
2.7.3 Επιδόσεις των πρώιµων πιθανοκρατικών συστηµάτων
Τα πρώιµα πιθανοκρατικά συστήµατα είχαν επιδόσεις, µε όρους διαγνωστικής
ακρίβειας, στο περιορισµένο πεδίο στο οποίο αναφέρονταν, συγκρίσιµες µε αυτές των
ειδικών και µερικές φορές σηµαντικά καλύτερες [28, 30, 54]. Για παράδειγµα, το
σύστηµα του de Dombal και των συνεργατών του είχε κατά µέσο όρο 90% ορθές
διαγνώσεις οξέως κοιλιακού πόνου [30], όταν ειδικοί ιατροί είχαν επιδόσεις 65% 80%. Το διαγνωστικό βοήθηµα του Patrick για στηθάγχη [103] είχε 80% ακρίβεια
όταν οι κλινικοί είχαν 51%. Αυτά τα συστήµατα οπωσδήποτε ικανοποιούν τις
προϋποθέσεις για να ονοµαστούν έµπειρα συστήµατα σύµφωνα µε τον ορισµό µας.
Είναι ενδιαφέρον να αναρωτηθεί κανείς γιατί αυτά τα συστήµατα είχαν καλύτερες
επιδόσεις από τους ειδικούς, εφ’ όσον έκαναν απλουστευτικές παραδοχές (τις Α1 και
Α2) και συχνά ελάµβαναν υπ’ όψιν ένα µόνο τµήµα της πληροφορίας που ήταν
διαθέσιµη στους ιατρούς. Μια απάντηση είναι ότι µερικά από τα λογισµικά που
χρησιµοποιούνταν βασίζονταν σε στατιστική ανάλυση εµπειρικών δεδοµένων παρά
αµιγώς στην κρίση ειδικών. Παρ’ όλα αυτά, η χρήση πιο αξιόπιστων δεδοµένων δεν
εξηγεί την επίδοση πολλών συστηµάτων στα οποία οι πιθανότητες βασίζονταν κατά
ένα µέρος ή στο σύνολό τους στην κρίση ειδικών.
50
Στην πραγµατικότητα, η καλή επίδοση απλών µοντέλων που βασίζονται σε
υποκειµενικές παραµέτρους εν σχέσει µε τη µη υποβοηθούµενη κρίση ειδικών, είναι
συνεπής µε καλά τεκµηριωµένα πειραµατικά αποτελέσµατα από ένα µεγάλο αριθµό
µελετών. Μελέτες σε ένα ευρύ φάσµα πεδίων κρίσης κλινικών και άλλων ειδικών
έχουν δείξει ότι απλά γραµµικά µοντέλα, µε βάρη που αποτιµούνται µε υποκειµενικό
τρόπο, έχουν επιδόσεις παρόµοιες ή καλύτερες από τους ειδικούς. Ένας λόγος γι’
αυτό είναι ότι απλά αυστηρά µοντέλα είναι συνεπέστερα και πιο αξιόπιστα απ’ ότι οι
ειδικοί, καθώς υπόκεινται λιγότερο σε ιδιοτροπίες, απροσεξίες ή λαθεµένες
εµπνεύσεις. Υπάρχουν όµως και θεµελιώδεις µαθηµατικοί λόγοι για το ότι απλά
γραµµικά µοντέλα µπορούν να αποτελέσουν robust προσεγγίσεις σε πολυπλοκότερες,
µη γραµµικές σχέσεις [28].
Η συνάφεια που έχουν αυτά τα αξιοσηµείωτα αποτελέσµατα µε την έρευνα στα
έµπειρα συστήµατα και την τεχνητή νοηµοσύνη δεν έχει επισηµανθεί παρά πρόσφατα
[10, 57]. Έχει καταστεί σαφές ότι για να είναι αυτά τα αποτελέσµατα εφαρµόσιµα, θα
πρέπει οι στόχοι να ικανοποιούν τουλάχιστον δύο συνθήκες: (1) το κριτήριο
συµπεριφοράς θα πρέπει να είναι κάποια µονότονη συνάρτηση κάθε εισόδου
δεδοµένων (input), και (2) θα πρέπει να υπάρχει κάποιο είδος θορύβου στις εισόδους
δεδοµένων ή στο µοντέλο, έτσι ώστε ακόµη και η βέλτιστη επίδοση να είναι
περιορισµένη. Αυτές οι συνθήκες φαίνεται ότι ισχύουν σε πολλούς διαγνωστικούς
στόχους, σε πολύπλοκα πεδία όπως η Ιατρική. Παρ’ όλα αυτά, παραµένει άγνωστο
πόσο καλή επίδοση µπορούν να έχουν, για διαφορετικά είδη διαγνωστικών στόχων,
απλά γραµµικά µοντέλα απέναντι σε ανθρώπους-ειδικούς και σε έµπειρα συστήµατα.
Απαιτείται περαιτέρω θεωρητική και εµπειρική έρευνα για τη χρησιµότητα των
απλών µοντέλων. Ειδικό ενδιαφέρον έχει η αναγνώριση και ταυτοποίηση
χαρακτηριστικών ιδιοτήτων των στόχων, οι οποίες θα ήταν χρήσιµες στην πρόβλεψη
της σχετικής επίδοσης διαφόρων προσεγγίσεων.
2.7.4 Προβλήµατα των πρώιµων πιθανοκρατικών συστηµάτων
Ο ενθουσιασµός για µεθόδους που βασίζονται στη θεωρία πιθανότητας και τη θεωρία
αποφάσεων έσβησε στις αρχές της δεκαετίας του ’70. Παρά την ενθαρρυντική τους
επίδοση, δε γνώρισαν ευρεία εφαρµογή για λόγους τόσο τεχνικούς όσο και
κοινωνιολογικούς. Ένας από τους λόγους που αναφέρονται συχνά είναι τα
περιορισµένα πεδία στα οποία η πιθανοκρατική προσέγγιση εφαρµόστηκε. Ένας
δεύτερος λόγος είναι η αδικαιολόγητες απλουστευτικές παραδοχές του αµοιβαίου
αποκλεισµού και της δεσµευµένης ανεξαρτησίας –και η άµεση δυσκολία διαχείρισης
του προβλήµατος, που προκύπτει όταν γίνεται προσπάθεια υπέρβασης αυτών των
παραδοχών. Γενικότερα, επικριτές της προσέγγισης έχουν επιδείξει την περιορισµένη
εκφραστικότητα της απλουστευµένης κατά Bayes διατύπωσης, σηµειώνοντας την
εµφανή έλλειψη προσαρµογής µεταξύ της αυστηρής, τυπικής, ποσοτικής προσέγγισης
της πιθανοκρατικής συµπερασµατολογίας και της ποιοτικής προσέγγισης,
χαρακτηριστικής της ανθρώπινης συλλογιστικής. Θεωρούν ότι αυτή η έλλειψη
προσαρµογής οδηγεί σε προβλήµατα που αφορούν τόσο στην κωδικοποίηση της
γνώσης των ειδικών αλλά και στην εξήγηση των αποτελεσµάτων της πιθανοκρατικής
συµπερασµατολογίας, µε αποτέλεσµα οι χρήστες να µην τα κατανοούν και να µην τα
εµπιστεύονται [26, 54, 125].
Ένα χρήσιµο µάθηµα από την πρώιµη έρευνα στην πιθανοκρατική συλλογιστική είναι
η διάκριση µεταξύ επίδοσης των διαγνωστικών συστηµάτων και αποδοχής τους. Κατ’
αρχήν, θα περίµενε κανείς ότι καµία από τις αντιρρήσεις που προαναφέρθηκαν δε θα
51
ήταν ανυπέρβλητη µπροστά στο επιχείρηµα της ανώτερης διαγνωστικής επίδοσης.
Άλλοι παράγοντες όµως παίζουν καθοριστικό ρόλο στον καθορισµό της αποδοχής.
Τέτοιοι παράγοντες συµπεριλαµβάνουν το ελλιπές περιβάλλον διασύνδεσης µε το
χρήστη (user interface) πολλών πρώιµων συστηµάτων [122] και, γενικότερα, την
έλλειψη απόδοσης βαρύτητας στον τρόπο µε τον οποίο η χρήση τέτοιων συστηµάτων
θα µπορούσε να ενσωµατωθεί στις συνήθειες και το περιβάλλον του χρήστη.
2.7.5 Προσεγγίσεις τεχνητής νοηµοσύνης στα έµπειρα συστήµατα
Ο προβληµατισµός σχετικά µε τις περιοριστικές παραδοχές του απλοποιηµένου
πιθανοκρατικού µοντέλου, µαζί µε την αντίληψη ότι µια έκρηξη συνδυαστικής
ανάλυσης θα απειλούσε οποιαδήποτε προσπάθεια υπέρβασης αυτών των παραδοχών
ή µετακίνησης σε ευρύτερα πεδία, οδήγησε σε άρση της γοητείας που ασκούσε αυτή
η προσέγγιση. Την ίδια στιγµή, οι νέες τεχνικές ΑΙ που αναπτύσσονταν στις αρχές της
δεκαετίας του ’70 φαίνονταν να προσφέρουν µια πολλά υποσχόµενη εναλλακτική
πορεία στο σχεδιασµό έµπειρων συστηµάτων. Μαζί µε την ανάπτυξη ευρετικών
µεθόδων συµπερασµατολογίας σηµειώθηκε µειωµένος προβληµατισµός για
βελτιστοποίηση της πιθανοκρατικής µεθοδολογίας και για µεθόδους λήψης
αποφάσεων και συµπερασµατολογίας υπό συνθήκες απροσδιοριστίας. Η προσοχή του
µεγαλύτερου µέρους των ερευνητών ΑΙ εστιάστηκε στο κρίσιµο πρόβληµα της
αναπαράστασης και συλλογιστικής µεγάλων ποσών γνώσης των ειδικών. Ειδικό
ενδιαφέρον συγκέντρωνε η δυνατότητα εφαρµογής των τεχνικών συλλογιστικής της
ΑΙ για την οικοδόµηση µεγαλύτερων συστηµάτων, που θα µπορούσαν να
αξιοποιήσουν πλουσιότερη και µεγαλύτερης ποικιλίας γνώση ειδικών από εκείνη που
φαινόταν εφικτή για συστήµατα κατά Bayes.
Ένα βασικό χαρακτηριστικό του νέου προτύπου έµπειρου συστήµατος ήταν η
εφαρµογή της αρχιτεκτονικής παραγωγικών κανόνων σε πραγµατικές διαγνώσεις. Οι
παραγωγικοί κανόνες ασκούσαν έλξη καθώς παρείχαν ένα γενικό και εύκαµπτο
(flexible) πλαίσιο αναπαράστασης της γνώσης των ειδικών σε µια δηλωτική και
αρθρωτή µορφή. Ο παραγωγικός κανόνας έχει τη µορφή λογικής επίπτωσης. Για την
εφαρµογή των παραγωγικών κανόνων σε πραγµατικά προβλήµατα, η αναπαράσταση
επεκτάθηκε για να καλύψει την απροσδιοριστία, τόσο σχετικά µε την αλήθεια των
προτάσεων όσο και για την εφαρµοσιµότητα του κάθε παραγωγικού κανόνα. Οι δύο
γνωστότερες απόπειρες ανάπτυξης µιας αναπαράστασης για την απροσδιοριστία, ως
επέκταση των αιτιοκρατικών έµπειρων συστηµάτων που βασίζονταν σε κανόνες,
ήταν τα προγράµµατα MYCIN [8]και PROSPECTOR [37].
Το MYCIN σχεδιάστηκε για να υποβοηθά ιατρούς στη διάγνωση και θεραπεία
βακτηριακών µολύνσεων. Το MYCIN εισήγαγε το µοντέλο των παραγόντων
βεβαιότητας. Ο παράγοντας βεβαιότητας είναι ένας αριθµός που αντιπροσωπεύει το
βαθµό της επιβεβαίωσης (µεταξύ 0 και 1) ή της διάψευσης (µεταξύ 0 και -1) κάθε
πρότασης ή κανόνα. Η βασική αναπαράσταση γνώσης και το πλαίσιο
συµπερασµατολογίας υπό συνθήκες απροσδιοριστίας έχουν διατεθεί σε άλλες
εφαρµογές, όπως το EMYCIN και χρησιµοποιούνται από πολλά εµπορικά
προγράµµατα έµπειρων συστηµάτων.
52
2.7.6 Προβλήµατα µε την αναπαράσταση της a priori πεποίθησης
Μια κοινή αντίρρηση στις πιθανοκρατικές προσεγγίσεις είναι η δυσκολία αποτίµησης
των a priori πεποιθήσεων –των αρχικών µέτρων της πεποίθησης στις υποθέσεις πριν
να ληφθούν υπ’ όψιν νέες ενδείξεις. Τα εµπειρικά δεδοµένα αποκτούνται συχνά
δύσκολα και οι υποκειµενικές εκτιµήσεις έχουν κριθεί ως αξιόπιστες. Πολλά ευρετικά
προγράµµατα, συµπεριλαµβανοµένων των PROSPECTOR, CASNET, PIP, επίσης
απαιτούν a priori πεποιθήσεις και άρα ούτε κι αυτά υπεισέρχονται σ’ αυτό το
πρόβληµα. Μερικά άλλα, όπως το µοντέλο παραγόντων βεβαιότητας του MYCIN και
το INTERNIST-1 (και ο διάδοχός του QMR), δείχνουν να µην απαιτούν a priori
πεποιθήσεις στο συλλογισµό τους.
Το µοντέλο παραγόντων βεβαιότητας του MYCIN αναπαριστά, συνδυάζει και
διαδίδει τα αποτελέσµατα πολλαπλών πηγών ενδείξεων, µε όρους του συνδυαστικού
τους βαθµού επιβεβαίωσης ή διάψευσης κάθε υπόθεσης ενδιαφέροντος. Άρα, σε
αντίθεση µε τις πιο δηµοφιλείς ερµηνείες, ο παράγοντας βεβαιότητας αρχικά
αποσκοπούσε στο να αναπαραστήσει µια ενηµέρωση ή µεταβολή στην πεποίθηση
που προκαλείται από τις ενδείξεις [67], και όχι έναν απόλυτο βαθµό πεποίθησης
(όπως µια πιθανότητα). Εποµένως δεν αναπαριστά εκπεφρασµένα τον a priori ή τον a
posteriori βαθµό πεποίθησης σε κάθε υπόθεση. Μέσω της αναπαράστασης µόνο της
µεταβολής του βαθµού πεποίθησης, φαίνεται ότι ξεπερνά την απαίτηση για a priori
πεποιθήσεις.
Όταν ένα σύστηµα που βασίζεται σε παράγοντες βεβαιότητας προτείνει µια απόφαση
(π.χ. όταν το MYCIN προτείνει θεραπεία για µια υποπτευόµενη µόλυνση), κάνει
χρήση των παραγόντων βεβαιότητας που έχουν ανατεθεί στις διάφορες ασθένειες για
να αποτιµήσει το ποσόν των ενδείξεων για κάθε µια από αυτές. Επειδή λαµβάνει
αποφάσεις χωρίς καµία εκπεφρασµένη αναφορά σε a priori πεποιθήσεις ή
επιπολασµούς, στην πραγµατικότητα µεταχειρίζεται όλες τις µολύνσεις σαν να έχουν
ίσες a priori πιθανότητες, σε συµφωνία µε µελέτες που δείχνουν ότι οι άνθρωποι
τείνουν να αγνοούν τις a priori πιθανότητες όταν εκτελούν συλλογισµούς κάτω από
συνθήκες απροσδιοριστίας. Τα συστήµατα INTERNIST-1 και QMR κάνουν
αντίστοιχες παραδοχές [64]. Η παραδοχή των ίσων a priori πιθανοτήτων είναι βάσιµη
όταν πιστεύεται ότι οι διαγνώσεις είναι ισοπίθανες και όταν δεν υπάρχει καµία
διαθέσιµη πληροφορία σχετικά µε τις a priori πιθανότητες.
Οι a priori πεποιθήσεις είναι συχνά διαθέσιµες, σε κάποιο επίπεδο ακρίβειας. Για
παράδειγµα, έµπειροι ιατροί έχουν σηµαντική γνώση για τον επιπολασµό διαφόρων
ασθενειών, ακόµη κι αν βρίσκουν δύσκολη την ακριβή ποσοτική τους έκφραση. Οι
επιπολασµοί των ασθενειών συχνά διαφέρουν κατά πολλές τάξεις µεγέθους.
Κάνοντας την παραδοχή ίσων a priori πιθανοτήτων µπορεί να οδηγηθούµε σε σοβαρά
σφάλµατα στην πρόταση θεραπείας εάν αποδίδονταν συγκρίσιµοι παράγοντες
βεβαιότητας σε δύο ασθένειες µε πολύ διαφορετικούς επιπολασµούς. Για παράδειγµα,
η σχετικά συχνή µονοπυρήνωση και η σπάνια ασθένεια του Hodgkin µπορούν να
εµφανίσουν συναφείς ενδείξεις (µικροσκοπικά χαρακτηριστικά σε βιοψία
λεµφαδένων). Οι διαφορές στις a priori πιθανότητες µπορεί να είναι θεµελιώδους
σηµασίας στη διάγνωση και τη θεραπεία.
Τα σφάλµατα που συγκεντρώνονται από την παραδοχή ίσων a priori πιθανοτήτων
είναι λιγότερο σηµαντικά σε πεδία όπου η ποιότητα και η ποσότητα των ενδείξεων
τυπικά υπερκαλύπτει τις a priori ποσότητες. Ίσως να επιτρέπεται σε έναν µηχανικό
γνώσης (knowledge engineer) να κάνει απλουστευτικές παραδοχές για τις a priori
πιθανότητες όταν αυτές συνδυάζονται µε µια ανάλυση του κόστους αναπαράστασης
53
αυτής της a priori πληροφορίας. Γενικά, όµως, ακόµη και προσεγγιστική πληροφορία
για τις a priori πιθανότητες µπορεί να αποδειχθεί πολύτιµη γνώση, σηµαντική για την
εκπεφρασµένη αναπαράσταση ενός συστήµατος που βασίζεται στη γνώση
(knowledge based system), και η απόρριψη αυτής της πληροφορίας µπορεί να
οδηγήσει σε σηµαντικά σφάλµατα.
Άλλα ευρετικά συστήµατα που ενσωµατώνουν a priori πιθανότητες παρουσιάζουν
δυσκολίες λόγω της έλλειψης συνοχής µεταξύ των πιθανοτήτων. Για παράδειγµα, το
PROSPECTOR χρησιµοποιεί πιθανότητες για την αναπαράσταση a priori βαθµών
πεποίθησης στις υποθέσεις και στις µεταβλητές των ενδείξεων. Το σύστηµα
χρησιµοποιεί δύο πιθανοκρατικές ποσότητες, που είναι περισσότερες από όσες
απαιτούνται για τον ορισµό της κατανοµής συνδυαστικής πιθανότητας.
Συγκεκριµένα, η ισχύς κάθε κανόνα που συνδέει την ένδειξη Ε µε την υπόθεση Η
αναπαρίσταται από δύο αριθµούς που αντιπροσωπεύουν τους λόγους πιθανοφάνειας
LS =
p( E | H , ξ )
p( E | H , ξ )
και
LN =
p( E | H , ξ )
.
p( E | H , ξ )
Αυτές οι ποσότητες αποτιµώνται από τον ειδικό, ανεξάρτητα µεταξύ τους. Η σχέση
τους δεν είναι διαισθητικά προφανής και έτσι αναµένεται ότι γενικά δεν θα υπάρχει
συνέπεια µεταξύ τους.
2.7.7 Προβλήµατα µε την modularity
Ένα συχνά αναφερόµενο πλεονέκτηµα του πλαισίου αναπαράστασης µέσω κανόνων
είναι η δυνατότητα πρόσθεσης ή αφαίρεσης κανόνων από µια γνωστική βάση χωρίς
να απαιτείται η τροποποίηση άλλων κανόνων [27]. Αυτή η ιδιότητα αναφέρεται ως
modularity. Η modularity των κανόνων σε ένα λογικό παραγωγικό σύστηµα είναι
συνέπεια της γνήσια µονότονης συµπεριφοράς της λογικής: Μόλις επιβεβαιωθεί, η
αλήθεια µιας πρότασης δε µπορεί να µεταβληθεί από άλλα γεγονότα. Η έννοια των
κανόνων ως µια αρθρωτή αναπαράσταση της γνώσης σε αιτιοκρατικά παραγωγικά
συστήµατα, επεκτάθηκε και σε µεθόδους συλλογιστικής µέσω κανόνων υπό συνθήκες
απροσδιοριστίας. Η ανάλυση όµως της modularity έχει δείξει ότι οι απροσδιόριστες
πεποιθήσεις είναι εγγενώς λιγότερο αρθρωτές από τις πεποιθήσεις που εκτιµούνται µε
σιγουριά, καθιστώντας συχνά το λογισµό µέσω κανόνων ανεπαρκή για συλλογιστική
υπό απροσδιοριστία [63]. Έχει γίνει σαφές ότι η παραδοσιακή παραδοχή της
modularity, στις προσεγγίσεις που βασίζονται σε κανόνες συλλογιστικής υπό
συνθήκες απροσδιοριστίας, έχει περιοριστικές επιπτώσεις που δεν είχαν
συνειδητοποιηθεί αρχικά.
Όλα τα αρθρωτά πλαίσια ενηµέρωσης κάνουν την παραδοχή ότι οι ενδείξεις που
επιδρούν στο σχηµατισµό πεποίθησης για µια υπόθεση Η µπορούν να συνδυαστούν
για να καθορίσουν µια συνολική επίδραση στην Η µέσα από την εξέταση της
πεποίθησης για κάθε µια ένδειξη. Αν κάθε µια πεποίθηση σε µια ένδειξη
αναπαρίσταται από ένα βαθµωτό, δε µπορούν να εκφράσουν τη δυνατή εξάρτηση
µεταξύ τους. Αυτή η αναπαράσταση απλώς δεν είναι αρκετά πλούσια. Η καταγραφή
των αποτελεσµάτων τυχαίων εξαρτήσεων σε ένα αρθρωτό πλαίσιο γενικά απαιτεί
πληροφορία που δεν είναι διαθέσιµη σε µια τοπική συνδυαστική συνάρτηση. Η
προσπάθεια για δηµιουργία συµπεριφοράς συνεπούς µε πολύπλοκες εξαρτήσεις µέσα
σε ένα αρθρωτό πλαίσιο ενηµέρωσης της πεποίθησης είναι µια υπερβολική επιδίωξη
54
[67]. Άρα, δε µπορούµε να καταγράψουµε πληροφορίες για τυχαίες εξαρτήσεις µε
χρήση απλών βαθµωτών συναρτήσεων.
Όπως τα πρώιµα πιθανοκρατικά συστήµατα, οι δηµοφιλείς µέθοδοι που βασίζονται
σε κανόνες επιβάλλουν ισχυρούς περιορισµούς στα είδη της εξάρτησης που µπορούν
να αναπαρασταθούν µε αποτελεσµατικό τρόπο. Αντίθετα µε τις εκπεφρασµένες
παραδοχές των απλοποιηµένων πιθανοκρατικών συστηµάτων, οι περιοριστικές
παραδοχές των ευρετικών προσεγγίσεων είναι λιγότερο εµφανείς. Οι προσεγγίσεις
που βασίζονται σε κανόνες, όπως και οι απλές πιθανοκρατικές προσεγγίσεις, δεν
έχουν την απαραίτητη εκφραστικότητα για να αναπαραστήσουν µε συνοχή τις
σχέσεις µεταξύ απροσδιόριστων πεποιθήσεων.
Συνοψίζοντας, τα πρώιµα σχήµατα, που έκαναν χρήση απλοποιηµένων
πιθανοκρατικών αναπαραστάσεων και πιθανοκρατικής συµπερασµατολογίας, συχνά
αποδείχθηκαν επιτυχή µε όρους επίδοσης, συγκριτικά µε την αντίστοιχη επίδοση
ανθρώπων - ειδικών, σε περιορισµένα πεδία. Τα συστήµατα όµως δεν έχουν ευρέως
υιοθετηθεί για διάφορους λόγους, συµπεριλαµβανοµένων των εµφανώς
εξωπραγµατικών παραδοχών τους και της ανικανότητάς τους να καλύψουν το φάσµα
της ποιοτικής γνώσης που ήταν διαθέσιµη στον ειδικό. Αρχικά, τεχνικές ΑΙ
εφαρµόστηκαν στην ανάπτυξη έµπειρων συστηµάτων, µε την ελπίδα ότι θα
µπορούσαν να αποφύγουν τέτοιες αυθαίρετες παραδοχές και να ενσωµατώσουν ένα
πλουσιότερο φάσµα ποιοτικής γνώσης µε µικρότερο τεχνικό κόστος. Πρόσφατες
µελέτες, όµως, έχουν δείξει ότι πολλές πολύ γνωστές τεχνικές ΑΙ για αναπαράσταση
γνώσης και συλλογιστική σε περιβάλλον απροσδιοριστίας κάνουν επίσης ισχυρές
παραδοχές σχετικά µε τις a priori πιθανότητες και τη modularity.
2.8 Σύγχρονη έρευνα στην θεωρία αποφάσεων στα έµπειρα
συστήµατα.
Όπως είδαµε, έχει ασκηθεί δικαιολογηµένη κριτική στις περιοριστικές παραδοχές
που, τόσο τα απλοποιηµένα πιθανοκρατικά σχήµατα, όσο και πολλές ευρετικές
προσεγγίσεις, κάνουν προκειµένου να επιτύχουν την υπό απροσδιοριστία
συµπερασµατολογία. Οι ερευνητές προσπαθούν να αναπτύξουν πλουσιότερες
αναπαραστάσεις της γνώσης που να βασίζονται µε ένα πλαίσιο αρχών στην
πιθανότητα και τη θεωρία αποφάσεων, και που να είναι ικανές να εκφράσουν, µε
έναν ευέλικτο και ελεγχόµενο τρόπο, ένα ευρύτερο φάσµα τόσο ποιοτικής όσο και
ποσοτικής γνώσης. Μεγάλο τµήµα αυτής της έρευνας έχει εστιαστεί στη χρήση
γραφηµάτων ή δικτύων για την αναπαράσταση σχέσεων απροσδιοριστίας,
συµπεριλαµβανοµένων των δικτύων πεποίθησης (belief networks) και των
διαγραµµάτων επιρροής (influence diagrams). Αυτές οι αναπαραστάσεις µπορούν να
διευκολύνουν την αποτίµηση a priori κατανοµών, να καταστήσουν τις παραδοχές
εκπεφρασµένες και να επιτρέψουν την εύκολη διαχείριση των παραδοχών από
µηχανικούς γνώσης και ειδικούς.
2.8.1 Αναπαράσταση γνώσης για προβλήµατα θεωρίας αποφάσεων
Ο Howard αποκαλεί το πλήρες µοντέλο ενός προβλήµατος απόφασης ως βάση
απόφασης [69]. Μια περιεκτική βάση απόφασης αποτελείται από συνιστώσες που
αντιπροσωπεύουν τις εναλλακτικές επιλογές (alternatives), τις καταστάσεις (states),
55
τις προτιµήσεις (preferences) και τις σχέσεις (relationships) σε µια διαδικασία
απόφασης. Οι αποφάσεις είναι οι εναλλακτικές πορείες δράσης που είναι διαθέσιµες
σ’ εκείνον που λαµβάνει αποφάσεις. Οι εναλλακτικές καταστάσεις του κόσµου είναι
εκείνοι οι παράγοντες ή µεταβλητές που θα αναπαρασταθούν εκπεφρασµένα στο
µοντέλο, και το φάσµα αξιών που θεωρούνται λογικές ή δυνατές. Οι προτιµήσεις του
ατόµου που λαµβάνει αποφάσεις αναπαρίστανται µέσω µιας κατάταξης σύµφωνα µε
τις διάφορες δυνατές εκβάσεις. Η πληροφορία για της προτιµήσεις καταγράφει τους
παράγοντες που είναι σηµαντικοί για να κριθεί πόσο επιθυµητές είναι εναλλακτικές
εκβάσεις. Επίσης, περιγράφει την έκταση και τον τρόπο µε τον οποίο µπορούν να
γίνουν συµβιβασµοί σχετικά µε την ικανοποίηση διαφόρων εκβάσεων. Όπως
αναφέρθηκε νωρίτερα, τα συστήµατα τεχνητής νοηµοσύνης δεν αντιµετωπίζουν
άµεσα την εκπεφρασµένη αναπαράσταση της γνώσης για τις προτιµήσεις. Η τελική
συνιστώσα µιας βάσης απόφασης είναι το σύνολο των σχέσεων µεταξύ των
καταστάσεων του κόσµου, των αποφάσεων και των προτιµήσεων. Γενικά, αυτές οι
σχέσεις µπορούν να εκφραστούν λογικά, πιθανοκρατικά ή ποιοτικά.
Πολλές αναπαραστάσεις της βάσης απόφασης έχουν αναπτυχθεί στις επιστήµες
απόφασης. Αυτές περιλαµβάνουν κατανοµές συνδυαστικής πιθανότητας των
µεταβλητών συνδυασµένες µε συναρτήσεις απώλειας, και δέντρα αποφάσεων [112],
τα οποία παρουσιάζονται στη συνέχεια. Αν και οι αναπαραστάσεις αυτές είναι
χρήσιµες και γενικές, δεν παρέχουν ένα ξεκάθαρο µέσο αναπαράστασης της
ανεξαρτησίας, προσβάσιµο τόσο σε ανθρώπους όσο και σε µηχανές που εκτελούν
συλλογισµούς. Τα διαγράµµατα επιρροής και τα δίκτυα πεποίθησης σχεδιάστηκαν για
να ανταποκριθούν σε αυτή ακριβώς την απαίτηση. Θα αναφερθούµε εκτεταµένα στα
δίκτυα κατά Bayes σε επόµενο κεφάλαιο.
2.8.2 ∆ιαγράµµατα Επιρροής και ∆ίκτυα Πεποίθησης
Το διάγραµµα επιρροής [69, 99, 100] είναι µια γραφική γλώσσα αναπαράστασης της
γνώσης που αναπαριστά τη βάση απόφασης. Είναι ένα ακυκλικό κατευθυντικό
γράφηµα που περιέχει κόµβους οι οποίοι αντιπροσωπεύουν προτάσεις ή ποσότητες
ενδιαφέροντος (δηλ. εναλλακτικές επιλογές, καταστάσεις) και βέλη που
αντιπροσωπεύουν αλληλεπιδράσεις µεταξύ των κόµβων. Οι κόµβοι που
αντιπροσωπεύουν προτάσεις συνδέονται µε ένα σύνολο αµοιβαία αποκλειόµενων και
εξαντλητικών του δειγµατικού χώρου τιµών που αντιπροσωπεύουν εναλλακτικές
δυνατές καταστάσεις. Τα βέλη αντιπροσωπεύουν αιτιοκρατικές, πιθανοκρατικές ή
πληροφοριακές σχέσεις µεταξύ των κόµβων.
Τα διαγράµµατα επιρροής αφ’ ενός περιγράφουν αυστηρά µια βάση απόφασης, αφ’
ετέρου έχουν µια ανθρωποστρεφή ποιοτική δοµή που διευκολύνει την καταγραφή της
γνώσης και την επικοινωνία. Ένα διάγραµµα επιρροής για ένα ιατρικό πρόβληµα
φαίνεται στο σχήµα 2.7. Το διάγραµµα κωδικοποιεί ένα πρόβληµα απόφασης σχετικά
µε το αν πρέπει να γίνει µια εγχείρηση CABG (coronary artery bypass graft). Ο
κίνδυνος σ’ αυτή την περίπτωση είναι το έµφραγµα του µυοκαρδίου (ΜΙ).
Το παράδειγµα αυτό δείχνει τα τέσσερα διαφορετικά είδη κόµβων σε ένα διάγραµµα
επιρροής. Οι κόµβοι απόφασης αντιπροσωπεύουν τις δυνατές δράσεις στη διάθεση
του ατόµου που λαµβάνει τις αποφάσεις και είναι οι µεταβλητές που βρίσκονται υπό
τον πλήρη έλεγχό του. Σχεδιάζονται ως ορθογώνια. Στο παράδειγµα φαίνονται δύο
αποφάσεις: Ο κόµβος Αγγειογραφικός Έλεγχος παρέχει πληροφορίες για την έκταση
της στεφανιαίας νόσου στον ασθενή, ενώ ο κόµβος Εγχείρηση Καρδιάς αναφέρεται
56
στην απόφαση να γίνει η CABG χειρουργική επέµβαση. Οι αποφάσεις που πρέπει να
ληφθούν είναι κατά πόσον θα πρέπει να γίνουν όλες, µία ή καµία από τις διαδικασίες
αυτές. Τα βέλη σ’ ένα διάγραµµα επιρροής δείχνουν ποια πληροφορία είναι
διαθέσιµη (δηλ. τιµές απροσδιόριστων µεταβλητών ή αποφάσεις που έχουν ήδη
ληφθεί) τη στιγµή που γίνεται η επιλογή. Το διάγραµµα δείχνει ότι όταν λαµβάνεται η
απόφαση για χειρουργική επέµβαση, η έκβαση του Αγγειογραφικού ελέγχου θα είναι
γνωστή, εάν ο έλεγχος έγινε.
Οι κόµβοι τύχης αντιπροσωπεύουν καταστάσεις του κόσµου που είναι
απροσδιόριστες. Συµβολίζουµε τους κόµβους τύχης µε κύκλους ή ελλείψεις.
Υπάρχουν δύο τύποι κόµβων τύχης: οι στοχαστικοί και οι αιτιοκρατικοί (οι
τελευταίοι σχεδιάζονται µε διπλούς κύκλους). Η πεποίθηση που σχετίζεται µε έναν
στοχαστικό κόµβο τύχης είναι µια πιθανοκρατική συνάρτηση των εκβάσεων των
προγονικών του κόµβων. Για παράδειγµα, η κατανοµή πιθανότητας των τιµών του
κόµβου «Έτη ζωής» (δηλ. τα χρόνια ζωής που αποµένουν) εξαρτάται από το κατά
πόσον η εγχείρηση καρδιάς έγινε (επειδή υπάρχει κάποιος κίνδυνος θανάτου από την
εγχείρηση και µόνον) και από το µειωµένο κίνδυνο µιας µελλοντικής θανάσιµης
καρδιακής προσβολής εάν η επέµβαση είναι επιτυχής. Η τιµή ενός αιτιοκρατικού ή
ντετερµινιστικού κόµβου είναι µια αιτιοκρατική συνάρτηση των εκβάσεων των
προγονικών του κόµβων. Στο ίδιο παράδειγµα κάνουµε την παραδοχή ότι υπάρχει µια
αιτιοκρατική συνάρτηση που, βασιζόµενη στα χρηµατικά έξοδα της αγγειογραφίας,
της χειρουργικής επέµβασης και της νοσοκοµειακής περίθαλψης που ακολουθεί µια
καρδιακή προσβολή, υπολογίζει τα κόστη. Ο αιτιοκρατικός κόµβος τύχης αποτελεί
ειδική περίπτωση του στοχαστικού κόµβου τύχης, καθώς η κατανοµή πιθανότητας
είναι µια δέλτα συνάρτηση, αφού οι τιµές των προγόνων καθορίζουν µε βεβαιότητα
την τιµή του κόµβου.
Σχήµα 2.7
Τέλος, οι κόµβοι αξίας καταγράφουν τις προτιµήσεις του ατόµου που λαµβάνει τις
αποφάσεις. Οι κόµβοι αυτοί συµβολίζονται µε ρόµβους. Οι πρόγονοι ενός κόµβου
αξίας δείχνουν εκείνες τις εκβάσεις και τα χαρακτηριστικά που συµπεριλαµβάνονται
στην αποτίµηση ενός σχεδίου ή µιας επιλογής. Για το παράδειγµά µας, τα
χαρακτηριστικά είναι η ποιότητα ζωής, τα έτη ζωής και το κόστος. Το γράφηµα
57
δείχνει ότι η ποιότητα ζωής επηρεάζεται από τον πόνο στο στήθος σε ένα
συγκεκριµένο επίπεδο προσπάθειας και από τη θνησιµότητα της επέµβασης. Η
συνάρτηση αξίας (µια βαθµωτή συνάρτηση πραγµατικών τιµών) εµπεριέχει τις
ανταλλαγές (tradeoffs) µεταξύ αυτών των χαρακτηριστικών για ένα συγκεκριµένο
ασθενή καθώς επίσης και ατοµικές προτιµήσεις σχετικά µε τον κίνδυνο και το χρόνο.
Μεγάλο τµήµα της έρευνας σχετικά µε την αναπαράσταση και συµπερασµατολογία
µε αυτές τις γραφικές αναπαραστάσεις έχει εστιαστεί στα διαγράµµατα επιρροής που
περιέχουν µόνον κόµβους τύχης [20, 69, 76, 87, 105, 115]. Αυτά τα γραφήµατα
εκφράζουν αποκλειστικά σχέσεις µεταξύ των καταστάσεων, χωρίς να λαµβάνουν υπ’
όψιν τους εκπεφρασµένα αξίες και αποφάσεις. Πολλές διαφορετικές ονοµασίες έχουν
δοθεί σ’ αυτές τις αναπαραστάσεις, όπως δίκτυα αιτιότητας (causal networks), δίκτυα
κατά Bayes (Bayesian networks) και δίκτυα πεποίθησης (belief networks) [108].
Η εκφραστικότητα και η επάρκεια των διαγραµµάτων επιρροής βασίζεται στα τρία
επίπεδα µέσω των οποίων αυτή η αναπαράσταση καθορίζεται: σχεσιακό,
συναρτησιακό και αριθµητικό [69]. Μπορούµε να εκφράζουµε σχέσεις σε ένα
επίπεδο χωρίς να αναφερόµαστε εκπεφρασµένα σε πιο ειδικά επίπεδα.
Το σχεσιακό επίπεδο καταγράφει την ποιοτική δοµή του προβλήµατος, όπως αυτή
εκφράζεται από την τοπολογία του δικτύου. Σ’ αυτό το επίπεδο, τα βέλη και οι
κόµβοι περιγράφουν εξαρτήσεις µεταξύ των τιµών των προτάσεων ή µεταβλητών
(κόµβων). Τα διαγράµµατα επιρροής στο σχεσιακό επίπεδο είναι παρόµοια µε πολλές
συνήθεις αναπαραστάσεις στη µοντελοποίηση και την ΑΙ, όπως τα σηµασιολογικά
δίκτυα (semantic nets). Κάθε µεταβλητή σε ένα διάγραµµα επιρροής σχετίζεται µε
ένα σύνολο αµοιβαία αποκλειόµενων και συλλογικά εξαντλητικών τιµών. Για
παράδειγµα, ο κόµβος «Πόνος στο στήθος» στο παράδειγµά µας χαρακτηρίζεται από
τις τιµές καθόλου, ελαφρά ενόχληση και αίσθηση σύνθλιψης, ως αντίδραση σε ένα
καθορισµένο επίπεδο προσπάθειας. Η «Στεφανιαία νόσος» χαρακτηρίζεται από
κανένα, ένα αγγείο, δύο αγγεία και τρία αγγεία, που περιγράφουν τον αριθµό των
αρτηριών στην καρδιά που νοσούν. Είναι σηµαντικό οι εκβάσεις κάθε κόµβου να
ορίζονται µε αδιαµφισβήτητο τρόπο. Στο παράδειγµα, το βέλος µεταξύ των κόµβων
«Στεφανιαία νόσος» και «Πόνος στο στήθος» εκφράζει τη γνώση σχετικά µε την
ύπαρξη εξάρτησης µεταξύ των τιµών που η στεφανιαία νόσος και ο πόνος στο στήθος
µπορούν να έχουν.
Στο συναρτησιακό επίπεδο, καθορίζεται η συναρτησιακή µορφή των σχέσεων
µεταξύ των κόµβων. Για παράδειγµα, καθορίζεται η µορφή της δεσµευµένης
πιθανότητας που συσχετίζει την έκβαση (τιµή) της «Στεφανιαίας νόσου» µε την
κατανοµή πιθανότητας επί των τιµών της µεταβλητής «Πόνος στο στήθος».
Τέλος, στο αριθµητικό επίπεδο, καθορίζουµε αριθµητικές τιµές που
χρησιµοποιούνται από τις συναρτησιακές µορφές. Αυτό το επίπεδο αναπαριστά τις
ποσοτικές λεπτοµέρειες της εξάρτησης κάθε µεταβλητής από τους γονείς της (τους
κόµβους που επιδρούν σ’ αυτή).
Μια απροσδιόριστη επίδραση αναπαρίσταται από την κατανοµή δεσµευµένης
πιθανότητας µιας µεταβλητής µε δεδοµένες τις τιµές των γονέων της. Σαν
παράδειγµα, στο αριθµητικό επίπεδο, θα µπορούσαµε να καθορίσουµε ότι p(«Πόνος
στο στήθος»=ελαφρά ενόχληση | «Στεφανιαία νόσος»=ένα αγγείο) = 0.25. Οι κόµβοι
τύχης χωρίς προγόνους καθορίζονται στο αριθµητικό επίπεδο µε κατανοµές a priori
πιθανότητας.
58
3. ΓΡΑΦΙΚΑ ΜΟΝΤΕΛΑ – ΓΡΑΦΗΜΑΤΑ
ΑΝΕΞΑΡΤΗΣΙΑΣ
Ένα γραφικό µοντέλο είναι µια οικογένεια συναρτήσεων πυκνότητας πιθανότητας
που εµπεριέχει ένα συγκεκριµένο σύνολο περιορισµών δεσµευµένων ανεξαρτησιών,
που εµφανίζονται σε ένα γράφηµα ανεξαρτησίας. Γραφική µοντελοποίηση είναι η
στατιστική δραστηριότητα προσαρµογής γραφικών µοντέλων στα δεδοµένα.
Υπό αυτή την έννοια, η γραφική µοντελοποίηση δεν είναι παρά άλλη µια στατιστική
τεχνική, όπως η ανάλυση παλινδρόµησης, η ανάλυση διακύµανσης, η ανάλυση
επιβίωσης κλπ, των οποίων τα κίνητρα και η φιλοσοφία µπορεί να περιγραφεί στο
πλαίσιο της παραµετρικής στατιστικής µοντελοποίησης [22].
Η διαδικασία εξαγωγής συµπερασµάτων (inference) από δεδοµένα ακολουθεί τα εξής
βήµατα: τα δεδοµένα αναπαριστώνται από ένα θεωρούµενο πιθανοκρατικό µοντέλο
που περιλαµβάνει όρους για τη µοντελοποίηση του υποκειµένου στατιστικού
µηχανισµού αλλά και του σχεδιασµού δειγµατοληψίας βάσει του οποίου
δηµιουργήθηκαν τα δεδοµένα. Αυτή η διαδικασία προσφέρει µια οµαλή
αναπαράσταση των δεδοµένων µέχρι του σηµείου που απαιτείται ο καθορισµός των
τιµών κάποιων αγνώστων παραµέτρων. Συγκεκριµένες τιµές αυτών των παραµέτρων
αντιστοιχούν σε ουσιαστικές υποθέσεις αναφορικά µε το υπόστρωµα του
προβλήµατος, για παράδειγµα την εξαίρεση κάποιας συγκεκριµένης µεταβλητής από
το σύνολο των επεξηγηµατικών µεταβλητών (explanatory set). Τα δεδοµένα και το
πιθανοκρατικό µοντέλο συνδυάζονται στη συνάρτηση πιθανοφάνειας (likelihood
function) η οποία δίνει ένα µέτρο σχετικής στήριξης σε διαφορετικές τιµές των
παραµέτρων. Η διαδικασία εκλογής µοντέλου αντιµετωπίζει το πρόβληµα της
επιλογής µεταξύ µιας ευρείας κλάσης ανταγωνιστικών µοντέλων και διαγνωστικοί
έλεγχοι στις παραδοχές του µοντέλου πιθανόν να προτείνουν βελτιώσεις στο αρχικό
µοντέλο, οδηγώντας σε µια επανάληψη της όλης διαδικασίας.
Οι αρχές και οι τεχνικές της γραφικής µοντελοποίησης δεν είναι τίποτε περισσότερο
ή τίποτε λιγότερο από µια στατιστική προσέγγιση µοντελοποίησης στην ανάλυση
δεδοµένων, η οποία βασίζεται στην επιλογή ενός γραφήµατος ανεξαρτησίας για τον
καθορισµό ενός συγκεκριµένου πιθανοκρατικού µοντέλου.
3.1 Ιστορική αναδροµή – Τα συστατικά των γραφικών
µοντέλων
Η χρήση γραφηµάτων για την αναπαράσταση στατιστικών µοντέλων έχει µακρά και
πλούσια παράδοση, η οποία ξεκίνησε µε τον γενετιστή Sewall Wright [139], ο οποίος
ανέπτυξε τη µέθοδο της ανάλυσης ίχνους (path analysis). Η µέθοδος αυτή αργότερα
αποτέλεσε την καθιερωµένη αναπαράσταση αιτιοκρατικών µοντέλων στην
Οικονοµία, Κοινωνιολογία και Ψυχολογία. Το γράφηµα, στο πλαίσιο αυτής της
µεθόδου, αναπαριστά ένα σύστηµα εξαρτήσεων ή, σύµφωνα µε την ορολογία του
Wright, ένα σύστηµα αιτιοκρατικών σχέσεων.
Από την πλευρά της Στατιστικής, τα ιεραρχικά λογαριθµικά-γραµµικά µοντέλα
(Hierarchical log-linear models) για πίνακες συνάφειας (contingency tables) έχουν
συγκεντρώσει σηµαντικό ενδιαφέρον ανάµεσα στους ερευνητές. Τα µοντέλα αυτά
ορίσθηκαν από τον Birch [5] ενώ πρωτοπόροι στην ανάπτυξή τους ήταν οι Bishop
59
[7], Goodman [50, 52], Haberman [55] και Bishop, Fienberg και Holland [6]. Έχουν
εκτενώς χρησιµοποιηθεί από επιστήµονες κοινωνικών επιστηµών για την ανάλυση
δεδοµένων σε µορφή πινάκων συνάφειας. Η ανάπτυξή τους έχει καταστήσει δυνατό
τον ορισµό πολύπλοκων συνδυασµών µεταξύ των παραγόντων που κατηγοριοποιούν
έναν πίνακα πολλών διαστάσεων.
Από την άλλη πλευρά, τυπικές αναλύσεις δεδοµένων συνεχών µεταβλητών όπως
αυτά συνοψίζονται από έναν πίνακα διακύµανσης ή συσχέτισης, έχουν παραδοσιακά
βασιστεί σε τεχνικές που εξετάζουν γραµµικούς µετασχηµατισµούς, για παράδειγµα
βασικές συνιστώσες (principal components) ή κανονικές µεταβλητές (canonical
variates). Μια εναλλακτική προσέγγιση προτάθηκε από τον Dempster [36], σύµφωνα
µε την οποία τα δεδοµένα ακολουθούν κανονική κατανοµή πολλών µεταβλητών ενώ
συγκεκριµένα στοιχεία του αντιστρόφου του πίνακα διακύµανσης µηδενίζονται.
Πρόκειται για τα µοντέλα επιλογής covariance (covariance selection models). Παρά
το ότι η Wermuth [134] έδειξε την αναλογία των µοντέλων αυτών µε την κλάση των
λογαριθµικών – γραµµικών, δεν έχουν τραβήξει την προσοχή της εφαρµοσµένης
Στατιστικής.
Οι διαφορετικές αυτές µέθοδοι στατιστικής ανάλυσης πολλών µεταβλητών, µαζί µε
κάποια στοιχεία από τη Θεωρία Γραφηµάτων (Graph Theory), αποτέλεσαν τα
συστατικά για την εµφάνιση των Γραφικών Μοντέλων. Η έννοια όµως εκείνη που
αποτέλεσε το συνδετικό κρίκο αυτών των θεωριών είναι η έννοια της ανεξαρτησίας
και της υπό συνθήκες (δεσµευµένης) ανεξαρτησίας. Αυτή υπήρχε ήδη σε εφαρµογές
της παραγοντικής ανάλυσης και της ανάλυσης λανθάνουσας δοµής (latent structure
analysis), όπου η δέσµευση γίνεται σε µη-παρατηρήσιµες µεταβλητές, όµως η
αναγνώριση ότι η δεσµευµένη ανεξαρτησία έχει παρόµοια σπουδαιότητα και για
παρατηρήσιµες µεταβλητές, καθυστέρησε πολύ.
Πολλοί από αυτούς που χρησιµοποιούν ή µελετούν την εφαρµοσµένη Στατιστική
πολλών µεταβλητών, τη θεωρούν µια συλλογή ή έναν κατάλογο από στατιστικές
µεθόδους, οµαδοποιηµένες εξ’ αιτίας της χρησιµότητάς τους ως εργαλεία, αλλά µε
µικρή λογική συσχέτιση, και, όπως τα εργαλεία σε µια εργαλειοθήκη, χωρίς κάποια
τάξη. Για παράδειγµα, τα βιβλία Στατιστικής συχνά µεταχειρίζονται έννοιες όπως η
µη-µετρική πολυδιαστατική ταξινόµηση (non-metric multidimensional scaling) στο
ίδιο επίπεδο µε την παραγοντική ανάλυση (factor analysis). Αυτό δεν είναι σωστό,
αφού η πρώτη δεν είναι παρά ένας υπολογιστικός αλγόριθµος ενώ η δεύτερη αφορά
στη στατιστική ανάλυση ενός πλήρoυς πιθανοκρατικού µοντέλου. Με την ίδια
λογική, η λέξη «ανάλυση» στην ανάλυση βασικών συνιστωσών (principal component
analysis) έχει εντελώς διαφορετικό νόηµα απ’ ότι στην παραγοντική ανάλυση (factor
analysis). Αυτό το έλλειµµα ενότητας και αυστηρότητας δεν είναι διανοητικά
ικανοποιητικό και η ενότητα που υπάρχει περιορίζεται στις µεθόδους που βασίζονται
στους πίνακες διακύµανσης-συνδιακύµανσης (variance-covariance) προϋποθέτοντας
κανονικότητα (Normality). Η Στατιστική πολλών µεταβλητών χρειάζεται ένα
ευρύτερο θεωρητικό πλαίσιο ενοποίησης, µέσα στο οποίο µπορούν να αναπτυχθούν
πρακτικές εφαρµογές.
Η έννοια της υπό συνθήκη ανεξαρτησίας προσφέρει ένα τέτοιο πλαίσιο. Η θεωρία
των γραφηµάτων ανεξαρτησίας και οι σχετικές µε αυτή εφαρµογές γραφικής
µοντελοποίησης, αποτελούν απλώς µια υλοποίηση της θεωρίας αυτής.
60
3.2 Στοιχεία Θεωρίας Γραφηµάτων
Ένα γράφηµα (graph) G είναι ένα µαθηµατικό αντικείµενο που αποτελείται από δύο
σύνολα, ένα σύνολο κόµβων (vertices, nodes) Κ και ένα σύνολο δεσµών (edges) Ε. Το
σύνολο Ε αποτελείται από διατεταγµένα ζεύγη στοιχείων του Κ. Συνήθως θεωρούµε
ως Κ το σύνολο των φυσικών αριθµών {1, 2, 3, …, k}. Υπάρχει κατευθυντικός
δεσµός (directed) ή βέλος (arrow) µεταξύ των κόµβων i και j του Κ εάν το σύνολο Ε
περιέχει το διατεταγµένο ζεύγος (i, j). Τότε ο κόµβος i λέγεται πατέρας (parent) του
κόµβου j και ο κόµβος i λέγεται παιδί (child) του κόµβου i. Υπάρχει µηκατευθυντικός (undirected) δεσµός ή γραµµή (line) µεταξύ των κόµβων αυτών εάν το
σύνολο Ε περιέχει και τα δύο ζεύγη (i, j) και (j, i). Το γράφηµα λέγεται µηκατευθυντικό εάν όλοι οι δεσµοί είναι µη-κατευθυντικοί.
Θεωρούµε µόνον γραφήµατα µε έναν δεσµό ανά ζεύγος κόµβων και χωρίς βρόγχους.
∆ηλαδή επιτρέπουµε µεν µια διαδροµή να ξεκινά και να καταλήγει στον ίδιο κόµβο,
αλλά όχι να περνά πό κάποιον κόµβο περισσότερες από µια φορές. Το διάγραµµα
ενός γραφήµατος είναι µια εικόνα στην οποία κύκλοι αναπαριστούν κόµβους,
γραµµές αναπαριστούν µη-κατευθυντικούς δεσµούς και βέλη κατευθυντικούς
δεσµούς. Το γράφηµα µε Κ = {1, 2, 3, 4} και Ε = {(1, 2), (2, 1), (1, 3), (4, 3)} έχει
διάγραµµα:
2
1
3
4
Οι κόµβοι i και j γειτνιάζουν, ή είναι γειτονικοί (adjacent) εάν ο µη-κατευθυντικός
δεσµός µεταξύ των i και j υπάρχει στο Ε και µια γραµµή τούς συνδέει στο διάγραµµα
του γραφήµατος. Εποµένως, στο παραπάνω διάγραµµα οι κόµβοι 1 και 2 είναι
γειτονικοί, ενώ ούτε το ζεύγος 1 και 4 ούτε το ζεύγος 1 και 3 γειτνιάζουν.
Με Gu συµβολίζουµε το γράφηµα που προκύπτει αντικαθιστώντας όλα τα βέλη στο G
µε γραµµές.
Μια διαδροµή (path) είναι µια ακολουθία κόµβων i1, i2, i3, …, για τους οποίους οι
δεσµοί (il, il+1) ανήκουν στο σύνολο Ε για κάθε l = 1, 2, …, m-1. Υπάρχει ένα βέλος
µεταξύ κάθε διαδοχικού ζεύγους. Η διαδροµή λέγεται κύκλος (cycle) εάν τα άκρα της
διαδροµής επιτρέπεται να είναι ο ίδιος κόµβος, δηλαδή i1 = im.
Στα µη-κατευθυντικά γραφήµατα, κάθε διαδοχικό ζεύγος κόµβων σε µια διαδροµή,
είναι γειτονικοί. Ο κύκλος λέγεται άχορδος (chordless) εάν δεν υπάρχουν άλλοι
κόµβοι που να είναι γειτονικοί, παρά µόνο διαδοχικά ζεύγη.
∆ύο κόµβοι i και j είναι συνδεδεµένοι (connected) εάν υπάρχει µια διαδροµή από τον i
στον j και µια διαδροµή από τον j στον i. Ένα γράφηµα λέγεται συνδεδεµένο εάν όλα
τα ζεύγη κόµβων είναι συνδεδεµένα.
Ένα υποσύνολο των κόµβων διαχωρίζει (separates) δύο κόµβους i και j εάν κάθε
διαδροµή που συνδέει τους δύο κόµβους περιέχει τουλάχιστον έναν κόµβο του
διαχωριστικού συνόλου. Ένα υποσύνολο διαχωρίζει δύο υποσύνολα α και b κόµβων
του Κ εάν διαχωρίζει κάθε ζεύγος i ∈ α και j ∈ b.
Έστω α ⊆ Κ ένα υποσύνολο κόµβων του γραφήµατος. Οι γείτονες (neighbors) του α
είναι εκείνοι οι κόµβοι του Κ αλλά όχι του α που γειτνιάζουν µε κάποιο κόµβο του α.
Το σύνολο των γονέων (parents) του α είναι το σύνολο εκείνων των κόµβων του Κ
61
αλλά όχι του α που έχουν κάποιο παιδί στο α και συµβολίζεται µε pa(α). Η ένωση
των γειτόνων του α µε τους γονείς του ονοµάζεται περίβληµα (boundary) του α και
συµβολίζεται bd(α). Για τα µη-κατευθυντικά γραφήµατα, το περίβληµα και το σύνολο
των γειτόνων είναι ένα και το αυτό.
Με τον όρο υπο-γράφηµα (subgraph) του α, Gα , εννοούµε το γράφηµα που προκύπτει
αν από το γράφηµα G σβήσουµε τους κόµβους που δεν ανήκουν στο υποσύνολο α
µαζί µε όλους τους δεσµούς που δε συνδέουν δύο στοιχεία του α. Ένα γράφηµα ή
υπο-γράφηµα λέγεται πλήρες (complete) όταν κάθε κόµβος συνδέεται µε όλους τους
υπόλοιπους, µε κατευθυντικούς ή µη-κατευθυντικούς δεσµούς.
Οµάδα (clique) λέγεται ένα υποσύνολο των κόµβων που επάγει ένα πλήρες υπογράφηµα αλλά για το οποίο η προσθήκη ενός επιπλέον κόµβου καθιστά το επαγόµενο
υπο-γράφηµα µη πλήρες. Μια οµάδα λοιπόν συνιστά ένα οριακά πλήρες υπογράφηµα (maximally complete subgraph).
Παράδειγµα:
Το διάγραµµα του µη-κατευθυντικού γραφήµατος G = (K, E) µε Κ = {1, 2, 3, 4, 5, 6,
7} και σύνολο δεσµών Ε = {(1, 2), (2, 4), (2, 3), (2, 5), (3, 5), (4, 5), (5, 6)} ∪ {(2, 1),
(4, 1), (3, 2), (5, 2), (5, 3), (5, 4), (6, 5)} είναι:
1
2
3
4
5
6
7
Υπάρχουν πολλές διαδροµές από το 1 στο 6 και 1, 2, 5, 6 είναι µια από αυτές, αλλά το
γράφηµα δεν είναι συνδεδεµένο, αφού δεν υπάρχει καµία διαδροµή µεταξύ του 7 και
τον υπολοίπων κόµβων. Το περίβληµα του κόµβου 1, bd(1) είναι το σύνολο των
γειτόνων {2, 4}, και το περίβληµα του συνόλου {1, 2} είναι το σύνολο {3, 4, 5}. Ο
κύκλος 1, 2, 5, 4, 1 είναι άχορδος, ενώ ο κύκλος 1, 2, 3, 5, 4, 1 δεν είναι άχορδος. Οι
οµάδες του γραφήµατος είναι τα υποσύνολα {1, 2}, {1, 4}, {4, 5}, {2, 3, 5}, {5, 6}
και {7}. Τα υπο-γραφήµατα που επάγονται από τα υποσύνολα {1, 2, 3} και {1, 2, 6}
είναι αντίστοιχα:
1
2
3
Το πρώτο είναι συνδεδεµένο, το δεύτερο όχι.
62
1
2
6
ΓΡΑΦΗΜΑ ΑΝΕΞΑΡΤΗΣΙΑΣ
Έστω Χ = (Χ1, Χ2, …, Χk) ένα διάνυσµα τυχαίων µεταβλητών και Κ = {1, 2, …, k} το
αντίστοιχο σύνολο κόµβων. Το γράφηµα είναι γράφηµα ανεξαρτησίας –ή πιο σωστά
γράφηµα υπό συνθήκη (δεσµευµένης) ανεξαρτησίας– εάν ένας δεσµός µεταξύ δύο
κόµβων δεν υπάρχει στο γράφηµα όταν οι δύο µεταβλητές είναι ανεξάρτητες, µε
δεδοµένες όλες τις µεταβλητές που αποµένουν.
Θα χρησιµοποιούµε την απλοποιηµένη έκφραση 1 ╨ 2 | {3, 4} αντί της Χ1 ╨ Χ2 | {Χ3,
Χ4} και έτσι η δήλωση ότι οι µεταβλητές Χi και Xj είναι ανεξάρτητες µε δεδοµένες τις
υπόλοιπες µπορεί να γραφτεί ως i ╨ j | Κ \ {i, j}. Το µη-κατευθυντικό γράφηµα που
παράγεται δίνει µια εικόνα της εξάρτησης ή σχέσης µεταξύ των µεταβλητών.
Εποµένως έχουµε τον ακόλουθο ορισµό:
Το γράφηµα δεσµευµένης ανεξαρτησίας (ή υπό συνθήκη ανεξαρτησίας) του
διανύσµατος τυχαίων µεταβλητών Χ είναι το µη-κατευθυντικό γράφηµα G = (Κ, Ε)
όπου Κ = {1, 2, …, k} και ο δεσµός (i, j) δεν υπάρχει στο σύνολο δεσµών Ε εάν και
µόνον εάν Χi ╨ Xj | XK \ {i, j}.
k
 
 2
Ο αριθµός των γραφηµάτων δεσµευµένης ανεξαρτησίας για k µεταβλητές είναι 2 ,
λαµβάνοντας υπ’ όψιν όλους τους πιθανούς αριθµούς δεσµών και τις µεταθέσεις
µεταξύ κόµβων. Εάν στην απαρίθµηση των πιθανών γραφηµάτων συµπεριλάβουµε
και τα γραφήµατα όλων των πιθανών υποσυνόλων των µεταβλητών (δηλαδή και όλα
τα γραφήµατα για k-1, k-2 κλπ µεταβλητές), τότε ο αριθµός ανεβαίνει σε
i
 k   2 
 2 .
∑
i =0  i 
k
Για παράδειγµα, εάν k=4, υπάρχουν 64 γραφήµατα δεσµευµένης ανεξαρτησίας µε
τέσσερις κόµβους και 113 γραφήµατα µε 1 έως 4 κόµβους.
63
3.3 Ιδιότητες Markov
Είδαµε ότι το γράφηµα δεσµευµένης ανεξαρτησίας ορίζεται µέσω της ανεξαρτησίας
δύο µεταβλητών όταν οι υπόλοιπες είναι δεδοµένες. Υπάρχουν όµως εναλλακτικοί
τρόποι ορισµού του. Το σύνολο αυτών των εναλλακτικών τρόπων ορισµού του
γραφήµατος ανεξαρτησίας λέγεται ιδιότητες Markov και αποδεικνύεται ότι είναι
ισοδύναµες.
1. Η κατά ζεύγη Markov ιδιότητα:
Για τους κόµβους i και j που δεν είναι γειτονικοί,
Xi ╨ Xj | Xα , όπου α = Κ \ {i, j}
2. Η γενική Markov ιδιότητα:
Για όλα τα ξένα µεταξύ τους υποσύνολα α, b και c του Κ, όποτε τα b και c
διαχωρίζονται από το α στο γράφηµα, τότε τα διανύσµατα Xb και Xc είναι
ανεξάρτητα, όταν το διάνυσµα Χα είναι δεδοµένο
Χb ╨ Xc | Xα
Υπενθυµίζουµε ότι ένα υποσύνολο των κόµβων διαχωρίζει (separates) δύο
υποσύνολα α και b κόµβων του Κ εάν κάθε διαδροµή που συνδέει δύο κόµβους i και j
(i∈α και j∈b) περιέχει τουλάχιστον έναν κόµβο του διαχωριστικού συνόλου.
3. Η τοπική Markov ιδιότητα:
Για κάθε κόµβο i , εάν α = bd (i) είναι το περίβληµά του και b το σύνολο των
υπολοίπων κόµβων, τότε:
Xi ╨ Xb | Χα, όπου b = Κ \ ({i} ∪ α)
Ως παράδειγµα των σχέσεων ανεξαρτησίας που παράγονται εφαρµόζοντας τις
ιδιότητες Markov σε ένα γράφηµα δεσµευµένης ανεξαρτησίας, θεωρήστε το
παρακάτω γράφηµα:
1
5
4
2
3
Με βάση την κατά ζεύγη Markov ιδιότητα, οι σχέσεις ανεξαρτησίας που παράγονται
είναι οι εξής:
1 ╨ 3 | {2, 4, 5}
1 ╨ 4 | {2, 3, 5}
3 ╨ 1 | {2, 4, 5}
3 ╨ 5 | {1, 2, 4}
4 ╨ 1 | {2, 3, 5}
5 ╨ 1 | {2, 3, 4}
64
5 ╨ 3 | {1, 2, 4}
1 ╨ 5 | {2, 3, 4}
Από τον ορισµό της δεσµευµένης ανεξαρτησίας όµως, ισχύει ότι οι
Χ ╨ Υ | Α και Υ ╨ Χ | Α είναι ισοδύναµες, άρα οι παραπάνω 8 σχέσεις περιορίζονται
σε 4.
Με βάση τη γενική Markov ιδιότητα, µερικές σχέσεις ανεξαρτησίας που παράγονται
είναι οι εξής:
{5, 4} ╨ {1} | {2},
{1, 3} ╨ {5} | {2,4}
Αντίστοιχα, από την τοπική Markov ιδιότητα, έχουµε τις παρακάτω σχέσεις:
1 ╨ {3, 4, 5} | 2
3 ╨ {1, 5} | {2, 4}
4 ╨ 1 | {2, 3, 5}
5 ╨ {1, 3} | {2, 4}
Υπάρχει και εδώ πλεονασµός, αφού η ανεξαρτησία των Χ3 και Χ5 µε δεδοµένα τα Χ2,
Χ4 εµφανίζεται 2 φορές. Επίσης, η πρώτη σχέση υπονοεί ότι Χ1 ╨ Χ5 | Χ2, εποµένως
ένα τµήµα της τελευταίας σχέσης και συγκεκριµένα το Χ1 ╨ Χ5 | {Χ2, Χ4} πλεονάζει.
Για να ελέγξουµε ότι ένα σύνολο µεταβλητών είναι τοπικά Markov εν σχέσει µε ένα
δεδοµένο γράφηµα, θα πρέπει να ελέγξουµε ότι η κατανοµή πιθανότητας ικανοποιεί
για κάθε κόµβο i τη συνθήκη i ╨ (υπόλοιποι κόµβοι) | (περίβληµα του i).
Tο αντίστροφο πρόβληµα, δηλαδή η κατασκευή του γραφήµατος όταν ξέρουµε ότι η
κατανοµή ικανοποιεί την τοπική ιδιότητα Markov, είναι ένα πρόβληµα πολύ
δυσκολότερο από το αντίστοιχο στην περίπτωση που ισχύει η κατά ζεύγη ιδιότητα
Markov. Και είναι έτσι γιατί για κάθε κόµβο υπάρχουν 2k-1 τρόποι διαµέρισης των
µεταβλητών που αποµένουν σε δύο σύνολα, το σύνολο περιβλήµατος και το σύνολο
των υπολοίπων.
3.4 Ακυκλικά κατευθυντικά γραφήµατα ανεξαρτησίας
Σε πολλές, αν όχι στις περισσότερες, µελέτες πολλών µεταβλητών υπάρχει έλλειψη
συµµετρίας στους ρόλους που αυτές παίζουν, κάτι που αντιστοιχεί στην έννοια της
αιτιοκρατίας και στην άποψη ότι αν το Χ αποτελεί αίτιο του Υ, τότε το Υ δε µπορεί να
είναι αίτιο του Χ.
Η σχέση “το Χ προκαλεί το Υ” αναπαρίσταται µέσω ενός κατευθυντικού γραφήµατος
και της συνάρτησης πυκνότητας δεσµευµένης πιθανότητας fY | X.
X
Y
Για παράδειγµα, υποθέστε ότι σε µια µελέτη που αφορά την εκπαίδευση µετρούνται η
κοινωνική τάξη, Χ1, και το εισόδηµα, Χ2, της κεφαλής της οικογένειας και επίσης η
διάκριση στην εκπαίδευση του µεγαλύτερου παιδιού της οικογένειας, Υ. Οι
µεταβλητές δεν είναι συµµετρικές αλλά ικανοποιούν µια µερική κατάταξη. Επιθυµία
µας είναι, πρώτον, να µάθουµε αν το Υ εξαρτάται και από το Χ1 και το Χ2, ελέγχοντας
τις προτάσεις ανεξαρτησίας Υ ╨ Χ1 | Χ2 και Υ ╨ Χ2 | Χ1 και δεύτερον, να
65
αποτιµήσουµε την αλληλεπίδραση µεταξύ Χ1 και Χ2, χωρίς αναφορά στο Υ. Η
δεσµευµένη ανεξαρτησία Χ1 ╨ Χ2 | Υ δεν έχει κάποιο ενδιαφέρον.
Επεκτείνοντας τα γραφήµατα δεσµευµένης ανεξαρτησίας ώστε να περιέχουν
κατευθυντικούς δεσµούς, ερχόµαστε αµέσως αντιµέτωποι µε το πρόβληµα των
κατευθυντικών κύκλων όπως οι παρακάτω:
1
2
3
3
2
4
1
Σε πρώτη µατιά, οι κατευθυντικοί κύκλοι φαίνεται να βοηθούν στη µοντελοποίηση
της ανάδρασης (feed-back): το Χ1 προκαλεί το Χ2, το οποίο προκαλεί το Χ3, το οποίο
µε τη σειρά του προκαλεί το Χ1.
∆υστυχώς δεν υπάρχει συνδυαστική πιθανότητα (joint probability) κατάλληλη για να
περιγράψει αυτή την κατάσταση. Για παράδειγµα, στον κατευθυντικό κύκλο µε 3
µεταβλητές που φαίνεται παραπάνω, θα θέλαµε να εκφράσουµε τη συνδυαστική
συνάρτηση πυκνότητας σαν f3 | 2 . f2 | 1 . f1 | 3, αλλά πέρα από πολύ ειδικές περιπτώσεις
αυτή δεν είναι µια καλά ορισµένη συνάρτηση πυκνότητας πιθανότητας. Εποµένως,
στα επόµενα, γραφήµατα που περιέχουν κατευθυντικούς κύκλους δεν αναπαριστούν
κατευθυντικά γραφήµατα ανεξαρτησίας.
Αποδεικνύεται ότι η απαγόρευση κατευθυντικών κύκλων ισοδυναµεί µε την υπόθεση
ότι οι κόµβοι υπόκεινται σε µια πλήρη διάταξη, δηλαδή ότι υπάρχει µια σχέση ≺ στα
στοιχεία του Κ = {1, 2, …, k} τέτοια ώστε: για όλα τα i και j του συνόλου, (1) είτε i≺j
ή j≺i, (2) η σχέση ≺ δεν είναι ανακλαστική, (3) η σχέση ≺ είναι µεταβατική, έτσι
ώστε αν i≺j και j≺l, τότε i≺l. Σ’ αυτή την περίπτωση γράφουµε 1≺2≺…≺k και
θεωρούµε ότι κάθε µεταβλητή έχει καλά ορισµένο παρελθόν και µέλλον.
Όταν εφαρµόζεται στο κατευθυντικό γράφηµα, η διάταξη αυτή σηµαίνει ότι ένας
δεσµός του γραφήµατος µπορεί να έχει µόνο µία δυνατή κατεύθυνση. Περιορίζοντας
την προσοχή µας σε ακυκλικά γραφήµατα, διατηρούµε την έννοια της πατρότητας,
στην οποία οι κόµβοι που αµέσως προηγούνται του κόµβου i είναι γνωστοί ως γονείς
του i και συµβολίζονται µε pa(i).
Εποµένως, σε ένα κατευθυντικό γράφηµα, οι συνθήκες ότι: (1) δεν υπάρχει
κατευθυντικός κύκλος και (2) υπάρχει µια πλήρης διάταξη των κόµβων, είναι
ισοδύναµες.
Κάτω από το πρίσµα της απόδοσης παρελθόντος και µέλλοντος στις µεταβλητές ενός
κατευθυντικού γραφήµατος, µπορούµε να ορίσουµε την έννοια του κατευθυντικού
γραφήµατος ανεξαρτησίας. Σε αναλογία µε τα µη-κατευθυντικά γραφήµατα
ανεξαρτησίας, στα οποία ένας δεσµός απουσίαζε όταν οι αντίστοιχες µεταβλητές
ήταν ανεξάρτητες όταν οι υπόλοιπες ήταν δεδοµένες, η δέσµευση στα κατευθυντικά
γραφήµατα γίνεται στις µεταβλητές που αποτελούν το παρελθόν. Έτσι, ισχύει το
ακόλουθο θεώρηµα [133]:
66
Το κατευθυντικό γράφηµα ανεξαρτησίας του διανύσµατος τυχαίων µεταβλητών Χ
είναι το κατευθυντικό γράφηµα G≺ = (K, E≺) όπου Κ = {1, 2, …, k}, Kj = {1, 2, …, j}
και ο δεσµός (i, j), µε i≺j δεν υπάρχει στο σύνολο δεσµών Ε≺ εάν και µόνον εάν
j ╨ i | K( j ) \ {i, j}.
Αυτή η κρίσιµη διαφορά µεταξύ κατευθυντικών και µη- κατευθυντικών γραφηµάτων
ανεξαρτησίας σηµαίνει ότι για µη-κατευθυντικά γραφήµατα οι προτάσεις
ανεξαρτησίας είναι προτάσεις σχετικά µε µία συνδυαστική (joint) κατανοµή, ενώ για
τα κατευθυντικά γραφήµατα είναι προτάσεις σχετικές µε µια ακολουθία
περιθωριακών (marginal) κατανοµών. Αυτή η ακολουθία όµως έχει την ιδιότητα ότι
περιέχει αρκετή πληροφορία για να ορίσουµε τη συνδυαστική κατανοµή, µέσω της
ταυτότητας αναδροµικής παραγοντοποίησης (recursive factorization identity):
f1, 2, …, k = fk | K(k) \ {k} fk-1 | K(k-1) \ {k-1} … f2 | 1 f1
Επειδή υπάρχει µια ενδογενής διάταξη των κόµβων, η εφαρµογή των ανεξαρτησιών
για τον υπολογισµό της συνδυαστικής συνάρτησης πυκνότητας είναι άµεση.
Παράδειγµα:
Εάν για ένα 7-διάστατο διάνυσµα Χ ισχύουν οι παρακάτω κατά ζεύγη σχέσεις
δεσµευµένης ανεξαρτησίας
2╨1
5 ╨ 3 | {1, 2, 4}
6 ╨ 4 | {1, 2, 3, 5}
7 ╨ 4 | {1, 2, 3, 5, 6}
3 ╨ 1 | {2}
5 ╨ 1 | {2, 3, 4}
6 ╨ 2 | {1, 3, 4, 5}
7 ╨ 3 | {1, 2, 4, 5, 6}
5 ╨ 2 | {1, 3, 4}
6 ╨ 1 | {2, 3, 4, 5}
7 ╨ 2 | {1, 3, 4, 5, 6}
7 ╨ 1 | {2, 3, 4, 5, 6},
το γράφηµα ανεξαρτησίας έχει το διάγραµµα:
1
4
5
2
3
6
7
Κάθε κατά ζεύγη ανεξαρτησία µπορεί αµέσως να εφαρµοστεί στην ταυτότητα
αναδροµικής παραγοντοποίησης για να βρούµε τη µορφή της συνδυαστικής
πυκνότητας:
f 12…7 = f7 | 56 f6 | 53 f5 | 4 f4 | 123 f3 | 2 f2 f1
Είναι η διάταξη των κόµβων, που εδώ καθορίζεται αριθµητικά, που καθορίζει το
σύνολο των δεσµεύσεων.
3.4.1 Ιδιότητες των κατευθυντικών γραφηµάτων
Προκειµένου να εξετάσουµε τις ιδιότητες Markov των κατευθυντικών γραφηµάτων,
θα πρέπει να κάνουµε µια διάκριση µεταξύ τους, εν σχέσει µε την ικανοποίηση της
παρακάτω συνθήκης:
67
ΣΥΝΘΗΚΗ WERMUTH:
Ένα κατευθυντικό γράφηµα ικανοποιεί τη συνθήκη Wermuth όταν κανένα από τα
υπο-γραφήµατά του έχει τη διαµόρφωση
Εάν µετατρέψουµε ένα κατευθυντικό γράφηµα G≺ σε µη-κατευθυντικό, λαµβάνοντας
δηλαδή το Gu, τότε οι ιδιότητες του G≺ µπορούν να εξαχθούν από τις ιδιότητες του
Gu µόνον όταν το G≺ ικανοποιεί τη συνθήκη Wermuth.
Το “ηθικό” γράφηµα (moral graph) που αντιστοιχεί στο κατευθυντικό γράφηµα G≺ =
(K, E≺) είναι το µη-κατευθυντικό γράφηµα Gm = (K, Em) µε το ίδιο σύνολο κόµβων
και µε σύνολο δεσµών εκείνο το σύνολο που προκύπτει αν συµπεριλάβουµε όλους
τους δεσµούς στο σύνολο E≺ µαζί µε τους απαραίτητους δεσµούς ώστε να
απαλειφθούν από το G≺ απαγορευµένες κατά Wermuth διαµορφώσεις.
Το γράφηµα αποκαλείται ηθικό επειδή παντρεύει τους γονείς. Ο όρος προέρχεται από
τους Lauritzen και Spiegelhalter [82].
Παράδειγµα:
2
3
2
3
4
1
4
1
Το ακυκλικό κατευθυντικό γράφηµα και το αντίστοιχο ηθικό γράφηµα. Η συνθήκη
Wermuth δεν ικανοποιείται επειδή οι µεταβλητές 1 και 3, που είναι οι γονείς της
µεταβλητής 4, δεν είναι παντρεµένοι. Για την κατασκευή του ηθικού γραφήµατος, οι
1 και 3 συνδέονται µε µη-κατευθυντικό δεσµό και καταργείται η κατευθυντικότητα
των υπολοίπων δεσµών. Το «πάντρεµα» των µεταβλητών 1 και 3 δεν καθιστά την 1
πατέρα της 3 και έτσι δεν εισάγει νέα απαγορευµένη διαµόρφωση στο υπο-γράφηµα
{1, 2, 3}.
Αποδεικνύεται [138] ότι ισχύει το ακόλουθο θεώρηµα:
Το κατευθυντικό γράφηµα ανεξαρτησίας G≺ κατέχει τις ιδιότητες Markov του
αντιστοίχου του ηθικού γραφήµατος Gm.
Συνεχίζοντας το παράδειγµα της προηγούµενης παραγράφου για το 7-διάστατο
διάνυσµα Χ µε παραγοντοποίηση
f 12…7 = f7 | 56 f6 | 53 f5 | 4 f4 | 123 f3 | 2 f2 f1
68
βλέπουµε ότι οι σχέσεις ανεξαρτησίας µπορούν να αναγνωριστούν από το ηθικό
γράφηµα Gm µε διάγραµµα:
1
4
5
2
3
6
7
1
4
5
2
3
6
7
Για παράδειγµα, ισχύει ότι 7 ╨ {1, 2} | {3, 4}, κάτι που δε συνάγεται εύκολα από τις
αρχικές σχέσεις ανεξαρτησίας µέσω των οποίων ορίστηκε το γράφηµα.
Το ηθικό γράφηµα µπορεί να αποκρύψει συγκεκριµένες σχέσεις ανεξαρτησίας. Στο
παραπάνω παράδειγµα, µε βάση το G≺ ισχύει {3, 2} ╨ 1, αλλά το υπο-γράφηµα {1, 2,
3} είναι πλήρες στο Gm.
Έχουµε εποµένως το ακόλουθο συµπέρασµα [135]:
Εάν Gm = G≺ , τότε οι ιδιότητες Markov του κατευθυντικού γραφήµατος G≺ είναι
ακριβώς οι ίδιες µε αυτές του Gm .
∆ηλαδή, όταν το ηθικό γράφηµα είναι ταυτόσηµο µε το γράφηµα που προκύπτει αν
απλώς αγνοήσουµε την κατευθυντικότητα των δεσµών, χωρίς να χρειάζεται να
παντρέψουµε κάποιους κόµβους, τότε οι ιδιότητες Markov του κατευθυντικού είναι
ακριβώς ίδιες µε του ηθικού.
Επιπλέον, θα είναι ίδιες µε τις ιδιότητες οποιουδήποτε κατευθυντικού γραφήµατος
του οποίου το µη-κατευθυντικό γράφηµα είναι όµοιο µε αυτό το ηθικό γράφηµα.
1
2
3
1
2
3
1
2
3
Για παράδειγµα, τα 3 παραπάνω γραφήµατα έχουν ακριβώς τις ίδιες ιδιότητες
Markov.
3.5 Αλυσιδωτά γραφήµατα ανεξαρτησίας
Επεκτείνουµε τη θεωρία των γραφηµάτων ανεξαρτησίας, ώστε να συµπεριλάβει και
γραφήµατα τόσο µε κατευθυντικούς όσο και µε µη-κατευθυντικούς δεσµούς. Πέρα
από θεωρητική γενίκευση που πρέπει να περιλαµβάνει τις προηγούµενες καταστάσεις
ως ειδικές περιπτώσεις, µια τέτοια αντιµετώπιση ταιριάζει καλύτερα σε προβλήµατα
που περιέχουν µερικές µεταβλητές µε σαφή αιτιοκρατική σχέση και άλλες όπου η
αλληλεπίδραση είναι αµφίδροµη.
Θεωρούµε ότι οι κόµβοι υφίστανται µια µερική διάταξη ≺, σε αντίθεση µε την πλήρη
διάταξη των κατευθυντικών γραφηµάτων. Η µερική διάταξη εξάγεται εάν
υποθέσουµε ότι το σύνολο κόµβων Κ µπορεί να διαµεριστεί σε υποσύνολα b1, b2, …,
bm που ονοµάζονται µπλοκ, τα οποία είναι πλήρως διατεταγµένα, δηλαδή τα µπλοκ
σχηµατίζουν µια αλυσίδα.
69
Η µερική διάταξη στους κόµβους του Κ ξεχωριστά, είναι η εξής:
i ≺ j όποτε i ∈ br και j ∈ bs και r < s, και
i ≺ j όποτε i, j ∈ br .
Οι γονείς του i στο br έρχονται από το παρελθόν b1∪b2∪ …, ∪br-1 και συνδέονται µε
τον κόµβο i µέσω κατευθυντικών δεσµών. Τα στοιχεία του b1 είναι εν δυνάµει αιτίες
για τα στοιχεία του b2, τα στοιχεία του b1∪b2 είναι εν δυνάµει αιτίες του b3 κλπ.
Παράδειγµα:
Θεωρήστε ένα σύστηµα 8 µεταβλητών Κ = {1, 2, …, 8} διαµερισµένο στα υποσύνολα
b1 = {1, 2, 3}, b2 = {4}, b3 = {5, 6} και b4 = {7, 8} µε σύνολο δεσµών που ορίζεται
από τους δεσµούς στο διάγραµµα
b1
b2
1
b3
b4
5
2
4
6
7
3
8
Οποιαδήποτε δύο στοιχεία από διαφορετικά µπλοκ συνδέονται µόνο µε βέλος ενώ
δύο στοιχεία από το ίδιο µπλοκ συνδέονται µόνο µε γραµµή. Θεωρήστε τον κόµβο 5
του µπλοκ b3. Οι γονείς του 5 είναι οι {1, 4} και βρίσκονται σε µπλοκ που
προηγούνται του b3 ενώ ο κόµβος 6 είναι γείτονας του κόµβου 5. Συµβολίζοντας µε
Κ(i) το σύνολο των κόµβων που αποτελούν το παρελθόν και το παρόν του κόµβου i,
έχουµε: Κ(1) = b1, Κ(2) = b1, Κ(3) = b1, Κ(4) = b1∪b2, κλπ, έως Κ(8)=Κ. Σηµειώστε
ότι Κ(5) = Κ(6) = {1, 2, 3, 4, 5, 6}.
Η βασική που ικανοποιείται µε αυτή την κατασκευή είναι ότι κάθε δεσµός µεταξύ
κόµβων του ίδιου µπλοκ είναι µη-κατευθυντικός ενώ για κόµβους διαφορετικών
µπλοκ είναι κατευθυντικός, µε κατεύθυνση που καθορίζεται από τη διάταξη των
µπλοκ.
Αυτός ο ορισµός των µπλοκ, εξαιρεί γραφήµατα µε κατευθυντικούς κύκλους –όπως
ακριβώς και ο ορισµός των πλήρως κατευθυντικών γραφηµάτων ανεξαρτησίας και
επιπρόσθετα δεν επιτρέπει γραφήµατα µε κύκλους που περιέχουν τουλάχιστον έναν
κατευθυντικό δεσµό, όπως τα παρακάτω:
1
2
3
70
1
2
3
Γραφήµατα όπως αυτά παραβιάζουν την υπόθεση της µερικής διάταξης, απαιτώντας
να υπάρχει τουλάχιστον ένας κόµβος σε περισσότερα από ένα µπλοκ. Κύκλοι σαν
αυτούς, που περιέχουν τουλάχιστον έναν κατευθυντικό κύκλο, όπως οι κύκλοι που
περιέχουν αµιγώς κατευθυντικούς κύκλους, δε δέχονται µια λογική παραγοντοποίηση
της συνάρτησης πυκνότητας συνδυαστικής πιθανότητας.
Μπορούµε τώρα να ορίσουµε το γράφηµα ανεξαρτησίας µπλοκ από κατά ζεύγη
δεσµευµένες ανεξαρτησίες λαµβάνοντας ως σύνολο δέσµευσης για κάθε σχέση το
Κ(i), το σύνολο των µεταβλητών του παρελθόντος και του παρόντος αναφορικά µε
τον κόµβο i, δηλαδή Κ(i) = b1 ∪ b2 ∪ …∪ br(i) όπου r(i) ο δείκτης για το µπλοκ που
περιέχει τον κόµβο i.
ΟΡΙΣΜΟΣ: Το αλυσιδωτό γράφηµα ανεξαρτησίας του διανύσµατος τυχαίων
µεταβλητών Χ είναι το γράφηµα G≺ = (K, E≺), όπου Κ = {1, 2, …, k}, Κ(i) = Ul ≤ r(i) bl
και ο δεσµός (i, j) µε i≺j δεν υπάρχει στο σύνολο δεσµών E≺ εάν και µόνον εάν j ╨ i |
K(j) \ {i, j}. Εάν αυτή η συνθήκη δεν ικανοποιείται και i≺j τότε ο δεσµός είναι
κατευθυντικός και µόνον (i, j) ∈ E≺ . Σε αντίθετη περίπτωση είναι µη-κατευθυντικός
και τόσο ο δεσµός (i, j) όσο και ο δεσµός (j, i) ανήκουν στο E≺.
Τέτοια γραφήµατα ονοµάζονται επίσης και µπλοκ-αναδροµικά (block recursive) [83].
To σύνολο Κ(i) ονοµάζεται παράλληλο παρελθόν (concurrent past).
3.5.1 Ιδιότητες Markov των αλυσιδωτών γραφηµάτων
Το επιχείρηµα της προηγούµενης παραγράφου για την εξαγωγή των ιδιοτήτων των
κατευθυντικών γραφηµάτων µπορεί να επεκταθεί και στα αλυσιδωτά γραφήµατα.
Ξανά το κρίσιµο συστατικό που επιτρέπει την απόδοση των ιδιοτήτων του
αντίστοιχου µη-κατευθυντικού γραφήµατος Gu είναι η ικανοποίηση της συνθήκης
Wermuth και η αντικατάστασή του µε το ηθικό γράφηµα Gm εάν η συνθήκη δεν
ικανοποιείται.
Η συνθήκη Wermuth χρειάζεται όµως κάποια τροποποίηση: το σύνολο των πιθανών
πατέρων πρέπει να συµπεριλάβει και όλους τους γονείς ενός συνδεδεµένου
υποσυνόλου παιδιών.
Η αναδροµική ταυτότητα παραγοντοποίησης εκφράζεται πλέον µε όρους µπλοκ
m
f K = f b1 ∏ f br | b1 ∪b2 ∪K∪br −1 .Το θεώρηµα Markov για τα αλυσιδωτά γραφήµατα
r=2
ανεξαρτησίας µπορεί να διατυπωθεί ως εξής:
Το κατευθυντικό γράφηµα ανεξαρτησίας G≺ κατέχει τις ίδιες ερµηνείες ανεξαρτησίας
µε το αντίστοιχό του ηθικό γράφηµα Gm.
Ως παράδειγµα εφαρµογής του, συνεχίζουµε το παράδειγµα της προηγούµενης
παραγράφου. Οι σχέσεις ανεξαρτησίας που το ορίζουν είναι οι:
71
1╨3|2
5 ╨ 3 | {1, 2, 4, 6}
7 ╨ 1 | {2, 3, 4, 5, 6, 8}
8 ╨ 1 | {2, 3, 4, 5, 6, 7}
1╨2|3
6 ╨ 1 | {2, 3, 4, 5}
7 ╨ 2 | {1, 3, 4, 5, 6, 8}
8 ╨ 2 | {1, 3, 4, 5, 6, 7}
4 ╨ 1 | {2, 3}
6 ╨ 2 | {1, 3, 4, 5}
7 ╨ 3 | {1, 2, 4, 5, 6, 8}
8 ╨ 3 | {1, 2, 4, 5, 6, 7}
4 ╨ 3 | {1, 2}
6 ╨ 3 | {1, 2, 4, 5}
7 ╨ 4 | {1, 2, 3, 5, 6, 8}
8 ╨ 5 | {1, 2, 3, 4, 6, 7}
5 ╨ 2 | {1, 3, 4, 6}
6 ╨ 4 | {1, 2, 3, 5}
7 ╨ 5 | {1, 2, 3, 4, 6, 8}
8 ╨ 6 | {1, 2, 3, 4, 5, 7}
Η αναδροµική ταυτότητα παραγοντοποίησης εκφρασµένη µε όρους µπλοκ είναι:
f K = f b4 |b1∪b2 ∪b3 f b3|b1∪b2 f b2 |b1 f b1 και απλοποιείται στην:
f12345678 = f 87|46 f 56|14 f 4|2 f1 f 23 = f 87|46 f 6|5 f 5|14 f 4|2 f1 f 23
Υπάρχουν δύο σχέσεις ανεξαρτησίας, εκείνη µεταξύ των 8 και 6 και εκείνη µεταξύ
των 7 και 4 που δεν έχουν συµπεριληφθεί στην παραγοντοποίηση. Λαµβάνοντας υπ’
όψιν και αυτές, οδηγούµαστε στο ακόλουθο γράφηµα ανεξαρτησίας, που είναι
φυσικά το ηθικό γράφηµα Gm.
b1
b2
1
2
3
72
b3
b4
5
4
6
7
8
4. ΛΟΓΑΡΙΘΜΙΚΑ-ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ
Το κεφάλαιο αυτό περιγράφει και προσαρµόζει γραφικά µοντέλα σε πίνακες
συνάφειας πολλών διαστάσεων βασισµένους σε δειγµατοληψία από την crossclassified Πολυωνυµική κατανοµή. Προκύπτει ότι αυτά τα µοντέλα αποτελούν µια
κλάση των ιεραρχικών λογαριθµικών-γραµµικών µοντέλων τα οποία ορίζονται µέσω
της παραµετροποίησης της συνάρτησης πυκνότητας µε συντελεστές της
λογαριθµικής-γραµµικής ανάπτυξης, δηλαδή µε τους u-όρους (u-terms).
Κατ’ αρχήν, εισάγουµε κάποια στοιχεία συµβολισµού που θα χρησιµοποιηθούν και
στη συνέχεια. Αµέσως µετά εισάγουµε την κατανοµή Bernoulli και τη γενικεύουµε
στην cross-classified Πολυωνυµική κατανοµή µεγέθους 1. Αυτή η γενίκευση αφορά
τόσο στον αριθµό των µεταβλητών όσο και στον αριθµό των διακριτών τιµών
(επιπέδων) των µεταβλητών. Κατόπιν συγκρίνουµε δύο διαφορετικές
παραµετροποιήσεις της συνάρτησης πυκνότητας: τον πίνακα πιθανοτήτων p και τους
u-όρους (u-terms). Συσχετίζουµε συνθήκες επί των παραµέτρων αυτών µε
προδιαγραφές του γραφήµατος ανεξαρτησίας και ορίζουµε τα γραφικά λογαριθµικάγραµµικά µοντέλα µηδενίζοντας συγκεκριµένους u-όρους.
Μια απλοϊκή προσέγγιση της εκτίµησης παραµέτρων και εκλογής µοντέλου θα
µπορούσε να είναι η εξής:
•
Ανάγουµε το σύνόλο των Ν παρατηρήσεων στον k-διάστατο πίνακα
συνάφειας µε ταξινόµηση
•
Υπολογίζουµε τους u-όρους της πλήρους λογαριθµικής-γραµµικής ανάπτυξης
αντιστρέφοντας τον πίνακα παρατηρήσεων
•
Εκτιµούµε το µέγεθος των u-όρων και αποφασίζουµε ποιοι είναι αµελητέοι
και ποιοι όχι
•
Συνάγουµε συµπεράσµατα σχετικά µε την ανεξαρτησία και την ισχύ της
συσχέτισης µεταξύ των µεταβλητών που cross-classify τον πίνακα.
Τα προβλήµατα της παραπάνω προσέγγισης έγκεινται στο ότι είναι δύσκολο να
αποφασίσει κανείς πόσο µικρός πρέπει να είναι ένας u-όρος για να θεωρηθεί
αµελητέος, και ακόµη δυσκολότερο να αποφασίσει αν µια ολόκληρη συλλογή u-όρων
πρέπει να θεωρηθεί αµελητέα. Ακόµη κι αν αυτό ξεπεραστεί, παραµένει το πρόβληµα
της εκτίµησης των u-όρων που παραµένουν. Η χρήση του εκτιµητή από την εµπειρική
λογαριθµική-γραµµική ανάπτυξη δεν είναι η καλύτερη µέθοδος, καθώς η
προσαρµογή µοντέλου και η εκλογή του καταλληλότερου είναι δύο διαδικασίες που
πρέπει να διαχωριστούν.
Μια συστηµατική διαδικασία εξαγωγής συµπερασµάτων (inference) βασίζεται στη
συνάρτηση πιθανοφάνειας που συγκροτείται από ένα τυχαίο δείγµα ανεξαρτήτων και
πανοµοιότυπα κατανεµηµένων παρατηρήσεων σε µια cross-classified Πολυωνυµική
κατανοµή. Το µέγιστο της συνάρτησης βρίσκεται από ένα σύνολο εξισώσεων που
συνοψίζονται στο σλόγκαν «παρατηρηθείσες τιµές = προσαρµοσµένες τιµές» για όλα
τα margins του πίνακα που αντιστοιχούν στους u-όρους που εµφανίζονται στο
µοντέλο.
73
Η deviance (αποκλίνουσα), δηλαδή το διπλάσιο του στατιστικού τεστ µεγιστοποίησης
του λόγου της λογαριθµικής πιθανοφάνειας για τον έλεγχο ενός συγκεκριµένου
µοντέλου έναντι του κορεσµένου (saturated) µοντέλου, αποδεικνύεται ότι
απλοποιείται στην:
dev(M ) = 2
∑
παρατηρ ⋅ log
στοιχεία
πίνακα
παρατηρ
προσαρµ (Μ )
Η deviance που αντιστοιχεί στην εξαίρεση ενός δεσµού από το πλήρες γράφηµα,
δηλαδή η deviance εξαίρεσης δεσµού αποτελεί σπουδαίο εργαλείο για την εκλογή
γραφικών µοντέλων.
4.1 Στοιχεία συµβολισµού
4.1.1 Τυχαίες µεταβλητές και συναρτήσεις πυκνότητας
Χρησιµοποιούµε κεφαλαία γράµµατα για τυχαίες διακριτές µεταβλητές και µικρά για
τις τιµές που αυτές παίρνουν. Η συνάρτηση πυκνότητας πιθανότητας που
συµβολίζεται µε f είναι µια συνάρτηση από τους µη-αρνητικούς ακεραίους στους µηαρνητικούς πραγµατικούς και καθορίζεται από τον τύπο Εποµένως η fX (x) είναι η
τιµή της συνάρτησης πυκνότητας fX , της τυχαίας µεταβλητής Χ στην τιµή x. Η
αναµενόµενη τιµή της τυχαίας µεταβλητής συµβολίζεται µε Ε(Χ) και ορίζεται ως
∑ xf (x) . Υποθέτουµε ότι αυτή η συνάρτηση, όπως και άλλες ροπές όπως η
διακύµανση είναι πάντα καλά ορισµένες. Οµοίως, fXY είναι η συνδυαστική συνάρτηση
πυκνότητας των τυχαίων µεταβλητών Χ και Υ, και µε fX συµβολίζουµε την
περιθωριακή (marginal) συνάρτηση πυκνότητας της Χ, που δίνεται από την
f X ( x) = ∑ f XY ( x, y ) , δηλαδή αθροίζοντας για όλα τα y. Αντίστοιχα η fY είναι η
y
περιθωριακή συνάρτηση
f Y ( y ) = ∑ f XY ( x, y ) .
πυκνότητας
της
Y,
που
δίνεται
από
την
x
Η δεσµευµένη (υπό συνθήκη) πυκνότητα της Y µε δεδοµένη την Χ είναι η f Y | X =
f XY
fX
f XY ( x, y )
. Εάν θέλουµε να δηλώσουµε το x
f X ( x)
εκπεφρασµένα στον τύπο, µπορούµε να γράψουµε f Y | X ( y ; x) . Πάντα θα θεωρούµε
που δίνεται από την
fY |X ( y) =
ότι η πυκνότητα είναι οµαλή, συνεχής και θετική.
4.1.2 Τυχαία διανύσµατα
Ένα τυχαίο διάνυσµα είναι ένα διατεταγµένο σύνολο τυχαίων µεταβλητών έτσι ώστε
αν Χ1 και Χ2 είναι δύο τυχαίες µεταβλητές, τότε το Χ = (Χ1, Χ2) είναι ένα τυχαίο
διάνυσµα. Τα διανύσµατα (Χ1, Χ2), (Χ2, Χ1) είναι διαφορετικά, παρά το ότι τα σύνολα
{Χ1, Χ2}, {Χ2, Χ1} είναι ταυτόσηµα. Αν το Χ είναι διάνυσµα στον k-διάστατο
74
Ευκλείδειο χώρο, τότε το θεωρούµε ως διάνυσµα-στήλη, ακόµη κι αν για
τυπογραφικούς λόγους γράφεται σα γραµµή.
4.2 Η κατανοµή Bernoulli
Μια τυχαία κατανοµή Bernoulli είναι η απλούστερη που µπορεί κανείς να φανταστεί.
Καταγράφει το αποτέλεσµα ενός πειράµατος που έχει µόνο δύο πιθανά ενδεχόµενα,
το οποίο δηλώνεται από µια τυχαία µεταβλητή Χ που παίρνει την τιµή 1 µε
πιθανότητα p και 0 µε πιθανότητα 1-p. Η κατανοµή Bernoulli αποτελεί το βασικό
στοιχείο οικοδόµησης της ∆ιωνυµικής κατανοµής και –µε τη χρήση ενός
επιχειρήµατος συνέχειας– της κατανοµής Poisson.
Μια Bernoulli τυχαία µεταβλητή Χ έχει συνάρτηση πυκνότητας πιθανότητας
f X ( x) = p x (1 − p )1− x
για x = 0, 1 και 0 ≤ p ≤ 1 .
Το διάνυσµα Bernoulli δύο µεταβλητών, (Χ1, Χ2), παίρνει τις τιµές (0, 0), (0, 1), (1, 0)
και (1, 1) στο Καρτεσιανό γινόµενο {0, 1}2 = {0, 1} x {0, 1} του συνόλου {0, 1} µε
τον εαυτό του. Η συνάρτηση πυκνότητάς του καθορίζεται από την
f12 ( x1 , x2 ) = p12 ( x1 , x2 )
για x1 = 0, 1 και x2 = 0, 1, όπου p12(x1, x2) ο πίνακας πιθανοτήτων:
p12(x1, x2)
x2 = 0
x2 = 1
σύνολο
x1 = 0
p(0, 0)
p(0, 1)
p1(0)
x1 = 1
p(1, 0)
p(1, 1)
p1(1)
σύνολο
p2(0)
p2(1)
1
Ο περιθωριακός πίνακας πιθανοτήτων είναι
p1(x1) = p(x1, 0) + p(x1, 1),
x1 = 0, 1
p2(x2) = p(0, x2) + p(1, x2),
x1 = 0, 1.
Η περιθωριακή συνάρτηση πυκνότητας της Χ1 είναι Bernoulli µιας µεταβλητής µε
f1 ( x1 ) = p1 ( x1 )
για
x1=0, 1
και η συνάρτηση πυκνότητας δεσµευµένης πιθανότητας της Χ1 µε δεδοµένη τη Χ2
είναι και πάλι Bernoulli µιας µεταβλητής µε
f1| 2 ( x1 ; x2 ) =
p12 ( x1 , x2 )
για x1=0, 1και κάθε συγκεκριµένο x2
p2 ( x2 )
Εποµένως οι Χ1 και Χ2 είναι ανεξάρτητες εάν και µόνον εάν ο πίνακας πιθανοτήτων p
ικανοποιεί την
p12 ( x1 , x2 ) = p1 ( x1 ) p2 ( x2 ) για όλα τα ( x1 , x2 ) ∈ {0, 1}2
75
4.3 Cross classified Πολυωνυµική κατανοµή
Ένας τυπικός τρόπος αναφοράς σε ένα στοιχείο ενός πίνακα πιθανοτήτων
ταξινοµηµένου από τέσσερις παράγοντες είναι να το δηλώσουµε ως
pijkl
αλλά προφανώς δε µπορούµε να χρησιµοποιήσουµε αυτό το συµβολισµό για να
µιλήσουµε για k-διάστατους πίνακες όταν το k είναι τυχαίο. Η λύση µπορεί να δοθεί
χρησιµοποιώντας το συµβολισµό προβολής συντεταγµένων, τον οποίο εισάγουµε
παρακάτω.
4.3.1 Συναρτήσεις προβολής συντεταγµένων
Έστω Χ το τυχαίο διάνυσµα που περιέχει όλες τις υπό µελέτη τυχαίες µεταβλητές,
ώστε Χ = (Χ1, Χ2, …, Χk), όπου Χi είναι η i-στή συντεταγµένη του Χ. Η συνάρτηση
πυκνότητας fX του Χ ορίζεται από τη συνδυαστική συνάρτηση πυκνότητας
f X1 , X 2 , ..., X K , και θα συµβολίζεται πιο συνοπτικά ως f12…k.
Προκειµένου να εξάγουµε το κατάλληλο υπο-διάνυσµα του Χ θα χρησιµοποιήσουµε
τη θεωρία συνόλων στο επίπεδο του δείκτη, µια τακτική που προτάθηκε από τους
Darroch, Lauritzen και Speed [25]. Έτσι, έστω Κ = {1, 2, …, k} το σύνολο που
περιέχει όλους τους δείκτες και α = {i1, i2, …, ip} ένα τυχαίο υποσύνολο του Κ.
Ορίζουµε το τυχαίο διάνυσµα Χα ως εξής:
X a = ( X i1 , X i2 , ..., X i p ) = ( X i ; i ∈ a ) .
Τότε το ΧΚ = Χ, το Χ∅ είναι το µηδενικό διάνυσµα, ενώ το ΧΚ\{i} συµβολίζει το υποδιάνυσµα του Χ που προκύπτει αν εξαιρέσουµε το Χi.
Για παράδειγµα, έστω ότι Χ=(Χ1, Χ2, Χ3), ώστε Κ={1, 2, 3} και το υπο-διάνυσµα (Χ1,
Χ3) συµβολίζεται ως Χ{1,3} ή X K \ {2} . Για ευκολία, παραλείπουµε τα κόµµατα και τα
άγκιστρα και αντί του Χ{1,3} γράφουµε Χ13 .
Μια τελευταία παραδοχή είναι απαραίτητη. Στο παραπάνω παράδειγµα, k=3, α={1,
3}, b={2} και τα α, b διαµερίζουν το Κ, εποµένως θέλουµε τα (Χα, Χb) και Χ=(Χ1, Χ2,
Χ3) να είναι ταυτόσηµα. Για να είναι αυτό εφικτό, µια αναδιάταξη πρέπει να λαµβάνει
χώρα κάθε φορά που γράφουµε τα διανύσµατα σε ανεπτυγµένη µορφή:
(Χα, Χb) = ((Χ1, Χ3), Χ2) = (Χ1, Χ2, Χ3) = Χ,
έτσι ώστε Χα∪b = (Χα, Χb).
Η συνάρτηση πυκνότητας του Χ =Χα είναι f X αλλά για να αποφύγουµε τους διπλούς
a
δείκτες γράφουµε f a . Στο παράδειγµα, η συνάρτηση πυκνότητας του Χ{1,3} = (Χ1,
Χ3) είναι f{1,3} = f13. Γενικότερα, η συνάρτηση πυκνότητας του Χα∪b = (Χα, Χb)
συµβολίζεται µε fα∪b ή fαb.
Επιστρέφοντας στην περιγραφή του πίνακα πιθανοτήτων, αν µε xi συµβολίζουµε όλες
τις πιθανές τιµές που µπορεί να πάρει η i-στή µεταβλητή, τότε το x = (x1, x2, …, xk)
συµβολίζει ένα συγκεκριµένο στοιχείο στον πίνακα και το X = (X1, X2, …, Xk) είναι
76
µια k-διάστατη διακριτή παρατήρηση ή τυχαίο διάνυσµα. Για να τονίσουµε τη
διάστασή τους, βάζουµε ως δείκτη το σύνολο Κ, δηλαδή ΧΚ και xK . Η πιθανότητα
που αντιστοιχεί σε κάθε κελλί του πίνακα πιθανοτήτων είναι p(x) = Prob(X = x). Για
παράδειγµα, εάν ένα άτοµο επιλέγεται τυχαία από ένα µεγαλύτερο πληθυσµό, τότε η
πιθανότητα αυτό το άτοµο να χαρακτηρίζεται ως άνδρας, καπνιστής και µε
Πανεπιστηµιακή µόρφωση, θα µπορούσε να γραφτεί ως p(1, 0, 4).
Όπως είδαµε, η παρατήρηση µπορεί να διαµεριστεί στα σε υπο-διανύσµατα Χ = (Χα,
Χb). Το περιθωριακό υπο-διάνυσµα Χα παίρνει δείκτες στο υποσύνολο a ⊆ K και
ορίζεται ως η προβολή συντεταγµένων X a = ( X i ; i ∈ a) . Οι τιµές, xα , που παίρνει
αυτό το υπο-διάνυσµα είναι κελλιά σε ένα περιθωριακό πίνακα και ο αντίστοιχος
περιθωριακός πίνακας πιθανοτήτων είναι pα(xα) ή pα για συντοµία.
Εάν το πλήρες διάνυσµα Χ = ΧΚ έχει τον πίνακα πιθανοτήτων p = pK τότε ο
περιθωριακός πίνακας για το Χα είναι:
pa ( xa ) = ∑ p K ( xa , xb ) .
xb
Θα χρησιµοποιούµε την ίδια σύµβαση και για τους πίνακες µετρήσεων και έτσι µε
n(x) συµβολίζουµε τον αριθµό των εγγραφών στο κελλί x του πλήρους πίνακα ενώ µε
nαxα τον αριθµό των εγγραφών στο κελλί xa του περιθωριακού πίνακα.
Όταν κάθε µεταβλητή είναι δυαδική, δηλαδή έχει µόνο δύο ενδεχόµενα, η δοµή του
πίνακα είναι απλή: η τυχαία µεταβλητή Bernoulli παίρνει τιµές στο σύνολο {0, 1} και
γενικεύοντας στις k-διαστάσεις, το διάνυσµα Bernoulli πολλών µεταβλητών παίρνει
τιµές στο Καρτεσιανό γινόµενο {0, 1}k του συνόλου {0, 1) µε τον εαυτό του.
Γεωµετρικά, είναι το σύνολο που αποτελείται από τις 2k κορυφές ενός k-διάστατου
υπερ-κύβου.
Επειδή πολλές categorical µεταβλητές έχουν περισσότερα από δύο ενδεχόµενα, θα
πρέπει να γενικεύσουµε για διακριτές µεταβλητές που παίρνουν τιµές σε ένα
πεπερασµένο σύνολο. Έτσι θεωρούµε ότι κάθε συντεταγµένη Χi του Πολυωνυµικού
τυχαίου διανύσµατος Χ παίρνει τιµές σ’ ένα σύνολο {0, 1, 2, …, ri -1} και το kδιάστατο Πολυωνυµικό τυχαίο διάνυσµα X = (X1, X2, …, Xk) παίρνει τιµές στο
καρτεσιανό γινόµενο αυτών των συνόλων.
ΟΡΙΣΜΟΣ:
Το k-διάστατο τυχαίο διάνυσµα ακολουθεί την cross-classified Πολυωνυµική
κατανοµή µεγέθους 1 εάν και µόνον εάν η συνάρτηση πυκνότητάς του fK δίνεται από
το µη-µηδενικό πίνακα πιθανοτήτων pK. ∆ηλαδή,
f K ( x) = p K ( x)
όπου ο pK είναι τέτοιος ώστε pK(x)>0 για όλα τα x και
∑p
K
( x) = 1 .
x
Η απαίτηση για θετικό pK εξασφαλίζει την ύπαρξη της λογαριθµικής-γραµµικής
ανάπτυξης και ότι υπάρχουν όλες οι συναρτήσεις πυκνότητας δεσµευµένων
πιθανοτήτων.
77
4.4 Περιθωριακές και δεσµευµένες κατανοµές
Η οικογένεια των cross-classified Πολυωνυµικών συναρτήσεων πυκνότητας είναι
κλειστή ως προς τις πράξεις της περιθωριοποίησης και της δέσµευσης.
Πρώτον, εάν το διαµερισµένο τυχαίο διάνυσµα (Χα, Χb) έχει πίνακα πιθανοτήτων pK ,
τότε η περιθωριακή κατανοµή τού Χα: λαµβάνεται αθροίζοντας για τις τιµές του Χb:
f a ( x a ) = ∑ f K ( x a , xb ) = ∑ p K ( x a , xb ) = p a ( x a ) ,
xb
xb
για όλα τα xα. Καθώς το pK >0 και έχει άθροισµα µονάδα, το ίδιο ισχύει και για το pα
και κατά συνέπεια είναι ίδιας µορφής µε τον ορισµό της Πολυωνυµικής µεγέθους 1.
∆εύτερον, η συνάρτηση πυκνότητας δεσµευµένης πιθανότητας του Χb µε δεδοµένο το
Χα είναι:
f b| a ( xb ; xa ) =
pab ( xa , xb )
για όλα τα xb.
pa ( xa )
Το δεξί σκέλος είναι αυστηρά θετικό και αθροίζεται στη µονάδα για κάθε
συγκεκριµένη τιµή του xa, και έτσι είναι της µορφής πίνακα πιθανοτήτων τον οποίο
µπορούµε να συµβολίσουµε µε pb| a . Άρα η δεσµευµένη κατανοµή είναι επίσης
Πολυωνυµική µεγέθους 1.
Μπορούµε πλέον να επαναδιατυπώσουµε τον ορισµό της δεσµευµένης ανεξαρτησίας:
Το διαµερισµένο Πολυωνυµικό διάνυσµα (Χα, Χb, Χc) ικανοποιεί την
Xb ╨ Xc | Xa εάν και µόνον εάν pabc =
pac p ab
pa
4.5 Λογαριθµικές-γραµµικές αναπτύξεις και u-όροι
Θεωρήστε την περίπτωση της συνάρτησης πυκνότητας της δυδιάστατης Bernoulli
που δίνεται από την
f12 ( x1 , x2 ) = p ( x1 , x2 ) = p (0, 0) (1− x1 )(1− x2 ) p (0, 1) (1− x1 ) x2 p (1, 0) x1 (1− x2 ) p (1, 1) x1x2 ,
όπου τα x1, x2 παίρνουν τιµές 0 και 1.
Παίρνοντας το λογάριθµο και συγκεντρώνοντας τους συντελεστές των x1, x2 των
έχουµε:
log f 12 ( x1 , x 2 ) = log p (0, 0) + x1 log
p (1, 0)
p (0, 1)
p (1, 1) p (0, 0)
+ x 2 log
+ x1 x 2 log
p (0, 0)
p (0, 0)
p (0, 1) p (1, 0)
για (x1, x2) στο {0, 1}2. Αυτή η αναπαράσταση της f βρίσκεται στην καρδιά της
θεωρίας των λογαριθµικών-γραµµικών µοντέλων για categorical δεδοµένα.
Πρόκειται για µια γραµµική σχέση τόσο ως προς x1 όσο και ως προς x2.
Παραµετροποιώντας διαφορετικά το δεξί σκέλος, οδηγούµαστε στη λογαριθµικήγραµµική ανάπτυξη:
log f12 ( x1 , x 2 ) = u ∅ + x1u1 + x 2 u 2 + x1 x 2 u12 για (x1, x2) στο {0, 1}2.
78
Οι συντελεστές u, u1, u2, u12, είναι γνωστοί ως u-όροι (u-terms).
Η συνάρτηση πυκνότητας f12 καθορίζεται είτε από τον πίνακα πιθανοτήτων p, είτε
από τους u-όρους, {u}. Για να υπολογίσουµε συστηµατικά τα u από τα δεδοµένα p,
αντικαθιστούµε όλα τα πιθανά ζεύγη (x1, x2) στη λογαριθµική-γραµµική ανάπτυξη,
και τελικά παίρνουµε:
log p(0, 0)
=
u∅
log p(1, 0)
=
u∅
log p(0, 1)
=
u∅
log p(1, 1)
=
u∅
+ u1
+ u2
+ u1
+ u2
+ u 12
το οποίο είναι ένα απλό σύστηµα γραµµικών εξισώσεων.
Η ανάπτυξη για τη συνάρτηση πυκνότητας ενός τριδιάστατου διανύσµατος (Χ1, Χ2,
Χ3) είναι:
log f 123 ( x ) = u ∅ + u1 x1 + u 2 x 2 + u 3 x3 + u12 x1 x 2 + u13 x1 x3 + u 23 x 2 x3 + u123 x1 x 2 x3
για x=(x1, x2, x3) στο {0, 1}3. Όταν το (Χ1, Χ2, …, Χk) παίρνει τιµές στο {0, 1}k, η
σχέση γενικεύεται στην:
log f K ( x) = u∅ + ∑ ui xi + ∑ ui j xi x j + ∑ ui j l xi x j xl + ... + u12...k x1 x2 ...xk .
i
i, j
i , j ,l
Πρόκειται για µια πολυ-γραµµική µορφή στις k µεταβλητές, x1, x2, …, xk, µε
σταθερούς συντελεστές που ονοµάζονται u-όροι. Ο όρος uij είναι µια δεύτερης τάξης
(two-way) αλληλεπίδραση, ο όρος uijk µια τρίτης τάξης αλληλεπίδραση και ο όρος
u12…k µια k-τάξης αλληλεπίδραση.
Υπάρχουν 2k u-όροι, όσες ακριβώς οι εγγραφές στον πίνακα πιθανοτήτων. Η
συνάρτηση πυκνότητας µπορεί να καθοριστεί είτε από τον πίνακα πιθανοτήτων, pK,
είτε από τους u-όρους, {u}, στη λογαριθµική-γραµµική ανάπτυξη. Η τελευταίοι
µπορούν να εξαχθούν από τον πίνακα αντικαθιστώντας τις τιµές xi = 0, 1 στην
ανάπτυξη, που οδηγεί σε ένα εύκολα επιλύσιµο τριγωνικό σύστηµα εξισώσεων.
Χρειαζόµαστε άλλη µια γενίκευση, για µεταβλητές (δηλ. συντεταγµένες του
διανύσµατος) που παίρνουν τιµές σε ένα πεπερασµένο σύνολο:
log f K ( x) = u∅ ( x) + ∑ ui ( x) + ∑ ui j ( x) + ∑ ui jl ( x) + ... + u12...k ( x) .
i
i, j
i , j ,l
Υπάρχουν πάλι 2k u-όροι αλλά τώρα είναι συναρτήσεις των x = (x1, x2, …, xk) και όχι
βαθµωτά. Κάθε όρος είναι µια συνάρτηση προβολής συντεταγµένων για τις
συντεταγµένες που φαίνονται στο δείκτη. Επίσης, κάθε όρος µηδενίζεται όποτε µια
από τις συντεταγµένες αυτές µηδενίζεται.
Πιο συνοπτικά, η λογαριθµική-γραµµική
Πολυωνυµικής συνάρτησης πυκνότητας fK, είναι
log f K ( x ) =
∑u
a⊆ K
a
ανάπτυξη
της
cross-classified
( xa )
79
όπου το άθροισµα λαµβάνεται για όλα τα πιθανά υποσύνολα α του Κ={1, 2, …, k}
και όπου οι u-όροι {uα} είναι συναρτήσεις προβολής συντεταγµένων, έτσι ώστε
uα(x)=uα(xα), και επίσης ικανοποιούν τη συνθήκη uα(x)=0 όποτε xi=0 και i ∈ α.
Μετά από αυτή τη σχετικά αυστηρή διατύπωση για τη λογαριθµική-γραµµική
ανάπτυξη, περνάµε στο λόγο για τον οποίο εισαγάγαµε αυτή την ανάπτυξη:
Εάν (Xα , Xb , Xc) είναι ένα διαµερισµένο Πολυωνυµικό τυχαίο διάνυσµα, τότε
Xb ╨ Xc | Xα εάν και µόνον εάν όλοι οι u-όροι στη λογαριθµική-γραµµική ανάπτυξη µε
µία ή περισσότερες συντεταγµένες στο b και µία ή περισσότερες συντεταγµένες στο
c, είναι ίσοι µε µηδέν.
4.6 Γραφικά λογαριθµικά-γραµµικά µοντέλα
Χρησιµοποιούµε τον όρο πιθανοκρατικό µοντέλο για να δηλώσουµε µια τυχαία
οικογένεια κατανοµών που απλοποιούνται µέσω ενός συνόλου υποθέσεων ή
περιορισµών.
Η σπουδαιότητα της λογαριθµικής-γραµµικής ανάπτυξης οφείλεται στο γεγονός ότι
πολλές ενδιαφέρουσες υποθέσεις µπορούν να παραχθούν θέτοντας u-όρους ίσους µε
µηδέν. Το παραπάνω θεώρηµα µας δίνει τις συνθήκες επί των u-όρων για δεσµευµένη
ανεξαρτησία.
Θα χρησιµοποιήσουµε την έννοια του γραφήµατος ανεξαρτησίας, και τις σχετικές µε
αυτό κατά ζεύγη δεσµευµένες ανεξαρτησίες, για να καθορίσουµε ένα γραφικό
µοντέλο για το k-διάστατο categorical τυχαίο διάνυσµα Χ.
ΟΡΙΣΜΟΣ:
Με δεδοµένο ένα γράφηµα ανεξαρτησίας G, η cross-classified Πολυωνυµική
κατανοµή για το τυχαίο διάνυσµα Χ είναι ένα γραφικό µοντέλο για το Χ εάν η
κατανοµή του Χ είναι τυχαία, εκτός από περιορισµούς της µορφής ότι για όλα τα
ζεύγη συντεταγµένων που δεν υπάρχουν στο σύνολο δεσµών Ε του G, οι u-όροι που
περιέχουν τις συγκεκριµένες συντεταγµένες είναι εκ ταυτότητας ίσοι µε µηδέν.
Πιο αναλυτικά, η πυκνότητα ενός Πολυωνυµικού γραφικού µοντέλου είναι
log f K ( x ) =
∑u
a⊆ K
a
( xa )
µε τον περιορισµό ότι u a = 0 αν {i, j} ⊆ a και ο δεσµός {i, j} δεν υπάρχει στο σύνολο
δεσµών Ε. Οι παράµετροι του γραφικού µοντέλου είναι οι εναποµείναντες u-όροι που
δε µηδενίστηκαν.
Παράδειγµα:
Το σύνολο δεσµών Ε = {(1, 2), (2, 3), (2, 5), (3, 4), (3, 5), (4, 5)} για πέντε κόµβους,
παράγει το διάγραµµα
1
80
5
4
2
3
Το αντίστοιχο Πολυωνυµικό γραφικό µοντέλο για Χ=(Χ1, Χ2, …, Χ5) έχει τη
λογαριθµική-γραµµική ανάπτυξη
log f 12345 ( x) = u ∅ + u1 + u 2 + u 3 + u 4 + u 5 + u12 + u 23 + u 25 + u 35 + u 34 + u 45 + u 235 + u 345
Κανένας u-όρος σ’ αυτή την ανάπτυξη δεν έχει ως δείκτες ζεύγη µεταβλητών που δεν
υπάρχουν στο σύνολο δεσµών. Παραδείγµατος χάριν, ο u-όρος u1234 δεν υπάρχει στην
ανάπτυξη επειδή ο δεσµός (2, 4) δεν υπάρχει στο Ε.
4.6.1 Ιεραρχικά και µη-ιεραρχικά λογαριθµικά-γραµµικά µοντέλα
Τα λογαριθµικά-γραµµικά µοντέλα µπορούν να διαχωριστούν σε δύο κατηγορίες.
Ένα λογαριθµικό-γραµµικό µοντέλο είναι ιεραρχικό εάν, όποτε ένας συγκεκριµένος
u-όρος επιβάλλεται να µηδενιστεί τότε όλοι οι ανώτερης τάξης u-όροι που περιέχουν
το ίδιο σύνολο δεικτών επίσης επιβάλλεται να είναι ίσοι µε µηδέν. ∆ηλαδή, εάν uα = 0
τότε ut = 0 για όλα τα α ⊆ t.
Αντίθετα, τα µη-ιεραρχικά µοντέλα δεν ικανοποιούν τη συνθήκη αυτή. Τέτοια
µοντέλα είναι δύσκολο να ερµηνευθούν. ∆εν είναι κατ’ ανάγκη αδιάφορα, αλλά το
ενδιαφέρον τους δεν εστιάζεται στην έννοια της ανεξαρτησίας. Ως παράδειγµα
αναφέρουµε το µοντέλο
log f123 = u∅ + u3 + u12
στο οποίο ενώ u1=0, ο όρος u12 δεν είναι µηδέν.
Τα γραφικά λογαριθµικά-γραµµικά µοντέλα αποτελούν υποσύνολο των ιεραρχικών.
Είναι εκείνα τα ιεραρχικά στα οποία εάν στην ανάπτυξη υπάρχουν όλοι οι όροι
δεύτερης τάξης που δηµιουργούνται από µια ανώτερης τάξης αλληλεπίδραση, τότε θα
πρέπει στην ανάπτυξη να υπάρχει και η ανώτερης τάξης αλληλεπίδραση.
Αποδεικνύεται ότι ένα ιεραρχικό µοντέλο είναι γραφικό εάν και µόνον εάν οι
ανώτατης τάξης u-όροι του αντιστοιχούν σε οµάδες στο γράφηµα ανεξαρτησίας.
Υπενθυµίζουµε στον αναγνώστη ότι οµάδα είναι ένα πλήρες σύνολο κόµβων που δεν
περιέχεται σε κανένα άλλο πλήρες σύνολο κόµβων.
Για παράδειγµα, το µοντέλο
log f123 = u∅ + u1 + u 2 + u3 + u12 + u13 + u 23
είναι ιεραρχικό, αλλά δεν είναι γραφικό γιατί ενώ υπάρχουν όλοι οι δεύτερης τάξης uόροι που πηγάζουν από τον τρίτης τάξης u-όρο u123, ο ίδιος δεν υπάρχει. Επίσης, οι
ανώτατης τάξης u-όροι στο µοντέλο αυτό είναι οι δεύτερης τάξης u12, u13, u23, που
δεν αντιστοιχούν σε οµάδα στο γράφηµα ανεξαρτησίας, µια και οµάδα είναι µόνον το
σύνολο {1, 2, 3} και όχι τα {1, 2}, {1, 3} ή {2, 3}.
1
2
3
81
Το αντίστοιχο γραφικό µοντέλο είναι το
log f123 = u∅ + u1 + u 2 + u3 + u12 + u13 + u 23 + u123
µε ίδιο διάγραµµα γραφήµατος ανεξαρτησίας.
4.6.2 Συµβολικές διατυπώσεις µοντέλων
Η ιδιότητες ανεξαρτησίας ενός Πολυωνυµικού τυχαίου διανύσµατος καθορίζονται
άµεσα από την παρουσία ή απουσία συγκεκριµένων u-όρων στη λογαριθµικήγραµµική ανάπτυξη της συνάρτησης πυκνότητας πιθανότητας.
Εάν ένα µοντέλο είναι ιεραρχικό, τότε αυτές καθορίζονται από τους ανώτατης τάξης
u-όρους στην ανάπτυξη. Ο κατάλογος των δεικτών των ανώτατης τάξης u-όρων που
υπάρχουν στη λογαριθµική-γραµµική ανάπτυξη είναι γνωστός ως δηµιουργός κλάση
(generating class) του µοντέλου και η συµβολική διατύπωση ενός µοντέλου είναι ένας
τρόπος περιγραφής αυτού του καταλόγου.
Το συντακτικό για τη συµβολική διατύπωση φαίνεται από τα παρακάτω
παραδείγµατα:
Το κορεσµένο µοντέλο log f123 = u∅ + u1 + u 2 + u3 + u12 + u13 + u 23 + u123 παριστάνεται
συµβολικά ως [123].
Το µοντέλο αµοιβαίας ανεξαρτησίας log f123 = u∅ + u1 + u 2 + u3
ως [1][2][3]
Το µοντέλο log f123 = u∅ + u1 + u 2 + u12 για το τριδιάστατο διάνυσµα Χ = (X1, X2, X3)
εκφράζει την ιση πιθανότητα των τιµών της Χ3 για κάθε µια από τις πιθανές τιµές του
(X1, X2). Συµβολίζεται µε [12].
Φυσικά οι µεταβλητές δεν απαιτείται να δηλώνονται από τους δείκτες τους. Το
µοντέλο [123][24][35] µπορεί εξίσου καλά να γραφεί ως [Χ1Χ2Χ3][Χ2Χ4][Χ3Χ5].
4.6.3 Το πλέγµα των µοντέλων
Όλα τα δυνατά µοντέλα τριών µεταβλητών (19 στον αριθµό) φαίνονται στο
παρακάτω σχήµα. Στις τέσσερις διαστάσεις το πλέγµα των ιεραρχικών λογαριθµικώνγραµµικών µοντέλων αποτελείται από 167 στοιχεία.
Το µοντέλο αριθ.15 είναι το γραφικό µοντέλο που αντιστοιχεί στη ανεξαρτησία των
Χ2 και Χ3 µε δεδοµένο το Χ1. Το µοντέλο αριθ.12 είναι το γραφικό µοντέλο που
αντιστοιχεί στη ανεξαρτησία των (Χ1, Χ2) και Χ3. Το µοντέλο αριθ.18 είναι το
ιεραρχικό µοντέλο που περιέχει όλους τους u-όρους δεύτερης τάξης. Το µοντέλο
αριθ.8 είναι το µοντέλο της δεσµευµένης ίσης πιθανότητας του Χ3 µε δεδοµένο το (Χ1,
Χ2). Το ελάχιστο µοντέλο ∅ περιέχει απλώς το σταθερό u-όρο ενώ το κορεσµένο
µοντέλο αριθ.19 περιέχει όλους τους u-όρους.
Γραφικά είναι όλα τα µοντέλα εκτός του αριθ.18, αφού είναι το µόνο που περιέχει
όλους τους όρους δεύτερης τάξης και δεν περιέχει τον αντίστοιχο όρο τρίτης τάξης.
82
[123]
-19[12][13][23]
-18[12][13]
[12][23]
[13][23]
-15-
-16-
-17-
[12][3]
[13][2]
[23][1]
-12-
-13-
-14-
[1][2][3]
-11[12]
[13]
[23]
-8-
-9-
-10-
[1][2]
[1][3]
[2][3]
-5-
-6-
-7-
[1]
-2-
[2]
-3-
[3]
-4-
∅
-1-
83
4.7 Η συνάρτηση πιθανοφάνειας
Η συνάρτηση πιθανοφάνειας παίζει κεντρικό ρόλο στη γραφική µοντελοποίηση, και
ιδίως στην επιλογή του κατάλληλου µοντέλου για την προσαρµογή των δεδοµένων
µας. Προκειµένου να επιλέξουµε ένα µοντέλο έναντι ενός άλλου, χρειαζόµαστε ένα
µέτρο σύγκρισης και ως τέτοιο µπορούµε να χρησιµοποιήσουµε την πιθανότητα
εµφάνισης των δεδοµένων µας αν δεχθούµε το υπό µελέτη µοντέλο ως το µοντέλο
που περιγράφει την πραγµατικότητα, δηλαδή την κατανοµή των µεταβλητών στον
πληθυσµό. Η συνάρτηση πιθανοφάνειας µας δίνει αυτή ακριβώς την πιθανότητα.
Ας υποθέσουµε ότι έχουµε Ν ανεξάρτητες και πανοµοιότυπες δοκιµασίες. Σε κάθε
δοκιµασία ελέγχουµε ποιο από q ενδεχόµενα παρατηρείται. Έστω ni, i = 1, 2, …, q ο
αριθµός παρατηρήσεων του i ενδεχοµένου και έστω pi η πιθανότητα να συµβεί το i
ενδεχόµενο σε οποιαδήποτε δοκιµασία, δηλαδή p1 + p2 +…+ pq = 1. Λέµε τότε ότι το
διάνυσµα (n1, n2, …, nq) ακολουθεί Πολυωνυµική κατανοµή µε παραµέτρους
Ν, p1, …, pq. Η κατανοµή είναι:
N!
N ! q ri
rq
r1
p ( n1 = r1 ,K, nq = rq ) =
p1 L pq = q
pi
∏
r1!L rq !
i =1
∏ ri !
i =1
για ri ≥ 0 και r1 + L + rq = N
Μέσω της σχέσης αυτής µπορούµε να υπολογίσουµε την πιθανότητα ενός
συγκεκριµένου συνδυασµού παρατηρήσεων των διαφόρων ενδεχοµένων. Θεωρήστε
για παράδειγµα µια µελέτη που αφορά στην Αµερικανική κοινωνία, και η οποία
καταγράφει την κοινωνικοοικονοµική κατάσταση (υψηλή-χαµηλή), την πολιτική
φιλοσοφία
(προοδευτική-συντηρητική)
και
την
κοµµατική
προτίµηση
(∆ηµοκρατικός-Ρεπουµπλικάνος) των Αµερικανών πολιτών.
Έστω ότι η µελέτη αυτή, που έγινε µε στοιχεία από ένα πολύ µεγάλο αριθµό ατόµων,
µας δίνει τις παρακάτω πιθανότητες:
∆ηµοκρατικός
Ρεπουµπλικάνος
Προοδευτικός
Συντηρητικός
Προοδευτικός
Συντηρητικός
Υψηλή
0.12
0.12
0.04
0.12
Χαµηλή
0.18
0.18
0.06
0.18
Ας υποθέσουµε ότι καταγράφουµε τα στοιχεία από ένα δείγµα 50 ατόµων (Ν=50)
αυτού του πληθυσµού και οι παρατηρήσεις µας είναι οι ακόλουθες:
∆ηµοκρατικός
Ρεπουµπλικάνος
Προοδευτικός
Συντηρητικός
Προοδευτικός
Συντηρητικός
Υψηλή
5
7
4
6
Χαµηλή
8
7
3
10
84
Ποιά είναι η πιθανότητα να παρατηρήσουµε αυτό το συγκεκριµένο πίνακα ανάµεσα
σε όλους τους πιθανούς πίνακες για τα στοιχεία των 50 ατόµων;
Χρησιµοποιώντας την παραπάνω σχέση έχουµε:
50!
(0.12) 5 (0.12) 7 (0.04) 4 (0.12) 6 (0.18) 8 (0.18) 7 (0.06) 3 (0.18)10 =
5!7!4!6!8!7!3!10!
= 0.000007
p=
∆εν πρέπει να µας εκπλήσσει ότι η πιθανότητα είναι τόσο µικρή. Υπάρχουν πολλοί
πιθανοί πίνακες και άρα η πιθανότητα για ένα συγκεκριµένο θα είναι µικρή. Στην
πραγµατικότητα, ο πίνακας µε την υψηλότερη πιθανότητα παρατήρησης έχει
πιθανότητα ίση µε 0.000142. Αν και αυτή είναι µια µικρή πιθανότητα, είναι
περισσότερο από 20 φορές µεγαλύτερη από την πιθανότητα του παραπάνω πίνακα.
Γενικεύοντας, για δείγµα Ν ανεξάρτητων και πανοµοιότυπα κατανεµηµένων τυχαίων
παρατηρήσεων k-διάστατου τυχαίου διανύσµατος Χk, έστω Ι το σύνολο των κελλιών
του πίνακα (του οποίου ο πληθάριθµος είναι r1 × r2 × …× rk). Αν ni είναι ο αριθµός
παρατηρήσεων στο κελλί i, τότε η πιθανότητα να παρατηρήσουµε τον πίνακα {ni}i∈I
θα είναι:
N!
∏ ni !
∏p
ni
i
i∈I
i∈I
Μέσω αυτής της σχέσης, εάν γνωρίζουµε τα pi µπορούµε να υπολογίσουµε την
πιθανότητα παρατήρησης οποιουδήποτε πίνακα µετρήσεων. Στην πραγµατικότητα
όµως βρισκόµαστε στην ακριβώς αντίθετη κατάσταση. Θέλουµε να υπολογίσουµε τα
pi µε δεδοµένα τα ni που έχουµε ήδη παρατηρήσει. Θεωρώντας την παραπάνω
ποσότητα ως συνάρτηση των pi, µπορούµε να γράψουµε:
L( p ) =
N!
∏ ni !
∏p
ni
i
i∈I
i∈I
Η ποσότητα L(p) ονοµάζεται συνάρτηση πιθανοφάνειας για την p. Μερικές τιµές του
p δίνουν πολύ µικρή πιθανότητα παρατήρησης των ni που στην πραγµατικότητα
παρατηρήθηκαν. Τέτοιες τιµές του p είναι απίθανο να είναι οι αληθινές τιµές του. Η
αληθινή τιµή του p θα είναι µάλλον µια τιµή που δίνει µια σχετικά µεγάλη
πιθανότητα παρατήρησης του πίνακα που πράγµατι παρατηρήθηκε. Εάν θέλουµε να
εκτιµήσουµε το p, είναι λογικό να χρησιµοποιήσουµε την τιµή του p που δίνει τη
µεγαλύτερη πιθανότητα παρατήρησης αυτού που πράγµατι παρατηρήθηκε. Με άλλα
ˆ η οποία µεγιστοποιεί τη
λόγια είναι λογικό να εκτιµήσουµε το p µε µια τιµή p
συνάρτηση πιθανοφάνειας L(p). Μια τέτοια τιµή ονοµάζεται εκτιµητής µέγιστης
πιθανοφάνειας (maximum likelihood estimate – MLE).
Αντί να µεγιστοποιήσουµε τη συνάρτηση πιθανοφάνειας, είναι ευκολότερο να
µεγιστοποιήσουµε το λογάριθµό της. Επειδή ο λογάριθµος είναι γνησίως αύξουσα
συνάρτηση, το µέγιστο της συνάρτησης και του λογαρίθµου της εµφανίζονται στο
ίδιο σηµείο.
Για να µεγιστοποιήσουµε την
log L( p ) = log N ! − ∑ log ni ! + ∑ ni log pi
i∈I
i∈I
85
ως συνάρτηση του pi, µπορούµε να αγνοήσουµε τους όρους που δεν εξαρτώνται από
το pi. Αρκεί να µεγιστοποιήσουµε την
l( p ) = ∑ ni log pi
i∈I
Χρησιµοποιώντας την ορολογία που ακολουθούµε:
η λογαριθµική συνάρτηση πιθανοφάνειας του πίνακα πιθανοτήτων p που βασίζεται σε
ένα τυχαίο δείγµα Ν Πολυωνυµικών τυχαίων παρατηρήσεων, είναι:
l( p; x1 , x 2 ,K, x N ) = ∑ n( x) log p( x) ,
x
όπου n(x) ο αριθµός των παρατηρήσεων στο δείγµα που αντιστοιχούν στο κελλί x.
η συνάρτηση πιθανοφάνειας (και η αντίστοιχη λογαριθµική) µεγιστοποιείται για την
1
τιµή pˆ ( x) = n( x) , δηλαδή το ποσοστό των παρατηρήσεων στο κελλί x.
N
Ο πίνακας παρατηρήσεων n αποτελεί ικανό στατιστικό για τις παραµέτρους p, και
έτσι: l( p; x1 , x 2 ,K, x N ) = l( p; n)
η λογαριθµική συνάρτηση πιθανοφάνειας εκφρασµένη ως συνάρτηση των u-όρων
είναι:
l(u; n) = ∑∑ na ( xa ) u a ( xa )
a
xa
όπου x η διαµερισµένη παρατήρηση (xα, xb) και nα ο περιθωριακός πίνακας
µετρήσεων που παράγεται αθροίζοντας το n για όλα τα xb. Άρα το nα είναι συνάρτηση
του xα.
4.7.1 Η Αποκλίνουσα
Η πιθανοφάνεια µπορεί να χρησιµοποιηθεί ως βάση για να ελέγξουµε αν µια
µηδενική υπόθεση είναι αληθινή. Τα δεδοµένα έχουν µια ορισµένη πιθανότητα να
παρατηρηθούν, που µπορεί να συνοψιστεί στη µέγιστη τιµή που µπορεί να αποκτήσει
η συνάρτηση πιθανοφάνειας. Οποιοσδήποτε περιορισµός τεθεί στις πιθανές τιµές της
px, οδηγεί στη µείωση της πιθανότητας να παρατηρήσουµε τα δεδοµένα. Εάν ένας
περιορισµός µειώνει την τιµή της συνάρτησης πιθανοφάνειας πάρα πολύ, µπορούµε
να βγάλουµε το συµπέρασµα ότι ο περιορισµός αυτός είναι µάλλον αβάσιµος. Η
σχετική µείωση στην πιθανοφάνεια µπορεί να µετρηθεί από το λόγο της µέγιστης
πιθανοφάνειας µε τον περιορισµό, δια τη µέγιστη πιθανοφάνεια χωρίς κανένα
περιορισµό. Εάν αυτός ο λόγος γίνει πολύ µικρός θα απορρίψουµε την υπόθεση ότι ο
περιορισµός είναι βάσιµος. Εν προκειµένω, εάν ο περιορισµός επί του px είναι ότι η
Η0 ισχύει, θα απορρίπτουµε την Η0 όταν ο λόγος πιθανοφάνειας είναι πολύ µικρός.
Για να απλοποιήσουµε τα πράγµατα, µπορούµε να υπολογίζουµε το λογάριθµο του
λόγου πιθανοφάνειας. Έτσι, αντί να διαιρούµε συναρτήσεις πιθανοφάνειας,
υπολογίζουµε διαφορές µεταξύ λογαριθµικών συναρτήσεων πιθανοφάνειας.
Η απουσία οποιουδήποτε περιορισµού, αντιστοιχεί στη µηδενική υπόθεση ότι το
µοντέλο που περιγράφει τα δεδοµένα είναι το κορεσµένο µοντέλο µε πλήρες γράφηµα
ανεξαρτησίας G, όπου δηλαδή κανένας δεσµός δε λείπει από το σύνολο δεσµών Ε του
G.
86
Θεωρήστε ένα ιεραρχικό µοντέλο παραµετροποιηµένο από τον πίνακα πιθανοτήτων
pM, που σχετίζεται µε µια λογαριθµική-γραµµική ανάπτυξη µε συµβολική διατύπωση
Μ. Το διπλάσιο της διαφοράς µεταξύ της µέγιστης τιµής της λογαριθµικής
συνάρτησης πιθανοφάνειας χωρίς περιορισµούς και της αντίστοιχης µέγιστης τιµή
κάτω από τους περιορισµούς που θέτει η Μ, ονοµάζεται deviance της Μ.
Με άλλα λόγια, για ένα τυχαίο δείγµα Ν τυχαίων Πολυωνυµικών παρατηρήσεων, η
deviance είναι:
dev( M ) = 2{l max ( p) − l max ( p M )} =


= 2∑ n( x) log pˆ ( x) −∑ n( x) log pˆ M ( x) =
x
 x

pˆ ( x)
= 2∑ n( x) log M
=
pˆ ( x)
x
n( x )
= 2∑ n( x) log
N pˆ M ( x)
x
όπου pˆ ο εκτιµητής µέγιστης πιθανοφάνειας του p και pˆ M ο εκτιµητής µέγιστης
πιθανοφάνειας του pΜ.
Σηµειώστε ότι η απαίτηση για µικρές τιµές του λόγου πιθανοφάνειας προκειµένου να
απορριφθεί η µηδενική υπόθεση, µεταφράζονται σε µεγάλες τιµές της deviance.
Κάτω από τη µηδενική υπόθεση ότι η Μ ισχύει, η deviance ακολουθεί µια
ασυµπτωτική χ2 δειγµατική κατανοµή µε βαθµούς ελευθερίας που δίνονται από τον
αριθµό των παραµέτρων που µηδενίζονται. Πρόκειται για µια προσέγγιση της
ακριβούς δειγµατικής κατανοµής και αυστηρά είναι βάσιµη µόνο για µεγάλα
δείγµατα. Με βάση αυτήν την προσέγγιση, η Η0 απορρίπτεται σε ένα επίπεδο
σηµαντικότητας α εάν deviance > χ2(1-α, Β.Ε.).
4.8 Εκτιµητές για µοντέλα δεσµευµένης ανεξαρτησίας
Ο εκτιµητής µέγιστης πιθανοφάνειας ενός λογαριθµικού-γραµµικού γραφικού
µοντέλου µε συµβολική διατύπωση Μ που βασίζεται σε τυχαίο δείγµα Πολυωνυµικής
κατανοµής υπάρχει και ικανοποιεί τις εξισώσεις πιθανοφάνειας
N pˆ aM = na
όποτε το υποσύνολο α των κόµβων στο γράφηµα σχηµατίζει οµάδα.
Το παραπάνω θεώρηµα µπορεί να συνοψιστεί ως απαίτηση ότι στην προσαρµογή
ενός γραφικού µοντέλου θα πρέπει να ισχύει «παρατηρηθείσες τιµές =
προσαρµοσµένες τιµές» για κάθε περιθωριακό πίνακα που αντιστοιχεί σε πλήρες υπογράφηµα.
4.8.1 Η Αποκλίνουσα της δεσµευµένης ανεξαρτησίας
Η deviance της Χb ╨ Xc | Xα είναι
dev(Χb ╨ Xc | Xα) = 2∑ nabc log
nabc na
nab nac
87
όπου το άθροισµα λαµβάνεται σε όλα τα κελλιά, x, του πίνακα. Συµβολίζοντας τον
αριθµό των κελλιών στις περιθωριακές κατανοµές των Xα, Χb και Xc µε rα, rb και rc
αντίστοιχα, οι βαθµοί ελευθερίας (Β.Ε.) για τη deviance είναι:
Β.Ε.(Χb ╨ Xc | Xα) = rα (rb –1)(rc -1).
4.8.2 Η Αποκλίνουσα της αποκοπής δεσµών
Το γράφηµα ανεξαρτησίας ορίζεται µε όρους κατά ζεύγη δεσµευµένων ανεξαρτησιών
και ένας δεσµός µεταξύ δύο µεταβλητών λείπει όταν αυτές είναι ανεξάρτητες µε
δεδοµένες τις υπόλοιπες µεταβλητές. Η deviance της αποκοπής δεσµών είναι η
deviance που αντιστοιχεί σ’ αυτήν την υπόθεση. Θέτοντας b = { i }, c = { j } και α =
Κ \ { i, j } έχουµε:
Η deviance για το γραφικό µοντέλο Χi ╨ Xj | XΚ \ { i, j} µε ένα δεσµό απόντα είναι
dev(Χi ╨ Xj | XΚ \ { i, j}) = 2∑ nK log
nK nK \{i , j}
n K \i n K \ j
Ακολουθεί ασυµπτωτική χ2 κατανοµή µε rΚ\{i,j}.(ri –1).(rj -1) βαθµούς ελευθερίας.
Παράδειγµα:
Ταξινοµούµε ψυχιατρικούς ασθενείς µε βάση τα συµπτώµατά τους σύµφωνα µε τις
µεταβλητές Χ1: Validity (ενεργητικός, ψυχασθενικός), Χ2: Solidity (rigid, hysteric),
Χ3: Οξεία κατάθλιψη (ναι, όχι) και Χ4: Stability (introvert, extrovert).
Οξεία κατάθλιψη
ναι
όχι
Stability
Validity
Solidity
ενεργητικός
rigid
15
23
25
14
hysteric
9
14
46
47
rigid
30
22
22
8
hysteric
32
16
27
12
ψυχασθενικός
intro
extro
intro
extro
 4
Υπάρχουν   = 6 κατά ζεύγη δεσµευµένες ανεξαρτησίες και οι αντίστοιχες
 2
deviance αποκοπής δεσµών είναι:
88
1
*
2
4.78
*
3
33.00
22.38
*
4
12.87
3.39
7.64
*
1
2
3
4
Για παράδειγµα, στην πάνω αριστερή γωνία αυτού του τριγωνικού πίνακα είναι η
deviance του µοντέλου µε συµβολική διατύπωση [134][234] στο οποίο Χ2 ╨ Χ1 | (Χ3,
Χ4).
Αυτό αποτελεί ένα συνδυαστικό τεστ ανεξαρτησίας στους τέσσερις πίνακες δύο
διαστάσεων, ο πρώτος από τους οποίους είναι
x2
x1
0
1
0
15
9
1
30
32
H deviance είναι:
15
32
+ L + 32 log
+
(45)(24)
(62)(41)
86
86
14
23
+ 23 log
+ L + 12 log
= 4.78
(61)(22)
(37)(45)
81
75
dev([134][234]) = 15 log
κάθε στατιστικό έχει 4 Β.Ε. και το σηµείο 10% της κατανοµής χ2 για 4 Β.Ε. είναι
7.78. Συγκρινόµενες µε αυτή την τιµή, κάποιες από τις τιµές της deviance αποκοπής
δεσµών είναι µεγάλες και άλλες µικρές.
∆ιαγράφοντας τους δύο δεσµούς που δεν είναι σηµαντικοί, δηλαδή τους δεσµούς (1,
2) και (2, 4) µε deviance αποκοπής 4.78 και 3.39 αντίστοιχα, οδηγούµαστε στο
γράφηµα
2
3
4
1
Οι ανεξαρτησίες σ’ αυτό το γράφηµα ανεξαρτησίας µπορούν να συνοψιστούν σε µία
µόνο δήλωση: Χ2 ╨ (Χ1 , Χ4)| Χ3 και το αντίστοιχο γραφικό µοντέλο Μ = [134][23]
έχει άµεσους εκτιµητές. Η ερµηνεία του µοντέλου είναι ότι η Solidity είναι
ανεξάρτητη των Validity και Stability εάν είναι δεδοµένη η µεταβλητή που τις
διαχωρίζει, Κατάθλιψη. Η deviance είναι συνδυαστικό τεστ ανεξαρτησίας στους δύο
89
πίνακες 2 x 4 και έτσι έχει 2(2-1)(4-1) = 6 Β.Ε. Έχει τιµή 8.8792 που για 6 Β.Ε.
υποδηλώνει µια καλή προσαρµογή. Ούτε η deviance ούτε οι Β.Ε. της είναι ίσα µε τις
αντίστοιχες deviance για αποκοπή των δεσµών ξεχωριστά.
4.9 Υπολογισµός εκτιµητών µέγιστης πιθανοφάνειας
Ο υπολογισµός των εκτιµητών αποτελεί κεντρικό πρόβληµα τόσο για τον έλεγχο του
βαθµού προσαρµογής του µοντέλου στα δεδοµένα, όσο και στην επιλογή του
καταλληλότερου µοντέλου. Στην πραγµατικότητα, µια σειρά από προβλήµατα πρέπει
να διερευνηθούν: η κατάστρωση του συστήµατος των εξισώσεων που ορίζουν τον
εκτιµητή, ο έλεγχος ύπαρξης λύσης, η αναλυτική ή η έστω µε αριθµητικές µεθόδους
επίλυση των εξισώσεων και τελικά ο καθορισµός της µοναδικότητας της λύσης.
Οι εκτιµητές µέγιστης πιθανοφάνειας µπορούν να υπολογιστούν αναλυτικά µόνο για
µια κλάση των γραφικών µοντέλων που ονοµάζονται αποσυνθέσιµα. Για τα µοντέλα
που δεν ανήκουν σ’ αυτή την κατηγορία, έχουν αναπτυχθεί αριθµητικές µέθοδοι µε
κυριότερη τον αλγόριθµο επαναληπτικά αναλογικής προσαρµογής (iterative
proportional fitting algorithm – IPF). Στην απλούστερη µορφή του ο αλγόριθµος
αυτός προσφέρει µια µέθοδο διευθέτησης ενός πίνακα συνάφειας δύο διαστάσεων
ώστε να είναι σύµφωνος µε τα περιθώρια που ορίζονται από έναν άλλο πίνακα δύο
διαστάσεων. Ξεκινά µε την βαθµονόµηση των γραµµών του πρώτου πίνακα ώστε να
έχει σωστά περιθώρια γραµµών, µετά βαθµονοµεί τον πίνακα που προκύπτει ώστε να
έχει σωστά περιθώρια στηλών, µετά βαθµονοµεί τον πίνακα που προκύπτει ώστε να
έχει σωστά περιθώρια γραµµών κλπ, επαναλαµβάνοντας τον κύκλο των γραµµών και
των στηλών, έως ότου επιτευχθεί σύγκλιση.
Τα αποσυνθέσιµα µοντέλα αποτελούν µια κλάση µοντέλων µε µια σειρά από «καλές»
ιδιότητες:
•
Τα µοντέλα είναι πολλαπλασιαστικά, υπό την έννοια ότι κάθε συνάρτηση
πυκνότητας στο µοντέλο παραγοντοποιείται πλήρως στο γινόµενο των
περιθωριακών συναρτήσεων πυκνότητας. Μια τέτοια παραγοντοποίηση είναι
µοναδική και περιγράφει συνολικά τις ιδιότητες του µοντέλου.
•
Η συνδυαστική συνάρτηση πυκνότητας παραγοντοποιείται στο γινόµενο
περιθωριακών συναρτήσεων πυκνότητας επί των οµάδων. Ισοδύναµα, οι µηµειώσιµες συνιστώσες είναι πλήρεις.
•
Τα µοντέλα είναι αναδροµικά, υπό την έννοια ότι οι κόµβοι τους µπορούν να
διαταχθούν έτσι ώστε να απλοποιούν πλήρως την αναδροµική
παραγοντοποίηση της συνδυαστικής συνάρτησης πυκνότητας. Αυτή είναι µια
ιδιότητα του τύπου της ιδιότητας αλυσίδας Markov.
•
Τα µοντέλα έχουν τριγωνοποιηµένα γραφήµατα ανεξαρτησίας.
•
Οι εκτιµητές µέγιστης πιθανοφάνειας του µοντέλου είναι άµεσα υπολογίσιµοι.
Οποιαδήποτε από αυτές τις ισοδύναµες ιδιότητες µπορεί να χρησιµοποιηθεί για να
ορίσουµε τον όρο «αποσυνθέσιµο µοντέλο».
90
4.10 Επιλογή µοντέλου
Πως µπορεί κάποιος να επιλέξει ένα γραφικό µοντέλο; Ακόµη και για ένα σχετικά
µικρό διαστάσεων υπάρχουν χιλιάδες δυνατών γραφικών µοντέλων για να διαλέξει
κανείς, πολλά από τα οποία είναι παρόµοια. Θα πρέπει κανείς να προσαρµόσει τα
δεδοµένα του σε όλα; Αν όχι, πως πρέπει να επιλεγούν τα προς προσαρµογή µοντέλα;
Με ποιο τρόπο θα πρέπει να επιλεγεί το καλύτερο; Ποιες είναι οι ιδιότητες των
προσαρµοσµένων εκτιµητών στο επιλεγµένο µοντέλο; κ.ο.κ.
Η επιλογή γραφικού µοντέλου είναι ένα στιγµιότυπο του γνωστού στατιστικού
προβλήµατος του καθορισµού, στη βάση ενός δείγµατος παρατηρήσεων, ποιες
παράµετροι πρέπει να µηδενιστούν και ποιες να εκτιµώνται χωρίς περιορισµούς. Από
τη µια πλευρά, συµπεριλαµβάνοντας περισσότερες παραµέτρους οδηγούµαστε σε
καλύτερη προσαρµογή των δεδοµένων. Από την άλλη, όσο λιγότερες είναι οι
παράµετροι τόσο καλύτερα, επειδή υπολογίζονται πιο αποτελεσµατικά και το τελικό
µοντέλο είναι απλούστερο. Θα πρέπει να υπάρχουν αρκετές παράµετροι στο µοντέλο
για την αναπαράσταση πραγµατικών επιδράσεων (real effects present in the data) που
εµφανίζονται στη δοµή των δεδοµένων ενώ θα πρέπει να είναι αρκετά λίγες ώστε να
µην αναλύουµε θόρυβο που εισάγεται λόγω δειγµατικής µεταβλητότητας (sampling
variation). Συµπεριλαµβάνοντας όλες τις µεταβλητές οδηγεί στο ένα άκρο,
εξαιρώντας τες όλες οδηγεί στο άλλο άκρο και ένας πρωταρχικός στόχος της επιλογής
µοντέλου είναι να βρεθεί ένας συµβιβασµός και να επιλεγεί ένα (ή περισσότερα)
µοντέλα ώστε τα φαινόµενα να αναπαρασταθούν µε όσο το δυνατόν πιο φειδωλό
τρόπο [6, 40, 51, 52].
Η βασική συνεισφορά της στατιστικής µοντελοποίησης είναι ο τρόπος µε τον οποίο
χειρίζεται το θόρυβο. Κάτω από ένα δεδοµένο πιθανοκρατικό µοντέλο για τις
παρατηρήσεις, η γνωστή κατανοµή δειγµατοληψίας του λόγου πιθανοφάνειας θέτει
ένα κριτήριο για την επίδραση της ενδογενούς τυχαίας µεταβλητότητας. Η
παρατηρηθείσα επίδραση µπορεί τότε να συγκριθεί µε αυτό το πρότυπο και να ληφθεί
µια απόφαση σχετικά µε το αν η επίδραση είναι πραγµατική ή φαινοµενική. Αν µια
συγκεκριµένη επίδραση µπορεί να εξηγηθεί από τυχαία µεταβλητότητα, τότε µπορεί
να αγνοηθεί και το µοντέλο να απλοποιηθεί. Μια αποδεκτή προσαρµογή είναι εκείνη
στην οποία το προσαρµοσµένο µοντέλο διαφέρει από τα παρατηρηθέντα δεδοµένα
κατά µια ποσότητα συµβατή µε τη δειγµατική µεταβλητότητα.
Θα πρέπει να σηµειώσουµε ότι η επιλογή µοντέλου δεν είναι πρωταρχικά ένα
υπολογιστικό πρόβληµα γιατί ακόµη κι όταν µπορούµε να υπολογίσουµε και να
εξετάσουµε την προσαρµογή όλων των δυνατών µοντέλων, δεν υπάρχει αναµφίβολη
απάντηση στο ερώτηµα ποιο είναι το µοντέλο µε την καλύτερη προσαρµογή. Και
αυτό γιατί η µοντελοποίηση έχει διάφορους στόχους, όπως για παράδειγµα ένα ειδικό
ενδιαφέρον για µια παράµετρο ή µια δεσµευµένη ανεξαρτησία που µπορεί να
οδηγήσει στην επιλογή µοντέλου διαφορετικού από εκείνο που επιλέχτηκε για
εµπειρική πρόβλεψη (empirical forecasting). Ούτως ή άλλως, µέθοδοι που
προσπαθούν να βρουν λύση στο πρόβληµα επιλογής χωρίς την προσαρµογή κάθε
δυνατού µοντέλου, θα πρέπει να προτιµώνται, και στο τέλος της διαδικασίας επιλογής
µπορούν να βγουν πολλά συµπεράσµατα για µοντέλα που δεν έχουν εκπεφρασµένα
προσαρµοστεί.
91
Η συνεισφορά της γραφικής µοντελοποίησης στην κατανόηση της διαδικασίας
επιλογής µοντέλου περιέχει τα εξής:
•
Συσχέτιση ενός γραφήµατος ανεξαρτησίας µε κάθε λογαριθµικό-γραµµικό
µοντέλο και η ανακάλυψη µιας νέας βηµατικής µονάδας στη βηµατική
διαδικασία διερεύνησης µοντέλων: η εισαγωγή και η αποκοπή ενός δεσµού
από το γράφηµα ανεξαρτησίας.
•
Η διασάφηση ενός υποσυνόλου των λογαριθµικών-γραµµικών µοντέλων που
ορίζονται πλήρως από περιορισµούς δεσµευµένης ανεξαρτησίας: τα γραφικά
λογαριθµικά-γραµµικά µοντέλα.
•
Ο χαρακτηρισµός όλων των λογαριθµικών-γραµµικών µοντέλων που έχουν
άµεσους εκτιµητές µέγιστης πιθανοφάνειας, δηλαδή των αποσυνθεσίµων
(decomposable)
µοντέλων, µέσω της ιδιότητας τριγωνοποίησης
(triangulation) των γραφηµάτων τους.
•
Μια εξήγηση της ισοδυναµίας συγκεκριµένων στατιστικών συναρτήσεων στις
συγκρίσεις µεταξύ µοντέλων µέσω των ιδιοτήτων του γραφήµατος
ανεξαρτησίας.
Ο περιορισµός της διερεύνησης µοντέλων στα γραφικά µοντέλα απλοποιεί την
επιλογή µοντέλου σε δύο κατευθύνσεις: πρώτον, το συνολικό µέγεθος του
προβλήµατος µειώνεται και δεύτερον τα γραφήµατα που προκύπτουν αναδεικνύουν
το στόχο της διαδικασίας επιλογής.
4.11 Στρατηγική διερεύνησης γραφικών µοντέλων
4.11.1 Βηµατικές διαδικασίες διερεύνησης
Οι βηµατικές διαδικασίες διερεύνησης ξεκινούν από την προσαρµογή ενός αρχικού
βασικού µοντέλου και µετά κάνουν µικρές, συνήθως ενός βήµατος, κινήσεις µέσα
στο πλέγµα µοντέλων για να βελτιώσουν την προσαρµογή. Απαιτείται λοιπόν ο
καθορισµός δύο πραγµάτων: της κλάσης των µοντέλων στη γειτονιά του τρέχοντος
µοντέλου από την οποία θα γίνει η επιλογή του µοντέλου που θα επακολουθήσει και
ενός κανόνα τερµατισµού της διαδικασίας. Τέτοιου τύπου διαδικασίες είναι η
αφαιρετική και η προσθετική, οι οποίες µελετούν την κλάση των µοντέλων που
διαφέρουν από το τρέχον µοντέλο κατά την αποκοπή ή την προσθήκη ενός όρου
αλληλεπίδρασης. Σύµφωνα µε την αφαιρετική µέθοδο [136], κάθε ένα υποψήφιο
µοντέλο περιέχεται (nested) στο τρέχον και η διαφορά των deviance ακολουθεί την χ2
κατανοµή. Εποµένως η µέθοδος αυτή αποκόπτει τον ελάχιστα σηµαντικό δεσµό και
ένας δηµοφιλής κανόνας τερµατισµού είναι να συνεχίζουµε να αποκόπτουµε δεσµούς
µέχρι κανείς δεσµός να µην έχει τιµή P µεγαλύτερη από 5%.
Η προσθετική µέθοδος [36] ακολουθεί την αντίστροφη πορεία και ξεκινώντας από το
τρέχον µοντέλο προσθέτει τον πιο στατιστικά σηµαντικό δεσµό. ∆ιαδικασία
τερµατίζεται όταν κανείς δεσµός δε φτάνει το προκαθορισµένο επίπεδο
σηµαντικότητας. Υπάρχουν πολλές προφανείς παραλλαγές, για παράδειγµα
βηµατικές διαδικασίες που εναλλάσσουν ένα αφαιρετικό βήµα µε ένα προσθετικό
βήµα. Υπάρχουν πάρα πολλά σηµεία εκκίνησης της διαδικασίας στην κλάση των
µοντέλων: το κορεσµένο µοντέλο για την αφαιρετική διαδικασία, το µοντέλο
ανεξαρτησίας για την προσθετική διαδικασία ή το µοντέλο που προκύπτει αν από το
92
κορεσµένο αφαιρεθούν σε ένα βήµα όλοι οι µη στατιστικά σηµαντικοί δεσµοί. ∆ε
µπορούµε µε ευκολία να πούµε ότι η επιλογή του µοντέλου εκκίνησης επηρεάζει το
µοντέλο που τελικά θα επιλεγεί, είναι όµως σίγουρο ότι µια σοφή επιλογή αρχικού
µοντέλου µας οδηγεί στο τελικό µοντέλο ταχύτερα. Από την άλλη πλευρά, η
πρακτική δείχνει ότι οι διαδικασίες επιλογής είναι πολύ ευαίσθητες στην επιλογή του
κανόνα τερµατισµού. ∆ύο τυπικές επιλογές αποτελούν το κατά πόσον είναι αποδεκτή
η συνολική deviance του µοντέλου και το κατά πόσον είναι αποδεκτές όλες οι
διαφορές των deviance µεταξύ αυτού του µοντέλου και του εποµένου. Η τελευταία
εστιάζει στις αλληλεπιδράσεις ξεχωριστά, ενώ η πρώτη στο µοντέλο ως σύνολο.
Ενώ στην πράξη η προσθετική µέθοδος φαίνεται να αποδίδει εξίσου καλά µε την
αφαιρετική, υπάρχει µια φιλοσοφική διάκριση που πρέπει να αναφερθεί. Ένα γραφικό
µοντέλο είναι ένα µοντέλο της συνδυαστικής κατανοµής του συνόλου των υπό µελέτη
µεταβλητών απλοποιηµένο από περιορισµούς δεσµευµένης ανεξαρτησίας. Η
αφαιρετική µέθοδος που ξεκινά από το κορεσµένο µοντέλο, ελέγχει άµεσα αυτές τις
δεσµευµένες ανεξαρτησίες. Από την άλλη πλευρά, η προσθετική διαδικασία µε
σηµείο εκκίνησης το µοντέλο αµοιβαίας ανεξαρτησίας ελέγχει τις περιθωριακές
(marginal) ανεξαρτησίες, αντιµετωπίζοντας το πρόβληµα έµµεσα.
Αυτή η θεώρηση προτείνει την εξής διαδικασία δύο βηµάτων:
Ένα γράφηµα ανεξαρτησίας ορίζεται µέσω των κατά ζεύγη σχέσεων δεσµευµένης
ανεξαρτησίας. Στο πρώτο βήµα ελέγχουµε αυτές τις σχέσεις άµεσα, υπολογίζοντας
k
τις τιµές P για όλες τις   deviance αποκοπής από το κορεσµένο µοντέλο.
2
Αποκόπτουµε τους µη στατιστικά σηµαντικούς δεσµούς και περνάµε στο µοντέλο µε
γράφηµα G1.
Αξιοποιούµε τη γενική Markov ιδιότητα. Κάνουµε ένα µερικό έλεγχο αυτής της
ιδιότητας υπολογίζοντας τις τιµές P όλων των deviance εισαγωγής δεσµών για τους
δεσµούς που λείπουν από το G1. Προσθέτουµε τους στατιστικά σηµαντικούς δεσµούς
και καταλήγουµε στο µοντέλο G2.
Παράδειγµα:
Για k = 4, το πρώτο βήµα συνίσταται στη σύγκριση του πλήρους γραφήµατος µε όλα
τα γραφήµατα που έχουν ένα δεσµό λιγότερο.
(3, 4)
(1, 2)
(1, 4)
(2, 3)
(2, 4)
(1, 3)
Υποθέστε ότι οι τιµές P για τους δεσµούς (1, 4), (2, 4) και (1, 3) είναι αρκετά µικρές
ενώ οι υπόλοιπες είναι µεγάλες.
Το γράφηµα G1 είναι:
[12][23][34]
93
Στο δεύτερο βήµα, η επανάληψη του ελέγχου για τους δεσµούς (1, 3) και (2, 4)
αντιστοιχεί στον έλεγχο των σχέσεων ανεξαρτησίας 1 ╨ 3 | 2 και
2 ╨ 4 | 3, οι οποίες είναι σχέσεις δεσµευµένης ανεξαρτησίας στις περιθωριακές
κατανοµές και µπορούν να εξαχθούν από τη γενική ιδιότητα Markov.
4.11.2 ∆ιαδικασίες ολικής διερεύνησης
Το αποτέλεσµα της προσαρµογής όλων των πιθανών µοντέλων, αν και είναι
υπολογιστικά εφικτό ακόµη και για πολύ µεγάλες τιµές του k, οπωσδήποτε δεν
αποτελεί µια εύκολη υπόθεση και περιέχει πολλή πλεονάζουσα πληροφορία.
Για να περιορίσουµε την πληθώρα των µοντέλων, ορίζουµε ένα µοντέλο Μ ως
επαρκές εάν η deviance του Μ είναι αρκετά µικρή. Μεταξύ όλων των αποδεκτών
µοντέλων, εκείνα µε τις λιγότερες παραµέτρους είναι τα πιο ενδιαφέροντα. Ένα
µοντέλο Μ είναι κατ’ ελάχιστον επαρκές (minimally adequate) εάν είναι επαρκές και
δεν υπάρχει µοντέλο Ν που να περιέχεται στο Μ και να είναι επίσης επαρκές. Αντί να
υπολογίζουµε τις deviance όλων των µοντέλων, οι Edwards και Havranek [38, 39, 59]
προτείνουν µια µέθοδο υπολογισµού των deviance µόνον αυτών που είναι κατ’
ελάχιστον επαρκή και δίνουν τρόπους εξεύρεσής τους. Η διαδικασία είναι γρήγορη
επειδή εάν ένα µοντέλο Μ βρεθεί να είναι επαρκές, τότε όλα τα µοντέλα που
περιέχουν το Μ είναι επαρκή και δε χρειάζεται να τα προσαρµόσουµε στα δεδοµένα.
Σε αντίθεση µε τις βηµατικές διαδικασίες, η επιλογή και η απόρριψη µοντέλων
γίνεται στη βάση της συνολικής deviance και όχι στις διαφορές των deviance.
Μια δυνατότητα για περιορισµού του µεγέθους του πλέγµατος των υποψηφίων
µοντέλων είναι να κινηθούµε µέσα στην κλάση των αποσυνθέσιµων µοντέλων,
δηλαδή αυτών για τα οποία υπάρχουν άµεσοι εκτιµητές. Με αυτό τον τρόπο δε
k
 
 2
µοντέλα αλλά µόνον 2k [137]. Μια δυσκολία που
χρειάζεται να προσαρµόσουµε 2
προκύπτει για τις βηµατικές διαδικασίες επιλογής είναι ότι αν από ένα αποσυνθέσιµο
µοντέλο αποκόψουµε ένα δεσµό ή αν προσθέσουµε σ’ αυτό ένα δεσµό, το µοντέλο
που προκύπτει δεν είναι κατ’ ανάγκη αποσυνθέσιµο. Συγκεκριµένα, το µοντέλο δεν
είναι αποσυνθέσιµο όταν µε την αποκοπή ή πρόσθεση ενός δεσµού δηµιουργούνται
άχορδοι κύκλοι µήκους 4 και άνω.
4.12 Αποσυνθέσεις και αποσυνθεσιµότητα
Μια αξιοσηµείωτη επιτυχία των γραφικών µοντέλων είναι η αναγνώριση εκείνων των
λογαριθµικών-γραµµικών µοντέλων που κατέχουν εκτιµητές µέγιστης πιθανοφάνειας
σε αναλυτική µορφή: τα αποσυνθέσιµα µοντέλα. Για παράδειγµα, αποδεικνύεται ότι
το µοντέλο που βασίζεται στην κλάση των συναρτήσεων πυκνότητας για τις οποίες το
γράφηµα ανεξαρτησίας είναι µια αλυσίδα Markov [90], όπως στο παρακάτω
παράδειγµα, έχει άµεσους εκτιµητές, ενώ εκείνο που βασίζεται στον άχορδο κύκλο
τεσσάρων κόµβων δεν έχει. Γιατί ισχύει αυτό; Αποσυνθέσιµες συναρτήσεις
πυκνότητας δέχονται εκτιµητές µέγιστης πιθανοφάνειας που µπορούν να
υπολογιστούν χωρίς τη χρήση αριθµητικών µεθόδων, επιτρέποντας την αναλυτική
µελέτη των ιδιοτήτων τους. Στην πραγµατικότητα τα αποσυνθέσιµα µοντέλα
κατέχουν πολλές άλλες ενδιαφέρουσες ιδιότητες και µπορεί κανείς να πει ότι ένα
94
σηµαντικό µέρος, αν όχι το σύνολο, της πληροφορίας σχετικά µε τη δοµή των
αλληλεπιδράσεων ενός k-διάστατου τυχαίου διανύσµατος µπορεί να εξαχθεί
αποκλειστικά προσαρµόζοντας αποσυνθέσιµα µοντέλα.
Μια αλυσίδα Markov κατέχει την ιδιότητα ότι η συνδυαστική κατανοµή της µπορεί
απλά να αποσαφηνιστεί υπό την προϋπόθεση ότι είναι δεδοµένο το άµεσο παρελθόν.
Για παράδειγµα, ένα πεπερασµένο τµήµα του γραφήµατος ανεξαρτησίας µιας
αλυσίδας Markov είναι
t-2
t-1
t
t+1
και η συνδυαστική πυκνότητα αυτών των µεταβλητών παραγοντοποιείται σύµφωνα
µε την:
f t −2,t −1,t ,t +1 = f t +1|t f t|t −1 f t −1|t −2 f t −2
Όχι µόνον υπάρχει µια ανάστροφη παραγοντοποίηση ξεκινώντας από τα δεξιά του
γραφήµατος, αλλά επίσης και µια ορθή παραγοντοποίηση βασισµένη στη γνώση του
άµεσου µέλλοντος, ξεκινώντας από τα αριστερά. Αντίθετα, ξεκινώντας από το µέσον
δεν οδηγούµαστε σε πλήρη παραγοντοποίηση της συνάρτησης πυκνότητας.
Η ύπαρξη µιας τέτοιας παραγοντοποίησης είναι ενδιαφέρουσα για πολλούς λόγους:
•
περιορίζοντας το σύνολο των δεσµεύσεων απλοποιείται η ερµηνεία του
µοντέλου, και συγκεκριµένα τη δοµή των αλληλεπιδράσεων,
•
επιτρέπει τον ορισµό των µοντέλων µέσω δεσµευµένων πιθανοτήτων και όχι
µέσω συνδυαστικών πιθανοτήτων,
•
οι διαδικασίες συµπερασµατολογίας που βασίζονται στη συνάρτηση
πιθανοφάνειας για µοντέλα που επιδέχονται πλήρη παραγοντοποίηση είναι
σχετικά απλές,
•
η υψηλών διαστάσεων συνδυαστική κατανοµή, ή το σύνολο των
παρατηρήσεων, µπορεί να αναχθεί σε συνιστώσες λιγότερων διαστάσεων, µια
ιδιαίτερα σηµαντική πρακτική παράµετρος του προβλήµατος, και
•
µέσω µιας τέτοιας παραγοντοποίησης βρίσκουµε διέξοδο στην αυστηρή
παραδοχή της αµοιβαίας ανεξαρτησίας ώστε να διατυπώσουµε θεωρήµατα
του τύπου του κεντρικού οριακού θεωρήµατος.
Αυτές οι επισηµάνσεις επεκτείνονται σε τυχαία πεπερασµένα γραφήµατα µέσω της
ανάπτυξης µια θεωρίας αποσυνθέσεων. Ένα κοµµάτι της πληροφορίας που µεταφέρει
το γράφηµα ανεξαρτησίας είναι το κατά πόσον η κατανοµή που αντιστοιχεί στο
γράφηµα µπορεί να παραγοντοποιηθεί ή να αποσυντεθεί σε απλούστερες
περιθωριακές κατανοµές. Οικογένειες πλήρως παραγοντοποι-ησίµων συναρτήσεων
πυκνότητας µε δεδοµένο γράφηµα ανεξαρτησίας είναι γνωστές ως αποσυνθέσιµα
µοντέλα. Η χαρακτηριστική ιδιότητα των γραφηµάτων τους είναι η τριγωνοποίηση
και παρατηρούµε ότι τα τριγωνοποιηµένα γραφήµατα αποτελούν γενίκευση των
αλυσίδων Markov. Η θεωρία επίσης παρέχει ένα γενικότερο κριτήριο συρρίκνωσης
(collapsibility) που καθορίζει αν συρρικνώνοντας µια κατανοµή πολλών διαστάσεων
σε συγκεκριµένες µεταβλητές θα οδηγούσε σε παραπλανητικές ερµηνείες µεταξύ των
µεταβλητών που αποµένουν.
95
4.12.1 Παραγοντοποίηση
Το γράφηµα ανεξαρτησίας αποσαφηνίζει τη δοµή των αλληλεπιδράσεων ενός
συνόλου µεταβλητών ΧΚ = (Χ1, Χ2, …, Χk). Η τοπική ιδιότητα Markov αποδεικνύει
την ορθότητα της άµεσης διαισθητικής ερµηνείας αυτής της πληροφορίας: ότι µη
γειτονικές µεταβλητές είναι ανεξάρτητες υπό τη δέσµευση µόνον του συνόλου που τις
διαχωρίζει. Το γράφηµα τονίζει σύνολα µεταβλητών που αλληλεπιδρούν και µπορεί
να προτείνει τρόπους µέσω των οποίων το πιθανοκρατικό µοντέλο µπορεί να
παραγοντοποιηθεί. Αυτό αποτελεί και την εστία ενδιαφέροντός µας εδώ.
Παράδειγµα:
Έστω ότι k=4 και θεωρήστε µια γενική κλάση συναρτήσεων πυκνότητας για το
διάνυσµα Χ = (Χ1, Χ2, Χ3, Χ4), της µορφής:
log f1234 ( x) = h12 ( x) + h234 ( x) ,
όπου οι συναρτήσεις h είναι συναρτήσεις προβολής συντεταγµένων, δηλαδή η h12(x)
είναι συνάρτηση µόνον των (x1, x2) και η h234(x) είναι συνάρτηση των (x2, x3, x4). Οι
συναρτήσεις h λέγονται αλληλεπιδράσεις, ή όροι αλληλεπίδρασης. Υποτίθεται ότι
αυτές οι συναρτήσεις συµπεριφέρονται αρκετά καλά ώστε η f1234(x) να είναι µια
συνάρτηση πυκνότητας πιθανότητας και ότι το x παίρνει τιµές στο Καρτεσιανό
γινόµενο των τεσσάρων συνόλων που περιλαµβάνουν τις δυνατές τιµές για κάθε
xi.
Το
κριτήριο
παραγοντοποίησης
µας
λέει
ότι
συντεταγµένη
1 ╨ 3| {2, 4} και 1 ╨ 4| {2, 3} και κατά συνέπεια το γράφηµα ανεξαρτησίας είναι:
1
2
4
3
Τώρα θεωρήστε ότι παραγοντοποιούµε την πυκνότητα στο γινόµενο των
περιθωριακών κατανοµών. Η περιθωριακή πυκνότητα του (Χ1, Χ2) λαµβάνεται
ολοκληρώνοντας την f1234(x) ως προς τα (x3, x4):
f12 ( x1 , x 2 ) = e h 12( x1 , x2 ) ∫ e
h 234 ( x2 , x3 , x4 )
dx3 dx4 =e
h 12 ( x1 , x2 ) + g 2 ( x2 )
,
ή πιο απλά f12 = e h 12 + g 2 , όπου το g2 είναι συνάρτηση µόνον του x2.
Μια παρόµοια ολοκλήρωση δίνει:
f 234 = e
g '2 + h 234
,
όπου το g’2 είναι συνάρτηση µόνον του x2 επίσης. Ολοκληρώνοντας αυτή την
περιθωριακή πυκνότητα ως προς τις µεταβλητές 3 και 4, η πυκνότητα του Χ2 είναι:
f 2 = e g '2 + g 2
Τελικά, αντικαθιστώντας τους όρους h12 και h234 στο ανάπτυγµα αλληλεπίδρασης
παίρνουµε την παραγοντοποίηση της συνδυαστικής πυκνότητας σε όρους
περιθωριακών πυκνοτήτων:
96
f1234 =
f12 f 234
f2
∆εν έχει λοιπόν σηµασία η ακριβής φύση των όρων αλληλεπίδρασης αλλά ο τρόπος
µε τον οποίο δοµείται το ανάπτυγµα αλληλεπίδρασης.
Μπορούµε να κάνουµε µια σειρά από σχόλια σ’ αυτό το σηµείο. Πρώτον, οι
παράγοντες στην παραγοντοποίηση δεν είναι τυχαίες συναρτήσεις αλλά περιθωριακές
συναρτήσεις πυκνότητας πιθανότητας. ∆εύτερον, είναι ενδιαφέρον να γνωρίζουµε αν
η παραγοντοποίηση είναι µοναδική ή εξαρτάται από τη σειρά µε την οποία
εφαρµόζουµε τις κατά ζεύγη ανεξαρτησίες. Τρίτον, είµαστε σε θέση να
χαρακτηρίσουµε εκείνα τα γραφήµατα για τα οποία η παραγοντοποίηση είναι πλήρης,
υπό την έννοια ότι µια σχέση ανεξαρτησίας για κάθε ζεύγος µη γειτονικών κόµβων
χρησιµοποιείται στην παραγοντοποίηση της συνάρτησης πυκνότητας;
Παράδειγµα:
Υποθέστε ότι το διάνυσµα Χ = (Χ1, Χ2, Χ3, Χ4) έχει το γράφηµα ανεξαρτησίας:
1
2
3
4
Υπάρχουν τρία ζεύγη µη γειτονικών κόµβων: (1, 3), (1, 4), (2, 4) που αντιστοιχούν
στις
τρεις
κατά
ζεύγη
σχέσεις
δεσµευµένης
ανεξαρτησίας
1 ╨ 3|{2, 4}, 1 ╨ 4|{2, 3} και 2 ╨ 4|{1, 3}. Για να απλοποιήσουµε τη συνδυαστική
πυκνότητα f1234 εφαρµόζουµε αυτές τις σχέσεις µε την ακόλουθη σειρά: πρώτα,
εφαρµογή της
(1, 3)
:
1 ╨ 3|{2, 4}
δίνει
f1234 =
f124 f 234
f 24
Τώρα, θεωρήστε το ζεύγος (1, 4). Η ανεξαρτησία 1 ╨ 4|{2, 3} δε µπορεί να
εφαρµοστεί απ’ ευθείας για να απλοποιήσει την f124 επειδή ο κόµβος 3 είναι
απαραίτητος στο σύνολο δεσµεύσεων. Η γενική ιδιότητα Markov, όµως, µας λέει ότι
1 ╨ 4|2, την οποία και χρησιµοποιούµε:
(1, 4)
:
1 ╨ 4|2
δίνει
f1234 =
f12 f 24 f 234 f12 f 234
=
f 2 f 24
f2
δίνει
f1234 =
f12 f 234 f12 f 23 f 34
=
f2
f2 f3
Τελικά, για το ζεύγος (2, 4),
(2, 4)
:
2 ╨ 4|3
Μια σχέση ανεξαρτησίας για κάθε ένα ζεύγος µη γειτονικών κόµβων έχει
χρησιµοποιηθεί, άρα η πυκνότητα έχει πλήρως παραγοντοποιηθεί. Εύκολα µπορούµε
να ελέγξουµε ότι η παραγοντοποίηση είναι µοναδική: κάθε µια από τις 3! = 6
διατάξεις των µη γειτονικών ζευγών οδηγεί στην ίδια απάντηση.
97
Απλοποίηση της αναδροµικής παραγοντοποίησης
Στα προηγούµενα παραδείγµατα, κάθε βήµα στη διαδικασία παραγοντοποίησης
προκύπτει από την εφαρµογή µιας κατά ζεύγη σχέσης δεσµευµένης ανεξαρτησίας που
είναι έµφυτη στον ορισµό του γραφήµατος ανεξαρτησίας. Υπάρχει µια συµµετρία
µεταξύ των δύο κόµβων σε κάθε ζεύγος και µια µη συµµετρική προσέγγιση είναι να
χρησιµοποιήσουµε σχέσεις ανεξαρτησίας που προκύπτουν από την εφαρµογή της
τοπικής Markov ιδιότητας του γραφήµατος ανεξαρτησίας. Υπενθυµίζουµε στον
αναγνώστη ότι οι ιδιότητες Markov είναι ισοδύναµες.
Υποθέστε ότι µας δίνεται µια συγκεκριµένη διάταξη των
1, 2, …, k και θεωρήστε την ταυτότητα αναδροµικής παραγοντοποίησης
κόµβων
f12Kk = f1|2Kk f 2|3Kk L f k −1|k f k
που ικανοποιείται από κάθε συνάρτηση πυκνότητας συνδυαστικής πιθανότητας. Κατά
την εφαρµογή αυτής της παραγοντοποίησης είναι δυνατόν ο κόµβος 1 να είναι
ανεξάρτητος των k-1 άλλων κόµβων, ο κόµβος 2 να είναι ανεξάρτητος των k-2 άλλων
κόµβων κ.ο.κ. και επίσης
k
k − 1 + k − 2 + L + 3 + 2 + 1 =  
2
που είναι ο µέγιστος δυνατός αριθµός σχέσεων δεσµευµένης ανεξαρτησίας.
Παράδειγµα:
Θεωρήστε την απλή αλυσίδα Markov
1
2
3
4
5
που καθορίζεται από 6 κατά ζεύγη δεσµευµένες ανεξαρτησίες. ∆ιαβάζοντας το
γράφηµα από αριστερά προς τα δεξιά και εφαρµόζοντας τις ανεξαρτησίες που
απορρέουν από την τοπική ιδιότητα Markov, µπορούµε να απλοποιήσουµε την
ταυτότητα αναδροµικής παραγοντοποίησης:
f12345 = f1 | 2345 f 2 | 345 f 3 | 45 f 4 | 5 f 5 .
Η πρώτη σχέση ανεξαρτησίας είναι 1 ╨ {3, 4, 5} | 2 που σηµαίνει ότι f1|2345 = f1|2. Με
επαναλαµβανόµενη εφαρµογή οδηγούµαστε στην
f12345 = f1 | 2 f 2 | 3 f 3 | 4 f 4 | 5 f 5
Ακριβώς τρεις κατά ζεύγη ανεξαρτησίες χρησιµοποιούνται για να απλοποιηθεί η
f1|2345 στην f1|2, δύο για να απλοποιηθεί η f2|345 στην f2|3 και µία για την απλοποίηση
της f3|45 στην f3|4. Συνολικά 3+2+1=6 σχέσεις όσοι ακριβώς δεσµοί είναι απόντες από
το γράφηµα.
Σηµειώστε ότι η διάταξη 5, 4, 3, 2, 1 επίσης οδηγεί σε απλοποίηση που
εκµεταλλεύεται όλους τους απόντες δεσµούς αλλά εάν επιλέξουµε τη διάταξη 3, 2, 4,
1, 5, τότε µόνον 2+1=3 σχέσεις ανεξαρτησίας µπορούν να εφαρµοστούν:
f12345 = f 3 | 2415 f 2 | 415 f 4 | 15 f1 | 5 f 5 = f 3 | 24 f 2 | 41 f 4 | 15 f1 | 5 f 5
98
Φαίνεται λοιπόν ότι πλήρης παραγοντοποίηση δεν επιτυγχάνεται µε όλες τις πιθανές
διατάξεις των κόµβων.
4.12.2 Μερικές παραγοντοποιήσεις: Αποσυνθέσεις
Υπάρχει µια αποσύνθεση του τυχαίου διανύσµατος Χ, ή ισοδύναµα, το Χ είναι
αναγώγιµο, εάν και µόνον εάν υπάρχει µια διαµέριση του Χ σε
(Χα, Χb, Xc) τέτοια ώστε:
•
Χb ╨ Xc|Χα και κανένα από τα σύνολα b, c δεν είναι κενά, και
•
το υπο-γράφηµα του α στο γράφηµα ανεξαρτησίας τού Χ είναι πλήρες.
Εάν αυτά ισχύουν, τότε οι συνιστώσες του Χ είναι οι Χαb = (Xa, Xb) και
Xac = (Xa, Xc). Εάν µια τέτοια αποσύνθεση δεν υπάρχει, τότε το Χ ονοµάζεται
ανηγµένο.
Ισοδύναµα, λέµε ότι η συνάρτηση πυκνότητας fK είναι αναγώγιµη στις fαb και facκαι
ότι το γράφηµα ανεξαρτησίας G είναι αναγώγιµο στα υπο-γραφήµατα α∪b και α∪c.
Το γράφηµα ανεξαρτησίας κάθε µιας από τις συνιστώσες είναι το αντίστοιχο υπογράφηµα του G.
Μια επιπλέον δικαιολόγηση για τον ορισµό της αποσύνθεσης προέρχεται από τον
ακόλουθο συλλογισµό: υποθέστε ότι το γράφηµα Χ = (Xa, Xb) διαχωρίζεται σε δύο
αποσυνδεδεµένα υπο-γραφήµατα, εκείνο του Χα, και εκείνο του Χb. Η γενική
ιδιότητα Markov µας λέει ότι Χα ╨ Χb και άρα το βάρος συγκεντρώνεται στις
αλληλεπιδράσεις µέσα στο Χα και τις αλληλεπιδράσεις µέσα στο Χb.
Η ανεξαρτησία α ╨ b εκφρασµένη ως fb|a = fb µας δείχνει ότι η συµπερασµατολογία
που αφορά στο διάνυσµα Χb δε χρειάζεται να εξάγεται υπό τη δέσµευση της τιµής
του Χα, και άρα οι δηλώσεις σχετικά µε το Χb είναι γενικές παρά τοπικές. Η ανάλυση
ενός αντικειµένου p+q διαστάσεων ανάγεται στην εξέταση ενός αντικειµένου p
διαστάσεων και ενός αντικειµένου q διαστάσεων, που αποτελεί πολύ απλούστερο
πρόβληµα. Η ταυτολογία fαb = fα fb|a αντικαθίσταται από την fαb = fα fb.
Γενικότερα, όταν Κ = α∪b∪c, εάν b ╨ c|α, η συνδυαστική πυκνότητα
f f
παραγοντοποιείται σε f K = ab ac και το γράφηµα p+q+r διαστάσεων ανάγεται
fa
στην ανάλυση ενός γραφήµατος p+q διαστάσεων και ενός p+r διαστάσεων. Η
ανεξαρτησία f b | a ∪ c = f b | a επιβεβαιώνει ότι συµπεράσµατα που αφορούν το
διάνυσµα Xb δε χρειάζεται να δεσµεύονται από το Xc. Η απαίτηση το υπο-γράφηµα
του α να είναι πλήρες εξασφαλίζει ότι δεν υπάρχουν πρόσθετοι περιορισµοί
ανεξαρτησίας στα στοιχεία του Xa, και έτσι αυτή η παραγοντοποίηση περιέχει όλη
την πληροφορία σχετικά µε τη συνδυαστική κατανοµή των (Xa, Xb, Xc).
4.12.3 Ανηγµένες συνιστώσες
Τα τυχαία διανύσµατα X d1 , X d 2 ,L X d m αποτελούν τις οριακές ανώτατες (maximal)
ανηγµένες συνιστώσες του Χ εάν και µόνον εάν
99
•
κάθε διάνυσµα X di είναι ανηγµένη συνιστώσα του Χ,
•
κανένα υποσύνολο di δεν είναι γνήσιο υποσύνολο οποιουδήποτε άλλου dj , και
•
d1 ∪ d 2 ∪ K ∪ d m = K
Για παράδειγµα, η επιλογή των υποσυνόλων α = {2}, b = {1}, c = {3, 4} δίνει µια
αποσύνθεση αφού ούτε το b ούτε το c είναι κενά, δεν υπάρχουν στοιχεία του c
γειτονικά σε στοιχεία του b και το α είναι πλήρες. Το γράφηµα ανεξαρτησίας
αποσυντίθεται,
1
1
από
2
4
2
στα
2
4
3
3
Οι συνιστώσες αυτής της αποσύνθεσης είναι οι (Χ1, Χ2) και (Χ2, Χ3, Χ4). Καµία από
αυτές δεν επιδέχεται περαιτέρω αναγωγής και πληρούν όλες τις προϋποθέσεις των
οριακά ανηγµένων συνιστωσών.
Εάν αντίθετα η επιλογή των συνόλων γίνει ως εξής: α = {2, 3}, b = {1}, c = {4}, τότε
το γράφηµα ανάγεται στα
1
2
και
2
4
3
3
και η συνιστώσα (Χα, Χb) = (Χ1, Χ2, Χ3) ανάγεται περαιτέρω, οπότε οι ανηγµένες
συνιστώσες είναι οι:
1
2
2
2
3
100
4
3
Όµως το υποσύνολο (Χ2, Χ3) του Χ είναι γνήσιο υποσύνολο του υποσυνόλου (Χ2, Χ3,
Χ4) και άρα δεν αποτελούν οριακές ανηγµένες συνιστώσες.
Η δεύτερη απαίτηση του ορισµού, ότι τα υποσύνολα είναι κατά ζεύγη µη συγκρίσιµα,
εξασφαλίζει ότι είναι οριακά και αποκλείει τις ενθέσεις (nesting). Η τοµή
οποιουδήποτε ζεύγους είτε είναι το κενό σύνολο ή έχει πλήρες υπο-γράφηµα. Τώρα
γίνεται αντιληπτό ότι το σύνολο των οριακά ανηγµένων συνιστωσών που παράγονται
από µια σειρά αποσυνθέσεων θα µπορούσε να είναι διαφορετικό από αυτό που
παράγεται από µια άλλη αποσύνθεση. Κάτι τέτοιο όµως δεν ισχύει.
Μια ανηγµένη συνιστώσα ενός τυχαίου διανύσµατος Χ που παράγεται από µια σειρά
αποσυνθέσεων διατηρείται σε οποιαδήποτε άλλη σειρά αποσυνθέσεων του Χ.
Παραγοντοποίηση ανηγµένων συνιστωσών
Οι οριακές ανηγµένες συνιστώσες του Χ που αντιστοιχούν στα υποσύνολα
{d1 , d 2 , K, d m } είναι µοναδικές και η συνάρτηση πυκνότητας του Χ, fK,
παραγοντοποιείται κατά µοναδικό τρόπο ως εξής:
fK =
f d1 f d 2 K f d m
g
όπου η συνάρτηση g είναι γινόµενο περιθωριακών συναρτήσεων πυκνότητας,
g = ∏ f a , στο οποίο κάθε υποσύνολο α είναι τοµή ανηγµένων συνιστωσών και
πλήρες.
4.12.4 Αποσυνθεσιµότητα
Είδαµε νωρίτερα τις «καλές» ιδιότητες που έχουν τα αποσυνθέσιµα µοντέλα. Ένας
αναδροµικός ορισµός, που όµως είναι εξ’ ίσου ισοδύναµος γιατί αναφερόµαστε σε
πεπερασµένα γραφήµατα, είναι ότι ένα µοντέλο είναι αποσυνθέσιµο εάν οποιοδήποτε
από τα εξής ισχύει: (1) είναι πλήρες, (2) µπορεί να αναχθεί σε δύο αποσυνθέσιµες
συνιστώσες.
Καταλήγουµε εποµένως στον ορισµό:
Ένα k-διάστατο τυχαίο διάνυσµα Χ, ή η συνάρτηση πυκνότητάς του, είναι
αποσυνθέσιµο εάν και µόνον εάν υπάρχει µια ακολουθία αποσυνθέσεων σε πλήρεις
ανηγµένες συνιστώσες.
Τα αποσυνθέσιµα τυχαία διανύσµατα έχουν γραφήµατα ανεξαρτησίας που
αποτελούνται µόνον από πλήρη υπο-γραφήµατα. Άρα οι οριακές ανηγµένες
συνιστώσες ενός αποσυνθέσιµου µοντέλου είναι οι οµάδες του γραφήµατος.
Αντίστροφα, αν κάποια από τις ανηγµένες συνιστώσες ενός µοντέλου δεν είναι
πλήρης, τότε το µοντέλο δεν είναι αποσυνθέσιµο.
Είδαµε ότι υπάρχουν δυνατά διακεκριµένα γραφήµατα ανεξαρτησίας για ένα kδιάστατο τυχαίο διάνυσµα. Ακόµα και για µικρές τιµές του k, ο αριθµός αυτός είναι
πολύ µεγάλος. Για παράδειγµα, για k=4 υπάρχουν 64 µοντέλα ενώ για k=6 τα µοντέλα
είναι 32768. Ο αριθµός των ανηγµένων συνιστωσών, που δηµιουργούν όλα τα
αποσυνθέσιµα µοντέλα είναι µόνον 2k. Έχει αποδειχθεί ότι ο αριθµός των
αποσυνθέσιµων µοντέλων δε µπορεί να υπολογιστεί αναλυτικά.
101
Ο άµεσος τρόπος ελέγχου για το κατά πόσον ένα δεδοµένο γράφηµα ανεξαρτησίας
αποτελεί γράφηµα συνάρτησης πυκνότητας ενός αποσυνθέσιµου µοντέλου, είναι να
το ανάγουµε στις ανηγµένες συνιστώσες του και να ελέγξουµε αν κάθε µια από αυτές
είναι πλήρης. Μερικές φορές είναι συντοµότερο να βρούµε έναν άχορδο κύκλο
µήκους µεγαλύτερο από 3, οπότε αποφαινόµαστε ότι το µοντέλο δεν είναι
αποσυνθέσιµο.
Αποσυνθέσιµα µοντέλα και τριγωνοποιηµένα γραφήµατα
Ένα µη κατευθυντικό γράφηµα λέγεται τριγωνοποιηµένο εάν και µόνον εάν όλοι οι
άχορδοι κύκλοι που πιθανόν υπάρχουν έχουν µήκος µικρότερο του 4.
Παράδειγµα:
Το γράφηµα (α) παρακάτω δεν είναι τριγωνοποιηµένο επειδή υπάρχει ο άχορδος
κύκλος 1, 2, 3, 4, 1 µε µήκος 4 (φανταστείτε ότι «σηκώνουµε» τον κόµβο 5 πάνω από
τη σελίδα). Τα γραφήµατα (β) και (γ) είναι τριγωνοποιηµένα.
Το θεώρηµα της τριγωνοποίησης λέει: Το τυχαίο διάνυσµα Χ (ή η συνάρτηση
πυκνότητάς του) είναι αποσυνθέσιµο εάν και µόνον εάν το γράφηµα ανεξαρτησίας
του G είναι τριγωνοποιηµένο.
Πλήρεις παραγοντοποιήσεις και απόντες δεσµοί
Μέχρι τώρα έχουµε ορίσει ένα µοντέλο Χ ως αποσυνθέσιµο αν µπορεί να αναχθεί σε
ένα σύνολο πλήρων ανηγµένων συνιστωσών, που αναγνωρίζονται ως οι οµάδες του
γραφήµατος, και κατά συνέπεια έχουµε δει ότι η συνάρτηση πυκνότητας του
µοντέλου εκφράζεται µε µοναδικό τρόπο ως το γινόµενο των περιθωριακών
συναρτήσεων πυκνότητας επί των οµάδων.
Αποδεικνύεται ότι η συνάρτηση πυκνότητας για ένα k-διάστατο τυχαίο διάνυσµα Χ
είναι αποσυνθέσιµη εάν και µόνον εάν είναι πλήρως παραγοντοποιήσιµη ως προς τα
µη γειτονικά ζεύγη κόµβων στο γράφηµα ανεξαρτησίας.
1
2
5
3
(α)
4
4
1
3
2
3
2
5
6
1
(β)
(γ)
Ένα τελευταίο σχόλιο αφορά στη σχέση µεταξύ αποσυνθέσιµων µοντέλων και
άµεσων εκτιµητών µέγιστης πιθανοφάνειας. Κατά την προσαρµογή γραφικών
µοντέλων στην Πολυωνυµική κατανοµή, οι εξισώσεις πιθανοφάνειας
χαρακτηρίζονται από την ισότητα µεταξύ παρατηρηθεισών και προσαρµοσµένων
περιθωριακών πυκνοτήτων για όλα τα περιθώρια που αντιστοιχούν σε οµάδες στο
γράφηµα. Αν το µοντέλο είναι αποσυνθέσιµο, ώστε η παραγοντοποίηση της
συνδυαστικής συνάρτησης πυκνότητας να είναι πλήρης, ο εκτιµητής µέγιστης
πιθανοφάνειας δίνεται από το γινόµενο των εκτιµητών των περιθωριακών
πυκνοτήτων, που δεν είναι παρά το γινόµενο των παρατηρηθέντων περιθωρίων.
102
4.12.5 Συρρικνωσιµότητα
Το γράφηµα ανεξαρτησίας ενός k-διάστατου διανύσµατος δε δίνει συνήθως µια
πλήρη περιγραφή της δοµής ανεξαρτησίας του. Ενώ η γενική ιδιότητα Markov µας
εξασφαλίζει αρκετές, µπορεί να µην εξαιρεί άλλες δυνατότητες και ένας µόνιµος
φόβος στις πραγµατικές εφαρµογές είναι µήπως η αλληλεπίδραση που παρατηρείται
στο Χα περιθώριο οφείλεται αποκλειστικά στην περιθωριοποίηση του πλήρους
διανύσµατος (Χα, Χb) επί του Χb.
Η συρρικνωσιµότητα ασχολείται µε τις ιδιότητες της περιθωριακής πυκνότητας, fα,
όταν η συνδυαστική κατανοµή, fαb, ανήκει σε ένα γραφικό µοντέλο. Υπάρχει µια
σειρά από προβλήµατα για µελέτη:
Κλειστότητα: Ανήκει η περιθωριακή κατανοµή του Χα στην ίδια παραµετρική
οικογένεια κατανοµών όπως η ΧΚ;
Γραφική συρρικνωσιµότητα: Ποια συµπεράσµατα µπορούν να εξαχθούν σχετικά µε το
γράφηµα ανεξαρτησίας του Χα από τη γνώση που έχουµε για το γράφηµα του Χαb;
Παραµετρική συρρικνωσιµότητα: Είναι οι παράµετροι αλληλεπίδρασης στην
περιθωριακή κατανοµή ίσες µε τις αντίστοιχες παραµέτρους στη συνδυαστική
κατανοµή, ή έστω µηδενίζονται και οι δύο µαζί;
Αντιµεταθετικότητα προσαρµογής και περιθωριοποίησης: Είναι δυνατόν η
προβλεπόµενη κατανοµή, που εξάγεται από την περιθωριοποίηση του
προσαρµοσµένου µοντέλου της συνδυαστικής κατανοµής, να αναπαραχθεί µε την
προσαρµογή ενός µοντέλου στα περιθωριακά δεδοµένα;
Συρρικνωσιµότητα στατιστικών δοκιµών: Είναι δυνατόν οι τιµές των στατιστικών
συναρτήσεων, όπως οι αποκλίνουσες αποκοπής δεσµών, να αναπαραχθούν στην
περιθωριακή κατανοµή;
Οι διάφορες αυτές εκδοχές συρρικνωσιµότητας είναι κατά κάποιον τρόπο ιεραρχικές
και για παράδειγµα δε µπορεί κανείς να ελέγχει για αντιµεταθετικότητα αν η
κατανοµή δεν είναι κλειστή.
Η συρρικνωσιµότητα είναι σηµαντική για δύο λόγους. Ο πρώτος είναι ότι
κοµµατιάζει ένα µεγάλο πρόβληµα σε µικρότερα. Στην πράξη, µια µελέτη µπορεί να
δέχεται τις παρατηρήσεις πολλών µεταβλητών αλλά να χρησιµοποιεί µόνο µερικές
από αυτές σε οποιαδήποτε ανάλυση των δεδοµένων. Αυτό µπορεί να συµβαίνει είτε
λόγω της µείωσης της πολυπλοκότητας (αλληλεπιδράσεις υψηλών διαστάσεων είναι
δύσκολα ερµηνεύσιµες) είτε λόγω λίγων δεδοµένων (η απαίτηση για πλήρεις
µετρήσεις σε όλες τις µεταβλητές µιας µελέτης δεν είναι πάντα εφικτή).
Ο δεύτερος λόγος είναι ότι τα µοντέλα παλινδρόµησης (regression) και τα
αναδροµικά (recursive) µοντέλα διατυπώνονται κατά φυσικό τρόπο µε όρους
δεσµευµένων και περιθωριακών κατανοµών. H συρρικνωσιµότητα ελέγχει τη σχέση
µε το συνδυαστικό µοντέλο και άρα ελέγχει εάν το µοντέλο παλινδρόµησης µπορεί να
εκτιµηθεί προσαρµόζοντας τη συνδυαστική κατανοµή. Αντί να αναπτύξουµε νέους
αλγόριθµους προσαρµογής της fb|a απ’ ευθείας, µπορούµε να το κάνουµε έµµεσα,
χρησιµοποιώντας καθιερωµένες µεθόδους προσαρµογής των fab και fa .
103
Γραφική συρρικνωσιµότητα
Η γραφική συρρικνωσιµότητα ορίζεται ως εξής:
Το διάνυσµα Χ = Χαb = (Χα, Χb) είναι γραφικά συρρικνώσιµο επί του Χα ως προς Xb
εάν και µόνον εάν το περίβληµα κάθε συνδεδεµένης συνιστώσας τού Χb είναι πλήρες
στο G.
Με άλλα λόγια, το µοντέλο συρρικνώνεται ως προς κάποιες µεταβλητές αν το
περίβληµα κάθε µιας από τις µεταβλητές αυτές ανήκει στη δηµιουργό κλάση του
µοντέλου.
Αποδεικνύεται ότι, αν το Χαb = (Χα, Χb) είναι γραφικά συρρικνώσιµο ως προς Xb, τότε
οι δεσµευµένες ανεξαρτησίες µεταξύ των στοιχείων του
Xα στο γράφηµα
ανεξαρτησίας του (Χα, Χb) διατηρούνται στο γράφηµα ανεξαρτησίας του Xα.
Παράδειγµα
Έστω ότι το γράφηµα ανεξαρτησίας G του Χ έχει το παρακάτω διάγραµµα:
5
6
7
8
9
1
2
3
4
Αυτό το γράφηµα, που µπορεί να περιγραφεί ως [156][12][13][67][78][89][4]:
•
είναι συρρικνώσιµο ως προς b = {5} επειδή το περίβληµά του bd(5) = {1, 6}
είναι πλήρες στο G, ή και επειδή ο όρος 16 εµπεριέχεται στον [156].
•
δεν είναι συρρικνώσιµο ως προς b = {8} επειδή το περίβληµά του είναι {7, 9}
που δεν είναι γειτονικοί,
•
είναι συρρικνώσιµο ως προς b = {5, 8, 9} επειδή τα συνδεδεµένα υπογραφήµατα του b είναι τα {5} και {8, 9} και το περίβληµα καθενός από αυτά
είναι πλήρες, και
•
δεν είναι συρρικνώσιµο ως προς b = {5, 8} γιατί ο όρος 58 δεν ανήκει στη
δηµιουργό κλάση.
Όπως φαίνεται από το παραπάνω παράδειγµα, µια επαναδιατύπωση του ορισµού είναι
ότι το Χ είναι συρρικνώσιµο επί του Χα εάν και µόνον εάν υπάρχει µια ακολουθία
αποσυνθέσεων της οποίας το Χα αποτελεί συνιστώσα. Εάν υπάρχει µια αποσύνθεση
σε συνιστώσες Xab και Xac τότε το Χ είναι γραφικά συρρικνώσιµο σε οποιαδήποτε
συνιστώσα.
Η αντιµεταθετικότητα της προσαρµογής και της περιθωριοποίησης συνοψίζεται στο
διάγραµµα
104
προσαρµογή
fˆa b
fab
περιθωριοποίηση
περιθωριοποίηση
fˆa
fa
προσαρµογή
Το µοντέλο είναι υπ’ αυτή την έννοια συρρικνώσιµο αν, για παράδειγµα, οι
προσαρµοσµένες πιθανότητες κελιών ή η γενικευµένη στατιστική συνάρτηση λόγου
πιθανοφάνειας (generalised likelihood ratio test statistic) είναι τα ίδια, άσχετα από τη
σειρά µε την οποία προσαρµόζουµε και συρρικνώνουµε. Η σηµασία της γραφικής
συρρικνωσιµότητας είναι ότι µαζί µε την κλειστότητα αποτελούν τις αναγκαίες και
ικανές συνθήκες για την αντιµεταθετικότητα των εκτιµητών µέγιστης πιθανοφάνειας.
Η αντιµεταθετικότητα των ελέγχων µέγιστης πιθανοφάνειας απαιτεί
συρρικνωσιµότητα τόσο κάτω από το µοντέλο µηδενικής υπόθεσης όσο και από τα
εναλλακτικά µοντέλα.
Εφαρµογές της συρρικνωσιµότητας
Εάν το µοντέλο Μ είναι συρρικνώσιµο επί του α, ξέρουµε ότι η συνάρτηση
συνδυαστικής πυκνότητας f µπορεί να γραφεί ως
f K = f a fb|a .
Επιπλέον, οι fα και fb|α µπορούν να παραµετροποιηθούν ξεχωριστά, άρα οι εκτιµητές
µέγιστης πιθανοφάνειας ικανοποιούν την
fˆK = fˆa fˆb | a .
Αυτή η σχέση είναι θεµελιώδης, αφού σηµαίνει ότι µπορούµε να εργαστούµε µε
δεσµευµένες κατανοµές µέσα στο πλαίσιο της συνδυαστικής κατανοµής. Εάν το Μ
είναι συρρικνώσιµο επί του α, τότε µπορούµε να χρησιµοποιήσουµε το fˆK , τον
εκτιµητή µέγιστης πιθανοφάνειας κάτω από το Μ για να υπολογίσουµε τόσο τον
ΕΜΠ υπό το Μα µέσω περιθωριοποίησης όσο και τον ΕΜΠ υπό το Μb|α µέσω νέας
κανονικοποίησης. Υπολογίζουµε τις παραµέτρους της fˆa αθροίζοντας πιθανότητες
και εξάγοντας υπο-πίνακες και τις παραµέτρους της fˆb | a κανονικοποιώντας ξανά τις
πιθανότητες,
pb | a =
pab ( xa , xb )
p (x , x )
= ab a b .
∑ p K ( x a , xb ) p a ( x a )
xb
Με βάση αυτή τη θεµελιώδη σχέση, έπεται ότι
105
ˆl = ˆl + ˆl όπου lˆ , lˆ και ˆl οι µεγιστοποιηµένες λογαριθµικές πιθανοφάνειες
a
b|a
a
b|a
υπό τα µοντέλα Μ, Μα και Μb|α.
Αντίστοιχα, υποθέστε ότι έχουµε δύο ένθετα µοντέλα, M 0 ⊆ M 1 , και τα δύο
συρρικνώσιµα επί του α µε το ίδιο περιθωριακό µοντέλο. Από την παραπάνω σχέση
φαίνεται ότι
2(lˆ 1b | a − lˆ 0b | a ) = 2(lˆ 1 − lˆ 0 ) ,
που σηµαίνει ότι η διαφορά των αποκλινουσών στα µοντέλα δεσµευµένης
πιθανότητας είναι η ίδια µε τη διαφορά των αποκλινουσών στα µοντέλα
συνδυαστικής πιθανότητας.
Μια διαφορετικού τύπου εφαρµογή φαίνεται στο επόµενο παράδειγµα. Θεωρήστε το
γράφηµα
3
1
2
4
6
5
και τα δύο µοντέλα, µε και χωρίς το [12]. Και τα δύο µοντέλα είναι συρρικνώσιµα επί
του υποσυνόλου α = {1, 2} µε διαφορετικά περιθωριακά µοντέλα αλλά µε ταυτόσηµα
µοντέλα δεσµευµένης πιθανότητας. Βάσει της προηγούµενης σχέσης, ισχύει ότι
2(lˆ 1 − lˆ 0 ) = 2(lˆ 1a − lˆ 0a ) ,
δηλαδή η δοκιµασία µπορεί να περιοριστεί στον περιθωριακό πίνακα δύο διαστάσεων
X 1 × X 2 ως δοκιµασία της ανεξαρτησίας Χ1 ╨ Χ2.
106
5. ∆ΙΚΤΥΑ ΚΑTΑ BAYES
Προσφέροντας γραφικές µεθόδους για την αναπαράσταση και τη διαχείριση
πιθανοκρατικής γνώσης, τα δίκτυα πεποίθησης ξεπερνούν πολλά από τα φιλοσοφικά
και υπολογιστικά προβλήµατα των rule based συστηµάτων. Οι βασικές τους ιδιότητες
και δυνατότητες µπορούν να συνοψιστούν στα ακόλουθα:
Οι γραφικές µέθοδοι διευκολύνουν την τήρηση συνέπειας και πληρότητας στις
πιθανοκρατικές γνωστικές βάσεις. Περιγράφουν επίσης αρθρωτές (modular)
διαδικασίες απόκτησης γνώσης που ελαττώνουν σηµαντικά τον αριθµό των
αναγκαίων εκτιµήσεων (assessments)
Οι ανεξαρτησίες µπορούν να διαχειριστούν εκπεφρασµένα. Μπορούν να
διαρθρωθούν από έναν ειδικό, να κωδικοποιηθούν γραφικά, να είναι απ’ ευθείας
αναγνωρίσιµες από το δίκτυο και να υποστούν τη διαδικασία της
συµπερασµατολογίας παραµένοντας αριθµητικά ακριβείς.
Οι γραφικές αναπαραστάσεις αποκαλύπτουν ευκαιρίες για αποτελεσµατικούς
υπολογισµούς. Η κατανεµηµένη ανανέωση της πεποίθησης είναι εφικτή σε γνωστικές
δοµές που είναι αρκετά πλούσιες ώστε να επιδεικνύουν αιτιοκρατικές
αλληλεπιδράσεις (π.χ. explaining away).
Ο συνδυασµός προγνωστικής και απαγωγικής συµπερασµατολογίας επιλύει πολλά
από τα προβλήµατα που αντιµετώπισαν τα έµπειρα συστήµατα πρώτης γενιάς και
καθιστά τα δίκτυα πεποίθησης ένα βιώσιµο µοντέλο για γνωστικές διαδικασίες που
απαιτούν τόσο top-down όσο και bottom-up συµπερασµατολογίες.
Η αιτιοκρατική πληροφορία που υπάρχει κωδικοποιηµένη στα δίκτυα πεποίθησης
διευκολύνει την ανάλυση ακολουθιών δράσεων, των συνεπειών τους, των
αλληλεπιδράσεων µε τις παρατηρήσεις και των αναµενόµενων ωφελειών και άρα τη
σύνθεση πλάνων και στρατηγικών υπό καθεστώς απροσδιοριστίας.
5.1 Τα ∆ίκτυα Πεποίθησης ως ειδική περίπτωση γραφικών
µοντέλων
Είδαµε ότι τα γραφικά µοντέλα αποτελούν µια κλάση των στατιστικών µοντέλων που
ορίζονται ως συλλογές δεσµευµένων ανεξαρτησιών που µπορούν να
αναπαρασταθούν από ένα γράφηµα. Κάθε κόµβος υ στο γράφηµα V αντιστοιχεί σε
µια τυχαία µεταβλητή Χυ. Στην περίπτωση των κατευθυντικών γραφηµάτων, οι γονείς
pa(υ) ενός κόµβου υ είναι εκείνοι οι κόµβοι από τους οποίους ένας δεσµός
κατευθύνεται προς τον υ. Οι γονείς θεωρούνται ως οι µόνες µεταβλητές που επιδρούν
άµεσα στον υ και έτσι ο υ είναι ανεξάρτητος από τους κόµβους που δεν είναι
απόγονοί του, µε δεδοµένους τους γονείς του.
Αυτή η ιδιότητα επιβάλλει µια παραγοντοποίηση της συνδυαστικής κατανοµής p(V)
που δίνεται από την
p (V ) = ∏ p(υ | pa (υ ))
υ ∈V
107
Αυτή η κλάση µοντέλων για πρώτη φορά ορίστηκε από τον Kiiveri [75]. Ο
καθορισµός δεσµευµένων ανεξαρτησιών σε µεγάλα γραφήµατα ανεξαρτησίας µπορεί
να είναι πολύ δύσκολο έργο, αλλά οι έδειξαν ότι για τα σύνολα Α, Β και S, υποσύνολα
του V, τα Α και Β είναι ανεξάρτητα µε δεδοµένο το S εάν τα Α και Β διαχωρίζονται
από το S στο «ηθικό» µη-κατευθυντικό γράφηµα που περιέχει τα Α∪Β∪S και τους
γονείς τους. Υπενθυµίζουµε ότι το ηθικό γράφηµα δηµιουργείται αν συνδέσουµε µε
δεσµούς όλους τους κόµβους που µοιράζονται ένα παιδί και κατόπιν µετατρέψουµε
όλους τους δεσµούς από κατευθυντικούς σε µη-κατευθυντικούς.
Στην πιο γενική περίπτωση, οι κατανοµές πιθανότητας µπορούν να έχουν ιδιότητες
δεσµευµένης ανεξαρτησίας πολύ πιο πολύπλοκες από αυτές που µπορούν να
αναπαρασταθούν είτε από ένα κατευθυντικό ή από ένα µη-κατευθυντικό γράφηµα
ανεξαρτησίας. Ωστόσο, είναι πάντα δυνατό να βρούµε ένα γράφηµα για µια
κατανοµή, έτσι ώστε όλες οι υποθέσεις ανεξαρτησίας που συνάγονται από το
γράφηµα να είναι αληθείς για την κατανοµή αυτή. Κατά τον Pearl [109], ένα τέτοιο
γράφηµα ονοµάζεται I-map. Ένα τετριµµένο παράδειγµα θα µπορούσε να είναι ένα
πλήρες µη-κατευθυντικό γράφηµα, το οποίο δεν κάνει καµιά παραδοχή ανεξαρτησίας.
Εποµένως, µπορούµε πάντα να βρούµε ένα γραφικό µοντέλο που δεν κάνει
εσφαλµένες παραδοχές ανεξαρτησίας, µε τη διαφορά ότι έχει περισσότερες
παραµέτρους από όσες χρειάζονται. Εάν ένα γράφηµα είναι I-map για µια κατανοµή,
και κάθε σχέση ανεξαρτησίας στην κατανοµή αναπαρίσταται στο γράφηµα, τότε κατά
τον Pearl ονοµάζεται perfect map της κατανοµής.
Υπάρχουν επίσης κατανοµές τέτοιες ώστε να υπάρχει µη-κατευθυντικό γράφηµα που
να είναι perfect map αλλά να µην υπάρχει κατευθυντικό που να είναι perfect map
και αντίστροφα. Οι δύο αυτοί τύποι γραφηµάτων µπορούν να εκφράσουν διαφορετικά
είδη σχέσεων, µε αποτέλεσµα να τίθεται το ερώτηµα ποιος τύπος θα πρέπει να
χρησιµοποιηθεί για ένα δεδοµένο πρόβληµα.
Σε προβλήµατα όπου προφανώς κάποιες µεταβλητές καθορίζονται πριν από άλλες ή
προκαλούν (αιτιοκρατικά) άλλες, τα κατευθυντικά γραφήµατα επιτρέπουν µια άµεση
αναπαράσταση αυτών των υποθέσεων. Για παράδειγµα αν έχουµε δύο µεταβλητές,
«διάλυση πέτρας νεφρού» και «αποβολή πέτρας νεφρού», είναι σαφές ότι η πρώτη
επηρεάζει ή προκαλεί τη δεύτερη και όχι αντίστροφα, άρα ένας δεσµός µεταξύ των
δύο θα πρέπει να κατευθύνεται από την πρώτη προς τη δεύτερη.
Αντίθετα, µη-κατευθυντικά µοντέλα ταιριάζουν καλύτερα σε προβλήµατα όπου οι
µεταβλητές καθορίζονται ταυτόχρονα, ή ίσως όλες επηρεάζονται από κάποια
µεταβλητή που δεν ανήκει εκπεφρασµένα στο µοντέλο. Για παράδειγµα, δεν έχει
νόηµα να λέµε ότι το χρώµα των µατιών κάποιου επηρεάζει ή προκαλεί το χρώµα των
µαλλιών του και αντίστροφα, και έτσι η σχέση µεταξύ αυτών των µεταβλητών
περιγράφεται καλύτερα µέσω µη-κατευθυντικού δεσµού.
Πολλά προβλήµατα περιέχουν σχέσεις και των δύο τύπων. Σ’ αυτές τις περιπτώσεις,
πιο αρµόζουσα είναι η αναπαράσταση µέσω των αλυσιδωτών γραφηµάτων, που όπως
είδαµε περιέχουν τόσο κατευθυντικούς όσο και µη-κατευθυντικούς δεσµούς.
Θα πρέπει να σηµειώσουµε ότι πέρα από αυτή τη φιλοσοφική θεώρηση, η
κατευθυντικότητα των δεσµών µας δίνει την ευκαιρία να αξιοποιήσουµε το δίκτυο ως
µηχανισµό υπολογισµού της πεποίθησης κάτω από την παρατήρηση νέων δεδοµένων.
Στην περίπτωση αυτή, η κατευθυντικότητα των δεσµών δεν υποδηλώνει κατ’ ανάγκη
αιτιοκρατικές σχέσεις.
108
Προσπαθώντας να συγκρίνουµε τα δίκτυα κατά Bayes µε τα Markov δίκτυα, δίνουµε
απάντηση στο ερώτηµα: Είναι δυνατόν όλες οι σχέσεις εξάρτησης που µπορούν να
αναπαρασταθούν από ένα δίκτυο Markov να αναπαρασταθούν και από ένα κατά
Bayes δίκτυο;
Η απάντηση είναι σαφώς αρνητική, και φαίνεται στα µη-κατευθυντικά γραφήµατα
που δε µπορούν να τριγωνοποιηθούν: µε οποιοδήποτε τρόπο και αν κατευθύνουµε τα
βέλη, θα υπάρχει πάντα ένα ζεύγος µη γειτονικών γονέων κάποιου κόµβου, µια
διαµόρφωση που δίνει ανεξαρτησία των γονέων στα δίκτυα Markov αλλά εξάρτηση
στα δίκτυα κατά Bayes. Από την άλλη πλευρά, κάθε τριγωνοποιηµένο γράφηµα
µπορεί να µετατραπεί σε κατευθυντικό έτσι ώστε οι ουρές κάθε ζεύγους
συγκλινόντων ζευγών να είναι γειτονικοί κόµβοι. Άρα, κάθε µοντέλο σχέσεων
εξαρτήσεως που είναι ισόµορφο σε ένα τριγωνοποιηµένο γράφηµα είναι επίσης
ισόµορφο σε ένα κατευθυντικό γράφηµα. Συµπερασµατικά, η κλάση των
πιθανοκρατικών εξαρτήσεων που µπορούν να αναπαρασταθούν τόσο από ένα
κατευθυντικό όσο και από ένα µη κατευθυντικό γράφηµα αποτελείται από εκείνες τις
εξαρτήσεις που σχηµατίζουν αποσυνθέσιµα µοντέλα, δηλαδή κατανοµές πιθανότητας
των οποίων τα τριγωνοποιηµένα γραφήµατα αποτελούν perfect maps. Οι σχέσεις
αυτές φαίνονται σχηµατικά στην παρακάτω εικόνα.
Κατευθυντικά
γραφήµατα
Τριγωνοποιηµένα
γραφήµατα
Μη Κατευθυντικά
γραφήµατα
Πιθανοκρατικές
εξαρτήσεις
Πεδία Markov
Causal models
Αποσυνθέσιµα
µοντέλα
109
5.2 Τα ∆ίκτυα Πεποίθησης ως υπόστρωµα για τη
δηµιουργία Expert Systems - Συµπερασµατολογία µε
δίκτυα πεποίθησης και διαγράµµατα επιρροής
Μετά την κατασκευή του δικτύου πεποίθησης ή του διαγράµµατος επιρροής στο
σχεσιακό επίπεδο και την αποτίµηση των λεπτοµερειών των πιθανοκρατικών
εξαρτήσεων στο αριθµητικό επίπεδο, µπορούµε να εξάγουµε συµπεράσµατα σχετικά
µε το πώς αλλαγές στην πεποίθηση µιας ή περισσοτέρων προτάσεων θα
τροποποιήσουν την πεποίθηση σε άλλες προτάσεις. Υπάρχουν διάφορες κατηγορίες
συµπερασµατολογίας. Μπορεί να υπολογιστεί η κατανοµή περιθωριακής πιθανότητας
µιας µεταβλητής. Για παράδειγµα, ο καθορισµός της πιθανότητας εµφράγµατος
µυοκαρδίου για ένα συγκεκριµένο ασθενή. Μπορεί να υπολογιστεί η ενηµερωµένη
κατανοµή πιθανότητας µιας µεταβλητής (π.χ. η πιθανότητα διαφόρων τιµών της
«Στεφανιαία νόσου» του παραδείγµατος της παραγράφου 4.3) όταν είναι γνωστή η
τιµή άλλων µεταβλητών (π.χ. «Πόνος στο στήθος» = όχι, «Αγγειογραφία» =
αρνητική). Τέλος, µπορεί να επιλεγεί η καλύτερη απόφαση, όπως αν πρέπει να
διαταχθεί αγγειογραφία και να γίνει η επέµβαση, µε δεδοµένη τη διαθέσιµη
πληροφορία.
Αντίθετα µε τη συµπερασµατολογία ενός δικτύου συµπερασµατολογίας (inference net)
που βασίζεται σε κανόνες, τα δίκτυα πεποίθησης και τα διαγράµµατα επιρροής
επιτρέπουν συµπερασµατολογία σε κατεύθυνση αντίθετη προς την κατεύθυνση
αποτίµησης της επίδρασης. Κατά συνέπεια, είναι δυνατή η διαβίβαση του
αποτελέσµατος της παρατήρησης οποιουδήποτε συνόλου µεταβλητών στην κατανοµή
πιθανότητας οποιασδήποτε άλλης µεταβλητής ή συνάρτησης µεταβλητών.
Στα επόµενα εξετάζονται αλγόριθµοι, ακριβείς όσο και προσεγγιστικοί για
πιθανοκρατική συµπερασµατολογία στα δίκτυα πεποίθησης.
5.2.1 Πιθανοκρατική συµπερασµατολογία
probabilistic inference)
πυγµής
(Brute-Force
Ένα δίκτυο πεποίθησης στο οποίο έχουν ανατεθεί πιθανότητες σε όλους τους
πηγαίους (χωρίς προγόνους) κόµβους και σε όλους τους κόµβους που είναι γονείς
άλλων, καθορίζει µια πλήρη κατανοµή συνδυαστικής πιθανότητας των µεταβλητών
στο δίκτυο. Η κατανοµή συνδυαστικής πιθανότητας µπορεί να δηµιουργηθεί
παίρνοντας το γινόµενο όλων αυτών των κατανοµών. Όταν είναι γνωστή η κατανοµή
συνδυαστικής πιθανότητας, είναι εύκολος ο υπολογισµός της περιθωριακής
πιθανότητας για οποιαδήποτε τιµή µιας µεταβλητής ή ενός Boolean συνδυασµού
τιµών, µε άθροισµα επί των σχετικών διαστάσεων της συνδυαστικής κατανοµής. Με
παρόµοιο τρόπο µπορεί να υπολογιστεί η δεσµευµένη πιθανότητα p( x | e,ξ ) για
p ( x, e | ξ )
.
οποιαδήποτε τιµή του x, µε δεδοµένη την ένδειξη e, ως το πηλίκο
p (e | ξ )
∆υστυχώς, το µέγεθος της συνδυαστικής κατανοµής είναι εκθετική συνάρτηση του
αριθµού των µεταβλητών. Αν και αυτή η προσέγγιση είναι εννοιολογικά απλή,
απαιτεί υπολογιστική προσπάθεια που είναι εκθετική µε τον αριθµό των µεταβλητών
και άρα δεν είναι πρακτική για προβλήµατα µε περισσότερες από 6-7 µεταβλητές.
5.2.2 Ακριβείς µέθοδοι (exact methods)
Ένας αποφασιστικός παράγοντας για υπολογιστική αποτελεσµατικότητα στη
συµπερασµατολογία µε δίκτυα πεποίθησης είναι η εκµετάλλευση καθορισµένων
110
σχέσεων ανεξαρτησίας ώστε να αποφευχθεί ο υπολογισµός της πλήρους κατανοµής
συνδυαστικής πιθανότητας. Έχουν αναπτυχθεί διάφορες µέθοδοι, κάθε µια
εστιασµένη σε συγκεκριµένες οικογένειες τοπολογιών δικτύων πεποίθησης.
Οι Kim και Pearl [76] έχουν αναπτύξει έναν κατανεµηµένο αλγόριθµο για την
επίλυση δικτύων απλής σύνδεσης ή πολυδέντρων (polytrees). Ο αλγόριθµος είναι
γραµµική συνάρτηση του αριθµού των µεταβλητών στο δίκτυο. Σ’ αυτό το σχήµα,
κάθε κόµβος στο δίκτυο δέχεται µηνύµατα τόσο από κάθε προγονικό κόµβο όσο και
από τους απογόνους του, αναπαριστώντας το σύνολο των διαθεσίµων ενδείξεων από
εναλλακτικά τµήµατα του δικτύου. Η απλή συνδεσιµότητα του δικτύου εγγυάται ότι
η πληροφορία σε κάθε µήνυµα είναι ανεξάρτητη και ότι ένα βαθµωτό επαρκεί για την
αναπαράσταση της συνολικής πληροφορίας από κάθε συνδεδεµένο κόµβο (αν οι
κόµβοι είναι λογικοί). Κάθε φορά που γίνεται µια νέα παρατήρηση, µηνύµατα
διαβιβάζονται σε όλο το δίκτυο για την ενηµέρωση των πιθανοτήτων που σχετίζονται
µε τις άλλες µεταβλητές.
∆υστυχώς τα περισσότερα πραγµατικά δίκτυα είναι πολλαπλά συνδεδεµένα και άρα
απαιτούνται πιο πολύπλοκες µέθοδοι. Μια προσέγγιση του προβλήµατος,
αναπτυγµένη από τον Shachter [117], επιτρέπει τον υπολογισµό της κατανοµής
δεσµευµένης πιθανότητας για οποιαδήποτε συνάρτηση f, ενός συνόλου µεταβλητών
Χ, µε δεδοµένες τις ενδείξεις Ε, ως p[ f ( X ) | E ,ξ ] . Ο αλγόριθµος αυτός εστιάζει σε
µία µόνο συνάρτηση των µεταβλητών παρά στην ενηµέρωση της πιθανότητας όλων
των κόµβων µε δεδοµένες τις ενδείξεις. Εφαρµόζει µια ακολουθία τελεστών στο
δίκτυο για να αντιστρέψει την κατεύθυνση των δεσµών, µε χρήση του θεωρήµατος
του Bayes, και εκτελεί αθροίσµατα επί των κόµβων για να τους απαλείψει. Η
διεργασία αυτή συνεχίζεται µέχρι να µείνει µόνον ο κόµβος που εκπροσωπεί την
αρχική πιθανοκρατική ερώτηση. Μπορεί να εφαρµοστεί σε πολλαπλά συνδεδεµένα
δίκτυα αλλά για τη λειτουργία του απαιτεί λεπτοµερή γνώση της τοπολογίας. Ο
αλγόριθµος του Shachter µπορεί να είναι σηµαντικά πιο αποτελεσµατικός από την
προσέγγιση πυγµής (brute force) του υπολογισµού της πλήρους κατανοµής
συνδυαστικής πιθανότητας. Η έκταση του κέρδους στην αποτελεσµατικότητα
εξαρτάται από την τοπολογία του δικτύου.
Άλλες ακριβείς προσεγγίσεις βασίζονται στην µετατροπή πολλαπλά συνδεδεµένων
δικτύων [108] σε δίκτυα απλής σύνδεσης. Ο αλγόριθµος των Kim και Pearl ή
παρόµοιες µέθοδοι µπορούν τότε να εφαρµοστούν στο δίκτυο. Η παρατήρηση
κόµβων σε ένα βρόγχο µπορεί αποτελεσµατικά να σπάσει το βρόγχο. Έτσι ο Pearl
έχει προτείνει [108] τον καθορισµό των ελάχιστων υποσυνόλων από κόµβους, των
οποίων η παρατήρηση θα εξάλειπτε τους βρόγχους [108]. Αυτοί οι κόµβοι θα πρέπει
να παρατηρηθούν µε κάθε δυνατή τιµή ή συνδυασµούς τιµών. Οι πιθανότητες που
προκύπτουν κατόπιν σταθµίζονται σύµφωνα µε τα αποτελέσµατα από κάθε
παρατήρηση, µε βάρη τις a priori πιθανότητες των παρατηρηθεισών µεταβλητών.
Οι Lauritzen και Spiegelhalter προτείνουν µια διαφορετική προσέγγιση που βασίζεται
σε µια επαναδιατύπωση του δικτύου πεποίθησης [81]. Πρώτα το δίκτυο γίνεται µη
κατευθυντικό, µετατρέποντας τα βέλη σε γραµµές. ∆εύτερον, καθορίζεται το
αντίστοιχο ηθικό γράφηµα. Τρίτον, το γράφηµα τριγωνοποιείται, µε την πρόσθεση µη
κατευθυντικών δεσµών ώστε να µην υπάρχουν άχορδοι κύκλοι µήκους µεγαλύτερου
του 3. Κατόπιν αναγνωρίζονται όλες οι οµάδες (cliques). Οι Lauritzen και
Spiegelhalter έχουν αποδείξει ότι µέσα από ένα µετασχηµατισµό οποιοδήποτε δίκτυο
µπορεί να µετατραπεί σε ένα αντίστοιχο απλά συνδεδεµένο δίκτυο οµάδων.
Παρέχουν έναν αλγόριθµο για τη διαβίβαση των ενδείξεων σ’ αυτό το δέντρο των
111
οµάδων που είναι ανάλογος του µηχανισµού διαβίβασης πεποίθησης σε ένα απλά
συνδεδεµένο δίκτυο µεταβλητών. Οι ενδείξεις διαδίδονται από οµάδα σε οµάδα
διασφαλίζοντας ότι η περιθωριακή πιθανότητα του συνόλου των µεταβλητών που
ανήκουν και στις δύο οµάδες παραµένει η ίδια, άσχετα µε το ποια από τις δύο οµάδες
περιθωριοποιείται. Τελικά, όταν η διαδικασία διάδοσης τελειώσει, η a posteriori
πιθανότητα µιας µεταβλητής υπολογίζεται προβάλλοντας (περιθωριοποιώντας) την
κατανοµή της οµάδας-ξενιστή πάνω στη µεταβλητή. Η διάδοση στα δέντρα οµάδων
αποτελεί την πιο δηµοφιλή µέθοδο διαβίβασης µηνυµάτων σήµερα (2000).
Η υπολογιστική πολυπλοκότητα αυτών των αλγορίθµων δεν έχει πλήρως αναλυθεί ως
προς την τοπολογία του δικτύου. Όλοι όµως οι αλγόριθµοι υπόκεινται σε προβλήµατα
tractability εάν υπάρχουν πολλοί τεµνόµενοι βρόγχοι στο δίκτυο. Για παράδειγµα,
στην προσέγγιση των Lauritzen και Spiegelhalter, η συνδυαστική κατανοµή για κάθε
οµάδα πρέπει να αναπαρασταθεί εκπεφρασµένα· άρα ο αλγόριθµος είναι εκθετική
συνάρτηση του µεγέθους της µεγαλύτερης οµάδας. Αυτή η οµάδα µπορεί να είναι
πολύ µεγάλη σε ένα δίκτυο µε πολλούς τεµνόµενους βρόγχους. Ευτυχώς αυτές οι
πολυπλοκότητες είναι δυνατόν να υπολογιστούν πριν από την πραγµατική
επεξεργασία και κατά συνέπεια εάν οι εκτιµήσεις ξεπερνούν κάποια λογικά όρια,
µπορούν να χρησιµοποιηθούν προσεγγιστικές µέθοδοι όπως η στοχαστική
προσοµοίωση.
Γενικότερα, ο Cooper έχει αποδείξει ότι το γενικό πρόβληµα συµπερασµατολογίας σε
ένα δίκτυο πεποίθησης είναι NP-hard [21], και άρα δεν αναµένουµε την εύρεση µιας
ακριβούς µεθόδου που να είναι υπολογιστικά αποτελεσµατική για τυχαία δίκτυα.
Παρ’ όλα αυτά, η ανάπτυξη µεθόδων για την ακριβή λύση ειδικών κλάσεων δικτύων
πεποίθησης είναι εφικτή.
5.2.3 Στοχαστικές µέθοδοι (stochastic methods)
Έχουν αναπτυχθεί διάφορες τεχνικές που κάνουν χρήση προσεγγιστικών µεθόδων· η
απόδειξη από τον Cooper ότι το πρόβληµα της ακριβούς πιθανοκρατικής
συµπερασµατολογίας σε ένα δίκτυο πεποίθησης είναι NP-hard καθιστά σε πολλές
περιπτώσεις τις προσεγγιστικές τεχνικές πιο παραγωγικές από τις ακριβείς µεθόδους.
Μια µέθοδος, η στοχαστική προσοµοίωση είναι ελκυστική επειδή αναπαριστά το
πιθανοκρατικό πρόβληµα ως ένα δείγµα αιτιοκρατικών, λογικών γεγονότων και
ανάγει την πιθανοκρατική αναπαράσταση σε µια απλούστερη, και ίσως πιο διαφανή,
λογική αναπαράσταση. Η ακρίβεια της αναπαράστασης εξαρτάται από το µέγεθος του
δείγµατος ή από τον αριθµό των κύκλων προσοµοίωσης. Το σφάλµα της προσέγγισης
µπορεί να υπολογιστεί από ένα δεδοµένο µέγεθος δείγµατος µε τη χρήση τυπικών
στατιστικών τεχνικών, ενώ η απροσδιοριστία µπορεί να µειωθεί σε έναν αυθαίρετο
βαθµό µε την αύξηση του µεγέθους του δείγµατος.
Ο Henrion [66] ανέπτυξε µια µέθοδο για συµπερασµατολογία µε τον όρο
πιθανοκρατική λογική δειγµατοληψία. Μέσω αυτής της τεχνικής, ένα δίκτυο
πεποίθησης αναπαρίσταται προσεγγιστικά από ένα δείγµα αιτιοκρατικών γεγονότων.
Για κάθε γεγονός ή κύκλο προσοµοίωσης, κάθε πηγαίος κόµβος (κόµβος χωρίς
γονείς) και σηµείο εισόδου βελών δεσµευµένης πιθανότητας δηµιουργείται τυχαία ως
τιµή αλήθειας ή ως κανόνας λογικής επίπτωσης χρησιµοποιώντας τις καθορισµένες
πιθανότητες. Η διαγνωστική συµπερασµατολογία επιτυγχάνεται µέσω της εκτίµησης
της πιθανότητας µιας υπόθεσης ως το κλάσµα των κύκλων προσοµοίωσης που
οδηγούν στο παρατηρηθέν σύνολο ενδείξεων. Αυτή η µέθοδος είναι γραµµική
συνάρτηση του αριθµού των κόµβων στο δίκτυο, άσχετα από το βαθµό
112
διασυνδεσιµότητας των κύκλων από κόµβους. ∆υστυχώς όµως, είναι εκθετική
συνάρτηση του αριθµού των ενδείξεων που παρατηρούνται.
Οι Chin και Cooper [13] χρησιµοποιούν την προσέγγιση της λογικής δειγµατοληψίας
για τη δηµιουργία δειγµάτων ιατρικών παρατηρήσεων για λόγους προσοµοίωσης.
Αποφεύγουν την εκθετική πολυπλοκότητα του γενικού προβλήµατος
αναδιατάσσοντας την κατεύθυνση των βελών στο δίκτυο χρησιµοποιώντας τον
αλγόριθµο του Shachter, έτσι ώστε όλες οι παρατηρηθείσες µεταβλητές να γίνουν
είσοδοι (πηγαίοι κόµβοι) στο δίκτυο. ∆υστυχώς, αυτό δεν αποτελεί γενική λύση στο
πρόβληµα, επειδή η αναδιάταξη υπόκειται σε εκθετική πολυπλοκότητα για δίκτυα
υψηλής συνδεσιµότητας.
Ο Pearl [107] έχει αναπτύξει ένα σχήµα στοχαστικής δειγµατοληψίας που
διαφοροποιείται από την κλασική στοχαστική δειγµατοληψία ως προς το ότι εκτελεί
άµεση διαβίβαση και προς τις δύο κατευθύνσεις κατά µήκος κάθε επίδρασης, αντί
µόνον προς την κωδικοποιηµένη κατεύθυνση. Σύµφωνα µε αυτή τη µέθοδο,
υπολογίζεται για κάθε κόµβο η κατανοµή δεσµευµένης πιθανότητας µε δεδοµένους
όλους τους γείτονες στο µανδύα Markov του κόµβου (µανδύας Markov ενός κόµβου
ονοµάζεται το σύνολο που αποτελείται από τους γονείς και τα παιδιά ενός κόµβου,
καθώς επίσης και τους άλλους γονείς των παιδιών του). Πρώτα, αποδίδονται αρχικές
τιµές (τυχαίες τιµές αλήθειας) σε όλους τους κόµβους. Κατά τη διάρκεια της
προσοµοίωσης, η τιµή αλήθειας ενός κόµβου ενηµερώνεται σύµφωνα µε τις τιµές των
γειτόνων του όταν ο κόµβος ενεργοποιείται. Η νέα τιµή αλήθειας του κόµβου
δηµιουργείται τυχαία χρησιµοποιώντας τη δεσµευµένη πιθανότητα αυτού του κόµβου
µε δεδοµένη την κατάσταση όλων των γειτόνων του. Η πιθανότητα κάθε κόµβου
εκτιµάται ως το κλάσµα των κύκλων προσοµοίωσης για τους οποίους είναι αληθής.
Ένα πλεονέκτηµα της προσέγγισης του Pearl είναι ότι µπορεί να υλοποιηθεί ως ένα
δίκτυο παράλληλα κατανεµηµένων επεξεργαστών, µε κάθε έναν από αυτούς να
λειτουργεί ανεξάρτητα, δεχόµενος µηνύµατα από τους γείτονές του και στέλνοντας
µηνύµατα σ’ αυτούς. ∆υστυχώς, όπως οι Chin και Cooper έχουν δείξει, οι
προσεγγίσεις που χρησιµοποιούν προσοµοίωση υπόκεινται σε προβλήµατα σύγκλισης
όταν το δίκτυο περιέχει πιθανότητες που είναι κοντά στο 0 ή το 1. Αντίθετα µε την
προσέγγιση λογικής δειγµατοληψίας, διαδοχικοί κύκλοι προσοµοίωσης δεν είναι
ανεξάρτητοι, και το δίκτυο µπορεί να παγιδευτεί σε µια κατάσταση από την οποία
διαφεύγει µετά από πολλούς κύκλους.
5.2.4 Οριακές µέθοδοι (bounding methods)
Όταν πολλαπλές , ο συνολικός αριθµός διαγνώσεων είναι εκθετική συνάρτηση του
αριθµού των υποθέσεων. Για τον υπολογισµό της ακριβούς a posteriori πιθανότητας
οποιασδήποτε διάγνωσης, p ( D | E,ξ ) , πρέπει να υπολογιστεί η
p (E | ξ ) =
∑ p (E | D , ξ ) p ( D , ξ )
Di ∈ 2 H
i
i
στον παρονοµαστή του θεωρήµατος του Bayes, που εµπεριέχει το εκθετικό πρόβληµα
της άθροισης επί όλων των διαγνώσεων. Ο υπολογισµός, όµως, του λόγου των
πιθανοτήτων δύο διαγνώσεων είναι κατά πού απλούστερος, επειδή η ποσότητα
p(E | ξ ) στους παρονοµαστές απλοποιείται και άρα δε χρειάζεται να υπολογιστεί.
∆ηλαδή ισχύει:
p( D1 | E,ξ ) p( D1 | ξ ) p(E | D1 ,ξ )
=
p( D2 | E,ξ ) p( D2 | ξ ) p(E | D2 ,ξ )
113
Οι Cooper [20] και Peng [111] περιγράφουν µεθόδους για διερεύνηση στο χώρο των
δυνατών διαγνώσεων, οι οποίες µπορούν να αναγνωρίσουν τις πιο πιθανές διαγνώσεις
χωρίς να εξετάσουν όλες τις δυνατές. Οι µέθοδοι αυτές είναι ικανές να συντοµεύσουν
τη διερεύνηση, εξαλείφοντας όλες τις επεκτάσεις µιας διάγνωσης που αποδεδειγµένα
είναι λιγότερο πιθανές από την τρέχουσα καλύτερη διάγνωση, και έτσι µπορεί να
είναι πολύ αποτελεσµατικότερες από τις εξαντλητικές µεθόδους. Η µέθοδος του Peng
είναι πιο αποτελεσµατική αλλά απευθύνεται σε δίκτυα πεποίθησης δύο µόνο
επιπέδων, που αποτελούνται από το επίπεδο των διαγνώσεων και από το επίπεδο των
ενδείξεων, µε βέλη να υπάρχουν µόνον από διαγνώσεις σε ενδείξεις.
Οι οριακές µέθοδοι µπορούν να χρησιµοποιηθούν για τον υπολογισµό των
φραγµάτων της απόλυτης πιθανότητας για οποιαδήποτε διάγνωση. Μερικές φορές
επιτρέπουν την αναγνώριση των n πιο πιθανών διαγνώσεων από ένα σύνολο
διαγνώσεων D χωρίς υπολογισµούς σε ολόκληρο το χώρο της συνδυαστικής
πιθανότητας. Για παράδειγµα, το µερικό άθροισµα της p( Di | ξ ) p(E | Di ,ξ ) δίνει ένα
κάτω φράγµα της p(E | ξ ) . Ο Cooper έχει δείξει [20] ότι αυτή η προσέγγιση µπορεί
επίσης να χρησιµοποιηθεί για τον υπολογισµό άνω φραγµάτων των απολύτων a
posteriori πιθανοτήτων. Έχει επίσης δώσει µια σχετική µέθοδο για υπολογισµό κάτω
φραγµάτων.
5.3 Μήτρες διασύνδεσης στα ∆ίκτυα Πεποίθησης
Όπως είδαµε η αναπαράσταση της γνώσης µέσω δικτύων πεποίθησης βασίζεται σε
τρία επίπεδα: σχεσιακό, συναρτησιακό και αριθµητικό.
Αν η ποιοτική δοµή του προβλήµατος καθορίζεται από την τοπολογία του δικτύου, η
οποία µπορεί είτε να είναι αποτύπωση ήδη συγκεντρωµένης γνώσης ειδικών ή, όπως
θα δούµε παρακάτω, αποτέλεσµα διαδικασιών µάθησης από βάσεις δεδοµένων, η
συναρτησιακή µορφή των σχέσεων µεταξύ των κόµβων καθορίζεται από τις µήτρες
διασύνδεσης.
Οι µήτρες διασύνδεσης αναφέρονται τόσο στο συναρτησιακό όσο και στο αριθµητικό
επίπεδο αναπαράστασης. Η µορφή τους, µαρτυρά την επιλογή των πιθανών
καταστάσεων των µεταβλητών ενώ η αριθµητική τιµή των στοιχείων τους
αναπαριστά τις ποσοτικές λεπτοµέρειες της εξάρτησης κάθε µεταβλητής από τους
γονείς της (τους κόµβους που επιδρούν σ’ αυτή). Κατά τη διαδικασία της
συµπερασµατολογίας, οι µήτρες διασύνδεσης παίζουν κεντρικό ρόλο, καθώς
διαµορφώνουν την παρατηρούµενη πληροφορία καθώς αυτή διαβιβάζεται κατά µήκος
του δικτύου για να προκαλέσει την ενηµέρωση της πεποίθησης στους κόµβους που
δεν έχουν παρατηρηθεί.
Μπορεί κανείς να θεωρήσει ότι οι µήτρες διασύνδεσης εδράζονται στους κόµβους, αν
και λειτουργικά αναφέρονται στους δεσµούς που συνδέουν γειτονικούς κόµβους.
Κάθε µήτρα διασύνδεσης περιέχει την κατανοµή δεσµευµένης πιθανότητας του
κόµβου, µε δεδοµένες όλες τις πιθανές καταστάσεις των γονέων του. Τα στοιχεία που
αφορούν τους γονείς ενός κόµβου είναι τα µόνα απαραίτητα για τη διαβίβαση
µηνυµάτων και άρα για τη διαδικασία συµπερασµατολογίας, αφού σ’ ένα δίκτυο
πεποίθησης ένας κόµβος είναι ανεξάρτητος από τους κόµβους που δεν είναι απόγονοί
του, όταν είναι δεδοµένοι οι γονείς του.
Θεωρήστε το παράπλευρο τµήµα ενός δικτύου πεποίθησης, στο οποίο η µεταβλητή Α
αποτελεί το µόνο γονέα της µεταβλητής Β.
114
Εάν η µεταβλητή Α έχει τρεις πιθανές καταστάσεις (Α1, Α2, Α3)
και η Β δύο (Β1, Β2), τότε η µήτρα διασύνδεσης στον κόµβο Β
θα είναι:
Α
M B|A
Β
p ( B1 | A1 )
= p ( B1 | A2 )
p( B1 | A3 )
p( B2 | A1 )
p ( B2 | A2 )
p( B2 | A3 )
δηλαδή µια µήτρα µε αριθµό γραµµών ίσο µε τον αριθµό των
καταστάσεων του γονέα και αριθµό στηλών ίσο µε τον αριθµό
καταστάσεων του απογόνου
Το άθροισµα των πιθανοτήτων σε κάθε γραµµή του πίνακα είναι ίσο µε ένα, αφού
αναπαριστά την πιθανότητα να συµβεί οποιοδήποτε από τα δυνατά ενδεχόµενα Β1 ή
Β2.
Στην περίπτωση που ένας κόµβος έχει δύο ή περισσότερους γονείς, ο όρος «µήτρα
διασύνδεσης» θα πρέπει να αντιστοιχεί σε τανυστή τάξης ίσης µε τον αριθµό των
γονέων. Τα στοιχεία του τανυστή θα πρέπει να καλύπτουν το σύνολο των πιθανών
καταστάσεων των γονέων.
Θεωρήστε για παράδειγµα την περίπτωση που ο κόµβος Β έχει έναν
ακόµη γονέα, τον κόµβο Γ µε τέσσερις πιθανές καταστάσεις (Γ1, Γ2,
Γ3, Γ4).
Α
Β
Γ
Τότε η µήτρα (τανυστής 2ης τάξης) διασύνδεσης θα είναι η
ακόλουθη:
p ( B1 | A1 , Γ 4 )
p ( B2 | A1 , Γ 4 )
p ( B1 |pA(2B,1Γ| 4A)1 , Γp3()B2 |pA(2B, 2Γ|4 A
)1, Γ3 )
p ( B1 |pA(3B,1Γ|p4A()B
()B
|pA( B, Γ|4A
)1 , Γ 2 )
|p3A
()B
2 ,1Γ
2 ,2 Γ| 3A
1 ,2Γ 2 )3 2 p
M B|A,Γ
=
p ( B1 |pA
(B
|p3A()B
( B3 ,2 Γp| 3(A)B2 2, Γ| A
|p2A()1B, 2Γp|1 )A
3 ,1 Γ
2 ,1Γ
2 )1 , Γ 1 )
p ( B1 |pA
(B
| 2A)2 , Γp1 )( B2 p| (AB3 2, Γ| A
3 ,1 Γ
2 )2 , Γ 1 )
p ( B1 | A3 , Γ1 )
p( B2 | A3 , Γ 1 )
Οι τιµές των στοιχείων του πίνακα (δεσµευµένες πιθανότητες) µπορούν να εξάγονται
από µια βάση δεδοµένων που περιέχει παρατηρήσεις συνδυασµών των Α, Β και Γ ή
από την εµπειρία ειδικών.
115
116
ΕΙ∆ΙΚΟ ΜΕΡΟΣ
6. ΕΜΠΕΙΡΟ ΣΥΣΤΗΜΑ ΓΙΑ ΠΡΟΓΝΩΣΗ ΑΣΘΕΝΩΝ
ΜΕ ΚΕΚ
Το θέµα της παρούσας διατριβής αναφέρεται στην ανάπτυξη ενός έµπειρου
συστήµατος, που βασίζεται σε δίκτυο πεποίθησης, στο χώρο της Ιατρικής και
συγκεκριµένα στην πρόγνωση των ασθενών µε κρανιοεγκεφαλικές κακώσεις.
Το σύστηµα αυτό βασίζεται τόσο σε κλινικά όσο και εργαστηριακά ευρήµατα και
κάνει εκτίµηση της πορείας του ασθενή για τις επόµενες 24 ώρες.
Στο πλαίσιο της διατριβής πραγµατοποιήθηκε µελέτη σε δύο κατευθύνσεις. Πρώτον,
αναφορικά µε τους ασθενείς των Εξωτερικών Ιατρείων και δεύτερον µε εκείνους. της
Μονάδας Εντατικής Θεραπείας (ΜΕΘ)
Πιο συγκεκριµένα, τα βήµατα που ακολουθήθηκαν για την κατασκευή του έµπειρου
συστήµατος ήταν τα ακόλουθα:
1. Επιλογή καταλλήλων προγνωστικών µεταβλητών
Αποφασίζεται, σύµφωνα µε τη διεθνή βιβλιογραφία, ποιες είναι εκείνες οι
µεταβλητές (κλινικά και εργαστηριακά ευρήµατα) που λειτουργούν ως προγνωστικοί
δείκτες για ασθενείς που έχουν κρανιοεγκεφαλική κάκωση, καθώς επίσης και ο
τρόπος µε τον οποίο η έννοια «πρόγνωση» µπορεί να κωδικοποιηθεί µε ένα σαφή και
αδιαµφισβήτητο τρόπο.
2. Επιλογή ενδεχοµένων των µεταβλητών
Αποφασίζεται ποιες είναι οι πιθανές καταστάσεις των υπό µελέτη µεταβλητών.
Οι µεταβλητές που παίρνουν συνεχείς τιµές θα πρέπει να γίνουν διακριτές,
χωρίζοντας το πεδίο τιµών τους σε διαστήµατα. Οι καταστάσεις θα πρέπει να
αµοιβαία αποκλειόµενες και η ένωσή τους θα πρέπει να εξαντλεί το δειγµατικό χώρο
της µεταβλητής. Ο αριθµός των καταστάσεων έχει επίπτωση τόσο στην υπολογιστική
προσπάθεια που απαιτεί η λειτουργία του έµπειρου συστήµατος όσο και στην ακριβή
περιγραφή της µεταβλητής.
3. ∆ηµιουργία βάσης δεδοµένων
∆ηµιουργείται µια βάση δεδοµένων στην οποία καταγράφονται (προοπτικά) οι
προαναφερθείσες µεταβλητές ασθενών µε κρανιοεγκεφαλική κάκωση οι οποίοι
προσέρχονται στα Εξωτερικά Ιατρεία. Επίσης καταγράφεται η πραγµατική έκβαση
του ασθενή στις 24 ώρες από τη στιγµή της προσέλευσής του.
4. Επιλογή µοντέλου
Με βάση τις τεχνικές που αναφέρθηκαν στην παράγραφο 5.11 «Επιλογή
µοντέλου», επιλέγεται µε διαφορετικά κριτήρια το «καλύτερο» µοντέλο,
αξιοποιώντας τη βάση δεδοµένων.
117
5. Κατασκευή ∆ικτύων Πεποίθησης
Το µη κατευθυντικό γράφηµα που αντιστοιχεί σ’ αυτό το µοντέλο µετατρέπεται
σε κατευθυντικό ώστε να αποτελέσει τη δοµή των δικτύων πεποίθησης. Από τη βάση
δεδοµένων υπολογίζονται τα στοιχεία των πινάκων διασύνδεσης, µε βάση τη
συγκεκριµένη αρχιτεκτονική του δικτύου.
6. Λειτουργία Εµπείρου Συστήµατος
Η δοµή και οι παράµετροι (δεσµευµένες πιθανότητες) συνιστούν το δίκτυο
πεποίθησης. Με βάση νέες παρατηρήσεις, υπολογίζεται η a posteriori πιθανότητα για
κάθε έκβαση στις 24 ώρες, δηλαδή εκτελείται συµπερασµατολογία.
7. Αξιολόγηση εµπείρου συστήµατος
Εκτιµάται η απόδοση (µε όρους επιτυχών προγνώσεων) του συστήµατος και
συγκρίνεται µε αυτή του ειδικού ιατρού (Νευροχειρουργού).
Προκειµένου να αναπτυχθούν διακριτά έµπειρα συστήµατα για τους ασθενείς των
εξωτερικών ιατρείων και για τους ασθενείς της ΜΕΘ, επελέγησαν διαφορετικές
µεταβλητές και δηµιουργήθηκαν ξεχωριστές βάσεις δεδοµένων. Συνεπώς και η
διαδικασία επιλογής µοντέλου οδήγησε σε διαφορετικά µοντέλα και άρα σε
διαφορετικά δίκτυα πεποίθησης.
Το τελικό αποτέλεσµα είναι το ακόλουθο.
Για τους ασθενείς των Εξωτερικών Ιατρείων δηµιουργούνται δύο έµπειρα
συστήµατα πρόγνωσης µέσω της διαδικασίας επιλογής µοντέλου,. Η αξιολόγηση
γίνεται µε σύγκριση της προγνωστικής ικανότητας των δύο δικτύων πεποίθησης και
του Νευροχειρουργού.
Για τους ασθενείς της ΜΕΘ δηµιουργείται ένα έµπειρο σύστηµα µέσω της
διαδικασίας επιλογής µοντέλου. Επίσης δηµιουργείται ένα έµπειρο σύστηµα που
βασίζεται στο αντίστοιχο αφελές δίκτυο πεποίθησης για τους ίδιους ασθενείς. Η
αξιολόγηση γίνεται µε σύγκριση της προγνωστικής ικανότητας των δύο (αφελούς και
πεπλεγµένου) δικτύων πεποίθησης και του Νευροχειρουργού.
Το λογισµικό που χρησιµοποιήθηκε για την επίτευξη αυτών των στόχων, είναι το
ακόλουθο:
1. η βάση δεδοµένων µε τις κλινικές και εργατηριακές µεταβλητές των ασθενών
µε ΚΕΚ, υλοποιήθηκε σε περιβάλλον Microsoft Access
2. για την επιλογή του µοντέλου, αξιοποιήθηκε ένας µεγάλος αριθµός
προγραµµάτων, αλλά κατά κύριο λόγο τα MIM (Hypergraph Software,
Denmark) και CoCo [1].
3. για την κατασκευή των δικτύων πεποίθησης, από τα αντίστοιχα µηκατευθυντικά γραφήµατα που επελέγησαν, χρησιµοποιήθηκε το λογισµικό
Dxpress (Knowledge Industries Inc.) και Netica (Norsys Software).
4. για τη συµπερασµατολογία επί των δικτύων πεποίθησης, χρησιµοποιήθηκε το
λογισµικό WinDX (Knowledge Industries Inc.)
5. για την εγκυροποίηση των δικτύων πεποίθησης και τη σύγκρισή τους µε άλλες
τεχνικές, χρησιµοποιήθηκε το λογισµικό S-Plus (Mathsoft Inc.)
118
Σχηµατικά, η αλληλεπίδραση ορισµένων από τα λογισµικά που χρησιµοποιήθηκαν,
φαίνεται στο διάγραµµα που ακολουθεί. Συγκεκριµένα φαίνονται τα βήµατα
επεξεργασίας των δεδοµένων για επιλογή µοντέλου, οικοδόµηση του δικτύου
πεποίθησης και συµπερασµατολογίας επί αυτού.
DX Press
MIM
CoCo
Win DX
Προκειµένου να καταστεί δυνατή η επικοινωνία των προγραµµάτων αυτών, τα
δεδοµένα και τα αποτελέσµατα κάθε ενός λογισµικού προσαρµόστηκαν κατάλληλα.
119
6.1 Ασθενείς Εξωτερικών Ιατρείων
6.1.1 Μεταβλητές
Οι µεταβλητές που ελήφθησαν υπ’ όψιν φαίνονται στους Πίνακες 6.1 και 6.2. Είναι
γενικά αποδεκτό ότι συµβάλλουν στην εκτίµηση της πρόγνωσης [2, 14, 45, 49, 70,
79, 89, 101, 127]. Η πρόγνωση του ασθενή, δηλαδή η έκβασή του στις 24 ώρες από
τη στιγµή που προσήλθε στο Νοσοκοµείο, αποφασίστηκε να αναπαρασταθεί από την
κλίµακα έκβασης της Γλασκώβης (Glasgow Outcome Scale – GOS), σύµφωνα µε την
οποία ο ασθενής µε κρανιοεγκεφαλικές κακώσεις κατατάσσεται σύµφωνα µε έναν
αριθµό παραµέτρων σε µια από 5 κατηγορίες βαρύτητας [70].
Η ανάγκη για τήρηση των προϋποθέσεων του θεωρήµατος του Bayes, σύµφωνα µε
τις οποίες οι καταστάσεις µιας µεταβλητής πρέπει να είναι αµοιβαία αποκλειόµενες
και όλες µαζί να καλύπτουν το σύνολο των πιθανών ενδεχοµένων της µεταβλητής,
οδήγησε στη διατύπωση µιας νέας κλίµακας για τα ευρήµατα της αξονικής
τοµογραφίας (Πίνακας 6.2). Η κλίµακα DIS (Diffuse Injury Scale) [91] επεκτάθηκε
και αναδιαµορφώθηκε. Συγκεκριµένα, οι κατηγορίες 5 και 6 της κλίµακας DIS
απαλείφθηκαν, ενώ νέες κατηγορίες εισήχθησαν, δηµιουργώντας τελικά 7 πιθανές
καταστάσεις ευρηµάτων CT.
Η µέση αρτηριακή πίεση (ΜΑΡ) καταγράφηκε ως η σταθµισµένη µέση τιµή [MAP =
(SBP + 2xDBP) / 3] της συστολικής (SBP) και διαστολικής (DBP) αρτηριακής πίεσης
κατά την εισαγωγή. Το φάσµα τιµών της ΜΑΡ χωρίστηκε σε τρία διαστήµατα: κάτω
από 60 mmHg, µεταξύ 60 και 120 mmHg και πάνω από 120 mmHg.
Η ηλικία του ασθενή καθώς και η χρονική καθυστέρηση από την κρανιοεγκεφαλική
κάκωση έως την προσέλευση στα Εξωτερικά Ιατρεία, επίσης κατετάγησαν σε 5 και 3
κατηγορίες αντίστοιχα.
Η οφθαλµική, οµιλητική και κινητική αντίδραση του ασθενή καταγράφηκαν
αναλυτικά, αλλά και το άθροισµά τους, δηλαδή το score του ασθενή στην Κλίµακα
Κώµατος της Γλασκώβης (Glasgow Coma Scale – GCS) [127].
∆ύο ακόµη µεταβλητές καταγράφηκαν: η αιτία της κάκωσης (τροχαίο, πτώση ή άλλο)
και η πιθανή παρουσία συνοδών κακώσεων.
120
Οι κλινικές και εργαστηριακές µεταβλητές
Κλίµακα έκβασης Γλασκώβης
Ηλικία
[GOS]
[Age]
Κατ. 1:
Θάνατος
Κατ. 1:
0-10 ετών
Κατ. 2:
Φυτική Κατάσταση
Κατ. 2:
11-20 ετών
Κατ. 3:
Σοβαρή ανικανότητα
Κατ. 3:
21-40 ετών
Κατ. 4:
Μέτρια ανικανότητα
Κατ. 4:
41-60 ετών
Κατ. 5:
Καλή αποκατάσταση
Κατ. 5:
> 60 ετών
Μέση Αρτηριακή Πίεση
Καθυστέρηση
[MAP]
[Delay]
Κατ. 1:
< 60 mmHg
Κατ. 1:
< 2 ώρες
Κατ. 2:
60 - 120 mmHg
Κατ. 2:
2-6 ώρες
Κατ. 3:
> 120 mmHg
Κατ. 3:
> 6 ώρες
Κλίµακα κώµατος Γλασκώβης
Αιτία κάκωσης
[GCS]
[Cause]
Κατ. 1:
Score 3-8
Κατ. 1:
Τροχαίο ατύχηµα
Κατ. 2:
Score 9-13
Κατ. 2:
Πτώση
Κατ. 3:
Score 14-15
Κατ. 3:
Άλλο
Συνοδές κακώσεις
Αξονική Τοµογραφία
[Injuries]
[CT]
Κατ. 1:
Παρούσες
Κατ. 2:
Απούσες
7 καταστάσεις
(βλέπε επόµενο πίνακα)
Πίνακας 6.1
Οι κλινικές και εργαστηριακές µεταβλητές που συµπεριελήφθησαν στο δίκτυο πεποίθησης, και οι
αντίστοιχες καταστάσεις τους (δυνατά ενδεχόµενα). Οι καταστάσεις επελέγησαν ώστε να ικανοποιούν
τις απαιτήσεις του θεωρήµατος του Bayes· είναι αµοιβαία αποκλειόµενες και εξαντλούν το σύνολο του
δειγµατικού χώρου. Επί πλέον, ακολουθούν µια κλίµακα βαρύτητας.
121
Οι καταστάσεις της µεταβλητής CT
Αξονική τοµογραφία
[CT]
Κατ. 1
Χωρίς ορατή ενδοκρανιακή βλάβη στην αξονική τοµογραφία.
Κατ. 2
∆εξαµενές παρούσες µε µετατόπιση µέσης γραµµής 0-5 mm. Χωρίς
υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Χωρίς επισκληρίδιο
αιµάτωµα.
Κατ. 3
∆εξαµενές παρούσες µε µετατόπιση µέσης γραµµής 0-5 mm. Χωρίς
υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Με επισκληρίδιο
αιµάτωµα
Κατ. 4
∆εξαµενές συµπιεσµένες ή απούσες µε µετατόπιση µέσης γραµµής 0-5
mm. Χωρίς υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Χωρίς
επισκληρίδιο αιµάτωµα.
Κατ. 5
∆εξαµενές συµπιεσµένες ή απούσες µε µετατόπιση µέσης γραµµής 0-5
mm. Χωρίς υπέρπυκνες ή µικτής πυκνότητας βλάβες >25 cm3. Με
επισκληρίδιο αιµάτωµα.
Κατ. 6
Μετατόπιση µέσης γραµµής >5 mm. Χωρίς υπέρπυκνες ή µικτής
πυκνότητας βλάβες >25 cm3. Χωρίς επισκληρίδιο αιµάτωµα
Κατ. 7
Μετατόπιση µέσης γραµµής >5 mm. Χωρίς υπέρπυκνες ή µικτής
πυκνότητας βλάβες >25 cm3. Με επισκληρίδιο αιµάτωµα.
Πίνακας 6.2
Τα δυνατά ενδεχόµενα της αξονικής τοµογραφίας. Προκειµένου να ικανοποιηθούν οι απαιτήσεις του
θεωρήµατος του Bayes, η κλίµακα DIS (diffuse injury scale) τροποποιήθηκε και επεκτάθηκε.
122
6.1.2 Βάση δεδοµένων
600 συνολικά περιστατικά ασθενών µε κρανιοεγκεφαλικές κακώσεις που προσήλθαν
στα Εξωτερικά Ιατρεία του ΠΠΓΝ Πατρών καταγράφηκαν κατά την περίοδο 19941996. 75 περιστατικά από το 1996 κρατήθηκαν για τον έλεγχο απόδοσης του
συστήµατος ενώ τα υπόλοιπα 525 αποτέλεσαν το σύνολο των παρατηρήσεων από τις
οποίες αντλήθηκε η δοµή και οι δεσµευµένες πιθανότητες.
Τα στοιχεία αναφορικά µε τις υπό µελέτη µεταβλητές καταγράφονταν από κλινικούς
ιατρούς της Νευροχειρουργικής Κλινικής κατά την εισαγωγή του ασθενούς. Σε κάθε
περιστατικό καταγράφονταν οκτώ µεταβλητές, συµπεριλαµβανοµένης και της
πραγµατικής έκβασης στις 24 ώρες, σύµφωνα µε την κλίµακα GOS.
Η µέση αρτηριακή πίεση, η ηλικία καθώς και η χρονική καθυστέρηση καταγράφηκαν
αρχικά ως συνεχείς µεταβλητές και κατόπιν µετατράπηκαν σε διακριτές. Η
καταγραφή στη βάση δεδοµένων της πρωτογενούς πληροφορίας είναι χρήσιµη για
µελλοντικό πειραµατισµό σε διαφορετικά διαστήµατα διακριτοποίησης.
Προκειµένου να ελαττωθούν οι (13) πιθανές καταστάσεις της GCS, εφαρµόσαµε τα
εξής διαστήµατα: 3-8, 9-13 και 14-15.
Τα δεδοµένα λοιπόν αναπαριστούν έναν πίνακα συνάφειας µε 28350 (= γινόµενο των
πιθανών καταστάσεων όλων των µεταβλητών) κελιά (πιθανές διαµορφώσεις) και
µόνον 525 καταγραφές. Εποµένως τα δεδοµένα εµφανίζουν εξαιρετικά µεγάλη
διασπορά, φαινόµενο σύνηθες σε πραγµατικές συνθήκες.
123
6.1.3 Επιλογή µοντέλου
Η ανάπτυξη ενός δικτύου πεποίθησης για την πρόγνωση ασθενών µε
κρανιοεγκεφαλικές κακώσεις προϋποθέτει τον καθορισµό της αρχιτεκτονικής του
δικτύου και τον υπολογισµό των παραµέτρων του, δηλαδή των πινάκων δεσµευµένης
πιθανότητας που φυλάσσονται στους κόµβους του και εξυπηρετούν το µηχανισµό
συµπερασµατολογίας.
Η βάση δεδοµένων των ευρηµάτων των ασθενών µπορεί να µας παράσχει όχι µόνο
τις σχετικές συχνότητες εµφάνισης των διαφόρων συνδυασµών κλινικών και
εργαστηριακών µεταβλητών, αλλά και την αρχιτεκτονική του δικτύου. Έχουν
αναπτυχθεί πολλές µέθοδοι [9, 16, 61, 80, 116] για την εξαγωγή της δοµής. Στο
παράρτηµα αναλύονται µέθοδοι για µάθηση δοµής από τα δεδοµένα βασιζόµενες σε
Bayesian µεθόδους [19]. Στο πλαίσιο αυτής της διατριβής το κλινικό πρόβληµα της
πρόγνωσης αντιµετωπίστηκε ως µια πολυπαραγοντική ανάλυση διακριτών
µεταβλητών, που προσεγγίζεται µέσω ενός γραφικού λογαριθµικού-γραµµικού
µοντέλου.
Η αντιστοιχία που υπάρχει µεταξύ µιας κλάσης γραφικών λογαριθµικών-γραµµικών
µοντέλων [17, 138] (δηλ. της κλάσης των αποσυνθέσιµων µοντέλων) και των δικτύων
πεποίθησης διακριτών µεταβλητών, µας επιτρέπει να χρησιµοποιήσουµε µεθόδους
επιλογής µοντέλου για να βρούµε γραφικά µοντέλα συµβατά µε τα δεδοµένα µας και
κατόπιν να τα µετατρέψουµε σε ισοδύναµα δίκτυα πεποίθησης.
Υπενθυµίζουµε ότι αποσυνθέσιµα είναι εκείνα τα µοντέλα των οποίων οι εκτιµητές
µέγιστης πιθανοφάνειας δίνονται αναλυτικά και των οποίων το γράφηµα
ανεξαρτησίας είναι τριγωνοποιηµένο. Έχουν την ιδιότητα ότι η συνάρτηση
πυκνότητάς τους µπορεί να παραγοντοποιηθεί, και η παραγοντοποίηση αυτή µπορεί
να απλοποιηθεί πλήρως µε την εφαρµογή µιας τέλειας αρίθµησης των κόµβων, η
οποία υπάρχει. Αυτή η αρίθµηση εγγυάται ότι για κάθε κόµβο στο γράφηµα, οι
γειτονικοί του κόµβοι µε µικρότερο δείκτη, σχηµατίζουν πλήρη σύνολα, δηλαδή
σύνολα στα οποία κάθε κόµβος συνδέεται µε όλους τους υπόλοιπους.
Κατευθύνοντας όλους τους υπάρχοντες δεσµούς από κόµβους µε µικρότερο δείκτη σε
κόµβους µε υψηλότερο δείκτη, λαµβάνουµε ένα κατευθυντικό γράφηµα του οποίου οι
ιδιότητες Markov είναι ταυτοτικά όµοιες µε αυτές του µη κατευθυντικού [29, 86].
Μια ερµηνεία της τοπικής ιδιότητας Markov για κατευθυντικά γραφήµατα δίνεται
από τους Lauritzen [84] και Kiiveri [75] και µπορεί να διατυπωθεί ως εξής: ένας
κόµβος είναι ανεξάρτητος από τους κόµβους που δεν είναι απόγονοί του, µε
δεδοµένους τους γονείς του. Αυτή η ιδιότητα αποτελεί, όπως είδαµε νωρίτερα, την
κύρια δήλωση ανεξαρτησίας που αναπαρίσταται από ένα δίκτυο πεποίθησης.
Στη µελέτη αυτή εφαρµόστηκαν δύο βηµατικές διαδικασίες επιλογής µοντέλου, η
προσθετική και η αφαιρετική, που αναπτύχθηκαν στην παράγραφο «Επιλογή
µοντέλου». Οι διαδικασίες αυτές ξεκινούν από ένα µοντέλο και προσθέτουν ή
αφαιρούν δεσµούς ανάλογα µε κάποιο κριτήριο. Για την αφαιρετική διαδικασία, το
αρχικό µοντέλο είναι το κορεσµένο ή πλήρες µοντέλο, στο οποίο όλοι οι κόµβοι είναι
συνδεδεµένοι µε όλους. Αντίστοιχα, η προσθετική διαδικασία ξεκινά από το µοντέλο
στο οποίο κανείς δεσµός δεν υφίσταται.
124
Το κριτήριο που χρησιµοποιείται είναι η σηµαντικότητα της κατάλληλης στατιστικής
συνάρτησης (test statistic). Για την αφαιρετική διαδικασία, αυτές είναι οι συναρτήσεις
για τον έλεγχο του τρέχοντος µοντέλου έναντι των µοντέλων µε ένα δεσµό απόντα.
Για την προσθετική, είναι οι συναρτήσεις για τον έλεγχο του τρέχοντος µοντέλου
έναντι των µοντέλων µε έναν επί πλέον δεσµό παρόντα. Η σηµαντικότητα των
ελέγχων µετράται µε τις τιµές πιθανότητας (p-values). Μια στατιστική συνάρτηση
αποτυγχάνει να αποκτήσει ένα προκαθορισµένο επίπεδο σηµαντικότητας α εάν p>α
και διατηρεί το επίπεδο σηµαντικότητας εάν p<α. Στη δική µας περίπτωση το επίπεδο
αυτό καθορίστηκε στο 5% ή 0.05. Άρα, στην αφαιρετική µέθοδο, ο δεσµός µε τη
λιγότερο σηµαντική στατιστική συνάρτηση απαλείφεται και η διαδικασία συνεχίζεται
έως ότου όλοι οι δεσµοί διατηρούν το επίπεδο σηµαντικότητας 0.05. Αντίστοιχα,
στην προσθετική διαδικασία, ο δεσµός µε τη µεγαλύτερη σηµαντικότητα προστίθεται
στο µοντέλο· η διαδικασία συνεχίζεται µέχρι που κανείς δεσµός δεν επιτυγχάνει το
επίπεδο σηµαντικότητας.
Συνήθως η στατιστική συνάρτηση που χρησιµοποιείται κατά την προσθετική
διαδικασία είναι η διαφορά των αποκλινουσών, η οποία ακολουθεί κατά προσέγγιση
χ2 κατανοµή, όταν το δείγµα είναι µεγάλο. Επειδή τα δεδοµένα µας είναι διεσπαρµένα
και ο αντίστοιχος πίνακας συνάφειας έχει πολλές µηδενικές εγγραφές, τα
αποτελέσµατα της εφαρµογής αυτής της συνάρτησης µπορεί να µην είναι αξιόπιστα.
Γι’ αυτό το λόγο χρησιµοποιήθηκε η µέθοδος δειγµατοληψίας Monte Carlo, µε την
εκτίµηση 1000 τυχαίων πινάκων [78, 102]. Η προσθετική διαδικασία κατέληξε σε ένα
µοντέλο, το οποίο ακολούθως ελέγχθηκε µε βάση την αφαιρετική µέθοδο για
πιθανούς δεσµούς που µπορούν να αποκοπούν.
Στην περίπτωση της αφαιρετικής διαδικασίας, χρησιµοποιήσαµε τη συνάρτηση
Joncheere – Terpstra, που είναι κατάλληλη για ordinal µεταβλητές, εκτός από
ελέγχους που συµπεριελάµβαναν nominal µεταβλητές (Αιτία κάκωσης, Συνοδές
κακώσεις), οπότε χρησιµοποιήθηκε η συνάρτηση Kruskal – Wallis. Και πάλι
χρησιµοποιήθηκε η µέθοδος δειγµατοληψίας Monte Carlo, µε τις ίδιες προδιαγραφές.
Για την επιλογή του καταλληλότερου µοντέλου χρησιµοποιήθηκε το λογισµικό MIM
(HyperGraph Software, Denmark) [41], σε συνδυασµό µε το λογισµικό CoCo [1]. Το
λογισµικό ΜΙΜ αξιοποιήθηκε για τις βηµατικές διαδικασίες διερεύνησης, ενώ το
CoCo για την εύρεση της αρίθµησης των κόµβων, για τη µετατροπή του µη
κατευθυντικού γραφήµατος σε κατευθυντικό.
Η αφαιρετική διαδικασία κατέληξε στο µοντέλο µε συµβολική διατύπωση
[GIOIU][CGOU][CGMO][CDGO][ACM] (Εικόνα 6.1). Η προσθετική διαδικασία,
ξεκινώντας από το µοντέλο πλήρους ανεξαρτησίας [M][A][G][D][U][C][I][O]
κατέληξε στο µοντέλο [IU][CDO][AM][AGU][ACGO]. Το µοντέλο αυτό
διερευνήθηκε περαιτέρω, καθώς αποτέλεσε το αρχικό µοντέλο µιας αφαιρετικής
διαδικασίας, και αποκόπηκαν οι δεσµοί AO, DO, AC και AG. Το τελικό αποτέλεσµα
ήταν το µοντέλο [IU][GU][CGO][CD][AU][AM]. (Εικόνα 6.2). Και τα δύο µοντέλα
είναι αποσυνθέσιµα και άρα µπορούν εύκολα να µετατραπούν σε δίκτυα πεποίθησης.
Μετά την απόδοση δεικτών στους κόµβους και κατευθύνοντας τους δεσµούς από
κόµβους µικρότερου δείκτη σε κόµβους µεγαλύτερο δείκτη καταλήξαµε στα δίκτυα
πεποίθησης ΒΝ-1 και ΒΝ-2 (Εικόνες 6.3 και 6.4).
Πριν προχωρήσουµε στην ενεργοποίηση των δικτύων, δηλαδή την τροφοδοσία τους
µε δεδοµένα για νέες περιπτώσεις ασθενών και εξαγωγή συµπερασµάτων, µπορούν
να γίνουν ορισµένες παρατηρήσεις ανεξαρτησίας από τη δοµή και µόνον των
δικτύων.
125
Αναφορικά µε το ΒΝ-1, η πρόγνωση (GOS) συνδέεται µε όλες τις µεταβλητές εκτός
από την Ηλικία. Άρα, η µόνη δήλωση ανεξαρτησία που συµπεριλαµβάνει την
πρόγνωση είναι ότι είναι ανεξάρτητη της ηλικίας, εάν µας δίνεται πληροφορία
σχετικά µε την ηλικία του ασθενούς και τα ευρήµατα της αξονικής τοµογραφίας.
Για το ΒΝ-2, µπορούν να γίνουν περισσότερες παρατηρήσεις. Εάν η αιτία της
κάκωσης είναι γνωστή, η GOS καθίσταται ανεξάρτητη από τη µέση αρτηριακή πίεση,
την ηλικία του ασθενή και την πιθανή ύπαρξη συνοδών κακώσεων. Εάν το score του
ασθενή στην GCS είναι γνωστό, η GOS είναι περαιτέρω ανεξάρτητη της αιτίας της
κρανιοεγκεφαλικής κάκωσης. Η γνώση του χρονικού διαστήµατος µεταξύ κάκωσης
και εισαγωγής στα Εξωτερικά Ιατρεία δεν προσφέρει νέα στοιχεία για τροποποίηση
της ήδη αποκτηθείσας πεποίθησης, εάν ήδη γνωρίζουµε τα ευρήµατα της αξονικής
τοµογραφίας (CT).
126
Εικόνα 6.1:
Ξεκινώντας από το κορεσµένο µοντέλο, η αφαιρετική µέθοδος οδηγεί στο µοντέλο
[GIOU][CGOU][CGMO] [CDGO][ACM]. Η αντιστοιχία µεταξύ γραµµάτων και µεταβλητών είναι η
ακόλουθη:
A: Age
G: GCS
D: Delay
O: GOS
C: CT
I: Injuries
M: MΑΡ
U: Cause
Εικόνα 6.2:
Η προσθετική µέθοδος που ξεκινά από το µοντέλο πλήρους ανεξαρτησίας καταλήγει στο µοντέλο
[IU][CDO] [AM][AGU][ACGO]. Το µοντέλο αυτό αποτέλεσε το αρχικό µοντέλο για την αφαιρετική
µέθοδο που ακολούθησε. Αυτή η περαιτέρω διερεύνηση οδήγησε στην αποκοπή τεσσάρων δεσµών
(AO, DO, AC και AG). Το τελικό µοντέλο είναι το [IU][GU][CGO][CD][AU][AM].
127
Εικόνα 6.3:
Το δίκτυο πεποίθησης ΒΝ-1 προκύπτει από την απόδοση κατεύθυνσης στους δεσµούς του µη
κατευθυντικού γραφήµατος της εικόνας 6.1. Οι δεσµοί κατευθύνονται πάντα από κόµβους µικρότερου
δείκτη σε κόµβους µε µεγαλύτερο δείκτη, σύµφωνα µε την απόλυτη αρίθµηση που υπάρχει στα
αποσυνθέσιµα µοντέλα.
128
Εικόνα 6.4:
Το δίκτυο πεποίθησης (ΒΝ-2) που αντιστοιχεί στο µοντέλο της εικόνας 6.2.
129
6.1.4 Συµπερασµατολογία.
Η τελική δοµή των δικτύων, καθώς και οι απαραίτητες µήτρες δεσµευµένων
πιθανοτήτων εισάγονται κατόπιν στο λογισµικό DXpress, στο οποίο γίνεται και η
συµπερασµατολογία.
Το µέγεθος της βάσης δεδοµένων σχετίζεται άµεσα µε τη διαδικασία
συµπερασµατολογίας και µε την τελική απόδοση του δικτύου, µια και στην
πραγµατικότητα οι δεσµευµένες πιθανότητες που χρησιµοποιούνται δεν είναι παρά οι
σχετικές συχνότητες εµφάνισης στη βάση. Για να αποτελούν αυτές οι συχνότητες
αξιόπιστο εκτιµητή των πραγµατικών πιθανοτήτων, θα πρέπει οι αντίστοιχοι
υποπληθυσµοί επί των οποίων υπολογίζονται να είναι αρκετά µεγάλοι. Για ένα
συγκεκριµένο αριθµό εγγραφών στη βάση, η τήρηση της συνθήκης αυτής εξαρτάται
από τον αριθµό των υποπληθυσµών, ο οποίος µε τη σειρά του έχει να κάνει αφ’ ενός
µε τον αριθµό των δυνατών καταστάσεων κάθε µεταβλητής και κυρίως µε τη δοµή
του δικτύου. Για κάθε κόµβο µε n γονείς, ο αριθµός των υποπληθυσµών που
δηµιουργούνται είναι ίσος µε το γινόµενο των δυνατών καταστάσεων των γονέων.
Έτσι, σε δίκτυα στα οποία αρκετές µεταβλητές έχουν πάνω από 2 γονείς, οι
υποπληθυσµοί αυξάνονται γρήγορα.
Ο πίνακας 6.3 δείχνει την a priori (πριν οποιαδήποτε ένδειξη) και την ενηµερωµένη
πεποίθηση στα ενδεχόµενα πρόγνωσης, µετά από την εισαγωγή ενός στοιχείου
ένδειξης κάθε φορά, για τα δίκτυα ΒΝ-1 και ΒΝ-2 αντίστοιχα. Αναφορικά µε το ΒΝ2, φαίνεται καθαρά ότι πληροφορία σχετικά µε οποιαδήποτε µεταβλητή εκτός από τις
GCS, CT και «Αιτία κάκωσης», έχει πολύ µικρή επίπτωση στην εκτίµηση της
πρόγνωσης, δηλ. οι a posteriori τιµές πεποίθησης είναι παρόµοιες µε τις a priori τιµές.
Εάν από την άλλη πλευρά µας δίνονται πληροφορίες σχετικά µε τη GCS και CT, οι
υπόλοιπες µεταβλητές δε συνεισφέρουν καθόλου, αφού καθίστανται ανεξάρτητες της
GOS.
Τόσο στο ΒΝ-1 όσο και στο ΒΝ-2, η σχετική θέση των κόµβων GOS, GCS και CT
είναι η ίδια, και τα βέλη κατευθύνονται προς την GOS. Αναµένεται λοιπόν ότι η
επίδραση των ενδείξεων από αυτές τις µεταβλητές επί της GOS θα είναι η ίδια. Αυτό
µπορεί εύκολα να επιβεβαιωθεί από τον πίνακα 6.3.
130
GCS
CT
AGE
2.3
3
21.2
1
6.2
36.7
7
2
43.2
16.4
3
6
3.6
2
12.7
1.2
1
5
6.0
5
29.5
5.5
4
4
5.4
8.2
2
3
3.7
1
2.7
6.1
20.4
31.9
40.0
14.7
27.2
16.0
3.2
1.0
5.4
5.4
6.4
6.3
4.7
a posteriori πεποίθηση
1.0
1.1
27.7
48.0
28.1
1.3
29.8
1.0
5.3
1.7
3.8
5.9
5.8
5.0
4.2
BN-1
BN-1
BN-2
5.1
1.8
1.2
27.4
42.0
25.2
5.8
27.2
1.0
5.5
1.8
4.9
4.9
6.3
6.1
3.9
BN-2
Φυτική Κατάσταση
5.7
a priori πεποίθηση
Θάνατος
1.0
13.0
39.1
12.7
26.1
36.0
19.9
30.7
16.8
2.1
11.8
9.2
8.0
10.1
4.2
BN-1
8.5
1.8
12.9
39.9
14.5
25.2
32.2
20.0
31.0
17.1
2.1
8.0
8.0
10.3
10.0
6.5
BN-2
Σοβαρή ανικανότητα
Ενδεχόµενα πρόγνωσης κατά GOS (πεποιθήσεις σε %)
Η ενηµέρωση της πεποίθησης
5.8
41.5
7.9
1.3
1.3
13.4
19.4
31.1
37.0
3.5
17.7
10.4
11.9
11.4
5.0
BN-1
11.3
6.6
41.5
7.9
5.8
4.8
14.1
20.0
31.0
37.2
3.5
11.4
11.4
12.1
12.0
10.9
BN-2
Μέτρια ανικανότητα
89.9
38.2
4.1
1.3
1.3
36.6
1.4
20.8
37.3
91.5
60.7
69.0
68.9
65.3
82.9
BN-1
69.4
87.1
38.3
4.4
5.8
4.8
33.2
5.6
21.0
37.0
91.6
70.3
70.3
64.9
65.6
74.0
BN-2
Καλή αποκατάσταση
131
3.1
6.3
1
3
3.7
2
5.5
9.6
1
2
1.3
3
6.8
1
4.7
4.1
3
2
5.6
2
6.2
5.4
5.8
5.5
5.4
6.4
3.3
3.8
7.1
3.3
6.4
5.8
3.1
3.8
9.5
3.3
8.5
1.8
1.3
7.6
1.6
6.4
5.1
4.9
5.4
5.1
4.9
6.3
2.0
2.7
7.2
2.8
5.4
5.7
BN-2
3.1
8.8
7.7
7.9
9.8
4.1
4.4
11.3
3.6
9.6
8.8
BN-1
8.5
8.0
8.9
8.4
8.0
10.4
3.3
4.5
11.8
8.3
12.4
7.9
BN-2
Σοβαρή ανικανότητα
87.6
12.5
6.3
10.0
13.8
1.9
11.2
12.6
12.2
24.8
7.3
BN-1
11.3
11.4
11.7
11.5
11.4
12.1
10.3
10.3
12.5
13.4
18.4
9.6
BN-2
Μέτρια ανικανότητα
3.1
69.4
70.2
75.1
58.3
90.9
78.4
61.7
78.5
54.6
72.6
BN-1
69.4
70.3
68.2
69.5
70.3
64.8
81.1
78.7
61.5
72.2
57.5
71.0
BN-2
Καλή αποκατάσταση
132
Η πεποίθηση που συγκεντρώνεται σε κάθε ένα προγνωστικό ενδεχόµενο (έκβαση του ασθενή), µετά την εισαγωγή ενός στοιχείου ένδειξης. Το άνω τµήµα του πίνακα δείχνει
την a priori πεποίθηση, δηλαδή τη σχετική συχνότητα εµφάνισης των εκβάσεων στη βάση δεδοµένων. Ο υπόλοιπος πίνακας δείχνει την a posteriori πεποίθηση µετά την
εισαγωγή µίας ένδειξης. Εάν για παράδειγµα γνωρίζουµε ότι η αξονική τοµογραφία κάποιας ασθενούς δείχνει συµπιεσµένες δεξαµενές, µετατόπιση µέσης γραµµής
µικρότερη από 5 mm, χωρίς επισκληρίδιο αιµάτωµα (κατάσταση 4), η πεποίθηση στο ενδεχόµενο «Θάνατος» αυξάνεται από την αρχική 5.7% στο 29.5% (σύµφωνα µε το
δίκτυο ΒΝ-1). Αντίθετα µια αξονική τοµογραφία χωρίς ευρήµατα µειώνει την ίδια πεποίθηση από 5.7% σε 1.2%.
Πίνακας 6.3
MAP
INJURIES
CAUSE
DELAY
1
a posteriori πεποίθηση
BN-1
BN-1
BN-2
5.1
Φυτική Κατάσταση
5.7
a priori πεποίθηση
Θάνατος
Ενδεχόµενα πρόγνωσης κατά GOS (πεποιθήσεις σε %)
Οι Εικόνες 6.5 και 6.6 δείχνουν την a priori πεποίθηση στην πρόγνωση και την απόκριση του
δικτύου ΒΝ-1 µετά από την εισαγωγή διαφόρων σχηµατισµών ενδείξεων. Στην εικόνα 6.5 για
παράδειγµα, δίνεται η ένδειξη ότι το GCS score είναι 9 έως 13 (κατάσταση 2) και ότι η
τοµογραφία δείχνει επισκληρίδιο αιµάτωµα µε δεξαµενές παρούσες και µετατόπιση µέσης
γραµµής 0-5 mm (κατάσταση 3). Η εικόνα 6.7 αναφέρεται στο ΒΝ-2. ∆είχνει την πεποίθηση στα
ενδεχόµενα πρόγνωσης µετά τη συγκέντρωση πληροφορίας σχετικά µε την αιτία της κάκωσης
(αυτοκινητιστικό ατύχηµα) και την καθυστέρηση της εισαγωγής στο Νοσοκοµείο (2 έως 6 ώρες).
Η εικόνα 6.8 αποκαλύπτει τα διαφορετικά αποτελέσµατα που τα δύο δίκτυα δίνουν κάτω από τις
ίδιες διαθέσιµες πληροφορίες: η αιτία της κάκωσης είναι κάτι άλλο από τροχαίο ή πτώση και η
τοµογραφία δείχνει µετατόπιση µέσης γραµµής 0-5 mm. Αν και τα δύο δίκτυα αποδίδουν
µεγαλύτερη πεποίθηση στην καλή έκβαση, η πιθανότητα που αποδίδεται από το ΒΝ-1 είναι πολύ
µεγαλύτερη.
100.0
90.0
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
0.0
69.4
a priori
πεποιθήσεις
49.2
36.2
ση
τα
ατ
άσ
ότ
ητ
α
αν
απ
οκ
αν
ικ
αν
ικ
Σο
βα
ρή
αν
κα
υτ
ικ
ή
CT=3,
GCS=2
Κα
λή
η
τα
σ
τά
σ
άν
α
Θ
Φ
ότ
ητ
α
1.0
12.6
11.3
8.5
5.11.0
Μ
έτ
ρι
α
5.7
το
ς
Πεποίθηση (%)
BN-1: a priori και ενηµερωµένη (a posteriori) πεποίθηση στα προγνωστικά
ενδεχόµενα
Προγνωστικά ενδεχόµενα κατά GOS
Εικόνα 6.5:
Η a priori πεποίθηση στα προγνωστικά ενδεχόµενα και η ενηµερωµένη (a posteriori) πεποίθηση µετά την εισαγωγή
των παρακάτω ενδείξεων: το score του ασθενή στην κλίµακα GCS είναι από 9 ως 13 (GCS κατάσταση 2) και η
αξονική τοµογραφία δείχνει επισκληρίδιο αιµάτωµα µε δεξαµενές παρούσες και µετατόπιση µέσης γραµµής 0-5 mm
(CT κατάσταση 3).
133
100.0
90.0
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
0.0
a priori
πεποιθήσεις
69.4
45.8
28.6
η
ασ
στ
οκ
α
τά
νό
τη
τα
ικ
α
απ
αν
ικ
αν
Μ
έτ
ρι
α
ρή
αν
κα
ή
Σο
βα
Κα
λή
η
τα
σ
τά
σ
άν
Θ
υτ
ικ
Φ
Delay=2,
Injuries=1,
Age=3
8.5 9.1 11.3
ότ
ητ
α
5.19.0
5.7 7.5
ατ
ος
Πεποίθηση (%)
BN-1: a priori και ενηµερωµένη (a posteriori) πεποίθηση στα προγνωστικά
ενδεχόµενα
Προγνωστικά ενδεχόµενα κατά GOS
Εικόνα 6.6:
Όπως στην εικόνα 5, για το συνδυασµό ενδείξεων: η ηλικία του ασθενή είναι µεταξύ 20 και 40, µεσολάβησαν 2 ως 6
ώρες από την κάκωση µέχρι την εισαγωγή και παρατηρήθηκαν συνοδές κακώσεις.
100.0
90.0
80.0
70.0
60.0
50.0
40.0
30.0
20.0
10.0
0.0
69.4
50.3
5.7
7.3
19.3
16.1
11.3
7.0
8.5
5.1
a priori
πεποιθήσεις
Delay=2,
Cause=1
Φ
υτ
ικ
ή
κα
τά
Σο
στ
βα
ασ
ρή
η
αν
ικ
αν
Μ
ότ
έτ
ητ
ρι
α
α
αν
ικ
αν
Κα
ότ
λή
ητ
απ
α
οκ
ατ
άσ
τα
ση
Θ
άν
ατ
ος
Πεποίθηση (%)
BN-2: a priori και ενηµερωµένη (a posteriori) πεποίθηση στα
προγνωστικά ενδεχόµενα
Προγνωστικά ενδεχόµενα κατά GOS
Εικόνα 6.7:
Η ενηµερωµένη πεποίθηση στα προγνωστικά ενδεχόµενα σύµφωνα µε το ΒΝ-2, µετά τη συγκέντρωση πληροφοριών
σχετικά µε την αιτία της κρανιοεγκεφαλικής κάκωσης (τροχαίο ατύχηµα) και το χρόνο που µεσολάβησε µεταξύ της
κάκωσης και της εισαγωγής στο νοσοκοµείο (2 έως 6 ώρες).
134
81.6
a priori
πεποιθήσεις
43.2
6.3
5.3
1.83.8 1.4 5.04.7
46.9
BN-1
BN-2
Φ
υτ
Θ
ι
άν
Σο κή
α
βα κατ τος
άσ
ρή
Μ
αν τασ
έτ
η
ρι ικα
νό
Κα α
α
τ
λή
ητ
νι
απ καν α
οκ ότη
ατ
τ
άσ α
τα
ση
100.0
90.0
80.0
69.4
70.0
60.0
50.0
40.0
30.0
11.3
20.0
5.7 5.1 8.5
10.0
0.0
Φ
υτ
Θ
ι
άν
Σο κή
α
κ
βα
ατ τος
άσ
ρή
Μ
αν τασ
έτ
η
ρι ικα
νό
Κα α
α
τ
λή
ητ
νι
απ καν α
ό
οκ
τ
α τ ητα
άσ
τα
ση
Πεποίθηση (%)
Ενηµερωµένες (a posteriori) πεποιθήσεις, µε δεδοµένες τις ενδείξεις:
Cause=3, CT=2
Προγνωστικά ενδεχόµενα κατά GOS
Εικόνα 6.8:
Η διαφορά στα αποτελέσµατα όταν τα δύο δίκτυα τροφοδοτούνται µε τις ίδιες ενδείξεις: η αιτία της κάκωσης δεν
είναι τροχαίο ατύχηµα ή πτώση και η αξονική τοµογραφία δείχνει µετατόπιση µέσης γραµµής 0-5 mm χωρίς
επισκληρίδιο αιµάτωµα. Αν και τα δύο δίκτυα προτείνουν την καλή αποκατάσταση ως την πιο πιθανή έκβαση, η
πιθανότητα που αποδίδεται σ’ αυτήν από το ΒΝ-1 είναι πολύ µεγαλύτερη.
135
6.1.5 Αποτίµηση απόδοσης δικτύων
Η προγνωστική απόδοση των δικτύων αποτιµήθηκε χρησιµοποιώντας ως απόλυτο κριτήριο την
πραγµατική έκβαση του ασθενή στις 24 ώρες. Για το σκοπό αυτό τα δίκτυα δοκιµάστηκαν µε τις
75 περιπτώσεις ασθενών των οποίων η έκβαση ήταν γνωστή. Ειδικοί ιατροί, έχοντας στη διάθεσή
τους ακριβώς τα ίδια δεδοµένα αναφορικά µε τους 75 αυτούς ασθενείς, έκαναν τη δική τους
εκτίµηση για την έκβαση του ασθενή, η οποία καταγράφηκε. Τα δίκτυα, όπως είναι φυσικό,
απέδωσαν αριθµητικές τιµές πιθανότητας στα διάφορα ενδεχόµενα έκβασης, και έτσι η σύγκριση
της απόδοσής τους µε αυτή των ιατρών έγινε για την πιο πιθανή πρόγνωση.
Η απόδοση των δικτύων φαίνεται στον πίνακα 4. Το ΒΝ-1 προέβλεψε σωστά την έκβαση του
ασθενή σε 61 από τις 75 περιπτώσεις (επιτυχία 81%), ενώ το ΒΝ-2 ήταν σωστό σε 52 περιπτώσεις
(69%). Το αντίστοιχο ποσοστό επιτυχίας του ειδικού ιατρού ήταν 89% (67 σωστές προβλέψεις). Η
απόδοση του δικτύου που προέκυψε από την αφαιρετική διαδικασία είναι συγκρίσιµη µε αυτή του
ιατρού ενώ η απόδοση του ΒΝ-2 είναι σαφώς κατώτερη. Είναι κάτι που αναµενόταν, αφού η
προσθετική διαδικασία κατά τη διερεύνηση κινείται ανάµεσα σε µοντέλα που εµφανίζουν a priori
κακή προσαρµογή µε τα δεδοµένα λόγω των υπερβολικά πολλών παραδοχών ανεξαρτησίας που
κάνουν.
Υπάρχουν, όπως έχει ειπωθεί σε προηγούµενο κεφάλαιο, µέθοδοι επιλογής που δεν καταλήγουν
σε ένα µοντέλο, το οποίο θεωρείται το καλύτερο δυνατό, αλλά σε έναν αριθµό µοντέλων [38].
Αυτό µπορεί να θεωρηθεί ως πλεονέκτηµα, µια που αποδεικνύει την εγγενή απροσδιοριστία ως
προς τη δοµή.
136
4
8
12
48
75
Φυτική
Κατάσταση
Σοβαρή
ανικανότητα
Μέτρια
ανικανότητα
Καλή
αποκατάσταση
Συνολικά
67
45
10
6
3
3
αριθµός επιτυχών
προγνώσεων
89
94
83
75
75
100
ποσοστό
επιτυχίας (%)
Πρόβλεψη ειδικού
61
42
9
5
2
3
αριθµός επιτυχών
προγνώσεων
81
88
75
63
50
100
ποσοστό
επιτυχίας (%)
Πρόβλεψη δικτύου ΒΝ-1
52
40
5
3
2
2
αριθµός επιτυχών
προγνώσεων
69
83
42
38
50
67
ποσοστό
επιτυχίας (%)
Πρόβλεψη δικτύου ΒΝ-2
137
Η απόδοση των δικτύων πεποίθησης, συγκρινόµενη µε τις προγνωστικές εκτιµήσεις των ειδικών. Το ποσοστό επιτυχίας του δικτύου ΒΝ-1 (81%) είναι καλύτερο από εκείνο
του ΒΝ-2 (69%) και συγκρίσιµο µε του ειδικού Νευροχειρουργού (89%).
Πίνακας 6.4
3
Θάνατος
αριθµός
ασθενών
Πραγµατική έκβαση στις 24 ώρες
Η απόδοση των δικτύων πεποίθησης
6.2 Ασθενείς Μονάδας Εντατικής Θεραπείας
6.2.1 Μεταβλητές
Με τρόπο αντίστοιχο µε το πρόβληµα πρόγνωσης ασθενών των Εξωτερικών
Ιατρείων, καθορίστηκαν οι µεταβλητές και γι αυτό το κλινικό πρόβληµα. Υπάρχουν
ωστόσο ορισµένες διαφορές, που οφείλονται στο ότι το πρόβληµα των ασθενών της
ΜΕΘ προηγήθηκε χρονικά αυτού των Εξωτερικών Ιατρείων.
Συγκεκριµένα:
•
οι συνοδές κακώσεις δεν ελήφθησαν υπ’ όψιν
•
η αιτία της κάκωσης δεν ελήφθη υπ’ όψιν
•
συµπεριελήφθη η
ανισοκορία, κ.φ.)
•
η µεταβλητή «Κλίµακα Κώµατος της Γλασκώβης» έχει περισσότερα
ενδεχόµενα, δηλαδή έγινε µικρότερη οµαδοποίηση
•
τέλος, τα ευρήµατα αξονικής τοµογραφίας
κατηγοριοποίηση από αυτήν της Diffuse Injury Scale
µεταβλητή
«Οφθαλµική
αντίδραση»
ακολουθούν
Οι µεταβλητές που ελήφθησαν υπ’ όψιν φαίνονται στον Πίνακα 6.5.
138
(µυδρίαση,
άλλη
Οι κλινικές και εργαστηριακές µεταβλητές
Κλίµακα έκβασης Γλασκώβης
Ηλικία
[GOS]
[Age]
Κατ. 1:
Θάνατος
Κατ. 1:
0-10 ετών
Κατ. 2:
Φυτική Κατάσταση
Κατ. 2:
11-20 ετών
Κατ. 3:
Σοβαρή ανικανότητα
Κατ. 3:
21-40 ετών
Κατ. 4:
Μέτρια ανικανότητα
Κατ. 4:
41-60 ετών
Κατ. 5:
Καλή αποκατάσταση
Κατ. 5:
> 60 ετών
Μέση Αρτηριακή Πίεση
Καθυστέρηση
[MAP]
[Delay]
Κατ. 1:
< 60 mmHg
Κατ. 1:
< 2 ώρες
Κατ. 2:
60 - 120 mmHg
Κατ. 2:
2-6 ώρες
Κατ. 3:
> 120 mmHg
Κατ. 3:
> 6 ώρες
Κλίµακα κώµατος Γλασκώβης
Αξονική Τοµογραφία
[GCS]
[CT]
Κατ. 1:
Score 3-4
Κατ. 1:
Μετατόπιση µέσης γραµµής
Κατ. 2:
Score 5-7
Κατ. 2:
Βλάβη >25 cm3
Κατ. 3:
Score 8-10
Κατ. 3:
Βλάβη <25 cm3
Κατ. 4:
Score 11-13
Κατ. 4:
Οίδηµα
Κατ. 5:
Score 14-15
Κατ. 5:
Χωρίς ευρήµατα
Οφθαλµική αντίδραση
[Pupil Response]
Κατ. 1:
Μυδρίαση άµφω
Κατ. 2:
Ανισοκορία
Κατ. 3:
κ.φ.
Πίνακας 6.5
Οι κλινικές και εργαστηριακές µεταβλητές που συµπεριελήφθησαν στο δίκτυο πεποίθησης, των
ασθενών της ΜΕΘ.
139
6.2.2 Βάση δεδοµένων
Η βάση δεδοµένων περιέχει τα κλινικά και εργαστηριακά ευρήµατα 637 ασθενών µε
κρανιοεγκεφαλική κάκωση της Μονάδας Εντατικής Θεραπείας του ΠΠΓΝΠ. Τα
δεδοµένα συγκεντρώθηκαν την περίοδο 1994-1998.
Οι καρτέλες για τους ασθενείς συµπληρώνονταν από ιατρούς της ΜΕΘ και της
Νευροχειρουργικής κλινικής εντός της 1ης ώρας από την εισαγωγή του ασθενή.
Για κάθε ασθενή καταγράφονταν οι τιµές επτά µεταβλητών, συµπεριλαµβανοµένης
και της πραγµατικής έκβασης του ασθενούς στις 24 ώρες, σύµφωνα µε την κλίµακα
έκβασης της Γλασκώβης (Glasgow Outcome Scale – GOS).
Το σκορ της Κλίµακας Κώµατος της Γλασκώβης καταγράφηκε κατά την εισαγωγή
του ασθενή στο Νοσοκοµείο. Οι ασθενείς διασωληνώθηκαν στο Τµήµα Επειγόντων
Περιστατικών πριν την είσοδό τους στη ΜΕΘ. Είτε είχαν σκορ από 3 έως 8 είτε το
αρχικό σκορ από 9 έως 15 επιδεινωνόταν γρήγορα.
Για τους ασθενείς των οποίων η Αξονική Τοµογραφία εγκεφάλου έδειξε περισσότερα
από ένα εκ των πιθανών ευρηµάτων (για παράδειγµα τόσο οίδηµα όσο και
µετατόπιση µέσης γραµµής), ελήφθη υπ’ όψιν το χειρότερο εύρηµα (στο παράδειγµα,
η µετατόπιση µέσης γραµµής). Προκειµένου να ελαττωθεί η υποκειµενικότητα στην
εκτίµηση τόσο του σκορ GCS όσο και των ευρηµάτων της Αξονικής Τοµογραφίας, οι
τιµές που τελικά εισήχθησαν στη βάση δεδοµένων ήταν οι µέσες τιµές των
εκτιµήσεων επτά ειδικών από τα αντίστοιχα πεδία (Νευροχειρουργοί και
Ακτινολόγοι). Οι τυπικές αποκλίσεις των εκτιµήσεών τους ήταν πολύ µικρές, όπως
ήταν αναµενόµενο, µε αποτέλεσµα να είναι εξασφαλισµένος ο αντικειµενικός
χαρακτήρας των πληροφοριών που εισήχθησαν στη βάση δεδοµένων.
140
6.2.3 Επιλογή µοντέλου
Η ανάπτυξη ενός δικτύου πεποίθησης, όπως είπαµε και νωρίτερα, προϋποθέτει τον
καθορισµό της αρχιτεκτονικής του δικτύου και τον υπολογισµό των παραµέτρων του,
δηλαδή των πινάκων δεσµευµένης πιθανότητας.
Σε αντιστοιχία µε όσα αναφέρθηκαν για την περίπτωση των ασθενών από τα
Εξωτερικά Ιατρεία, η επιλογή της αρχιτεκτονικής έγινε µε βηµατική διαδικασία
διερεύνησης µέσα στο χώρο των αποσυνθέσιµων γραφικών λογαριθµικών µοντέλων.
Στη συγκεκριµένη περίπτωση, ακολουθήθηκε η προσθετική διαδικασία. Αυτή ξεκινά
θεωρώντας αρχικά το µοντέλο στο οποίο όλες οι µεταβλητές είναι ανεξάρτητες και
ελέγχει αν βελτιώνεται η περιγραφή του συνόλου των δεδοµένων (data) αποδεχόµενη
ένα µοντέλο στο οποίο σταδιακά προστίθενται δεσµοί, δηλαδή υποθέτοντας σταδιακά
απουσία ανεξαρτησιών µεταξύ των µεταβλητών.
Η προσθετική διαδικασία, ξεκινώντας από το µοντέλο πλήρους ανεξαρτησίας
[M][A][G][D][P][C][O] κατέληξε στο µοντέλο [AC][CGO][COP][MO][DO].
(Εικόνα 6.8). Πρόκειται για αποσυνθέσιµο µοντέλο και άρα µπορεί να µετατραπεί σε
δίκτυο πεποίθησης (Εικόνα 6.9).
Η αξιολόγηση της απόδοσης του εµπείρου συστήµατος γίνεται µέσω της σύγκρισής
της µε αυτήν του αφελούς δικτύου πεποίθησης της εικόνας 6.10.
Εικόνα 6.8:
Η προσθετική µέθοδος που ξεκινά από το µοντέλο πλήρους ανεξαρτησίας [M][A][G][D][P][C][O]
κατέληξε στο µοντέλο [AC][CGO][COP][MO][DO]
Η αντιστοιχία µεταξύ γραµµάτων και µεταβλητών είναι η ακόλουθη:
A: Age
G: GCS
D: Delay
C: CT
P: Pupil Response
M: MΑΡ
O: GOS
141
Εικόνα 6.9:
Το δίκτυο πεποίθησης που προκύπτει από την απόδοση κατεύθυνσης στους δεσµούς του µη
κατευθυντικού γραφήµατος της εικόνας 6.8. Οι δεσµοί κατευθύνονται πάντα από κόµβους µικρότερου
δείκτη σε κόµβους µε µεγαλύτερο δείκτη, σύµφωνα µε την απόλυτη αρίθµηση που υπάρχει στα
αποσυνθέσιµα µοντέλα.
Εικόνα 6.10:
Το αφελές δίκτυο πεποίθησης (naïve ΒΝ) για τους ασθενείς της ΜΕΘ.
142
6.2.4 Συµπερασµατολογία.
Αυτό που ζητούµε από ένα έµπειρο σύστηµα που στηρίζεται σε δίκτυα πεποίθησης
είναι ο υπολογισµός της a posteriori πεποίθησης στα πιθανά ενδεχόµενα έκβασης του
ασθενούς (GOS) καθώς τίθενται στη διάθεσή µας νέα στοιχεία αναφορικά µε τις
υπόλοιπες µεταβλητές. Η πληροφορία πο αποκτούµε από την κλινική και
εργαστηριακή εξέταση του ασθενή τροφοδοτείται στο σύστηµα και διαδίδεται µέσω
αυτού µέχρι να φτάσει στον κόµβο GOS. Κάθε στοιχείο πληροφορίας έχει
διαφορετική επίδραση στα ενδεχόµενα της πρόγνωσης. Αυτό εξαρτάται τόσο από τη
σχετική θέση του συγκεκριµένου κόµβου ως προς τον κόµβο GOS, ;όσο και από τις
µήτρες διασύνδεσης που µεσολαβούν από τον κόµβο που παρατηρήθηκε µέχρι τον
κόµβο της πρόγνωσης.
Ακριβώς λόγω αυτών των παραγόντων, τα δύο δίκτυα πεποίθησης (σύνθετο και
αφελές) δίνουν διαφορετικά αποτελέσµατα, ενώ στηρίζονται στις ίδιες πληροφορίες
αναφορικά µε τον ασθενή. Ο πραγµατικός λόγος για αυτή τη συµπεριφορά είναι οι
διαφορετικές δηλώσεις ανεξαρτησίας που τα δύο συστήµατα υιοθετούν.
Ο Πίνακας 6.6 δείχνει πόσο ευαίσθητος είναι ο κόµβος της πρόγνωσης σε ευρήµατα
που καθίστανται διαθέσιµα αναφορικά µε άλλες µεταβλητές. Μετρήθηκαν δύο
ποσότητες, η αµοιβαία πληροφορία (ή ελλάττωση της εντροπίας – mutual
information, entropy reduction) και το quadratic score.
Η αµοιβαία πληροφορία µεταξύ της έκβασης (GOS) και µιας άλλης µεταβλητής
ισούται µε την αναµενόµενη ελάττωση της ςεντροπίας της GOS εξ’ αιτίας ενός
ευρήµατος σε µια άλλη µεταβλητή. Η ποσότητα αυτή παίρνει την ελάχιστη τιµή της
(µηδέν) όταν η µεταβλητή είναι ανεξάρτητη της GOS, ενώ η µέγιστη τιµή της ισούται
µε την εντροπία τής GOS (τιµή βάσης – base value στον Πίνακα 6.6).
Το quadratic score δείχνει την αναµενόµενη διαφορά µεταξύ της κατανοµής της
µεταβλητής GOS χωρίς κάποιο εύρηµα σε άλλη µεταβλητή και της κατανοµής της
µεταβλητής GOS µε την παρουσία κάποιου ευρήµατος σε άλλη µεταβλητή. Η
Ελάχιστη τιµή του είναι µηδέν αν η µεταβλητή είναι ανεξάρτητη της GOS και η
µέγιστη τιµή που µπορεί να λάβει είναι ένα (1).
Στον Πίνακα 6.6 οι µεταβλητές καταχωρήθηκαν σε φθίνουσα σειρά ισχύος.
Σύνθετο BN
Node
Αφελές BN
Mutual Information
Quadratic Score
Base value 1.87
Node
Mutual Information
Quadratic Score
Base value 1.87
CT
0.31771
0.0985610
CT
0.20702
0.0335458
PUPIL
0.30235
0.0767133
PUPIL
0.20647
0.0375259
GCS
0.19838
0.0369472
GCS
0.09126
0.0163234
MAP
0.05621
0.0060566
MAP
0.03623
0.0060612
DELAY
0.02285
0.0020431
AGE
0.03534
0.0055444
AGE
0.00951
0.0015747
DELAY
0.02285
0.0020438
Πίνακας 6.6
Η ευαισθησία του κόµβου GOS σε ευρήµατα άλλων µεταβλητών. Μετρήθηκαν δύο ποσότητες, η
αµοιβαία πληροφορία (mutual information ή entropy reduction) και το quadratic score.
143
Η a priori πεποίθηση σε κάθε ενδεχόµενο έκβασης ταυτίζεται µε τη σχετική
συχνότητα εµφάνισης του αντίστοιχου ενδεχοµένου στο υποσύνολο εκµάθησης της
βάσης δεδοµένων και άρα είναι κοινή και για τα δύο δίκτυα πεποίθησης. Με άλλα
λόγια, το 38.2% των 637 ασθενών του υποσυνόλου εκµάθησης στην πραγµατικότητα
πέθαναν ή βρέθηκαν σε φυτική κατάσταση στις 24 ώρες, ενώ το 24.9% είχαν πλήρη
αποκατάσταση.
Η Εικόνα 6.11 δείχνει την απόκριση των δύο δικτύων πεποίθησης µετά την
ακολουθιακή εισαγωγή ευρηµάτων. Για την περίπτωση ασθενούς µε ανισοκορία και
αξονική τοµογραφία που δείχνει µετατόπιση µέσης γραµµής, το µέν σύνθετο ΒΝ
αποδίδει πεποίθηση 61.1% στο ενδεχόµενο «θάνατος στις 24 ώρες» ενώ το αφελές
ΒΝ υποστηρίζει το ίδιο ενδεχόµενο µε πιθανότητα 70.7%.
Αν ο ασθενής έχει ανισοκορία, η αξονική του τοµογραφία δείχνει την ύπαρξη
οιδήµατος και βρίσκεται σε κώµα (GCS από 5 έως 7), τα δύο δίκτυα πεποίθησης
προτείνουν διαφορετικές εκβάσεις. Το σύνθετο ΒΝ υποστηρίζει το ενδεχόµενο
«θάνατος» ενώ µε τα ίδια ευρήµατα στη διάθεσή του, το αφελές επιλέγει την «καλή
αποκατάσταση» ως πιο πιθανό ενδεχόµενο.
Το παραπάνω αποτελεί παράδειγµα περιστατικών για τα οποία τα δύο δίκτυα
πεποίθησης αποδίδουν υψηλές a posteriori πεποιθήσεις σε δύο διαµετρικά αντίθετα
ενδεχόµενα («θάνατος» και «καλή αποκατάσταση»). Ενώ είναι διαισθητικά εύκολο
να αναγνωρίσουµε µια τάση όταν τα δίκτυα πεποίθησης αποδίδουν παραπλήσιες
πεποιθήσεις σε γειτονικά ενδεχόµενα πρόγνωσης, τέτοιου είδους περιστατικά
φαινοµενικά οδηγούν σε αντιφάσεις.
Ο λόγος για µια τέτοια συµπεριφορά από µέρους των δικτύων είναι ότι κάποια
σχήµατα (ακολουθίες) ευρηµάτων είναι συµβατά τόσο µε ασθενείς που στις 24 ώρες
πέθαναν, όσο και µε ασθενείς που είχαν καλή αποκατάσταση. Πέραν αυτού, θα
πρέπει επίσης να ληφθεί υπ’ όψιν ότι η a priori πεποίθηση δεν είναι ισοκατανεµηµένη
στα ενδεχόµενα έκβασης. Άρα υπάρχουν σχήµατα ευρηµάτων που δεν οδηγούν
υποχρεωτικά σε a posteriori πεποιθήσεις οι οποίες ακολουθούν µια σαφή τάση προς
ένα ενδεχόµενο έκβασης.
144
2.4
2.4
25.0
22.4
14.1
25.0
22.4
14.1
36.1
36.1
Good
Moderate
Severe
Vegetative
Dead
Good
Moderate
Severe
Vegetative
Dead
Οφθαλµική αντίδραση
: 5 έως 7
GCS
18.0
13.7
21.9
14.6
31.8
Good
Moderate
Severe
Vegetative
Dead
: Οίδηµα
Αξονική Τοµογραφία
Σύνθετο BN
6.1
2.9
Αφελές BN
34.1
28.4
21.1
13.5
9.2
10.2
3.8
: Ανισοκορία
Good
10.1
Severe
Vegetative
Dead
Moderate
12.6
61.1
Αφελές BN
: Μετατόπιση µέσης γραµµής
11.0
5.2
Σύνθετο BN
Αξονική Τοµογραφία
: Ανισοκορία
70.7
145
Για κωµατώδη ασθενή (GCS από 5 έως 7) µε ανισοκορία και εγκεφαλικό οίδηµα, τα δύο δίκτυα επιλέγουν διαφορετικές εκβάσεις. Το σύνθετο ΒΝ εµφανίζει µια µείωση της
πεποίθησης στα ενδεχοµένα «καλή αποκατάσταση» και «µέτρια ανικανότητα» προς όφελος χειρότερων εκβάσεων. Το ενδεχόµενο «θάνατος» λαµβάνει την υψηλότερη
πεποίθηση (31.8%). Το αφελές ΒΝ, αντίθετα, ελαττώνει την πεποίθηση στο ενδεχόµενο «θάνατος» και προβλέπει καλή αποκατάσταση (34.1%). Επίσης αποδίδει υψηλή
πεποίθηση στο ενδεχόµενο «µέτρια ανικανότητα» (28.4%)
Οι διαφορές στν απόκριση των δύο δικτύων όταν τροφοδοτούνται µε τα ίδια ευρήµατα. Για ασθενή µε ανισοκορία και αξονική τοµογραφία που δείχνει µετατόπιση µέσης
γραµµής, και τα δύο δίκτυα υποστηρίζουν το ενδεχόµενο «θάνατος» µε διαφορετικές πεποιθήσεις. Η αρχική πεποίθηση στο ενδεχόµενο «θάνατος» (36.1%) αυξάνεται
δραµτικά υπό το φώς των δεδοµένων αυτών σε 61.1% (σύνθετο ΒΝ) ή σε 70.7% (αφελές ΒΝ).
Εικόνα 6.11:
Good
Moderate
Severe
Vegetative
Dead
A priori πεποιθήσεις
Good
Moderate
Severe
Vegetative
Dead
A priori πεποιθήσεις
Οφθαλµική αντίδραση
6.2.5 Αποτίµηση απόδοσης δικτύων
Η προγνωστική απόδοση των δικτύων αποτιµήθηκε χρησιµοποιώντας ως απόλυτο
κριτήριο την πραγµατική έκβαση του ασθενή στις 24 ώρες. Η απόδοσή τους
συγκρίνεται µε την απόδοση ειδικών ιατρών, οι οποίοι, έχοντας στη διάθεσή τους
ακριβώς τα ίδια δεδοµένα έκαναν τη δική τους εκτίµηση για την έκβαση των
ασθενών.
Η σύγκριση όµως της απόδοσης των συστηµάτων δεν περιορίζεται εκεί. Τα δύο
έµπειρα συστήµατα τίθενται σε σύγκριση και µε δύο τεχνικές που είναι
αποδεδειγµένα επιτυχείς [88] σε διαδικασίες κατηγοριοποίησης: την polychotomous
regression [77] και τους k-nearest neighbours.
Και οι δύο τεχνικές προϋποθέτουν το διαχωρισµό των δεδοµένων σε δύο υποσύνολα:
το υποσύνολο εκµάθησης (training set) και το υποσύνολο δοκιµών (test set). Οι
τεχνικές αυτές διαµορφώνονται από το υποσύνολο εκµάθησης και δοκιµάζονται στο
υποσύνολο δοκιµών. Επειδή όµως δεν υπάρχει πληθώρα αριθµού ασθενών µε ΚΕΚ,
τα ιατρικά δεδοµένα είναι πολύτιµα και διστάζει κανείς να µην χρησιµοποιήσει το
σύνολο των δεδοµένων για εκµάθηση.
Αντί λοιπόν να χρησιµοποιήσουµε ένα συγκεκριµένο υποσύνολο των δεδοµένων για
δοκιµές, ακολουθήσαµε την τακτική της cross validation 10 πτυχών (10-fold cross
validation) [123].
Το σύνολο των δεδοµένων επιµερίζεται µε τυχαίο τρόπο σε 10 ξένα µεταξύ τους
υποσύνολα. Ένα από αυτά τα υποσύνολα χρησιµοποιείται ως υποσύνολο δοκιµών
ενώ τα υπόλοιπα εννέα χρησιµοποιούνται για το fitting και την πρόγνωση των
δεδοµένων του υποσυνόλου δοκιµών. Η διαδικασία αυτή επαναλαµβάνεται 10 φορές
ώστε κάθε στοιχείο των δεδοµένων να έχει προγνωσθεί από τις τεχνικές. Τότε
υπολογίζεται η απόδοση των τεχνικών.
Η τακτική της cross validation εφαρµόζεται γενικά σε περιπτώσεις που το σύνολο
των δεδοµένων είναι σχετικά µικρό. Στη δική µας µελέτη χρησιµοποιείται για να
αντιµετωπίσουµε το πρόβληµα του µικρού αριθµού ασθενών που υπάγονται στην
κατηγορία «φυτική κατάσταση».
Οι k-nearest neighbours είναι µια µη-παραµετρική τεχνική κατηγοριοποίησης
σύµφωνα µε την οποία ανευρίσκονται τα k πιο κοντινά παραδείγµατα ασθενών στο
υποσύνολο εκµάθησης και η κατανοµή την οποία ακολουθούν οι µεταβλητές GOS
στα παραδείγµατα αυτά παρέχει την εκτίµηση για την τιµή GOS που θα λάβει ο
ασθενής που ανήκει στο υποσύνολο δοκιµών. Το πόσο κοντινά είναι τα παραδείγµατα
καθορίζεται µε Ευκλείδεια µέτρα απόστασης στον εξαδιάστατο χώρο των
προγνωστικών µεταβλητών. Κάνοντας πειράµατα µε διάφορες τιµές του k βρήκαµε
ότι τα καλύτερα αποτελέσµατα δίνει η τιµή k=3.
Η polychotomous regression από την άλλη πλευρά προσαρµόζει ένα µοντέλο
polychotomous logistic regression χρησιµοποιώντας γραµµικά splines και τα
γινόµενα των τανυστών τους. Η µέθοδος παρέχει εκτιµήσεις για τις υπό συνθήκη
πιθανότητες έκβασης (conditional probabilities) οι οποίες µπορούν να
χρησιµοποιηθούν για την πρόγνωση της έκβασης κατά GOS.
Ο πίνακας που ακολουθεί παρουσιάζει αναλυτικά την απόδοση των υπό µελέτη
τεχνικών. Η µέθοδος 3-nearest neighbours παρουσιάζει την καλύτερη απόδοση (91%
επιτυχείς προγνώσεις), ακολουθούµενη από τον ειδικό Νευροχειρουργό (83%) και το
σύνθετο BN (80%). Η polychotomous regression προέβλεψε σωστά την έκβαση των
146
ασθενών στο 74% των περιπτώσεων ενώ το αφελές δίκτυο πεποίθησης στο 64% των
περιπτώσεων.
Πραγµατική Έκβαση στις
24 ώρες
Αριθµός
περιστατικών
Ποσοστό επιτυχών προγνώσεων (%)
Νευροχειρουργός
Σύνθετο
BN
Αφελές
BN
3-Nearest
Neighbors
Polychotomous
Logistic
Regression
Death
230
83
85
72
95
71
Vegetative Sate
15
77
62
53
90
49
Severe disability
90
86
76
59
85
81
Moderate disab.
143
81
68
53
87
72
Good recovery
159
82
89
67
93
80
ΣΥΝΟΛΟ
637
83
80
64
91
74
Οι παραπάνω διαφορές είναι στατιστικά σηµαντικές (p<0.01), εκτός εκείνης µεταξύ
του Νευροχειρουργού και του σύνθετου BN (p>0.05). Το ποσοστό επιτυχών
προγνώσεων του σύνθετου BN είναι µεγαλύτερο από εκείνο του αφελούς ΒΝ για όλα
τα ενδεχόµενα έκβασης ενώ και τα δύο παρουσιάζουν τα µεγαλύτερα ποσοστά
επιτυχών προγνώσεων στα ακραία ενδεχόµενα (θάνατος-καλή αποκατάσταση).
Η απόδοση των τριών παραµετρικών τεχνικών (τα δύο δίκτυα πεποίθησης και η
polychotomous regression) είναι συνεπής προς την πολυπλοκότητα των παραδοχών
που υιοθετούν. Η polychotomous regression µπορεί να θεωρηθεί ως µια επέκταση του
αφελούς ΒΝ αλλά δεν λαµβάνει υπ’ όψιν τις αλληλεπιδράσεις µεταξύ των έξ
προγνωστικών µεταβλητών, πράγµα το οποίο συµβαίνει στο σύνθετο BN. Το σύνθετο
BN αξιοποιεί γι αυτό το σκοπό τη βάση δεδοµένων των κλινικών και εργαστηριακών
ευρηµάτων και είναι κατά συνέπεια πιο συµβατό µε το συγκεκριµένο πληθυσµό
ασθενών. Αν κάποιος δεν ενδιαφέρεται για συµπερασµατολογία ποιοτικού τύπου (π.χ.
δηλώσεις δεσµευµένης ανεξαρτησίας) αλλά µόνον για µια επιτυχή κατηγοριοποίηση,
τότε µπορεί να προτιµήσει τεχνικές του τύπου «µαύρο κουτί» (όπως οι k-nearest
neighbours ή τα νευρωνικά δίκτυα) οι οποίες επιδεικνύουν πολύ καλές αποδόσεις.
Ο Πίνακας 6.7 παρουσιάζει µια άλλη πτυχή της απόδοσης των δικτύων πεποίθησης,
και συγκεκριµένα πόσες φορές τα δύο ΒΝ απέδωσαν µεγάλη πεποίθηση σε κάποιο
από τα ενδεχόµενα της έκβασης αλλά τελικά έκαναν λάθος. Για παράδειγµα, το
σύνθετο ΒΝ απέδωσε στο ενδεχόµενο «θάνατος» πεποίθηση µικρότερη από 10% σε
101 περιπτώσεις ασθενών. Σε 4 από αυτές (3.96%) έκανε λάθος, αφού ο «θάνατος»
ήταν η πραγµατική έκβαση. Το αντίστοιχο σφάλµα για το αφελές ΒΝ ήταν 9.95%.
Με την εξαίρεση των εκτιµήσεων για το ενδεχόµενο «µέτρια ανικανότητα», τα
επίπεδα σφάλµατος των δύο δικτύων διαφέρουν στατιστικώς σηµαντικά (p<0.05),
προς όφελος του σύνθετου δικτύου.
147
Ενδεχόµενο
κατά GOS
Predicted Probability (πεποίθηση)
<10%
>90%
Σύνθετο BN
Αφελές BN
Σηµαντικότητα
διαφοράς
Σύνθετο BN
Αφελές BN
Σηµαντικότητα
διαφοράς
Death
3.96 % (4/101)
9.95 % (19/191)
p < 0.05
9.09 % (4/44)
10.59 % (9/85)
p > 0.05
Vegetative
state
1.04 % (6/578)
2.38 % (15/630)
p < 0.05
0.00 % (0/0)
0.00 % (0/0)
–
Severe
disability
2.67 % (6/225)
7.99 % (25/313)
p < 0.005
0.00 % (0/0)
0.00 % (0/0)
–
Moderate
disability
5.70 %(11/193)
6.06 % (12/198)
p > 0.05
0.00 % (0/0)
0.00 % (0/0)
–
Good
recovery
3.08 % (6/195)
6.87 % (16/233)
p < 0.05
0.00 % (0/0)
0.00 % (0/4)
–
ΣΥΝΟΛΟ
2.55 % (33/1292)
5.56 % (87/1565)
p < 0.001
9.09 % (4/44)
10.11 % (9/89)
p > 0.05
Πίνακας 6.7
Το σύνθετο δίκτυο επίσης παρουσιάζει καλύτερη βαθµονόµηση (calibration). Η
εικόνα που ακολουθεί δείχνει την παρατηρηθείσα σχετική συχνότητα κάποιου
ενδεχοµένου για διάφορες τιµές πεποίθησης που έχουν αποδοθεί σ’ αυτό το
ενδεχόµενο. Για παράδειγµα, από το σύνολο των περιπτώσεων που το αφελές δίκτυο
απέδωσε πεποίθηση ίση µε 70% σε ένα ενδεχόµενο, το ενδεχόµενο αυτό πραγµατικά
παρατηρήθηκε σε 55% από αυτές. Η ιδανική τεχνική κατηγοριοποίησης θα
ακολουθούσε τη διαγώνιο του γραφήµατος. Η απόσταση από τη διαγώνιο είναι
εποµένως ένα µέτρο της υπό µελέτη µεθόδου. Το σύνθετο ΒΝ είναι προφανώς πιο
κοντά στη διαγώνιο, εν σχέσει µε το αφελές.
Calibration plot for the two BNs
100
Observed relative frequency
(%)
90
80
70
60
complex BN
50
optimal
naive BN
40
30
20
10
0
0
10
20
30
40
50
60
70
80
Belief in prognostic outcome
(%)
148
90 100
7. ΣΥΜΠΕΡΑΣΜΑΤΑ
Μέσα από την ανάπτυξη του εµπείρου συστήµατος για το συγκεκριµένο κλινικό
πρόβληµα, αποκαλύφθηκαν τα βασικά χαρακτηριστικά των δικτύων πεποίθησης,
τόσο ως µέσο αποτύπωσης της γνώσης, όσο και ως βοήθηµα λήψεως ιατρικών
αποφάσεων.
Συγκεκριµένα, έγινε σαφές ότι τα ∆ίκτυα Πεποίθησης:
•
είναι συµβατά µε τον τρόπο σκέψης του Ιατρού, καθώς αξιοποιούν τον ίδιο
µηχανισµό αποτίµησης της αξίας της πληροφορίας και του συνδυασµού των
διαθέσιµων στοιχείων για την επίτευξη του διαγνωστικού/προγνωστικού
στόχου
•
κωδικοποιούν την ιατρική σκέψη µέσω της αρχιτεκτονικής τους, καθώς
αποτυπώνουν µε γραφικό τρόπο τις σχέσεις δεσµευµένης ανεξαρτησίας
µεταξύ των µεταβλητών, όπως αυτές προκύπτουν όχι από γνώση των ειδικών
του πεδίου εφαρµογής, αλλά από τις στατιστικές σχέσεις µεταξύ τους, στη
βάση δεδοµένων
•
ποσοτικοποιούν την εκτίµηση του Ιατρού µε όρους πιθανότητας,
αποδίδοντας µε όρους πιθανότητας τα µέτρο της πεποίθησης στα διάφορα
προγνωστικά ενδεχόµενα, συνεκτιµώντας όλα τα διαθέσιµα στοιχεία
•
επιτρέπουν την εισαγωγή ελλιπών δεδοµένων, καθώς δεν είναι απαραίτητη
η διάθεση του συνόλου της πληροφορίς για την τροποποίηση της πεποίθησης.
•
επιτρέπουν την εισαγωγή στοιχείων υποκειµενικού χαρακτήρα, όπως για
παράδειγµα την εκτίµηση του ιατρού για την τιµή κάποιας µεταβλητής
•
προσφέρουν ένα µοντέλο αναπαράστασης του προβλήµατος, και όχι απλά
ένα µαύρο κουτί που εκτελεί κατηγοριοποιήσεις
•
έχουν επιδόσεις παραπλήσιες µε των έµπειρων Ιατρών, πράγµα που τα
καθιστά ιδιάιτερα χρήσιµα σε περιβάλλοντα στα οποία η παρουσία εµπείρων
ιατρών είναι είτε αδύνατη είτε ασύµφορη
•
αποκαλύπτουν τις αλληλεπιδράσεις µεταξύ των µεταβλητών, και
αναδεικνύουν τις µεταβλητές µε τη µεγαλύτερη επίπτωση στην τελική
έκβαση, δηλαδή τις µεταβλητές που φέρουν το κατά περίπτωση µεγαλύτερο
ποσό πληροφορίας
•
εµπεριέχουν και αξιοποιούν τη συλλογική εµπειρία ετών, καθώς
αξιοποιούν βάσεις δεδοµένων µε περιστατικά πολλών ετών
•
παρέχουν τη δυνατότητα µεταφοράς της εµπειρίας σε οποιοδήποτε
περιβάλλον παροχής υγείας, αφού η χρήση τους είναι αυτόνοµη κα
υλοποιήσιµη σε έναν φορητό προσωπικό υπολογιστή
Τα ζητήµατα που παραµένουν ανοικτά για βελτίωση στην ανάπτυξη παρόµοιων
συστηµάτων είναι τα ακόλουθα:
1) Αξιοποίηση βάσεων δεδοµένων για τροποποίηση δοµής του ΒΝ και
τροποποίηση των παραµέτρων του
149
Όπως παρουσιάστηκε στις αντίστοιχες παραγράφους νωρίτερα, η βάση δεδοµένων µε
τις µεταβλητές των ασθενών, έχει διπλή σηµασία στην οικοδόµηση ενός δικτύου
πεποίθησης. Αφ’ ενός παίζει πρωταρχικό ρόλο στην επιλογή της αρχιτεκτονικής του
και αφ’ ετέρου χρησιµοποιείται για την εξαγωγή των δεσµευµένων πιθανοτήτων για
τις µήτρες διασύνδεσης µεταξύ των κόµβων του δικτύου.
Είναι εποµένως θεµιτό να αναπτυχθεί µεθοδολογία αυτόµατης ενηµέρωσης και των
δύο αυτών πτυχών ενός δικτύου, καθώς τα περιεχόµενα της βάσης δεδοµένων
τροποποιούνται.
2) Αυτοµατοποίηση διαδικασίας επικοινωνίας µεταξύ διαφόρων λογισµικών
Η ανταλλαγή δεδοµένων µεταξύ των διαφόρων λογισµικών, από την αποθήκευση των
δεδοµένων µέχρι την κατασκευή του δικτύου πεποίθησης απαιτεί σηµαντική
παρέµβαση από πλευράς του ειδικού αναλυτή. Η διαδικασία αυτή θα ήταν βέλτιστη
µε τη υιοθέτηση κάποιου προτύπου ανταλλαγής δεδοµένων µεταξύ των εφαρµογών
αυτών ή µε την αυτοµατοποίηση της διαδικασίας µε κατάλληλο λογισµικό
3) Συνδυασµός µε Νευρωνικά ∆ίκτυα για υλοποίηση unsupervised learning
Η ύπαρξη κρυµµένων (µη παρατηρήσιµων) µεταβλητών, αυξάνει δραµατικά την
πολυπλοκότητα του προβλήµατος. Ο συνδυασµός µε τα Νευρωνικά ∆ίκτυα θα
µπορούσε να αποδειχθεί πολύ χρήσιµος σε παρόµοιες καταστάσεις.
150
8. ΠΕΡΙΛΗΨΗ
Η εκτίµηση της πρόγνωσης ασθενών µε κρανιοεγκεφαλικές κακώσεις αποτελεί ένα
πρόβληµα που απαιτεί για τη λύση του τον συνυπολογισµό πολλών κλινικών και
εργαστηριακών παραµέτρων. Ο κλινικός Ιατρός λειτουργεί σε καθεστώς
αβεβαιότητας κατά την αποτίµηση των διαθεσίµων δεδοµένων. Παρ’ όλα αυτά, η
κρίση του είναι συχνά εξαιρετική, επειδή οι άνθρωποι έχουν αποδειχθεί ότι είναι
ιδιαίτερα ικανοί στην αποτλεσµατική διαχείριση της αβεβαιότητας.
Η ανθρώπινη ευρετική προσέγγιση του συνδυασµού των στοιχείων προκειµένου να
εκτιµηθεί µια πρόγνωση µπορεί να ιαχειριστεί έναν περιορισµένο αριθµό τέτοιων
στοιχείων. Η αυξηµένη χρήση υπολογιστών όµως, στους χώρους παροχής υγείας, έχει
οδηγήσει στην εµφάνιση µεγάλων βάσεων δεδοµένων και κατά συνέπεια στην
προσφορά πληθώρας δεδοµένων. Η περιορισµένη ανθρώπινη ικανότητα στην
διαδικασία έµµεσης συµπερασµατολογίας, τίθεται πλέον υπό δοκιµασία. Τα
συστήµατα υποστήριξης λήψης αποφάσεων µπορούν να αποτελέσουν χρήσιµα
εργαλεία στα χέρια ειδικευµένων Ιατρών, καθώς µπορούν αφ’ ενός να προσφέρουν
µοντέλα διαχείρισης της αβεβαιότητας και αφ’ ετέρου να διαχειριστούν ετερόκλητες
πηγές πληροφορίας.
Η διαχείριση της αβεβαιότητας στην Ιατρική έχει προσεγγιστεί µέσω πολλών
µεθοδολογιών. Τα συστήµατα που στηρίζονται σε παραγωγικούς κανόνες δεν
κατάφεραν να κερδίσουν την αποδοχή των κλινικών Ιατρών λόγω του ότι ο ιατρικός
χώρος καλύπτει πολλά προβλήµατα που δύσκολα εκφράζονται µε ένα σύνολο
κανόνων. Κατά συνέπεια, η χρήση τους στην καθηµερινή κλινική ρουτίνα παρέµεινε
περιορισµένη. Τα νευρωνικά δίκτυα από την άλλη πλευρά, ενώ γενικά είναι πολύ
αποτελεσµατικά, µπορούν ορισµένες φορές να οδηγήσουν σε καταστάσεις που δεν
είναι αυτοσυνεπείς, για παράδειγµα η διάγνωση κάποιας νόσου να εξαρτάται από τη
σειρά µε την οποία δηλώνονται στο δίκτυο τα ευρήµατα. Επίσης, πααµένοντας
«µαύρα κουτιά», δεν προτείνουν κάποιο µοντέλο που να µπορεί να γίνει αντιληπτό
από τον τελικό χρήστη, ώστε εκείνος να το εµπιστευτεί, αποδεχόµενός το.
Τα κατά Bayes ∆ίκτυo Πεποίθησης χρησιµοποιούνται συνεχώς και περισσότερο στον
ιατρικό χώρο ως αναπαράσταση γνώσης για τη συµπερασµατολογία σε καθεστώς
αβεβαιότητας. Επιτρέπουν το βηµατικό συνδυασµό προγνωστικών στοιχείων και
παρέχουν ένα ποσοτικό µέτρο της πεποίθησης στην τλική απόφαση, µε όρους
πιθανότητας (τιµών από 0 έως 1). Η ικανότητά τους να αποτιµούν υποκειµενικά
στοιχεία είναι συµβατή µε την καθηµερινή κλινική πρακτική, καθώς τα κλινικά και
εργαστηριακά ευρήµατα είναι υποκειµενικού χαρκτήρα .
Τα δίκτυα πεποίθησης είναι γραφήµατα που αποτελούνται από κοµβους και δεσµούς.
Οι κόµβοι συνιστούν πιθανοκρατικές µεταβλητές και οι δεµοί αναπαριστούν τη
σχέση µεταξύ δύο κόµβων. Οι δεσµοί ποσοτικοποιούνται από µια µήτρα
δεσµευµένων πιθανοτήτων που εκφράζει την πιθανοκρατική σχέση µεταξύ των
ενδεχοµένων του κόµβου-πατέρα µε τα ενδεχόµενα του κόµβου-παιδί.
Η παρούσα διατριβή αφορά την ανάπτυξη εµπέιρων συστηµάτων βασιζοµένων σε
δίκτυα πεποίθησης για την πρόγνωση ασθενών µε κρανιοεγκεφαλικές κακώσεις, που
προέρχονται είτε από τα εξωτερικά ιατρεία είτε από τη Μονάδα Εντατικής
Θεραπείας. ∆ιαφορετικές προσεγγίσεις ανάπτυξης τέτοιων συστηµάτων υλοποιούνται
και συγκρίνονται. Η επιλογή των παραµέτρων των δικτύων (αρχιτεκτονικής και
µητρών δεσµευµένων πιθανοτήτων) γίνεται µε την εκµετάλλευση βάσεων δεδοµένων
151
στις οποίες φυλάσσονται τα κλινικά και εργαστηριακά ευρήµατα των ασθενών. Οι
επιδόσεις των συστηµάτων αυτών συγκρίνονται τόσο µε τις αντίστοιχες επιδόσεις
ειδικευµένων ιατρών όσο και µε άλλες µεθόδους, όπως οι k-nearest neighbours και η
multiple logistic regression.
152
9. SUMMARY
The task of estimating a head-injured patient’s prognosis involves the evaluation of
many clinical and laboratory parameters. The clinician acts under uncertainty when
evaluates the available data to reach a patient’s prognosis. Yet, often clinical
judgment is excellent, because people have proven their skill in managing uncertainty
efficiently.
The human heuristic approach of combining evidence to reach a prognosis can deal
successfully with a limited amount of evidence. The proliferation of large databases of
patient findings, however, due to the increased use of computers in clinical settings,
offers an abundance of available data, challenging the limited human capacity for
indirect inference. Decision support systems able to model uncertainty and analyze
diverse sources of information can therefore become a useful tool for medical experts.
The management of uncertainty in Medicine has been approached by many
methodologies. Systems based on production rules did not manage to gain the
acceptance of the clinicians, since the medical domain covers many problems that are
very difficult to express with a set of rules. Consequently their use in routine settings
remained limited. Neural networks, on the other hand, while generally efficient, may
sometimes lead to inconsistencies, e.g. diagnosis depending on the order in which
findings are entered.
Bayesian belief networks (BNs) are being increasingly used in the medical domain as
a knowledge representation for reasoning under uncertainty. They permit the stepwise
combination of prognostic evidence and provide a quantitative measure of belief in
the final decision, in terms of probabilities (values between 0 and 1). Their ability to
evaluate subjective evidence is compatible with routine clinical practice, since clinical
and laboratory data are rarely of objective character.
BNs are graphs comprised of nodes and directed links. The nodes constitute
probabilistic variables and the links represent the relation between two nodes. The
links are quantified by a conditional probability matrix (CP matrix) that expresses the
probabilistic relation between the outcomes of the parent node with the outcomes of
the descendent child node.
The present dissertation concerns the development of expert systems based on
Bayesian networks for the prognosis of head-injured patients, coming from either the
Outpatient’s Department or the Intensive Care Unit. Various approaches of such
systems are realizes and compared. The selection of the networks’ parameters
(network architecture and conditional probabilities matrices) is made using data
exploration methods in the database of patient clinical and laboratory findings. The
performance of these expert systems is compared to that of expert clinicians and to the
performance of other methodologies, like the non-parametric method of k-nearest
neighbors and a model for multiple logistic regression.
153
154
10. ΠΑΡΑΡΤΗΜΑ: ΜΑΘΗΣΗ ∆ΟΜΗΣ ΚΑΙ ΠΑΡΑΜΕΤΡΩΝ
10.1 Εισαγωγή
Για ορισµένα προβλήµατα είναι δυνατή η οικοδόµηση ενός δικτύου πεποίθησης
χρησιµοποιώντας µόνον πρότερη γνώση, χωρίς τη χρήση µετρήσεων. Αυτό σηµαίνει
ότι τόσο η αρχιτεκτονική του δικτύου όσο και οι παράµετροί του –δηλαδή οι πίνακες
δεσµευµένων πιθανοτήτων– µπορούν να εξαχθούν από τη γνώση κάποιων ειδικών
στο συγκεκριµένο πεδίο.
Υπάρχουν πολλές καταστάσεις όµως, για τις οποίες οι παράµετροι ή / και η δοµή του
δικτύου δε µπορούν να προσδιοριστούν µε ευκολία. Η ύπαρξη όµως του αυστηρού
πιθανοκρατικού φορµαλισµού επιτρέπει τη µάθηση των παραµέτρων και της δοµής
ενός δικτύου πεποίθησης από δεδοµένα ή από συνδυασµό δεδοµένων και κεκτηµένης
(prior) γνώσης. Η ανάπτυξη µεθόδων γι’ αυτό ακριβώς το σκοπό αποτελεί την αιχµή
της επιστηµονικής έρευνας στο αντικείµενο των γραφικών µοντέλων και ειδικότερα
των δικτύων πεποίθησης. Η έρευνα περιλαµβάνει δίκτυα µόνον διακριτών, µόνο
συνεχών αλλά και δίκτυα που περιλαµβάνουν και τα δύο είδη µεταβλητών. Όπως και
στο υπόλοιπο βιβλίο, θα ασχοληθούµε µε τεχνικές µάθησης που αναφέρονται µόνο
στην περίπτωση των δικτύων µε αµιγώς διακριτές µεταβλητές.
Μια βασική διάκριση ανάµεσα στις προσεγγίσεις ανάπτυξης τέτοιων µεθόδων είναι
ανάµεσα σ’ αυτές που ακολουθούν τεχνικές κατά Bayes και σ’ αυτές που ακολουθούν
άλλες τεχνικές. Η βασική εκπρόσωπος των µη-Bayesian προσεγγίσεων αναπτύχθηκε
στο κεφάλαιο «Επιλογή µοντέλου» και αναφέρεται σε µη-κατευθυντικά µοντέλα.
Μπορεί πολύ εύκολα να χρησιµοποιηθεί και στα δίκτυα πεποίθησης, αφού µπορούµε
πάντα να βρούµε ένα δίκτυο πεποίθησης που να αποτυπώνει τις ίδιες ακριβώς σχέσεις
ανεξαρτησίας µε ένα µη-κατευθυντικό µοντέλο. Με άλλα λόγια αυτή η προσέγγιση
κινείται στο χώρο των µη-κατευθυντικών µοντέλων, επιλέγει µέσα από µια λιγότερο
ή περισσότερο σύνθετη διαδικασία ένα ή περισσότερα αποδεκτά µοντέλα και τελικά
βρίσκει τα ισοδύναµα δίκτυα πεποίθησης. Ο καθορισµός της δοµής και των
παραµέτρων του δικτύου γίνεται ήδη κατά την επιλογή του µη κατευθυντικού
µοντέλου.
Στη συνέχεια θα αναφερθούµε σε τεχνικές που ακολουθούν την Bayesian φιλοσοφία,
ξεκινώντας από το πρόβληµα µάθησης των παραµέτρων της κατανοµής µιας
µεταβλητής και επεκτείνοντας τη µεθοδολογία σε συνθετότερα προβλήµατα.
155
10.2 Μάθηση παραµέτρων:
µεταβλητής
Η
περίπτωση
της
µιας
Ας θεωρήσουµε µια απλή πινέζα µε κυκλικό επίπεδο κεφάλι. Αν την πετάξουµε ψηλά
στον αέρα και την αφήσουµε να πέσει σε µια σκληρή επίπεδη επιφάνεια, θα
καταλήξει να ακουµπά στην επιφάνεια είτε µε την ακίδα της (κεφαλή) ή µε το κεφάλι
της (γράµµατα), όπως φαίνεται στην παρακάτω εικόνα.
Εικόνα 10.1
Υποθέστε ότι δίνουµε την πινέζα σε κάποιον που επαναλαµβάνει την παραπάνω
διαδικασία πολλές φορές και µετράει πόσες φορές η πινέζα φέρνει κεφαλή. Επί πλέον
ας υποθέσουµε ότι οι φυσικές ιδιότητες της πινέζας και οι συνθήκες κάτω από τις
οποίες ρίχνεται παραµένουν σταθερές στο χρόνο. Ένας οπαδός της αντικειµενικής ή
frequentist ερµηνείας της πιθανότητας θα έλεγε ότι η σχετική συχνότητα εµφάνισης
του ενδεχοµένου «κεφαλή» σε µεγάλο αριθµό επαναλήψεων είναι ίσο µε την
πιθανότητα και θα παρατηρούσε ρίψεις της πινέζας για να εκτιµήσει αυτή την
πιθανότητα.
Αντίθετα, κάτω από την Bayesian οπτική γωνία, ορίζουµε µια µεταβλητή Θ της
οποίας η πραγµατική τιµή θ αντιστοιχεί στο ποσοστό µετά από µεγάλο αριθµό
επαναλήψεων. Στη συνέχεια εκφράζουµε την απροσδιοριστία σχετικά µε την Θ µε
µια συνάρτηση πυκνότητας πιθανότητας p(θ), και ανανεώνουµε αυτή την κατανοµή
πιθανότητας καθώς παρατηρούµε τις ρίψεις της πινέζας. Ας σηµειωθεί ότι, παρά το
ότι η θ δεν αντιπροσωπεύει ένα βαθµό πεποίθησης, συλλογές σχετικών συχνοτήτων
εµφάνισης µεγάλων αριθµών επαναλήψεων ικανοποιούν τους κανόνες των
πιθανοτήτων. Έτσι η θ µερικές φορές ονοµάζεται φυσική, αντικειµενική ή
πραγµατική πιθανότητα ώστε να διακρίνεται από ένα βαθµό πεποίθησης. Μια από τις
δυνατές κατανοµές πιθανότητας για τη Θ φαίνεται στην εικόνα που ακολουθεί.
Εικόνα 10.2
156
Υποθέστε τώρα ότι ρίχνουµε την πινέζα Ν φορές. Έστω ότι µε Χl συµβολίζουµε τη
µεταβλητή που αντιπροσωπεύει το αποτέλεσµα της l-στής ρίψης και µε
D = {X 1 = x1 , K, X N = x N } το σύνολο των παρατηρήσεών µας, δηλαδή τα δεδοµένα
µας. Υπό την προϋπόθεση ότι οι ιδιότητες της πινέζας και οι συνθήκες του
πειράµατος δεν αλλάζουν µε το χρόνο, εάν ξέρουµε την θ τότε τα ενδεχόµενα στην D
είναι αµοιβαίως ανεξάρτητα και η πιθανότητα για κεφαλή (ή γράµµατα) σε
οποιαδήποτε ρίψη είναι θ (ή 1-θ). ∆ηλαδή,
N
p( X 1 , K, X N | θ ) = ∏ p( X l | θ )
l =1
p( X l = κεφαλή | θ ) = θ
p( X l = γράµµατα | θ ) = 1 − θ
Ακολουθώντας την ορολογία της Στατιστικής, λέµε ότι τα ενδεχόµενα είναι
ανεξάρτητα και πανοµοιότυπα κατανεµηµένα ή ότι η D είναι ένα τυχαίο δείγµα της
φυσικής κατανοµής πιθανότητας {θ, 1-θ}, γνωστής ως ∆ιωνυµική κατανοµή. Μερικές
φορές η Χl ονοµάζεται γεγονός. Σηµειώστε ότι η δεσµευµένη αµοιβαία ανεξαρτησία
των γεγονότων µπορεί να αναπαρασταθεί µέσω ενός δικτύου πεποίθησης, όπως
φαίνεται στην εικόνα 10.3.
Εικόνα 10.3
Στην πραγµατικότητα δε µπορούµε να προσδιορίσουµε την τιµή της Θ και καθώς
παρατηρούµε ρίψεις της πινέζας, µαθαίνουµε ή ανανεώνουµε την κατανοµή
πιθανότητας για την Θ. Για παράδειγµα, υποθέστε ότι ρίχνουµε την πινέζα µια φορά
και φέρνουµε κεφαλή. Χρησιµοποιώντας το θεώρηµα του Bayes, η κατανοµή της a
posteriori πιθανότητας για τη Θ θα είναι:
p (θ | X 1 = κεφαλή) = c ⋅ p ( X 1 = κεφαλή | θ ) ⋅ p(θ ) = c ⋅θ ⋅ p (θ )
όπου c µια σταθερά κανονικοποίησης.
p(θ)
p(κεφαλή | θ)
p(θ | κεφαλή)
Εικόνα 10.4
157
Με άλλα λόγια, η a posteriori κατανοµή για τη Θ παράγεται από τον πολλαπλασιασµό
της αρχικής κατανοµής µε τη συνάρτηση f(θ)=θ και κάνοντας νέα κανονικοποίηση.
Αυτή η διαδικασία φαίνεται γραφικά στην εικόνα 10.4.
Όπως είναι αναµενόµενο, η a posteriori κατανοµή έχει µετατοπιστεί προς τα δεξιά και
είναι ελαφρώς πιο στενή. Με όµοιο τρόπο, αν παρατηρήσουµε µια φορά «γράµµατα»,
p (θ | X 1 = γράµµατα ) = c ⋅ (1 − θ ) ⋅ p (θ )
όπου c µια (πιθανώς διαφορετική) σταθερά κανονικοποίησης. Γενικότερα, αν
παρατηρήσουµε κ φορές «κεφαλή» και γ φορές «γράµµατα», έχουµε
p (θ | κ κεφαλές, γ γράµµατα) = c ⋅θ κ (1 − θ )γ ⋅ p (θ )
Άρα, αν είναι γνωστή µια a priori κατανοµή για τη Θ, µπορούµε να καθορίσουµε την
a posteriori κατανοµή µε δεδοµένο οποιοδήποτε τυχαίο δείγµα. Ας σηµειωθεί ότι η
σειρά µε την οποία παρατηρούνται τα αποτελέσµατα δεν επηρεάζει την a posteriori
κατανοµή· το µόνο που έχει σηµασία είναι ο αριθµός των «κεφαλών» και των
«γραµµάτων» στο δείγµα. Λέµε τότε ότι τα κ και γ αποτελούν ικανή στατιστική
συνάρτηση για το τυχαίο δείγµα.
Με δεδοµένη την κατανοµή πιθανότητας της Θ και κάνοντας χρήση του κανόνα
ανάπτυξης µπορεί κανείς να καθορίσει την πιθανότητα ότι το αποτέλεσµα της
επόµενης ρίψης της πινέζας θα είναι «κεφαλή»:
p ( X l = κεφαλή | x1 ,K xl −1 ) = ∫ p (X l = κεφαλή | θ ) p (θ | x1 ,K xl −1 )dθ =
= ∫ θ p (θ | x1 ,K xl −1 )dθ ≡
≡ Ε(θ | x1 ,K xl −1 )
όπου µε Ε(θ | x1 ,K xl −1 ) συµβολίζουµε την αναµενόµενη ή µέση τιµή της θ ως προς
την κατανοµή πιθανότητας της Θ µε δεδοµένα τα x1 ,K xl −1 . Με άλλα λόγια η
πιθανότητα για «κεφαλή» σε οποιαδήποτε ρίψη είναι απλώς η αναµενόµενη τη στιγµή
εκείνη τιµή της θ.
Στο παραπάνω απλό παράδειγµα η µεταβλητή είχε µόνο δύο ενδεχόµενα (κεφαλήγράµµατα). Ας θεωρήσουµε τώρα µια διακριτή µεταβλητή Χ µε r ≥ 2 ενδεχόµενα, τα
οποία συµβολίζουµε µε x1 , K, x r . Για παράδειγµα, θα µπορούσε να αναπαριστά την
έκβαση ενός ζαριού που έχει αλλοιωθεί καθώς έχουµε τοποθετήσει σ’ αυτό κάποιο
βαρίδι (r=6). Κατ’ αναλογία µε το παράδειγµα της πινέζας, έχουµε µια φυσική
κατανοµή πιθανότητας για τα πιθανά ενδεχόµενα, που συµβολίζονται µε το διάνυσµα
θ = {θ 1 ,K,θ r }, και το αντίστοιχο διάνυσµα των µεταβλητών Θ = {Θ1 ,K, Θ r }. Οι
µόνοι περιορισµοί που θέτουµε στις φυσικές πιθανότητες είναι θ k > 0, k = 1,K, ri , και
r
∑θ
k =1
k
= 1 . Η κατανοµή θ είναι γνωστή ως Πολυωνυµική κατανοµή.
Όπως και στο παράδειγµα της πινέζας, αν ξέρουµε τις φυσικές πιθανότητες θ, τότε τα
γεγονότα είναι ανεξάρτητα και πανοµοιότυπα κατανεµηµένα ώστε
p( X l = x k | θ ) = θ κ
Εποµένως, για οποιοδήποτε τυχαίο δείγµα D = {x1 ,K x N } ,
158
r
p( D | θ ) = ∏θ kN k
k =1
όπου Νk είναι η συχνότητα εµφάνισης Χ=xk στο δείγµα D. Κατά συνέπεια, έχουµε:
r
p (θ | D) = c ⋅ ∏θ kN k p(θ )
(1)
k =1
µε c µια σταθερά κανονικοποίησης. Οι συχνότητες εµφάνισης N1 ,K, N r είναι ικανή
στατιστική συνάρτηση για το τυχαίο δείγµα. Περαιτέρω, έχουµε
p( X l = xlk | x1 ,K xl −1 ) = ∫ θ k p(θ | x1 ,K xl −1 )dθ ≡ Ε(θ k | x1 ,K xl −1 )
(2)
Είµαστε ελεύθεροι να επιβάλουµε στη Θ να ακολουθεί οποιαδήποτε κατανοµή. Στην
πράξη, ωστόσο, είναι συνήθης η χρήση της κατανοµής Dirichlet επειδή κατέχει µια
σειρά από βολικές ιδιότητες. Οι µεταβλητές Θ ακολουθούν κατανοµή Dirichlet µε
εκθέτες a1 ,K, ar όταν η συνάρτηση πυκνότητας πιθανότητας της Θ δίνεται από την
p(θ | a1 , K, a r ) =
Γ(a )
r
r
∏ Γ(a
k
)
∏θ
a k −1
k
, ak > 0
k =1
(3)
k =1
r
όπου a = ∑ a k , και η Γάµµα συνάρτηση ικανοποιεί τις Γ( x + 1) = xΓ( x) και Γ(1) = 1 .
k =1
Οι εκθέτες αk πρέπει να είναι µεγαλύτεροι από µηδέν ώστε να εξασφαλίζεται η
κανονικοποίηση της κατανοµής. Όταν r=2, η κατανοµή Dirichlet λέγεται επίσης και
Βήτα κατανοµή. Η κατανοµή πιθανότητας στην αριστερή πλευρά της εικόνας 10.4
είναι µια Βήτα κατανοµή µε εκθέτες ακεφαλή=3 και αγράµµατα=2. Αντίστοιχα η κατανοµή
στα δεξιά της εικόνας 10.4 έχει εκθέτες ακεφαλή=4 και αγράµµατα=2.
Είναι σαφές ότι αν η a priori κατανοµή της Θ είναι Dirichlet, τότε και η a posteriori,
υπό τη δέσµευση του τυχαίου δείγµατος D = {x1 ,K x N } , θα είναι κατανοµή Dirichlet:
p(θ | a1 ,K, ar , D) =
Γ( a + N )
r
∏ Γ(a
k
+ Nk )
r
∏θ
k =1
ak + N k −1
k
(4)
k =1
Το σύνολο των κατανοµών Dirichlet αποτελεί µια συζυγή οικογένεια κατανοµών για
δειγµατοληψία από µια Πολυωνυµική κατανοµή. Όταν η Θ ακολουθεί την κατανοµή
Dirichlet που φαίνεται σε προηγούµενη εξίσωση, η αναµενόµενη τιµή της θk ως προς
αυτή την κατανοµή –που είναι ίση µε την πιθανότητα του Χ=xk στην επόµενη
παρατήρηση– έχει την ακόλουθη απλή µορφή:
E (θ k ) = p ( X = x k ) =
ak
a
(5)
Όπως θα δούµε, αυτές οι ιδιότητες καθιστούν την κατανοµή Dirichlet πολύ χρήσιµη a
priori κατανοµή για τη διαδικασία της µάθησης.
Υπάρχουν διάφορες µέθοδοι εκτίµησης µιας Βήτα κατανοµής. Μια από αυτές είναι η
µέθοδος του ισοδύναµου µεγέθους δείγµατος, που βασίζεται στην εξίσωση 5. Η
εξίσωση αυτή δείχνει ότι η εκτίµηση της κατανοµής Dirichlet µπορεί να γίνει µέσω
159
της εκτίµησης της κατανοµής πιθανότητας p(x) για την επόµενη παρατήρηση και της
εκτίµησης του α. Η εξίσωση 3 µπορεί να ξαναγραφεί ως
r
p(θ | a1 ,K, ar ) = c ⋅ ∏θ ka⋅ p ( x
k
) −1
(6)
k =1
µε c µια σταθερά κανονικοποίησης. Η εκτίµηση της p(x) είναι άµεση. Επί πλέον, τα
επόµενα δύο σηµεία δείχνουν µια απλή µέθοδο εκτίµησης του α.
Η διασπορά µιας µεταβλητής Θ αντανακλά το βαθµό της εξάπλωσης στις πιθανές για
τη µεταβλητή τιµές. Η διασπορά για ην κατανοµή Dirichlet δίνεται από την
Var (θ k ) =
p( x k )[1 − p( x k )]
a +1
(7)
Μερικές φορές λέµε ότι αυτή η διασπορά αποτελεί µέτρο της εµπιστοσύνης του
χρήστη στην Θ.
Ας υποθέσουµε ότι αρχικά δεν έχουµε καµία πληροφορία γύρω από κάποιο πεδίο
ενδιαφέροντος, δηλαδή η κατανοµή p(θ) δίνεται από την εξίσωση 3 µε κάθε εκθέτη
αk=0. Ας υποθέσουµε τότε ότι παρατηρήσαµε α γεγονότα µε ικανές στατιστικές
συναρτήσεις a1 ,K, ar . Τότε, λόγω της εξίσωσης 4 η a priori πιθανότητα θα είχε την
κατανοµή Dirichlet που δίνεται από την εξίσωση 3.
Εποµένως, µπορούµε να εκτιµήσουµε το α ως ένα ισοδύναµο µέγεθος δείγµατος: τον
αριθµό των παρατηρήσεων που θα έπρεπε να έχουµε κάνει ξεκινώντας από πλήρη
άγνοια ώστε να αποκτήσουµε την ίδια εµπιστοσύνη στις τιµές της Θ µε την
εµπιστοσύνη που πραγµατικά έχουµε. Για παράδειγµα, θα λαµβάναµε την κατανοµή
πιθανότητας της Θ που φαίνεται στην εικόνα 2 εάν εκτιµούσαµε την πιθανότητα
p(κεφαλή) να είναι ίση µε 3/5 και το ισοδύναµο µέγεθος δείγµατος να είναι ίσο µε 5.
Μέχρι τώρα έχουµε θεωρήσει δείγµατα που προέρχονται από πολυωνυµικές
κατανοµές. Γενικά, τα δείγµατα µπορεί να εξάγονται από οποιαδήποτε φυσική
κατανοµή πιθανότητας. Είναι συχνά βολικό να περιγράφεται αυτή η κατανοµή ως
συνάρτηση του x και ενός πεπερασµένου συνόλου παραµέτρων θ:
p ( x | θ ) = f ( x, θ )
Στο πολυωνυµικό παράδειγµα, η Χ είναι διακριτή και η φυσική της κατανοµή
πιθανότητας έχει µια παράµετρο που αντιστοιχεί σε κάθε φυσική πιθανότητα στην
κατανοµή (και κάποιες φορές αυτές οι φυσικές πιθανότητες θα αναφέρονται ως
παράµετροι). Ο µόνος περιορισµός σ’ αυτές τις παραµέτρους είναι ότι το άθροισµά
τους είναι ίσο µε τη µονάδα. Εναλλακτικά, η Χ µπορεί να έχει διακριτές αριθµητικές
τιµές και να είναι λογαριθµικής-γραµµικής µορφής:
log p ( x | θ ) = a + β x
όπου θ={α, β}. Μια άλλη περίπτωση είναι η Χ να είναι συνεχής και η φυσική
πιθανότητα να ακολουθεί κανονική (Gaussian) κατανοµή µε απροσδιόριστη µέση
τιµή µ και διασπορά υ :
−
1
p( x | θ ) =
e
2πυ
όπου θ={µ, υ}.
160
( x− µ )2
2υ
Άσχετα από τη µορφή της συνάρτησης, οι παράµετροι θ µπορεί να είναι
απροσδιόριστοι. Για να κωδικοποιήσουµε αυτή την απροσδιοριστία, συσχετίζουµε
τυχαίες µεταβλητές µε αυτές τις παραµέτρους και ορίζουµε µια κατανοµή
πιθανότητας p(θ). Με δεδοµένο ένα τυχαίο δείγµα παρατηρήσεων D από τη φυσική
κατανοµή πιθανότητας, η πεποίθησή µας γι’ αυτές τις παραµέτρους ανανεώνεται µε
τη χρήση του κανόνα του Bayes:
p(θ | D) =
p( D | θ ) p(θ )
p( D)
(8)
Στη στατιστική βιβλιογραφία, οι ποσότητες p(θ|D) και p(θ) ονοµάζονται a posteriori
και a priori πιθανότητες της θ αντίστοιχα, όπως έχουµε προαναφέρει. Επίσης, η
ποσότητα p(D|θ) για µια συγκεκριµένη τιµή της θ ονοµάζεται πιθανοφάνεια. Η
p(D|θ) θεωρούµενη ως συνάρτηση του θ ονοµάζεται συνάρτηση πιθανοφάνειας.
Τέλος, η ποσότητα p(D) ονοµάζεται περιθωριακή πιθανοφάνεια ή ένδειξη.
Μια κλάση συναρτήσεων πιθανοφάνειας που χρησιµοποιείται συχνά στη στατιστική
είναι η εκθετική οικογένεια. Σ’ αυτήν ανήκουν οι κανονική, Γάµµα, Poisson και t
κατανοµές. Μια χρήσιµη ιδιότητα αυτής της οικογένειας είναι ότι κάθε µέλος της
κατέχει ικανές στατιστικές συναρτήσεις που είναι συγκεκριµένων διαστάσεων για
οποιοδήποτε τυχαίο δείγµα, οσοδήποτε µεγάλο. Για περισσότερα στοιχεία σχετικά µε
την εκθετική οικογένεια συναρτήσεων ο αναγνώστης παραπέµπεται στα βιβλία των
DeGroot και Bernardo - Smith.
Όπως θα δούµε, η περιθωριακή πιθανοφάνεια p(D αποτελεί σηµαντική ποσότητα στη
µάθηση της δοµής ενός δικτύου πεποίθησης. Παρακάτω παρουσιάζεται µια απλή
µέθοδος για τον υπολογισµό της p(D) όταν το είναι ένα τυχαίο δείγµα D = {x1 ,K x N }
από µια πολυωνυµική κατανοµή και η a priori κατανοµή για τη Θ είναι η κατανοµή
Dirichlet που δίνεται από την εξίσωση 3.
Πρώτον, τα γεγονότα αναδιατάσσονται ώστε όλα τα γεγονότα µε Χ=x1 εµφανίζονται
πρώτα, τα γεγονότα µε Χ=x2 να εµφανίζονται δεύτερα κλπ. Κατόπιν, εφαρµόζεται ο
κανόνας της αλυσίδας
N
p( D) = ∏ p( xl | x1 ,K, xl −1 )
l =1
µαζί µε τις εξισώσεις 4 και 5, που τελικά µας δίνει την εξίσωση 9:
 a a + 1 a + N1 − 1   a 2
a2 + 1
a2 + N 2 − 1 
p( D) =  1 ⋅ 1 L 1
⋅
L
⋅
L
a + N 1 − 1   a + N 1 a + N1 + 1 a + N 1 + N 2 − 1 
 a a +1



ar
ar + 1
ar + N r − 1
=
L
L
⋅
r −1
r −1
N + a −1 
a + N a +1+ N
∑
∑
k
k


k =1
k =1
r
Γ( ak + N k )
Γ(a )
⋅∏
=
Γ(a + N ) k =1 Γ(ak )
161
10.3 Μάθηση πιθανοτήτων: Γνωστή δοµή
Το πρόβληµα που θα µας απασχολήσει εδώ είναι ο υπολογισµός των πιθανοτήτων για
ένα δεδοµένο δίκτυο πεποίθησης.
Υποθέστε ότι, ίσως από την εµπειρία ειδικών του συγκεκριµένου πεδίου, είναι
γνωστό µε σιγουριά ότι η φυσική συνδυαστική κατανοµή πιθανότητας της
µεταβλητής Χ µπορεί να κωδικοποιηθεί σε κάποια ελάχιστη δοµή δικτύου S.
Γράφουµε
n
p( x | θ s , S h ) = ∏ p ( xi | pa i , θi , S h )
(10)
i =1
όπου pai είναι η κατάσταση των µεταβλητών Pai (γονέων της µεταβλητής Χi) τέτοια
ώστε Χj = xj για όλες τις Χj ∈ Pai , θi είναι το διάνυσµα των παραµέτρων για την
κατανοµή p( xi | pa i , θi , S h ) , και θs είναι το διάνυσµα των παραµέτρων (θ1 , K, θ n ) .
Σ’ αυτή την εξίσωση, µε Sh συµβολίζεται η υπόθεση ότι η φυσική συνδυαστική
κατανοµή πιθανότητας µπορεί να παραγοντοποιηθεί σύµφωνα µε την S αλλά όχι
σύµφωνα µε κάποια άλλη δοµή που παράγεται αν από την S αποκόψουµε ένα ή
περισσότερα βέλη. Αυτή η συνθήκη ελαχιστοποίησης αποτρέπει την επικάλυψη των
υποθέσεων. Επιπροσθέτως υποθέτουµε ότι µας δίνεται ένα τυχαίο δείγµα
D = {x1 ,K x N } από την φυσική συνδυαστική κατανοµή πιθανότητας της µεταβλητής
Χ. Αναφερόµαστε σε ένα στοιχείο xl του D ως ένα γεγονός.
Όπως και στην προηγούµενη παράγραφο, υποτίθεται ότι οι παράµετροι θs είναι
απροσδιόριστες. Η κωδικοποίηση αυτής της απροσδιοριστίας γίνεται εφικτή µέσω της
συσχέτισης των παραµέτρων θs µε µια τυχαία διανυσµατική µεταβλητή Θs και της
εκτίµησης της a priori κατανοµής p(θ s | S h ) . Υποτίθεται ότι αυτή η a priori κατανοµή
είναι µια συνάρτηση πυκνότητας πιθανότητας. Με Θi συµβολίζεται η τυχαία
µεταβλητή που συσχετίζεται µε τις παραµέτρους θi.
Το πρόβληµα της µάθησης των πιθανοτήτων σε ένα δίκτυο πεποίθησης µπορεί τώρα
να διατυπωθεί απλά: Με δεδοµένο ένα τυχαίο δείγµα D πρέπει να υπολογιστεί η a
posteriori κατανοµή p(θ s | D, S h ) .
Η κατανοµή p( xi | pa i , θi , S h ) , θεωρούµενη ως συνάρτηση των θi είναι µια τοπική
συνάρτηση κατανοµής. Όταν η Χi είναι διακριτή (συνεχής) τυχαία µεταβλητή, µια
τοπική συνάρτηση κατανοµής αποτελεί ειδική περίπτωση ενός µοντέλου
κατηγοριοποίησης (παλινδρόµησης). Τα µοντέλα κατηγοριοποίησης (παλινδρόµησης)
είναι πιο γενικά, επειδή µερικά από αυτά παράγουν µη-πιθανοκρατικά εξαγόµενα.
Παραδείγµατα µοντέλων κατηγοριοποίησης (παλινδρόµησης) που παράγουν
πιθανοκρατικά εξαγόµενα περιλαµβάνουν πιθανοκρατικά νευρωνικά δίκτυα,
πιθανοκρατικά δέντρα αποφάσεων και λεξικογραφικές µεθόδους.
Μια κλάση τοπικών συναρτήσεων κατανοµής που χρησιµοποιείται συχνά όταν κάθε
X i ∈ X είναι συνεχής είναι το µοντέλο γραµµικής παλινδρόµησης µε Gaussian
θόρυβο:
p ( xi | pa i , θi , S h ) = mi +
162
∑b
x j ∈pa i
ji
x j + N (0,υ i )
(11)
όπου Ν(xi | µ, υ) είναι µια κανονική κατανοµή µε µέση τιµή µ και διασπορά υ>0, και
τα mi , υi και bji συνιστούν τις παραµέτρους θi. Αυτή η τοπική συνάρτηση κατανοµής
ανήκει στην εκθετική οικογένεια και µπορεί να χρησιµοποιηθεί σχετικά εύκολα για
τη µάθηση.
Πολύ στενή σχέση µε αυτή την τοπική συνάρτηση κατανοµής έχει το γενικευµένο
µοντέλο γραµµική παλινδρόµησης:
p( xi = 1 | pa i , θi , S h ) = g (mi +
∑b
x j ∈pa i
ji
xj)
(12)
1
είναι η σιγµοειδής ή λογιστική συνάρτηση. Σ’ αυτή την κλάση
1+ e−y
των µοντέλων, η Χi πρέπει να είναι µια δυαδική (0, 1) µεταβλητή και οι Pai µπορούν
να περιέχουν διακριτές ή/και συνεχείς µεταβλητές. Αυτή η τοπική συνάρτηση
κατανοµής δεν ανήκει στην εκθετική οικογένεια και µπορεί δυσκολότερα να
χρησιµοποιηθεί για τη µάθηση.
όπου g ( y ) =
Μετά από αυτά, η προσοχή µας εστιάζεται στο απλό παράδειγµα όπου κάθε
r
1
µεταβλητή X i ∈ X είναι διακριτή, έχει ri πιθανές τιµές xi , K, xi i και κάθε τοπική
συνάρτηση κατανοµής είναι συλλογή πολυωνυµικών κατανοµών, µια κατανοµή για
κάθε πιθανή κατάσταση των Pai . Με άλλα λόγια, υποθέτουµε ότι
p ( xik | pa ij , θi , S h ) = θ ijk
όπου µε pa1i , K, pa iqi
i
θi =  (θ i j k ) k =1 


r
και
ri
∑θ
k =1
i jk
(13)
( qi =
∏r )
i
συµβολίζουµε τις καταστάσεις των Pai και
X i ∈pa i
qi
j =1
οι παράµετροι. Επίσης υποθέτουµε ότι θijk>0 για όλα τα i, j και k
= 1 για όλα τα i και j. Για ευκολία, ορίζουµε το διάνυσµα των
παραµέτρων
θij = (θ i j 1 ,K,θ i j ri )
για όλα τα i και j. Αυτή η τοπική συνάρτηση κατανοµής είναι γνωστή ως απεριόριστη
πολυωνυµική κατανοµή, ώστε να διακρίνεται από τις πολυωνυµικές κατανοµές που
είναι λίγων διαστάσεων συναρτήσεις των Pai, όπως για παράδειγµα το γενικευµένο
µοντέλο γραµµικής παλινδρόµησης.
Με δεδοµένη αυτή την κλάση τοπικών συναρτήσεων κατανοµής, η a posteriori
h
κατανοµή p (θ s | D, S ) µπορεί να υπολογιστεί αποτελεσµατικά και σε κλειστή
µορφή κάνοντας τις ακόλουθες δύο υποθέσεις. Πρώτον, ότι το τυχαίο δείγµα D είναι
πλήρες, δηλαδή δεν υπάρχουν ελλιπή στοιχεία στο D. ∆εύτερον, ότι τα διανύσµατα
παραµέτρων θi j είναι αµοιβαίως ανεξάρτητα, δηλαδή,
n
qi
i =1
j =1
p(θ s | S h ) = ∏∏ p(θi j | S h )
Η υπόθεση αυτή, που εισήχθη από τους Spiegelhalter, και Lauritzen, είναι γνωστή ως
παραµετρική ανεξαρτησία. Με δεδοµένο ότι η φυσική συνδυαστική κατανοµή
163
παραγοντοποιείται σύµφωνα µε κάποια δικτυακή δοµή S, η υπόθεση της
παραµετρικής ανεξαρτησίας µπορεί η ίδια να αναπαρασταθεί από µια µεγαλύτερη
δικτυακή δοµή. Για παράδειγµα, η δοµή της εικόνας 6 αναπαριστά την υπόθεση της
παραµετρικής ανεξαρτησίας για το πεδίο Χ={Χ, Υ} (οι Χ, Υ δυαδικές) και την
υπόθεση ότι η δοµή Χ→Υ κωδικοποιεί τη φυσική συνδυαστική κατανοµή της Χ.
Υπό τις προϋποθέσεις των πλήρων δεδοµένων και της παραµετρικής ανεξαρτησίας, οι
παράµετροι παραµένουν ανεξάρτητες µε δεδοµένο ένα τυχαίο δείγµα:
n
qi
i =1
j =1
p(θ s | D, S h ) = ∏∏ p(θi j | D, S h )
(14)
Άρα, κάθε διάνυσµα παραµέτρων θi j µπορεί να ενηµερωθεί ανεξάρτητα, όπως
ακριβώς και στην περίπτωση της µιας µεταβλητής. Υποθέτοντας ότι κάθε διάνυσµα
θi j ακολουθεί κατανοµή Dirichlet που δίνεται από την
ri
p (θi j | S h ) = c ⋅ ∏θ i jikj k
a
−1
(15)
k =1
όπου c µια σταθερά κανονικοποίησης, λαµβάνουµε
ri
p (θi j | D, S ) = c ⋅ ∏θ i jikj k
h
a
+ N i j k −1
(16)
k =1
όπου c κάποια άλλη σταθερά κανονικοποίησης και Νijk είναι ο αριθµός των
γεγονότων στο D στα οποία X i = xik και Pa i = pa ij .
Από τη στιγµή που αποκτήσαµε την a posteriori κατανοµή p(θ s | D, S h ) , είναι
δυνατή η πραγµατοποίηση διαφόρων προβλέψεων, µέσω ολοκληρώσεων (averaging)
αυτής της κατανοµής. Για παράδειγµα, µπορούµε να υπολογίσουµε την
p (x N +1 | D, S h ) , όπου xN+1 είναι το επόµενο γεγονός που θα παρατηρηθεί µετά το D.
Υποθέστε ότι στο γεγονός xN+1, X i = xik και pa i = pa ij , όπου τα k και j εξαρτώνται
από το i. Άρα,
 ri

p (x N +1 | D, S h ) = E  ∏θ i j k | D, S h 
 i =1

Για τον υπολογισµό αυτής της αναµενόµενης τιµής, πρώτα χρησιµοποιείται το
γεγονός ότι οι παράµετροι παραµένουν ανεξάρτητες µε δεδοµένο το D:
ri
ri
i =1
i =1
p (x N +1 | D, S h ) = ∫ ∏ θ i j k p (θ s | D, S h ) dθ s = ∏ ∫ θ i j k p (θi j | D, S h ) dθi j .
Κατόπιν, µε χρήση της εξίσωσης 5, που δίνει την αναµενόµενη τιµή παραµέτρων που
ακολουθούν κατανοµή Dirichlet, καταλήγουµε:
ri
ai j k + N i j k
i =1
ai j + N i j
p(x N +1 | D, S ) = ∏
h
(17)
ri
ri
k =1
k =1
όπου ai j = ∑ ai j k και N i j = ∑ N i j k .
164
10.4 Μέθοδοι για ελλιπή δεδοµένα
Σ’ αυτή την παράγραφο συζητούνται µέθοδοι για τη µάθηση παραµέτρων όταν το
τυχαίο δείγµα είναι ελλιπές. Όλες οι µέθοδοι που παρουσιάζονται υποθέτουν ότι το
κατά πόσον µια παρατήρηση απουσιάζει ή όχι είναι ανεξάρτητο από τις πραγµατικές
καταστάσεις των µεταβλητών. Για παράδειγµα, αυτές οι µέθοδοι δεν είναι
κατάλληλες για µια ιατρική µελέτη στην οποία τα δεδοµένα σχετικά µε την απόκριση
σε ένα φάρµακο λείπουν σ’ αυτούς τους ασθενείς που η βαρύτητα της κατάστασής
τους δεν τους επιτρέπει να πάρουν το φάρµακο. Μέθοδοι που αντιµετωπίζουν
εξαρτήσεις στους αποκλεισµούς δεδοµένων έχουν µελετηθεί από τους Rubin, Robins
και Pearl.
Συνεχίζοντας το παράδειγµα µε τη χρήση απεριόριστων πολυωνυµικών κατανοµών,
υποθέστε ότι παρατηρείται ένα µόνον ελλιπές γεγονός. Έστω ότι µε Y ⊂ X και
Z ⊂ X συµβολίζονται οι παρατηρηθείσες και οι µη-παρατηρηθείσες µεταβλητές σ’
αυτό το γεγονός, αντίστοιχα. Υπό την προϋπόθεση της παραµετρικής ανεξαρτησίας, η
a posteriori κατανοµή των θi j για τη δοµή δικτύου S µπορεί να υπολογιστεί ως εξής:
p (θi j | y , S h ) = ∑ p(z | y , S h ) p (θi j | y , z, S h ) =
z
[
]{
}
ri
{
}
= 1 − p (pa | y ) ⋅ p (θi j | S ) + ∑ p ( x , pa | y, S ) p(θi j | x , pa , S )
j
i
h
k =1
k
i
j
i
h
k
i
j
i
h
(18)
Κάθε όρος µέσα σε άγκιστρα στην παραπάνω εξίσωση είναι µια κατανοµή Dirichlet.
Άρα, εκτός αν τόσο η Xi όσο και οι Pai έχουν παρατηρηθεί στο γεγονός y, η a
posteriori κατανοµή των θi j θα είναι γραµµικός συνδυασµός κατανοµών Dirichlet.
Μια τέτοια κατανοµή συχνά ονοµάζεται µίγµα Dirichlet, ενώ οι πιθανότητες
[1 − p(pa ij | C )] και p( xik , pa ij | C ) , k= 1, …, ri ονοµάζονται συντελεστές µίξης.
Σ’ αυτό το παράδειγµα, µε δεδοµένο ένα τυχαίο δείγµα µεγέθους Ν, ο αριθµός των
στοιχείων στο µίγµα Dirichlet της a posteriori κατανοµής των θi j θα είναι εκθετικός
ως προς Ν. Γενικά, για κάθε ενδιαφέρον σύνολο τοπικών συναρτήσεων κατανοµών
και a priori κατανοµών πιθανότητας, ο ακριβής υπολογισµός της a posteriori
κατανοµής των θ s θα είναι intractable. Άρα, απαιτείται µια προσέγγιση για ελλιπή
δεδοµένα.
10.4.1 Σειριακές µέθοδοι
Μια µέθοδος διαχείρισης ελλιπών δεδοµένων, που αναπτύχθηκε από τους
Spiegelhalter, και Lauritzen και βελτιώθηκε από τον Cowell, επεξεργάζεται τα
δεδοµένα σειριακά. Αυτή η προσέγγιση µπορεί να χρησιµοποιηθεί όταν (1) ισχύει η
παραµετρική ανεξαρτησία, (2) οι τοπικές συναρτήσεις κατανοµής είναι απεριόριστες
πολυωνυµικές κατανοµές, και (3) κάθε διάνυσµα παραµέτρων θi j έχει Dirichlet a
priori κατανοµή.
Με αυτή την µέθοδο, ενηµερώνουµε την κατανοµή των θi j µε ένα δείγµα κάθε φορά,
προσεγγίζοντας κάθε αποτέλεσµα µέσω ενός µίγµατος κατανοµών Dirichlet µε ένα
περιορισµένο αριθµό συνιστωσών. Πιο συγκεκριµένα, µε δεδοµένο ένα ελλιπές
165
τυχαίο δείγµα D = {x1 ,K, x N } , πρώτα προσεγγίζουµε την p (θi j | x1 , S h ) ως µίγµα
Dirichlet µε κάποιο µικρό αριθµό συνιστωσών. Υποθέτοντας ότι αυτή η προσέγγιση
είναι η σωστή κατανοµή, κατόπιν υπολογίζουµε την p (θi j | x1 , x 2 , S h ) και
προσεγγίζουµε ξανά το αποτέλεσµα µέσω ενός µίγµατος κατανοµών Dirichlet µε ένα
περιορισµένο αριθµό συνιστωσών. Επαναλαµβάνουµε αυτή τη διαδικασία για όλα τα
γεγονότα.
10.4.2 ∆ειγµατοληψία Gibbs
Μια πιο γενική µέθοδος για τη διαχείριση ελλιπών δεδοµένων είναι η δειγµατοληψία
Gibbs. Με τη χρήση αυτής της µεθόδου µπορεί κανείς να προσεγγίσει την a posteriori
κατανοµή των θ s για µια ευρεία κατηγορία τοπικών συναρτήσεων κατανοµής και a
priori κατανοµών των παραµέτρων, συµπεριλαµβανοµένων και των περιπτώσεων που
η παραµετρική ανεξαρτησία δεν ισχύει.
Η δειγµατοληψία Gibbs, όπως περιγράφεται για παράδειγµα από τους Geman, και
Geman, αποτελεί ειδική περίπτωση των MCMC (Markov chain Monte Carlo)
µεθόδων για προσεγγιστική συµπερασµατολογία. Με δεδοµένες τις µεταβλητές
X = {X 1 , K, X N } µε κάποια συνδυαστική κατανοµή p(x), µια δειγµατοληψία Gibbs
µπορεί να χρησιµοποιηθεί για την προσέγγιση της αναµενόµενης τιµής µιας
συνάρτησης f(x) ως εξής:
Βήµα 1: επιλέγεται µε κάποιο τρόπο (π.χ. τυχαία) µια αρχική κατάσταση για κάθε µια
από τις µεταβλητές του διανύσµατος Χ.
Βήµα 2: επιλέγεται κάποια µεταβλητή Xi, της αφαιρείται η τρέχουσα κατάσταση και
υπολογίζεται η κατανοµή πιθανότητας που ακολουθεί αυτή η µεταβλητή µε
δεδοµένες τις καταστάσεις των υπολοίπων n - 1 µεταβλητών.
Βήµα 3: γίνεται δειγµατοληψία για µια κατάσταση της Xi από αυτή την κατανοµή
πιθανότητας και υπολογίζεται η f(x).
Βήµα 4: επαναλαµβάνονται τα βήµατα 2 και 3, και καταγράφεται ο µέσος όρος των
τιµών της f(x).
Στο όριο, καθώς το δείγµα προσεγγίζει το άπειρο, αυτός ο µέσος όρος είναι ίσος µε
Ε[f(x)], εάν δύο συνθήκες ικανοποιούνται:
Η δειγµατοληψία Gibbs πρέπει να είναι µη-αναγώγιµη, δηλαδή η κατανοµή
πιθανότητας πρέπει να είναι τέτοια ώστε τελικά να µπορούν να ληφθούν δείγµατα για
οποιαδήποτε κατάσταση του διανύσµατος Χ µε δεδοµένη οποιαδήποτε δυνατή αρχική
κατάσταση του Χ. Για παράδειγµα, εάν η p(x) δεν περιλαµβάνει πιθανότητες ίσες µε
µηδέν, τότε η δειγµατοληψία Gibbs θα να είναι µη-αναγώγιµη.
Κάθε Xi πρέπει να επιλέγεται απείρως συχνά. Στην πράξη, χρησιµοποιείται ένας
αλγόριθµος που εξετάζει τις µεταβλητές εκ περιτροπής, µε ένα ντετερµινιστικό
τρόπο.
Εισαγωγικά στοιχεία για τη δειγµατοληψία Gibbs και µεθόδους για απόδοση αρχικών
τιµών και ζητήµατα σύγκλισης δίνονται στους York και Neal.
Για να διευκρινιστεί η δειγµατοληψία Gibbs, θεωρήστε το παράδειγµα των διακριτών
µεταβλητών µε a priori κατανοµή Dirichlet.
166
Για να προσεγγιστεί η p(θ s | D, S h ) , πρώτον αποδίδονται µε κάποιο τρόπο αρχικές
συνθήκες στις τιµές των θ s και στις καταστάσεις των µη παρατηρηθεισών
µεταβλητών του D. Αποτέλεσµα αυτού είναι ένα τυχαίο πλήρες δείγµα D′ .
∆εύτερον, σε κάθε µεταβλητή X i l (µεταβλητή Xi στην κατάσταση xl) που δεν έχει
παρατηρηθεί στο αρχικό δείγµα D, γίνεται νέα ανάθεση κατάστασης σύµφωνα µε την
κατανοµή πιθανότητας p ( xi l | D′ \ xi l , θ s , S h ) . Αυτή η διαδικασία παράγει ένα άλλο
πλήρες τυχαίο δείγµα D′′ . Τρίτον, υπολογίζεται η a posteriori κατανοµή
p (θ s | D ′′, S h ) , όπως περιγράφεται στις εξισώσεις 14 και 16, και επανατίθενται
(reassign) τιµές στις θ s σύµφωνα µε αυτή την κατανοµή. Τελικά, επαναλαµβάνονται
τα δύο τελευταία βήµατα και χρησιµοποιείται ως προσέγγιση ο µέσος όρος των
p (θ s | D ′′, S h ) .
10.4.3 Η Gaussian προσέγγιση
Οι µέθοδοι Monte Carlo δίνουν ακριβή αποτελέσµατα αλλά είναι συχνά µη
διαχειρίσιµες, όταν για παράδειγµα το µέγεθος του δείγµατος είναι µεγάλο. Μια άλλη
προσέγγιση, πιο αποτελεσµατική από τις µεθόδους Monte Carlo και συχνά ακριβής
για σχετικά µεγάλα δείγµατα, είναι η κανονική (Gaussian) προσέγγιση.
Η βάση αυτής της µεθόδου έγκειται στο ότι για µεγάλες ποσότητες δεδοµένων, η
p(θ s | D, S h ) ∝ p( D | θ s , S h ) ⋅ p(θ s | S h ) µπορεί συχνά να προσεγγιστεί ως µια
κανονική κατανοµή πολλών µεταβλητών. Συγκεκριµένα, έστω
g (θ s ) ≡ log[ p( D | θ s , S h ) ⋅ p(θ s | S h )]
(19)
~
και θ s η τιµή της θ s που µεγιστοποιεί την g(θ s ) . Αυτή η τιµή επίσης µεγιστοποιεί
την p(θ s | D, S h ) και είναι γνωστή ως µέγιστη a posteriori (MAP) τιµή της θ s .
~
Αναπτύσσοντας την g(θ s ) γύρω από την τιµή θ s , παίρνουµε
~
1
~
~
g (θ s ) ≈ g (θ s ) − (θ s − θ s ) t A(θ s − θ s )
(20)
2
~
~
όπου (θ s − θ s ) t είναι το ανάστροφο (transpose )του διανύσµατος – στήλη (θ s − θ s )
~
και Α η αρνητική Hessian του g(θ s ) υπολογισµένη στην τιµή θ s . Υψώνοντας την
g(θs ) εις την e και µε χρήση της εξίσωσης 26, παίρνουµε
p(θ s | D, S h ) ∝ p( D | θ s , S h ) ⋅ p (θ s | S h ) ≈
~
~
~
~
≈ p ( D | θ s , S h ) ⋅ p(θ s | S h ) ⋅ exp{(θ s − θ s ) t A(θ s − θ s )}
(21)
~
Για τον υπολογισµό της προσέγγισης Laplace, πρέπει να υπολογιστεί η θ s καθώς
~
επίσης και η αρνητική Hessian του g(θ s ) υπολογισµένη στην τιµή θs . Στην επόµενη
~
παράγραφο συζητούνται µέθοδοι εύρεσης της θ s . Οι Meng και Rubin περιγράφουν
µια αριθµητική τεχνική για τον υπολογισµό των δεύτερων παραγώγων. Ο Raftery
δείχνει πώς η Hessian µπορεί να προσεγγιστεί µε τη χρήση δοκιµασιών λόγου
πιθανοφάνειας, διαθεσίµων σε πολλά προγράµµατα στατιστικής επεξεργασίας. Ο
167
Thiesson δείχνει ότι οι δεύτερες παράγωγοι απεριορίστων πολυωνυµικών κατανοµών
µπορούν να υπολογιστούν µε τη χρήση συµπερασµατολογίας δικτύων πεποίθησης.
10.4.4 Οι MAP και ML προσεγγίσεις και ο αλγόριθµος EM
Καθώς το µέγεθος του δείγµατος των δεδοµένων αυξάνεται, η κορυφή της κανονικής
κατανοµής θα γίνεται οξύτερη, τείνοντας στη συνάρτηση ∆έλτα στη µέγιστη a
~
posteriori (MAP) τιµή θ s . Σ’ αυτό το όριο, δε χρειάζονται υπολογισµοί µέσων όρων ή
αναµενόµενων τιµών. Αντίθετα, οι προβλέψεις βασίζονται στην ΜΑΡ τιµή.
Μια περαιτέρω προσέγγιση βασίζεται στην παρατήρηση ότι, καθώς το µέγεθος του
δείγµατος αυξάνεται, η επίδραση της a priori κατανοµής p(θ s | S h ) µειώνεται. Άρα, η
~
θ s µπορεί να προσεγγιστεί από την τιµή µέγιστης πιθανοφάνειας (ML: maximum
likelihood) της θ s :
θˆs = arg max θs { p( D | θ s , S h )}
Μια κλάση τεχνικών για την εύρεση της ML ή της ΜΑΡ είναι η βελτιστοποίηση
βαθµίδας. Για παράδειγµα, µπορεί να χρησιµοποιηθεί η αυξητική βαθµίδα, σύµφωνα
µε την οποία οι παράγωγοι της g(θ s ) ή η πιθανοφάνεια p( D | θ s , S h ) οδηγούνται σε
ένα τοπικό µέγιστο.
Μια άλλη τεχνική για την εύρεση µιας τοπικής ML ή ΜΑΡ αποτελεί ο αλγόριθµος
αναµενόµενης τιµής – µεγιστοποίησης (EM: expectation – maximization). Ο
αλγόριθµος ΕΜ µπορεί να θεωρηθεί ως µια ντετερµινιστική έκδοση της µεθόδου
δειγµατοληψίας Gibbs. Για την εύρεση µιας τοπικής ML ή ΜΑΡ, πρώτα αποδίδονται
µε κάποιο τρόπο (π.χ. τυχαία) τιµές στην θ s . Κατόπιν, αντί να χρησιµοποιηθούν
τεχνικές Monte Carlo για τη δηµιουργία ενός πλήρους τυχαίου δείγµατος,
υπολογίζονται οι αναµενόµενες τιµές των ικανών στατιστικών συναρτήσεων
(expected sufficient statistics) των καταχωρήσεων που λείπουν από τα δεδοµένα. Για
το παράδειγµα διακριτών µεταβλητών, υπολογίζεται η ποσότητα
ri
E ( N i j k | θ s , S ) = ∑ p ( xik , pa ij | x l ,θ s , S h )
h
(22)
l =1
Όταν η Xi και όλες οι µεταβλητές στο Pai παρατηρούνται στο γεγονός xl, ο όρος γι'
αυτό το γεγονός απαιτεί έναν τετριµµένο υπολογισµό: είναι είτε µηδέν ή ένα. Σε
αντίθετη περίπτωση µπορεί να χρησιµοποιηθεί οποιοσδήποτε αλγόριθµος
συµπερασµατολογίας κατά Bayes για την εκτίµηση του όρου. Αυτός ο υπολογισµός
ονοµάζεται το expectation βήµα του ΕΜ αλγορίθµου.
Στη συνέχεια, αντί να παράγουµε νέες τιµές για τη θ s , χρησιµοποιούµε τις
αναµενόµενες τιµές των ικανών στατιστικών συναρτήσεων σαν να ήταν οι
πραγµατικές ικανές στατιστικές συναρτήσεις από ένα πλήρες τυχαίο δείγµα D′′ .
Για υπολογισµό της MAP, υπολογίζονται οι τιµές της θ s που µεγιστοποιούν την
p (θ s | D′′, S h ) :
θi j k =
168
E ( N i j k | θ s ) + ai j k − 1
E ( N i j | θ s ) + ai j − ri
Για υπολογισµό της ML, υπολογίζονται οι τιµές της θ s που µεγιστοποιούν την
p ( D ′′ | θ s , S h ) :
θi j k =
E ( N i j k | θs )
E( N i j | θs )
Αυτό αποτελεί το βήµα µεγιστοποίησης του ΕΜ αλγορίθµου. Ο Dempster έδειξε ότι,
κάτω από συγκεκριµένες συνθήκες συνέχειας, η επανάληψη των δύο αυτών βηµάτων
συγκλίνει σε ένα τοπικό µέγιστο. Ο αλγόριθµος ΕΜ προϋποθέτει παραµετρική
ανεξαρτησία και τυπικά χρησιµοποιείται όποτε οι αναµενόµενες τιµές των ικανών
στατιστικών συναρτήσεων µπορούν να υπολογιστούν αποτελεσµατικά (π.χ. όταν οι
τοπικές συναρτήσεις κατανοµής ανήκουν στην εκθετική οικογένεια).
10.5 Μάθηση παραµέτρων και δοµής
Στις προηγούµενες δύο παραγράφους θεωρήσαµε ότι γνωρίζουµε τη δοµή του
δικτύου µε βεβαιότητα και προσπαθήσαµε να βρούµε τρόπους προσδιορισµού τω
παραµέτρων του δικτύου. Στη συνέχεια αποδίδουµε απροσδιοριστία τόσο στις
παραµέτρους όσο και στην ίδια τη δοµή του δικτύου πεποίθησης.
Στην πλήρη λύση κατά Bayes του προβλήµατος, η απροσδιοριστία σχετικά µε τη
δοµή εκφράζεται αποδίδοντας µια a priori κατανοµή πιθανότητας p(Sh) στις
υποθέσεις δικτυακής δοµής. Επίσης, όπως και προηγοµένως, αποδίδονται a priori
κατανοµές παραµέτρων p(θs|Sh) για κάθε δυνατή υπόθεση Sh. Με δεδοµένο ένα
τυχαίο δείγµα D από τη φυσική κατανοµή πιθανότητας για το πεδίο ενδιαφέροντος
(domain), υπολογίζεται η a posteriori κατανοµή πιθανότητας p(Sh|D) και οι a
posteriori κατανοµές p(θs|D, Sh) και αξιοποιούνται για τον υπολογισµό των
αναµενόµενων τιµών των ποσοτήτων που ενδιαφέρουν.
Για παράδειγµα, για την πρόβλεψη του επόµενου γεγονότος αφού παρατηρηθεί το D:
p( x N +1 | D) = ∑ p( S h | D) ∫ p( x N +1 | θ s , S h ) p(θ s | D, S h )dθ s
S
(23)
Για τον υπολογισµό του αθροίσµατος υποτίθεται ότι υποθέσεις δοµής δικτύου είναι
αµοιβαία αποκλειόµενες. Περαιτέρω σχολιασµός αυτού του σηµείου θα γίνει
αργότερα.
Ο υπολογισµός της p(θs|D, Sh) γίνεται όπως περιγράφηκε στις προηγούµενες δύο
παραγράφους. Ο υπολογισµός της p(Sh|D) είναι επίσης άµεσος, τουλάχιστον κατ’
αρχήν. Από το θεώρηµα του Bayes,
p( S h | D) = c ⋅ p( S h ) ⋅ p( D | S h )
(24)
όπου c µια σταθερά κανονικοποίησης. Άρα, για τον καθορισµό της a posteriori
κατανοµής των δικτυακών δοµών απαιτείται ο υπολογισµός της περιθωριακής
πιθανοφάνειας των δεδοµένων για κάθε δυνατή δοµή.
Σχετικά µε τον υπολογισµό της περιθωριακής πιθανοφάνειας θα αναφέρουµε
παρακάτω. Ως εισαγωγή, θεωρήστε το παράδειγµα µε απεριόριστες πολυωνυµικές
κατανοµές, παραµετρική ανεξαρτησία, Dirichlet a priori κατανοµές και πλήρη
δεδοµένα. Όπως έχει ήδη αναφερθεί, επειδή τα δεδοµένα δεν είναι ελλιπή, κάθε
διάνυσµα παραµέτρων θij ενηµερώνεται ανεξάρτητα. Στην πραγµατικότητα υπάρχει
ένα ξεχωριστό πολυπλευρικό πρόβληµα πινέζας για κάθε i και j. Κατά συνέπεια, η
169
περιθωριακή πιθανοφάνεια των δεδοµένων είναι απλώς ίση µε το γινόµενο των
περιθωριακών πιθανοφανειών για κάθε ζευγάρι i-j , που δίνεται από την εξίσωση 9:
n
qi
Γ ( ai j )
i =1
j =1
Γ ( ai j + N i j )
p( D | S h ) = ∏∏
ri
Γ ( ai j k + N i j k )
k =1
Γ ( ai j k )
⋅∏
(25)
Αυτός ο τύπος οφείλεται στους Cooper και Herskovits.
∆υστυχώς, η πλήρης κατά Bayes προσέγγιση που µόλις περιγράφηκε, δεν είναι
πρακτική. Μια σηµαντική δυσκολία στους υπολογισµούς προκύπτει από τη
µεσοστάθµιση (averaging) επί των µοντέλων, στην εξίσωση 30. Για ένα πρόβληµα
που περιγράφεται από n µεταβλητές, ο αριθµός των δυνατών δοµών είναι
µεγαλύτερος από en . Κατά συνέπεια, όταν ο χρήστης δε µπορεί να αποκλείσει τα
περισσότερα από αυτά τα µοντέλα, η προσέγγιση καθίσταται µη διαχειρίσιµη.
Υπάρχουν δύο προσεγγίσεις αντιµετώπισης του προβλήµατος: η επιλογή µοντέλου
(model selection) και η επιλεκτική µεσοστάθµιση µοντέλων (selective model
averaging). Η πρώτη επιλέγει ένα –το «καλύτερο»– µοντέλο (υπόθεση δοµής
δικτύου) ανάµεσα από όλα τα δυνατά µοντέλα και χρησιµοποιεί αυτό για την
πρόβλεψη. Η δεύτερη επιλέγει ένα διαχειρίσιµο αριθµό µοντέλων και προσποιείται
ότι αυτά καλύπτουν ολόκληρο το χώρο των µοντέλων.
Οι προσεγγίσεις αυτές, που σχετίζονται µεταξύ τους, δηµιουργούν µια σειρά από
ερωτήµατα: Είναι τα αποτελέσµατα αυτών των προσεγγίσεων ακριβή όταν
αναφερόµαστε σε δοµές δικτύων κατά Bayes; Εάν ναι, µε ποιο τρόπο καθορίζεται ένα
«καλό» µοντέλο; Και πώς γίνεται η διερεύνηση για ένα καλό µοντέλο;
Τα ζητήµατα αυτά αντιµετωπίζονται στις επόµενες παραγράφους.
10.6 Κριτήρια επιλογής µοντέλου
Το µεγαλύτερο µέρος της βιβλιογραφίας που σχετίζεται µε τη µάθηση µε δίκτυα κατά
Bayes ασχολείται µε την επιλογή µοντέλου. Σ’ αυτές τις προσεγγίσεις,
χρησιµοποιείται κάποιο κριτήριο για τη µέτρηση του βαθµού προσαρµογής µιας
δοµής δικτύου (κλάσης ισοδυναµίας) στην a priori γνώση και δεδοµένα. Κατόπιν
χρησιµοποιείται ένας αλγόριθµος διερεύνησης για την εύρεση µιας κλάσης
ισοδυναµίας η οποία να λαµβάνει ένα υψηλό score σύµφωνα µε αυτό το κριτήριο.
10.6.1 Σχετική a posteriori πιθανότητα
Το κριτήριο που πιο συχνά χρησιµοποιείται για την επιλογή µοντέλου είναι ο
λογάριθµος της σχετικής
a posteriori πιθανότητας
της υπόθεσης,
h
h
h
log p( D, S ) = log p ( S ) + log p ( D | S ) . Ο λογάριθµος χρησιµοποιείται για
µεγαλύτερη ευκολία στους υπολογισµούς. Ένα άλλο κριτήριο που επιλέγει το ίδιο
µοντέλο είναι ο λογάριθµος του συντελεστή Bayes, log p( S h | D) − log p( S 0h | D) ,
όπου S 0h είναι κάποια δικτυακή δοµή αναφοράς όπως η κενή δικτυακή δοµή. Το
κριτήριο της a posteriori πιθανότητας έχει δύο συνιστώσες: το λογάριθµο της a priori
πιθανότητας της δοµής log p( S h ) και το λογάριθµο της περιθωριακής πιθανοφάνειας
log p ( D | S h ) .
170
Ο λογάριθµος της περιθωριακής πιθανοφάνειας έχει την ακόλουθη ενδιαφέρουσα
ερµηνεία, που περιγράφεται από τον Dawid. Από τον κανόνα της αλυσίδας ισχύει
N
log p( D, S h ) = ∑ log p(x l | x1 ,K, x l −1 , S h )
(26)
l =1
Ο όρος p(x l | x1 ,K, x l −1 , S h ) είναι η πρόβλεψη για το xl που γίνεται από το µοντέλο
Sh µετά από µεσοστάθµιση (averaging) επί των παραµέτρων του. Ο λογάριθµος αυτού
του όρου µπορεί να θεωρηθεί ως η ωφελιµότητα ή η αµοιβή για αυτή την πρόβλεψη
µέσω της συνάρτησης ωφελιµότητας log p (x) . Άρα, ένα µοντέλο µε τη µέγιστη
περιθωριακή πιθανοφάνεια (ή τη µέγιστη a posteriori πιθανότητα αν δεχθούµε ίσες a
priori πιθανότητες για τη δοµή) είναι ταυτόχρονα και ένα µοντέλο που δίνει την
καλύτερη σειριακή πρόβλεψη των δεδοµένων D µέσω του λογαρίθµου της
συνάρτησης ωφελιµότητας.
10.7 Υπολογισµός της περιθωριακής πιθανοφάνειας
Ο λογάριθµος της περιθωριακής πιθανοφάνειας
αποτελεσµατικά και σε κλειστή µορφή εάν:
µπορεί
να
υπολογιστεί
•
οι τοπικές συναρτήσεις κατανοµής ανήκουν στην εκθετική οικογένεια
•
ισχύει η αµοιβαία ανεξαρτησία των παραµέτρων θι
•
υπάρχουν συζυγείς a priori πιθανότητες γι’ αυτές τις παραµέτρους
•
τα δεδοµένα είναι πλήρη
Η εξίσωση 25 αποτελεί ένα παράδειγµα τέτοιου υπολογισµού για απεριόριστες
πολυωνυµικές κατανοµές. Οι Buntine, Ηeckerman και Geiger αναφέρονται σε
υπολογισµούς για άλλες τοπικές συναρτήσεις κατανοµής. Στη συνέχεια θα
αναφερθούν µέθοδοι που δεν απαιτούν την ύπαρξη παραµετρικής ανεξαρτησίας ή/και
πλήρων δεδοµένων.
Οι πρώτες δύο τεχνικές χρησιµοποιούν την ανάπτυξη αλυσίδας της εξίσωσης 26:
N
log p( D, S h ) = ∑ log p(x l | Dl , S h )
(27)
l =1
όπου µε Dl συµβολίζεται το σύνολο των γεγονότων {x1 ,K, x l −1} .
Μια µέθοδος υπολογισµού των όρων της εξίσωσης 27 χρησιµοποιεί την προσέγγιση
της σειριακής ενηµέρωσης. Με άλλα λόγια, για τον υπολογισµό της p (x l | Dl , S h )
πρώτα γίνεται προσέγγιση της p (θi j | Dl , S h ) µε ένα περιορισµένο µίγµα Dirichlet
συναρτήσεων, για κάθε i και j. Κατόπιν, µε τη χρήση της ανεξαρτησίας των
παραµέτρων συντάσσεται η κατανοµή πιθανότητας θ s :
n
qi
p(θ s | Dl , S ) = ∏∏ p (θi j | Dl , S h )
h
i =1 j =1
Τελικά υπολογίζεται η:
171
p(x l | Dl , S h ) = ∑ p(x l , y l | Dl , S h ) = ∑ ∫ p(x l , y l | θ s , S h ) p(θ s | Dl , S h ) dθ s όπου
yl
yl
yl
είναι µια κατάσταση των µεταβλητών που δεν έχουν παρατηρηθεί στο δείγµα xl. Ο
υπολογισµός κάθε ολοκληρώµατος στο άθροισµα είναι άµεσος, αφού η p (θ s | Dl , S h )
αποτελείται από περιορισµένο µείγµα κατανοµών Dirichlet.
Αυτή η σειριακή µέθοδος είναι εφαρµόσιµη µόνον όταν οι τοπικές συναρτήσεις
κατανοµής είναι απεριόριστες πολυωνυµικές κατανοµές και ισχύει η ανεξαρτησία
των παραµέτρων. Μια άλλη µέθοδος για τον υπολογισµό των όρων της εξίσωσης 27,
η οποία χρησιµοποιεί τη δειγµατοληψία Gibbs, δεν υπόκειται σ’ αυτούς τους
περιορισµούς. Για την προσέγγιση της p (x l | Dl , S h ) , πρώτα αποδίδονται µε κάποιο
τρόπο αρχικές τιµές στις θ s και στις καταστάσεις των µεταβλητών που δεν έχουν
παρατηρηθεί στο Dl . Με τον τρόπο αυτό παράγεται ένα πλήρες δείγµα Dl′ . Για κάθε
µεταβλητή X i l (µεταβλητή Xi στην κατάσταση xl) που δεν έχει παρατηρηθεί στο
αρχικό δείγµα Dl , γίνεται νέα ανάθεση κατάστασης σύµφωνα µε την κατανοµή
πιθανότητας p ( xi l | Dl′ \ xi l , θ s , S h ) . Αυτή η διαδικασία παράγει ένα άλλο πλήρες
τυχαίο δείγµα Dl′′ . Τρίτον, υπολογίζεται οι a posteriori κατανοµές p(θ s | Dl′′, S h ) και
p (x l | Dl′′, S h ) . Τέταρτον, επανατίθενται τιµές στις θ s σύµφωνα µε την πρώτη από τις
δύο a posteriori κατανοµές. Τελικά, επαναλαµβάνονται τα τρία τελευταία βήµατα και
χρησιµοποιείται ως προσέγγιση ο µέσος όρος των p (θ s | D ′′, S h ) .
Η τελευταία οµάδα µεθόδων στην οποία θα γίνει αναφορά βασίζεται στη µέθοδο του
Laplace για ολοκλήρωση. Αυτή η µέθοδος επεξεργάζεται τα δεδοµένα ως σύνολο,
παρά µε µια σειριακή προσέγγιση.
Η µέθοδος του Laplace εκµεταλλεύεται την κανονική (Gaussian) προσέγγιση που
αναφέρθηκε νωρίτερα. υπενθυµίζουµε ότι για µεγάλες ποσότητες δεδοµένων, το
γινόµενο p ( D | θ s , S h ) ⋅ p(θ s | S h ) µπορεί να προσεγγιστεί ως µια κανονική κατανοµή
πολλών µεταβλητών. Κατά συνέπεια η πιθανοφάνεια,
p ( D, S h ) = ∫ p ( D | θ s , S h ) ⋅ p(θ s | S h ) dθ s
(28)
µπορεί να υπολογιστεί σε κλειστή µορφή. Συγκεκριµένα, αντικαθιστώντας την
εξίσωση 21 στην 28, ολοκληρώνοντας και παίρνοντας το λογάριθµο του
αποτελέσµατος παίρνουµε την προσέγγιση:
~
~
d
1
log p( D | S h ) ≈ log p( D | θ s , S h ) + log p(θ s | S h ) + log(2π ) − log A
2
2
(29)
Η εξίσωση 29 αναφέρεται ως προσέγγιση του Laplace. Πρόκειται για εξαιρετικά
ακριβή προσέγγιση, όµως ο υπολογισµός της ορίζουσας |Α| µπορεί να είναι
χρονοβόρος.
Μια πιο αποτελεσµατική αλλά λιγότερο ακριβής προσέγγιση προκύπτει αν από την
29 διατηρήσουµε µόνον εκείνους τους όρους που αυξάνονται µε το Ν. Για µεγάλες
~
τιµές του Ν, η ορίζουσα |Α| είναι ανάλογη της ποσότητας Νd. Επίσης, η θ s µπορεί να
προσεγγιστεί από την ML τιµή της θ s . Άρα,
172
d
log p( D | S h ) ≈ log p( D | θˆs , S h ) − log N
2
(30)
Η BIC προσέγγιση είναι ενδιαφέρουσα από πολλές απόψεις. Πρώτον, δεν εξαρτάται
στις a priori κατανοµές. Κατά συνέπεια µπορεί να εφαρµοστεί χωρίς να απαιτείται
εκτίµηση των a priori κατανοµών. ∆εύτερον, η προσέγγιση είναι αρκετά διαισθητική·
περιέχει έναν όρο [ log p ( D | θˆs , S h ) ] που µετρά πόσο καλά µπορεί το µοντέλο να
προβλέψει τα δεδοµένα και έναν όρο που τιµωρεί την πολυπλοκότητα του µοντέλου
d
( log N ).
2
Μια διαφορετική προσέγγιση που σχετίζεται µε την BIC προσέγγιση βασίζεται στις
επόµενες δύο παρατηρήσεις: Πρώτον, ο ΕΜ αλγόριθµος χειρίζεται τις αναµενόµενες
τιµές των ικανών στατιστικών συναρτήσεων σαν να ήταν οι πραγµατικές στατιστικές
συναρτήσεις. στην πραγµατικότητα ο ΕΜ αλγόριθµος «συµπληρώνει» τα ελλιπή
δεδοµένα για να σχηµατίσει ένα πλήρες σύνολο δεδοµένων. ∆εύτερον, κάτω από
συγκεκριµένες συνθήκες, ο λογάριθµος της περιθωριακής πιθανοφάνειας ενός
πλήρους συνόλου δεδοµένων µπορεί να υπολογιστεί αποτελεσµατικά σε κλειστή
µορφή. Άρα, ο ΕΜ αλγόριθµος µπορεί να χρησιµοποιηθεί για την κατασκευή ενός
πλήρους συνόλου δεδοµένων D′ και για την προσέγγιση της λογαριθµικής
περιθωριακής πιθανοφάνειας µε τη χρήση της
log p( D | S h ) ≈ log p( D′ | S h )
(31)
Η προσέγγιση αυτή µπορεί να εφαρµοστεί όταν οι τοπικές συναρτήσεις κατανοµής
προέρχονται από την εκθετική οικογένεια, οι παράµετροι είναι ανεξάρτητες και οι a
priori κατανοµές είναι συζυγείς.
Με δεδοµένο ότι έχουµε απεριόριστες πολυωνυµικές κατανοµές µε Dirichlet a priori
κατανοµές, η προσέγγιση είναι:
n
qi
Γ ( ai j )
i =1
j =1
Γ ( ai j + E ( N i j | D, S h )
p ( D′ | S ) = ∏∏
h
ri
Γ ( ai j k + E ( N i j k | D , S h )
k =1
Γ ( ai j k )
⋅∏
(32)
10.8 A priori κατανοµές
Για τον υπολογισµό της σχετικής a posteriori πιθανότητας µιας δικτυακής δοµής,
πρέπει να γίνει εκτίµηση της a priori κατανοµής πιθανότητας της δοµής p( S h ) και
των παραµέτρων p(θ s | S h ) (εκτός αν χρησιµοποιηθεί µέθοδος µεγάλου δείγµατος,
όπως η BIC). ∆υστυχώς, όταν υπάρχουν πολλές δυνατές δικτυακές δοµές, τότε οι
εκτιµήσεις καθίστανται µη διαχειρίσιµες. Παρ’ όλα αυτά, κάτω από συγκεκριµένες
παραδοχές, a priori κατανοµές για δοµές και παραµέτρους µπορούν να εξαχθούν για
πολλά δίκτυα µετά από ένα διαχειρίσιµο αριθµό εκτιµήσεων.
10.8.1 Παράµετροι δικτύου
Στη συνέχεια κάνουµε την παραδοχή ότι οι τοπικές συναρτήσεις κατανοµής είναι
απεριόριστες πολυωνυµικές κατανοµές και ότι ισχύει η ανεξαρτησία των
παραµέτρων.
173
Η προσέγγιση του Heckerman βασίζεται σε δύο αρχές: την ισοδυναµία ανεξαρτησίας
και την ισοδυναµία κατανοµής.
∆ύο δοµές δικτύου κατά Bayes για το διάνυσµα µεταβλητών Χ λέγονται ισοδύναµες
ως προς την ανεξαρτησία αν αναπαριστούν το ίδιο σύνολο υποθέσεων δεσµευµένης
ανεξαρτησίας για το Χ. Για παράδειγµα, για το πεδίο των τριών µεταβλητών {Χ, Υ,
Ζ}, οι δικτυακές δοµές X→Y→Ζ, Χ←Υ→Ζ και X←Y←Z αναπαριστούν µόνο την
υπόθεση ότι οι Χ και Ζ είναι ανεξάρτητες µε δεδοµένη την Υ. Κατά συνέπεια, αυτές οι
δικτυακές δοµές είναι ισοδύναµες.
Ένα άλλο παράδειγµα αποτελεί η πλήρης δικτυακή δοµή, δηλαδή το δίκτυο στο οποίο
δεν απουσιάζει κανείς δεσµός, Ένα τέτοιο δίκτυο δεν αναπαριστά καµία υπόθεση
ανεξαρτησίας. Ένα πεδίο που περιέχει n µεταβλητές έχει n! πλήρεις δικτυακές δοµές:
µία δικτυακή δοµή για κάθε δυνατή διάταξη των µεταβλητών. Όλες οι πλήρεις
δικτυακές δοµές για ένα δεδοµένο πεδίο είναι ισοδύναµες ως προς την ανεξαρτησία.
Γενικά, δύο δικτυακές δοµές είναι ισοδύναµες ως προς την ανεξαρτησία εάν και
µόνον εάν έχουν την ίδια δοµή αγνοώντας την κατευθυντικότητα των βελών και τις
ίδιες υ-δοµές. Υπενθυµίζουµε ότι η υ-δοµή αποτελεί το κρίσιµο στοιχείο ενός
κατευθυντικού γραφήµατος ανεξαρτησίας προκειµένου να ελεγχθεί η ισχύς της
συνθήκης Wermuth: είναι µια διατεταγµένη τριπλέτα (Χ, Υ, Ζ) τέτοια ώστε υπάρχει
βέλος από το Χ στο Υ και από το Ζ προς στο Υ αλλά δεν υπάρχει βέλος µεταξύ των Χ
και Ζ. Καταλαβαίνει κανείς ότι δύο κατά Bayes δίκτυα µε ίδιο ηθικό γράφηµα είναι
ισοδύναµα ως προς την ανεξαρτησία.
Η αρχή της ισοδυναµίας κατανοµής είναι στενά συνδεδεµένη µε αυτή της
ισοδυναµίας ανεξαρτησίας. Υποθέστε ότι όλα τα υπό µελέτη δίκτυα κατά Bayes για
το X έχουν τοπικές συναρτήσεις κατανοµής που ανήκουν στην οικογένεια F. Αυτό
δεν αποτελεί περιορισµό αφ’ εαυτού καθώς η F µπορεί να είναι µια ευρεία
οικογένεια. ∆ύο δοµές δικτύων κατά Bayes S1 και S2 για το Χ λέγονται ισοδύναµες
κατά την κατανοµή ως προς τη F αν αναπαριστούν την ίδια φυσική συνδυαστική
κατανοµή πιθανότητας για το Χ –δηλαδή αν για κάθε θ s1 υπάρχει µια θ s 2 τέτοια ώστε
p(x | θ s1 , S1h ) = p(x | θ s 2 , S 2h ) και αντίστροφα.
Η ισοδυναµία κατανοµής ως προς κάποια F συνεπάγεται την ισοδυναµία
ανεξαρτησίας, αλλά το αντίστροφο δεν ισχύει πάντοτε. Για παράδειγµα, όταν F είναι
η οικογένεια των γενικευµένων µοντέλων γραµµικής παλινδρόµησης (εξίσωση 18), οι
πλήρεις δοµές δικτύου για περισσότερες από 3 µεταβλητές δεν αναπαριστούν τα ίδια
σύνολα κατανοµών. Παρ’ όλα αυτά, υπάρχουν οικογένειες F –για παράδειγµα οι
απεριόριστες πολυωνυµικές κατανοµές και τα µοντέλα γραµµικής παλινδρόµησης µε
Gaussian θόρυβο– όπου η ισοδυναµία ανεξαρτησίας συνεπάγεται την ισοδυναµία
κατανοµής ως προς την F.
Η έννοια της ισοδυναµίας κατανοµής είναι σηµαντική επειδή εάν δύο δικτυακές
δοµές S1 και S2 είναι ισοδύναµες κατά την κατανοµή ως προς µια δεδοµένη F, τότε οι
υποθέσεις που σχετίζονται µε αυτές τις δύο δοµές είναι ταυτόσηµες, δηλαδή S1h = S 2h .
Άρα, εάν οι δοµές S1 και S2 είναι ισοδύναµες κατά την κατανοµή, τότε οι πιθανότητές
τους θα πρέπει να είναι ίσες για οποιαδήποτε κατάσταση πληροφορίας. Αυτό
ονοµάζεται ισοδυναµία υποθέσεων.
Υπό το φως αυτής της ιδιότητας κάθε µια υπόθεση θα πρέπει να συσχετίζεται µε µια
κλάση ισοδυναµίας δοµών παρά µε µία δικτυακή δοµή, και οι µέθοδοι για µάθηση
δικτυακών δοµών θα πρέπει στην πραγµατικότητα να ερµηνεύονται ως µέθοδοι για τη
174
µάθηση κλάσεων ισοδυναµίας δικτυακών δοµών (αν και, χάριν συντοµίας, συχνά
αποκρύπτουµε αυτή τη διάκριση). Εποµένως, για παράδειγµα, το άθροισµα επί των
υποθέσεων δικτυακής δοµής της εξίσωσης 30 θα πρέπει να αντικατασταθεί από ένα
άθροισµα επί των υποθέσεων κλάσεων ισοδυναµίας. Ένας αλγόριθµος για την
ταυτοποίηση της κλάσης ισοδυναµίας µιας δεδοµένης δικτυακής δοµής δίνεται από
τον Chickering.
Θα πρέπει να σηµειωθεί ότι η ισοδυναµία υποθέσεων ισχύει αν µια δικτυακή δοµή
ερµηνευθεί απλώς ως αναπαράσταση δεσµευµένης ανεξαρτησίας. Υπάρχουν όµως
και πιο ισχυροί ορισµοί των δικτύων κατά Bayes, σύµφωνα µε τους οποίους τα βέλη
επιδέχονται αιτιοκρατική ερµηνεία. Αν και είναι παράλογη η παραδοχή της
ισοδυναµίας υποθέσεων όταν αναφερόµαστε σε αιτιοκρατικά δίκτυα κατά Bayes,
είναι συχνά δυνατόν να υιοθετήσουµε την πιο ασθενή παραδοχή της ισοδυναµίας
πιθανοφανειών, η οποία λέει ότι οι παρατηρήσεις σε µια βάση δεδοµένων δε µπορούν
να βοηθήσουν στη διάκριση δύο ισοδύναµων δικτυακών δοµών.
Επιστρέφοντας στην εξαγωγή των a priori κατανοµών από έναν διαχειρίσιµο αριθµό
υποθέσεων, αποδεικνύεται ότι οι παραδοχές της ανεξαρτησίας παραµέτρων και
ισοδυναµίας πιθανοφανειών συνεπάγονται ότι οι παράµετροι για κάθε πλήρη
δικτυακή δοµή S θα πρέπει να ακολουθεί κατανοµή Dirichlet όπως ορίζεται στην
εξίσωση 15, µε τον περιορισµό
ai j k = a ⋅ p ( xik , pa ij | S ch )
(33)
όπου α είναι το ισοδύναµο µέγεθος δείγµατος του χρήστη για το συγκεκριµένο πεδίο,
Sc είναι οποιαδήποτε πλήρης δικτυακή δοµή και p( xik , pa ij | S ch ) είναι η πιθανότητα
του χρήστη ότι X i = xik και Pa i = pa ij σε ένα τυχαίο δείγµα µεγέθους ίσου µε ένα.
Αυτό αποτελεί ένα αξιοσηµείωτο αποτέλεσµα, καθώς οι δύο παραδοχές που οδηγούν
σε λύση Dirichlet υπό περιορισµούς είναι ποιοτικές.
Για τον καθορισµό των a priori κατανοµών των παραµέτρων για δικτυακές δοµές που
δεν είναι πλήρεις, χρησιµοποιείται η παραδοχή της modularity των παραµέτρων, η
οποία λέει ότι εάν η Χi έχει τους ίδιους γονείς στις δικτυακές δοµές S1 και S2, τότε
p (θi j | S1h ) = p (θi j | S 2h )
για j = 1,K, qi . Αυτή η ιδιότητα ονοµάζεται έτσι επειδή µας λέει ότι οι κατανοµές για
τις παραµέτρους θ i j εξαρτώνται µόνον από τη δοµή του δικτύου που είναι τοπική
στη µεταβλητή Χi, δηλαδή από την Χi και τους γονείς της.
Με δεδοµένες τις παραδοχές της ανεξαρτησίας και modularity των παραµέτρων, η
κατασκευή a priori κατανοµών για τις παραµέτρους µιας τυχαίας δικτυακής δοµής
καθίσταται απλή διαδικασία, όταν µας δίνονται οι a priori κατανοµές των
παραµέτρων για πλήρεις δοµές. Συγκεκριµένα, λόγω της παραµετρικής ανεξαρτησίας,
οι a priori κατανοµές των παραµέτρων κατασκευάζονται για κάθε κόµβο ξεχωριστά.
Επί πλέον, εάν ο κόµβος xi έχει γονείς Πi στη δεδοµένη δικτυακή δοµή, τότε
αναγνωρίζουµε µια πλήρη δικτυακή δοµή στην οποία ο xi έχει αυτούς τους γονείς και
χρησιµοποιούµε την παραµετρική modularity για τον καθορισµό των a priori
κατανοµών για τον κόµβο αυτό. Οι όροι ai j k για όλες τις δικτυακές δοµές
καθορίζονται από την εξίσωση 33. Άρα, από τις εκτιµήσεις των α και p (x | S ch ) ,
175
µπορούν να εξαχθούν οι a priori κατανοµές των παραµέτρων για όλες τις δυνατές
δικτυακές δοµές.
Με συνδυασµό των εξισώσεων 32 και 43, µπορεί να εξαχθεί ένα κριτήριο επιλογής
µοντέλου το οποίο αναθέτει ίσες περιθωριακές πιθανοφάνειες σε ισοδύναµες ως προς
την ανεξαρτησία δικτυακές δοµές. Αυτό το µέτρο ονοµάζεται BDe (Bayesian
Dirichlet independence equivalent) κριτήριο.
10.8.2 ∆οµές
Η απλούστερη και η πιο συχνά χρησιµοποιούµενη προσέγγιση ανάθεσης a priori
πιθανοτήτων στις δικτυακές δοµές είναι µέσω της υπόθεσης ότι όλες οι δυνατές
δικτυακές δοµές είναι ισοπίθανες. Είναι σαφές ότι µια τέτοια θέση είναι ανακριβής
και χρησιµοποιείται µόνο χάριν ευκολίας.
Ο Buntine περιγράφει ένα απλό σύνολο παραδοχών που οδηγεί σε µια πλουσιότερη
αλλά και αποτελεσµατική προσέγγιση για την ανάθεση a priori πιθανοτήτων. Η
πρώτη παραδοχή είναι ότι οι µεταβλητές µπορούν να διαταχθούν (π.χ. µε βάση τη
γνώση µιας χρονικής σειράς). Η δεύτερη παραδοχή είναι ότι η παρουσία ή η
παρουσία των δυνατών βελών µεταξύ των κόµβων είναι αµοιβαία ανεξάρτητες. Με
n (n − 1)
βάση αυτές τις παραδοχές,
εκτιµήσεις πιθανότητας (µία για κάθε δυνατό
2
βέλος σε µια διάταξη) καθορίζουν την a priori πιθανότητα κάθε δυνατής δικτυακής
δοµής. Μια επέκταση αυτής της προσέγγισης αποτελεί η δυνατότητα για πολλαπλές
δυνατές διατάξεις. Αντίθετα, η προσέγγιση µπορεί να απλοποιηθεί µε την παραδοχή
ότι η πιθανότητα ένα συγκεκριµένο βέλος να υπάρχει ή όχι δεν εξαρτάται από το υπό
µελέτη βέλος. Σ’ αυτή την περίπτωση, απαιτείται µόνο µία εκτίµηση πιθανότητας.
Μια εναλλακτική προσέγγιση κάνει χρήση ενός αρχικού δικτύου και τιµωρεί την a
priori πιθανότητα οποιασδήποτε δοµής σύµφωνα µε την απόσταση αυτής της δοµής
από το αρχικό δίκτυο.
10.9 Μέθοδοι διερεύνησης
Θεωρήστε το πρόβληµα εύρεσης του καλύτερου δικτύου από το σύνολο όλων των
δικτύων στα οποία κάθε κόµβος έχει το πολύ k γονείς. ∆υστυχώς, το πρόβληµα για
k>1 είναι NP-hard ακόµη και όταν χρησιµοποιηθεί το περιοριστικό BDe κριτήριο.
Έτσι
χρησιµοποιούνται
ευρετικοί
(heuristic)
αλγόριθµοι
διερεύνησης,
συµπεριλαµβανοµένων των: άπληστη διερεύνηση (greedy search), άπληστη
διερεύνηση µε επανεκκινήσεις, διερεύνηση άριστης εκκίνησης (best-first search) και
µέθοδοι Monte Carlo.
Αυτές οι µέθοδοι διερεύνησης καθίστανται αποτελεσµατικότερες όταν το κριτήριο
επιλογής είναι διαχωρίσιµο. Με δεδοµένη µια δικτυακή δοµή για το πεδίο
ενδιαφέροντος Χ, ένα κριτήριο για τη δοµή αυτή ονοµάζεται διαχωρίσιµο εάν µπορεί
να γραφεί ως γινόµενο κριτηρίων που αναφέρονται σε συγκεκριµένες µεταβλητές:
n
C ( S h , D) = ∏ c( X i , Pa i , Di )
(34)
i =1
όπου Di είναι τα δεδοµένα που περιορίζονται στις µεταβλητές Χi και Pai. Ένα
παράδειγµα διαχωρίσιµου κριτηρίου είναι το BDe κριτήριο σε συνδυασµό µε κάποια
από τις µεθόδους για την εκτίµηση a priori πιθανοτήτων δοµών.
176
Οι περισσότερες από τις συνήθως χρησιµοποιούµενες µεθόδους διερεύνησης για
δίκτυα κατά Bayes εκτελούν διαδοχικές µετατροπές στο δίκτυο και κάνουν χρήση της
έννοιας της διαχωρισιµότητας για την εκτίµηση του κέρδους κάθε αλλαγής. Οι
δυνατές µετατροπές είναι οι ακόλουθες: για κάθε ζευγάρι µεταβλητών, εάν υπάρχει
ένα βέλος που τις συνδέει, τότε το βέλος µπορεί είτε να αντιστραφεί ή να αφαιρεθεί.
Εάν δε συνδέονται, τότε ένα βέλος µπορεί να προστεθεί µε οποιαδήποτε κατεύθυνση.
Όλες οι µετατροπές υπόκεινται στον περιορισµό ότι το δίκτυο που προκύπτει δεν
περιέχει κατευθυντικούς κύκλους.
Έστω ότι µε Ε συµβολίζεται το σύνολο των υποψηφίων µετατροπών σε ένα γράφηµα
και µε ∆(ε) η µεταβολή στο λογάριθµο του score του δικτύου που προκύπτει από τη
µετατροπή ε ∈ Ε. Ο υπολογισµός της ποσότητας ∆(ε) στην περίπτωση που η
µετατροπή ε έγκειται στην πρόσθεση ή αφαίρεση ενός βέλους προς ή από τη
µεταβλητή Χi απαιτεί την εκτίµηση του c( X i , Pa i , Di ) και µόνον. Αντίστοιχα, η
αντιστροφή της κατεύθυνσης ενός βέλους που συνδέει τις Χi και Χj απαιτεί την
εκτίµηση µόνον των c( X i , Pa i , Di ) και c( X j , Π j , D j ) .
Ένας απλός ευρετικός αλγόριθµος αναζήτησης είναι η άπληστη διερεύνηση. Πρώτα,
επιλέγεται µια δικτυακή δοµή. Κατόπιν, εκτιµάται η ∆(ε) για όλα τα ε∈Ε και γίνεται
η µετατροπή ε για την οποία η ∆(ε) γίνεται µέγιστη, µε δεδοµένο ότι είναι θετική
ποσότητα. Η διερεύνηση σταµατά όταν δεν υπάρχει ε που να οδηγεί σε ∆(ε)>0. Όταν
το κριτήριο είναι διαχωρίσιµο, ο επανυπολογισµός όλων των ∆(ε) µετά από κάθε
µετατροπή µπορεί να αποφευχθεί καθώς, αν ούτε οι Χi και Χj αλλά ούτε και οι γονείς
τους υποστούν µετατροπή, η ∆(ε) παραµένει αµετάβλητη για όλες τις µετατροπές ε
που έχουν να κάνουν µε αυτούς τους κόµβους –αρκεί το δίκτυο που προκύπτει να
είναι ακυκλικό. Υποψήφια γραφήµατα εκκίνησης είναι το κενό γράφηµα, ένα τυχαίο
γράφηµα ή το αρχικό (prior) δίκτυο.
Ένα εν δυνάµει πρόβληµα µε οποιαδήποτε τοπική µέθοδο διερεύνησης είναι ο
πρόωρος τερµατισµός της διαδικασίας σε ένα τοπικό µέγιστο. Ένας τρόπος αποφυγής
αυτού του προβλήµατος είναι η άπληστη διερεύνηση µε τυχαίες επανεκκινήσεις. Με
αυτή την προσέγγιση εφαρµόζουµε την άπληστη διερεύνηση µέχρι να βρούµε ένα
τοπικό µέγιστο. Κατόπιν, διαταράσσουµε τη δικτυακή δοµή µε τυχαίο τρόπο και
επαναλαµβάνουµε τη διαδικασία πολλές φορές.
Ο χώρος στον οποίο διεξάγεται η διερεύνηση αποτελεί ένα σηµαντικό στοιχείο για
όλους τους αλγόριθµους διερεύνησης. Φυσιολογικά, αυτός είναι ο χώρος των δοµών
των κατά Bayes δικτύων. Όταν όµως ισχύει η παραδοχή της ισοδυναµίας των
υποθέσεων, η διερεύνηση µπορεί να διεξαχθεί στο χώρο των κλάσεων ισοδυναµίας
δικτυακών δοµών. Το όφελος µιας τέτοιας προσέγγισης έγκειται στο ότι αυτός ο
χώρος είναι µικρότερος ενώ το κόστος που έχουµε είναι ότι η µετακίνηση από ένα
στοιχείο του χώρου αυτού σε ένα άλλο είναι πιο δύσκολη. ∆υστυχώς δεν υπάρχουν
ακόµη (2000) συγκρίσεις που να αποτιµούν το λόγο κόστος/όφελος αυτού του τύπου
διερεύνησης.
10.10 Μάθηση µε κρυµµένες (ή λανθάνουσες) µεταβλητές
Έγινε φανερό σε προηγούµενη παράγραφο ότι η έρευνα σχετικά µε τη µάθηση
δικτύων πεποίθησης ακολουθεί δύο εναλλακτικές προσεγγίσεις: η µία χρησιµοποιεί
ελέγχους ανεξαρτησίας για να κατευθύνει µια διερεύνηση µεταξύ έγκυρων µοντέλων,
177
ενώ η άλλη χρησιµοποιεί ένα score για την εύρεση του µοντέλου µε το µεγαλύτερο
score.
Το πρόβληµα της επιλογής µοντέλου µεταξύ δικτύων πεποίθησης µε κρυµµένες
µεταβλητές, δηλαδή δικτύων µε µεταβλητές των οποίων οι τιµές δεν παρατηρούνται,
είναι δυσκολότερο από το αντίστοιχο πρόβληµα στο οποίο όλες οι µεταβλητές είναι
παρατηρήσιµες.
Πρώτον, ο χώρος των δυνατών δικτύων είναι άπειρος, καθώς δεν υπάρχει
περιορισµός τόσο στον αριθµό των δυνατών καταστάσεων µιας κρυµµένης
µεταβλητής, όσο και στον αριθµό των µεταβλητών καθαυτών. ∆εύτερον, η απόδοση
ενός score σε κάθε δίκτυο είναι υπολογιστικά δυσκολότερη επειδή πρέπει να ληφθούν
υπ’ όψιν όλες οι δυνατές τιµές των κρυµµένων µεταβλητών.
Είδαµε ότι ένα µέτρο του πόσο καλή είναι η προσαρµογή µιας δοµής δικτύου S στα
δεδοµένα D είναι η σχετική a posteriori πιθανότητα p( S h | D) ∝ p( S h ) ⋅ p( D | S h ) ,
όπου p( D | S h ) είναι η περιθωριακή πιθανοφάνεια των D µε δεδοµένη τη δοµή Sh.
Στόχος µας είναι η εύρεση µιας ασυµπτωτικής προσέγγισης της περιθωριακής
πιθανοφάνειας, συγκεκριµένα του κατά Bayes κριτηρίου πληροφορίας (BIC), για την
περίπτωση δικτύων µε κρυµµένες µεταβλητές.
Όταν δεν υπάρχουν κρυµµένες µεταβλητές, η περιθωριακή πιθανοφάνεια των D µε
δεδοµένη τη δοµή S δίνεται από την :
1
p( D | S h ) = H ( S , D) N − dim(S ) log( N ) + O(1)
2
(35)
όπου Ν είναι το µέγεθος του δείγµατος των δεδοµένων, είναι η εντροπία της
κατανοµής πιθανότητας, η οποία εξάγεται µέσω της προβολής των συχνοτήτων
εµφάνισης των δεδοµένων επί των πινάκων δεσµευµένης πιθανότητας του δικτύου
πεποίθησης S, και dim(S) είναι ο αριθµός παραµέτρων του δικτύου S. Η εξίσωση
αυτή αποκαλύπτει τις ποιοτικές προτιµήσεις της κατά Bayes προσέγγισης. Πρώτον,
µε ικανή ποσότητα δεδοµένων, µια δοµή δικτύου που είναι I-map της πραγµατικής
κατανοµής, είναι πιο προτιµητέα από µια δοµή δικτύου που δεν είναι I-map της
πραγµατικής κατανοµής. ∆εύτερον, µεταξύ όλων των δοµών δικτύου που είναι I-map
της πραγµατικής κατανοµής, προτιµάται αυτή που έχει το µικρότερο αριθµό
παραµέτρων.
Η εξίσωση 35 προκύπτει από µια εκπεφρασµένη µαθηµατική έκφραση της
πιθανότητας µιας δοµής δικτύου υπό τη δέσµευση των δεδοµένων, επιτρέποντας το
µέγεθος του δείγµατος να τείνει στο άπειρο και χρησιµοποιώντας Dirichlet a priori
κατανοµές για τις παραµέτρους. Παρ’ όλα αυτά, η εξίσωση 1 δεν εξαρτάται από την a
priori κατανοµή. Επίσης, µε τυπική εφαρµογή ασυµπτωτικής ανάλυσης κατά Bayes
(µέθοδος Laplace), µπορούµε να καταλήξουµε στην 35 χωρίς την παραδοχή των
Dirichlet a priori κατανοµών.
Στην παράγραφο 10.10.2 δίνουµε µια προσέγγιση της περιθωριακής πιθανοφάνειας
για δίκτυα πεποίθησης µε κρυµµένες µεταβλητές και δίνουµε ένα ευρετικό
επιχείρηµα γι’ αυτή την προσέγγιση, χρησιµοποιώντας τη µέθοδο Laplace.
Καταλήγουµε στην επόµενη εξίσωση:
1
log p( S | D) ≈ log p( S | D, θˆs ) − dim(S , θˆs ) log( N )
2
178
(36)
όπου θˆs είναι η τιµή µέγιστης πιθανοφάνειας (ML) για τις παραµέτρους του δικτύου
και dim( S , θˆs ) η διάσταση του S στην ML τιµή του θ s . Η διάσταση ενός µοντέλου
µπορεί να ερµηνευθεί µε δύο ισοδύναµους τρόπους. Πρώτον, είναι ο αριθµός των
ελεύθερων παραµέτρων που απαιτούνται για την αναπαράσταση του χώρου των
παραµέτρων κοντά στην τιµή µέγιστης πιθανοφάνειας. ∆εύτερον, είναι η τάξη της
Ιακωβιανής µήτρας του µετασχηµατισµού µεταξύ των παραµέτρων του δικτύου και
των παραµέτρων των παρατηρήσιµων (όχι κρυµµένων) µεταβλητών. Ούτως ή άλλως,
η διάσταση εξαρτάται από την τιµή του θˆs , σε αντίθεση µε την εξίσωση 35, όπου η
διάσταση είναι σταθερή σε όλο το χώρο των παραµέτρων.
Στην παράγραφο 10.10.3 υπολογίζεται η διάστάση του αφελούς µοντέλου Bayes µε
έναν κρυµµένο κόµβο.
Ο υπολογισµός της p( D | S h ) σε κλειστή µορφή απαιτεί έναν αριθµό παραδοχών.
Πρώτον, τα δεδοµένα D υποτίθεται ότι είναι τυχαίο δείγµα από κάποιο δίκτυο κατά
Bayes ( S , θ s ) . ∆εύτερον, για κάθε δικτυακή δοµή, τα σύνολα παραµέτρων θ1 ,K, θ n
είναι αµοιβαίως ανεξάρτητα (γενική ανεξαρτησία: Spiegelhalter-Lauritzen) και τα
σύνολα παραµέτρων θi1 ,K, θiqi , για κάθε i υποτίθεται ότι είναι αµοιβαίως ανεξάρτητα
(τοπική ανεξαρτησία: Spiegelhalter-Lauritzen). Τρίτον, εάν ένας κόµβος έχει δύο
κόµβους σε δύο διακεκριµένα δίκτυα πεποίθησης, τότε η κατανοµή των παραµέτρων
που συνδέονται µε αυτό τον κόµβο είναι ταυτοτικά ίδια και στα δύο δίκτυα
(modularity παραµέτρων). Τέταρτον, κάθε εγγραφή στη βάση δεδοµένων είναι
πλήρης. Πέµπτον, η a priori κατανοµή των παραµέτρων που συνδέονται µε κάθε
a
κόµβο είναι Dirichlet, δηλαδή p (θi j | S h ) ∝ ∏ θi ji kj k ,όπου τα ai j k µπορούν να
k
ερµηνευθούν ως ο ισοδύναµος αριθµός εγγραφών (περιπτώσεων) που έχουν
παρατηρηθεί στις οποίες X i = xik και Pa i = pa ij .
Με χρήση αυτών των παραδοχών, οι Cooper και Herskovits κατέληξαν στον
ακόλουθο ακριβή τύπο για την περιθωριακή πιθανοφάνεια:
n
qi
Γ ( ai j )
i =1
j =1
Γ ( ai j + N i j )
p( D | S h ) = ∏∏
ri
Γ ( ai j k + N i j k )
k =1
Γ ( ai j k )
⋅∏
όπου N i j k είναι ο αριθµός των εγγραφών στη D στις οποίες X i = xik και Pa i = pa ij .
Αυτή η έκφραση ονοµάζεται Cooper-Herskovits συνάρτηση διαβάθµισης (scoring
function).
10.10.1 Ασυµπτωτική προσέγγιση χωρίς κρυµµένες µεταβλητές
Στα επόµενα θα εφαρµοστεί η µέθοδος του Laplace για να φτάσουµε στην εξίσωση
35. Η µέθοδος Laplace συνίσταται στην ανάπτυξη της λογαριθµικής πιθανοφάνειας
των δεδοµένων γύρω από την τιµή µέγιστης πιθανοφάνειας και την προσέγγιση αυτής
της κορυφής µε χρήση κανονικής κατανοµής πολλών µεταβλητών.
Αυτή η µέθοδος δεν απαιτεί τον υπολογισµό της p( DN | S h ) για τα δεδοµένα DN
ενός δείγµατος µεγέθους Ν, ο οποίος θα απαιτούσε τις παραδοχές που
179
προαναφέρθηκαν. Αντίθετα, υπολογίζεται το lim N →∞ p( DN | S h ) . Επί πλέον, η
µέθοδος αυτή κάνει µόνον την παραδοχή ότι η a priori κατανοµή των θ γύρω από την
τιµή µέγιστης πιθανοφάνειας είναι θετική. Στην επόµενη παράγραφο αποδεικνύουµε
ότι η µέθοδος αυτή µπορεί να εφαρµοστεί και σε δίκτυα µε κρυµµένες µεταβλητές.
Ορίζουµε f (θ ) ≡ log p( DN | θ , S h ) . Άρα,
p( DN | S h ) = ∫ p( DN | θ , S h ) p(θ | S h )dθ = ∫ e f (θ ) p (θ | S h )dθ
(37)
Κάνοντας την παραδοχή ότι η f (θ ) έχει µέγιστο –την ML τιµή θˆ – ισχύει ότι
f ′(θˆ ) = 0 . Χρησιµοποιώντας µια ανάπτυξη σειράς Taylor της f (θ ) γύρω από την
ML τιµή, έχουµε:
1
f (θ ) ≈ f (θˆ ) + (θ − θˆ ) f ′′(θ )(θ − θˆ )
2
(38)
όπου f ′′(θ ) είναι η Hessian της f –ο τετραγωνικός πίνακας των δεύτερων παραγώγων
ως προς κάθε ζεύγος µεταβλητών {θ i j k ,θ i′ j′ k ′ } . Κατά συνέπεια, από τις εξισώσεις 37
και 38,
1
ˆ
( θ −θ ) f
log p( D | S h ) ≈ f (θˆ ) + log ∫ e 2
′′ ( θ )( θ −θˆ )
p(θ | S h )dθ
(39)
Υποθέτουµε ότι η − f ′′(θ ) είναι θετική και ότι καθώς το Ν τείνει στο άπειρο, η
κορυφή στη γειτονιά γύρω από το µέγιστο γίνεται οξύτερη. Επί πλέον, εάν κάνουµε
την παραδοχή ότι η a priori πιθανότητα p (θ | S h ) δεν είναι µηδενική γύρω από το
θˆ , τότε µπορεί να θεωρηθεί σταθερή καθώς το Ν αυξάνεται και έτσι να απαλειφθεί
s
από το ολοκλήρωµα στην εξίσωση 39. Το ολοκλήρωµα που αποµένει προσεγγίζεται
από τον τύπο για κανονική κατανοµή πολλών µεταβλητών:
∫e
1
( θ −θˆ ) f ′′ ( θ )( θ −θˆ )
2
[
dθ ≈ 2π det − f ′′(θˆ )
]
d
2
(40)
n
όπου d ο αριθµός των παραµέτρων στη θ, d = ∏ (ri − 1)qi . Καθώς το Ν τείνει στο
i =1
άπειρο, η παραπάνω προσέγγιση γίνεται πιο ακριβής επειδή ολόκληρη η µάζα
συγκεντρώνεται γύρω από την κορυφή. Αντικαθιστώντας την εξίσωση 40 στην 39 και
παρατηρώντας ότι η ορίζουσα det[− f ′′(θ )] είναι ανάλογη µε το Ν, καταλήγουµε στο
BIC:
d
p ( DN | S h ) ≈ p ( DN | θˆ, S h ) − log N
2
(41)
Για τα δίκτυα πεποίθησης η συνάρτηση f (θ ) είναι γνωστή. Εποµένως, όλες οι
παραδοχές σχετικά µε αυτή τη συνάρτηση µπορούν να επιβεβαιωθούν. Η f ′′(θ ) είναι
µια block diagonal µήτρα όπου κάθε block αντιστοιχεί στη µεταβλητή Χi και σε µια
συγκεκριµένο στιγµιότυπο j των Pa i , και είναι µεγέθους (ri − 1) 2 . Ας εξετάσουµε ένα
τέτοιο block Αij. Προκειµένου να απλοποιηθεί ο συµβολισµός, υποθέστε ότι η Χi έχει
τρεις καταστάσεις. Έστω ότι µε ω1, ω2 και ω3 συµβολίζουµε τις παραµέτρους θ i j k
για k = 1, 2, 3 και τα i και j είναι σταθερά. Θεωρούµε µόνο εκείνες τις περιπτώσεις
180
(εγγραφές) στο DN όπου Pa i = j και εξετάζουµε µόνο τις παρατηρήσεις της Χi. Έστω
ότι µε D΄N συµβολίζουµε το σύνολο των Ν τιµών της Χi που εξάγονται µε αυτή τη
διαδικασία. Σε κάθε παρατήρηση συσχετίζουµε δύο ενδεικτικές συναρτήσεις xi και yi.
Η συνάρτηση xi παίρνει την τιµή 1 όταν η Χi παίρνει την πρώτη της τιµή (κατάσταση)
στην εγγραφή i, αλλιώς είναι ίση µε µηδέν. Οµοίως, η συνάρτηση yi παίρνει την τιµή
1 όταν η Χi παίρνει την δεύτερή της τιµή (κατάσταση) στην εγγραφή i, αλλιώς είναι
ίση µε µηδέν.
Η λογαριθµική συνάρτηση πιθανοφάνειας των D΄N δίνεται από την
N
λ (ω1 ,ω 2 ) = log ∏ω1x ω 2y (1 − ω1 − ω 2 )1− x − y
i
i
i
(42)
i
i =1
Για την εύρεση του µεγίστου, θέτουµε την πρώτη παράγωγο αυτής της συνάρτησης
ίση µε µηδέν. Οι εξισώσεις που προκύπτουν ονοµάζονται εξισώσεις µέγιστης
πιθανοφάνειας:
 xi
i =1
 ω1
−
N
 yi
−
N
λω (ω1 ,ω 2 ) = ∑ 
1
λω (ω1 ,ω 2 ) = ∑ 
2
i =1
ω 2
1 − xi − y i 
=0
1 − ω1 − ω 2 
1 − xi − y i 
=0
1 − ω1 − ω 2 
Η µοναδική λύση αυτών των εξισώσεων δίνεται από την
ω1 = x =
∑x
i
N
i
,
ω2 = y =
∑y
i
N
i
,
η οποία είναι η τιµή µέγιστης πιθανοφάνειας. Η Hessian µήτρα του λ (ω1 ,ω 2 ) στην
τιµή µέγιστης πιθανοφάνειας δίνεται από την
 λω′′ ω
λ ′′(ω1 ,ω 2 ) =  1 1
 λω′′2ω1
1
1
 +

2
 = −N x 1− x − y

1

2 
 1− x − y

λω′′ ω
λω′′ ω
1
2
1


1− x − y 
1
1

+
y 1 − x − y 
(43)
Η Hessian µήτρα αποσυντίθεται σε άθροισµα δύο πινάκων, όπως φαίνεται παρακάτω.
Επειδή ο πρώτος πίνακας είναι θετικός και ο δεύτερος µη αρνητικός, η µήτρα είναι
θετική. Αυτό ισχύει και όταν η µεταβλητή έχει περισσότερες από 3 καταστάσεις.
Εφ’ όσον η εξίσωση µέγιστης πιθανοφάνειας έχει µοναδική λύση και η Hessian είναι
θετική και επειδή καθώς το Ν αυξάνεται η κορυφή γίνεται οξύτερη (Εξ. 43), όλες οι
συνθήκες για τη γενική διαδικασία εξαγωγής του BIC ικανοποιούνται.
Αντικαθιστώντας την τιµή µέγιστης πιθανοφάνειας στην εξίσωση 41, η οποία είναι
ορθή έως Ο(1), παίρνουµε την εξίσωση 35.
181
1


1− x − y 
1
1

+
y 1 − x − y 
1
1
 +
x 1− x − y
λ ′′(ω1 ,ω 2 ) = − N 
1

 1− x − y

 1

= − N  x
 0

1
 
0  
 1− x − y
1 +
1
+ 
y  1− x − y
 1

= − N  x
 0



0 

1
+
I
1  1− x − y 
+

y 

1


1 − x − y 

1

1 − x − y 
10.10.2 Ασυµπτωτική προσέγγιση µε κρυµµένες µεταβλητές
Υποθέστε τώρα ότι η δοµή S περιέχει κρυµµένες µεταβλητές. σ’ αυτή την περίπτωση
δε µπορεί να χρησιµοποιηθεί η διαδικασία που αναφέρθηκε προηγουµένως, καθώς η
λογαριθµική συνάρτηση πιθανοφάνειας log p ( DN | S h , θ ) δεν τείνει κατ’ ανάγκη προς
µια κορυφή όταν το µέγεθος του δείγµατος αυξάνεται. Αντίθετα, µπορεί να τείνει
προς ένα οροπέδιο (πλατώ).
Θεωρήστε για παράδειγµα ένα δίκτυο µε ένα βέλος H → X όπου η Η έχει δύο τιµές,
h και h , και η Χ έχει επίσης δύο τιµές, x και x . Έστω ότι µόνον οι τιµές της Χ
παρατηρούνται, δηλαδή η Η είναι κρυµµένη. Τότε, η συνάρτηση πιθανοφάνειας
δίνεται από την ∏ω xi (1 − ω )1− xi όπου ω = θ h θ x | h + (1 − θ h )θ x | h και xi είναι η
i
ενδεικτική συνάρτηση που ισούται µε 1 εάν η Χ παίρνει την τιµή x στην εγγραφή i και
0 σε άλλη περίπτωση. Η παράµετρος ω είναι η αληθής πιθανότητα του γεγονότος
X=x χωρίς καµία δέσµευση. Η τιµή µέγιστης πιθανοφάνειας είναι µοναδική ως προς
∑i xi
.
το ω: παίρνει τη µέγιστη τιµή της όταν ω =
N
Ωστόσο, κάθε λύση ως προς θ της εξίσωσης
∑x
i
i
N
= θ h θ x | h + (1 − θ h ) θ x | h
θα µεγιστοποιήσει την πιθανοφάνεια των δεδοµένων. Υπ’ αυτήν την έννοια, η
δικτυακή δοµή έχει µόνον µία µη-πλεονάζουσα παράµετρο για κάθε δίκτυο
πεποίθησης µε κρυµµένες µεταβλητές.
Με δεδοµένο ένα δίκτυο πεποίθησης για το πεδίο Χ µε παρατηρήσιµες µεταβλητές
O ⊂ X , έστω ότι συµβολίζουµε µε W = {wo | o ∈ O} τις παραµέτρους της αληθούς
συνδυαστικής κατανοµής που ακολουθούν οι Ο. Σε κάθε τιµή της θ αντιστοιχεί µια
τιµή της W. ∆ηλαδή, η δοµή S ορίζει µια λεία σχέση απεικόνισης g από τη θ στη W.
Το πεδίο τιµών της g είναι ένα καµπύλος πολλαπλός τοπολογικός χώρος (curved
manifold) Μ µέσα στο χώρο που ορίζει η W. Έστω g (θˆ ) η εικόνα όλων των τιµών
182
µέγιστης πιθανοφάνειας της θ. Σε µια µικρή περιοχή γύρω από το g (θˆ ) , ο Μ θα
φαίνεται σαν Rd µε ορθογώνιες συντεταγµένες Φ = {φ1 ,K,φ d } . Άρα, η λογαριθµική
συνάρτηση πιθανοφάνειας, εκφρασµένη ως συνάρτηση των Φ – log p( DN | Φ ) – θα
αποκτήσει κορυφή καθώς το µέγεθος του δείγµατος αυξάνεται, και µπορούµε να
χρησιµοποιήσουµε την BIC προσέγγιση:
ˆ ,Sh) −
log p( DN | S h ) ≈ log p ( DN | Φ
d
log N
2
(44)
ˆ , S h ) = p ( DN | θˆ, S h ) . Παραµένει να εξακριβωθεί τι
Ας σηµειωθεί ότι log p ( DN | Φ
είναι το d και πώς µπορεί να υπολογιστεί. Για ένα γραµµικό µετασχηµατισµό
j : R n → R m , ο µετασχηµατισµός είναι µια µήτρα µεγέθους n × m . Η διάσταση d
της εικόνας του j ισούται µε την τάξη του πίνακα. Όταν k : R n → R m είναι µια λεία
απεικόνιση, µπορεί να προσεγγισθεί τοπικά ως ένας γραµµικός µετασχηµατισµός,
όπου η Ιακωβιανή µήτρα J (x) λειτουργεί ως η µήτρα γραµµικού µετασχηµατισµού
για τη γειτονιά του x ∈ R n . Η διάσταση της εικόνας του k σε µια µικρή περιοχή γύρω
από το k (x) είναι η τάξη του J (x) . Αυτή η παρατήρηση παραµένει ισχυρή όταν η
τάξη της Ιακωβιανής µήτρας δεν µεταβάλλεται σε µια µικρή σφαίρα γύρω από το x,
οπότε το x ονοµάζεται σύνηθες σηµείο (regular point).
Επιστρέφοντας στο πρόβληµά µας, η απεικόνιση από τη θ στη W είναι µια
πολυωνυµική συνάρτηση της θ. Άρα, όπως το επόµενο θεώρηµα δείχνει, η τάξη της
Ιακωβιανής µήτρας είναι σχεδόν παντού κάποια σταθερή d, την οποία ονοµάζουµε
οµαλή τάξη της Ιακωβιανής µήτρας. Η τάξη αυτή είναι ο αριθµός των non-redundant
παραµέτρων της S, δηλαδή η διάσταση της S.
Θεώρηµα: Έστω θ οι παράµετροι ενός δικτύου S για τις µεταβλητές Χ µε
παρατηρήσιµες µεταβλητές O ⊂ X . Έστω W οι παράµετροι της αληθούς
συνδυαστικής κατανοµής των παρατηρήσιµων µεταβλητών. Εάν κάθε παράµετρος
 ∂θ

(θ ) = d
στο W είναι πολυωνυµική συνάρτηση των θ, τότε ισχύει ότι rank 
 ∂W

σχεδόν παντού, όπου d είναι µια σταθερή.
Η τάξη της J (θ ) είναι µικρότερη από d µόνο για τιµές της θ που αποτελούν ρίζες
κάποιων από τα πολυώνυµα στη διαγωνιοποιηµένη µήτρα.
10.10.3 Υπολογισµός της τάξης της Ιακωβιανής
Στα επόµενα θα επεξηγηθεί ο τρόπος υπολογισµού της τάξης. Το παραπάνω θεώρηµα
προτείνει έναν τυχαίο αλγόριθµο για τον υπολογισµό αυτό. Πρώτα υπολογίζεται η
Ιακωβιανή µήτρα J (θ ) συµβολικά από την εξίσωση W = g (θ ) . Υπολογισµός αυτός
είναι εφικτός αφού το g είναι διάνυσµα πολυωνύµων ως προς θ. Κατόπιν ανατίθεται
µια τυχαία τιµή στη θ και η αριθµητική µήτρα J (θ ) διαγωνιοποιείται. Το θεώρηµα
εγγυάται ότι, µε πιθανότητα 1, η τάξη που προκύπτει είναι η οµαλή τάξη της J. Για
κάθε δίκτυο επιλέγονται, για παράδειγµα, δέκα τιµές για τις θ και καθορίζεται το r ως
η µέγιστη των τάξεων που προκύπτουν.
183
Θεωρήστε ως παράδειγµα για ένα αφελές µοντέλο κατά Bayes µε µια κρυµµένη
µεταβλητή Η και δύο παρατηρήσιµες µεταβλητές Χ1 και Χ2. Υποθέστε ότι όλες οι
µεταβλητές είναι δίτιµες.
Το σύνολο παραµέτρων W = g (θ ) δίνεται από τις:
wx1 x2 = θ h θ x1 | h θ x2 | h + (1 − θ h )θ x1 | h θ x2 | h
wx1 x2 = θ h (1 − θ x1 | h )θ x2 | h + (1 − θ h ) (1 − θ x1 | h )θ x2 | h )
wx1 x2 = θ h θ x1 | h (1 − θ x2 | h ) + (1 − θ h )θ x1 | h (1 − θ x2 | h )
Η 3 x 5 Ιακωβιανή µήτρα γι’ αυτό το µετασχηµατισµό είναι η ακόλουθη,
 θ h θ x |h
θ h θ x1 | h
2

 − θ h θ x2 | h
θ h θ x1 | h

 (1 − θ h θ x2 | h ) − θ h θ x1 | h
(1 − θ h )θ x2 | h
− (1 − θ h )θ x2 | h
(1 − θ h )θ x2 | h
στην οποία θ xi1 | h − 1 −θ xi | h
(1 − θ h )θ x1 | h
(1 − θ h )θ x1 | h
− (1 − θ h )θ x1 | h
θ x | h θ x | h − θ x | h θ x | h 
θ x |h θ x |h −θ x |h θ x |h 

θ x | h θ x | h − θ x | h θ x | h 
1
2
1
2
1
2
1
2
1
2
1
2
(i = 1, 2) . Οι στήλες αντιστοιχούν σε παραγώγιση ως
προς θ x1 | h , θ x2 | h , θ x1 | h , θ x2 | h και θ h αντίστοιχα. Ο συµβολικός υπολογισµός της τάξης
της µήτρας είναι εφικτός και δείχνει ότι η οµαλή τάξη είναι ίση µε τη διάσταση της
µήτρας, δηλαδή 3. Ωστόσο, όπως αναφέρθηκε παραπάνω, προκειµένου να
υπολογιστεί η οµαλή τάξη της µήτρας, απλώς επιλέγονται τυχαίες τιµές για τη θ και
διαγωνιοποιείται η αριθµητική µήτρα που προκύπτει. Για αφελή δίκτυα κατά Bayes,
µε ένα δυαδικό κρυµµένο ριζικό (root) κόµβο και n ≤ 7 δυαδικούς παρατηρήσιµους
µη-ριζικούς κόµβους, αποδεικνύεται ότι το µέγεθος των σχετικών πινάκων είναι
(1 + 2n) × (2 n − 1) . Η οµαλή τάξη για n = 3,K, 7 βρίσκεται ότι είναι ίση µε 1+2n, και
κάνουµε την υπόθεση ότι αυτή η σχέση δίνει την τάξη για n>2. Για n = 1, 2 η τάξη
είναι 1 και 3 αντίστοιχα, που είναι το µέγεθος ολόκληρου του χώρου των παραµέτρων
για µία και δύο δίτιµες µεταβλητές αντίστοιχα. Η τάξη δε µπορεί να είναι µεγαλύτερη
από 1+2n, αφού αυτή είναι η µέγιστη δυνατή διάσταση της Ιακωβιανής µήτρας.
Θεώρηµα: Έστω S ένα αφελές µοντέλο κατά Bayes µε ένα δίτιµο κρυµµένο ριζικό
κόµβο και n>2 δίτιµοι παρατηρήσιµοι µη-ριζικοί κόµβοι. Τότε,
2n ≤ r ≤ 2n + 1
όπου r η συνήθης τάξη της Ιακωβιανής µήτρας µεταξύ των παραµέτρων του δικτύου
και των παραµέτρων των παρατηρήσιµων µεταβλητών.
Η απόδειξη προκύπτει µε διαγωνιοποίηση της Ιακωβιανής µήτρας µε συµβολικό
τρόπο και αποδεικνύοντας ότι υπάρχουν τουλάχιστον 2n ανεξάρτητες γραµµές.
184
11. ΑΝΑΦΟΡΕΣ
1.
Badsberg JH, Model search in contingency tables by CoCo, in: Y. Dodge, J.
Whittaker, Eds., Computational Statistics, COMPSTAT 1992, Neuchatel,
Physica Verlag, Heidelberg, pp. 251-256, 1992.
2.
Barlow P, Murray L, Teasdale G: Outcome after severe head injury-the
Glasgow model, in Corbett WA (eds): Medical applications of
microcomputers. Wiley, 1987, pp 105-126.
3.
Bayes T. An essay tpwards solving a problem in the doctrine of chances.
Biometrika, 46:293-8, 1958. Reprint of Bayes’ 1763 manuscript.
4.
Bibbo M, Bartels PH, Pfeifer T, Thompson D, Minimo C, Davidson HG.
Belief network for grading prostate lesions. Analytical and Quantitative
Cytology and Histology: 15:124-135, 1993
5.
Birch MW. Maximum likelihood in three-way contingency tables. J Roy Statist
Soc 25:220-3, 1963
6.
Bishop YM, Fienberg S, Holland P. Discrete Multivariate Analysis MIT Press,
Cambridge, MA, 1975
7.
Bishop YM. Full contingency tables, logits and split contingency tables
Biometrics 25:19-28 (1969)
8.
Buchanan BG, Shortliffe EH (Eds). Rule-Based Expert Systems: The MYCIN
Experiments of the Stanford Heuristic Programming Project. Addison-Wesley,
Reading, MA, 1984
9.
Buntine WL: Operations for learning with graphical models. JAIR 2:159-225,
1994
10.
Carrol N. Expert systems for clinical diagnosis: Are they worth the effort?
Behavioral Science, 32:274-292, 1987
11.
Chatelier G, Zapletal E, Lemaitre D, Menard J, Dagoulet P. The number
needed to treat: a clinically useful nomogram in its proper context. Br. Med J
1996; 312: 426-9
12.
Cheeseman P. In defense of probability, in: Proceedings of the 9th
International Joint Conference on Artificial Intelligence, William Kaufmann,
Los Angeles, 1985
13.
Chin HL, Cooper GF. Bayesian belief network inference using simulation. In
Kanal LN, Lemmer JF and Levitt TS (Eds), Uncertaint in AI 3, pp. 129-148,
North Holland, New York, 1989
14.
Choi SC, Narayan RK, Anderson RL et al. : Enhanced specificity of prognosis
in severe head injury. J Neurosurg 69:381-385, 1988
15.
Chow CK, Liu CN, Approximating discrete probability distributions with
dependence trees, IEEE Transactions on Information Theory IT-14, (1968),
462-467
185
16.
Chow GC: A comparison of the information and posterior probability criteria
for model selection. Journal of Econometrics 16:21-33, 1981
17.
Christensen R. Log-Linear models. Springer Verlag, 1990.
18.
Cohen PR. HeuristicReasoning About Uncertainty: An AI Approach. Pitman,
London, 1985
19.
Cooper G, Herskovits E: A Bayesian method for the induction of probabilistic
networks from data. Machine Learning 9:309-347, 1992
20.
Cooper GF. NESTOR: A Computer-Based Medical Diagnostic Aid that
Integrates Causal and Probabilistic Knowledge. PhD thesis, Computer Science
Department, Stanford University, November 1984. STAN-CS-84-48.
21.
Cooper GF. The computational complexity of probabilistic inference using
belief networks. Artificial Intelligence, 42:393-405, 1990.
22.
Cox DR and Snell EJ. The choice of variables in observational studies. Appl
Statistics 23(1):51-59. 1974
23.
Cox R. Probability, frequency and reasonable expectation. American Journal
of Physics, 14:1-13, 1946
24.
Dagum P, Luby M. Approximating probabilistic inference in Bayesian belief
networks is NP-hard. Artificial Intelligence, 60:141-153, 1993
25.
Darroch JN, Lauritzen SL and Speed TP, Markov fields and log linear
interaction models for contingency tables. Ann Stat 8:522-539, 1980
26.
Davis R. Consultation, knowledge acquisition, and instruction. In P. Szolovits
(ed). Artificial Intelligence in Medicine, pp57-8. Westview Press, Boulder, CO,
1982
27.
Davis R. Diagnosis via causal reasoning: Paths of interaction and the locality
principle. In Proceedings of the 8th International Joint Conference on Artificial
Intelligence, Karlsruhe, West Germany, pp. 88-94. National Conference on
Artificial Intelligence, August 1983
28.
Dawes RM and Corrigan B. Linear models in decision making Psychological
Bulletin, 81:95-106, 1974
29.
Dawid AP, Lauritzen SL. Hyper Markov laws in the statistical analysis of
decomposable graphical models. Annals of Statistics, 21:1272-1317, 1993
30.
de Dombal FT, Leaper DJ, Horrocks JC, Staniland JR and McCain AP. Human
and computer-aided diagnosis of abdominal pain: further report with emphasis
on performance. British Medical Journal, 1:376-380, 1974.
31.
de Dombal FT, Leaper DJ, Staniland JR, McCann AP and Horrocks JC.
Computer-aided diagnosis of acute abdominal pain. British Medical Journal,
2:9-13, 1972.
32.
de Dombal FT, The diagnosis of acute abdominal pain with computer
assistance: Worldwide perspective, Annals Chir. 45, (1991), 273-277.
33.
de Finetti B. Theory of Probability. Wiley and Sons, New York, 1970.
186
34.
de Kleer J and Williams B. Diagnosis multiple faults. Artificial Intelligence,
32:97-130, 1987.
35.
Dempster AP. Elements of Continuous Multivariate Analysis Addison-Wesley,
Reading, MA, 1972
36.
Dempster AP: Covariance selection. Biometrics 28:157:175, 1972
37.
Duda R, Gaschnig J, and Hart P. Model design in the PROSPECTOR
consultant system for mineral exploration. In Michie D, editor, Expert Systems
in the Microelectronic Age, pages 153-167. Edinburg University Press,
Edinburgh, Scotland, 1979.
38.
Edwards DE and Havranek T. A fast model selection procedure for large
families of models. J Amer Statist Assoc, 82:205-211, 1987
39.
Edwards DE and Havranek T. A fast procedure for model search in multidimensional contingency tables. Biometrika, 72(2):339-351, 1985
40.
Edwards DE and Kreiner S The analysis of contingency tables by graphical
models. Biometrika 70(3):553-565, 1983
41.
Edwards DE. Introduction to graphical modelling. Springer Verlag, 1995.
42.
Edwards FH and Davies RS, Use of a Bayesian algorithm in the computerassisted diagnosis of appendicitis, Surg. Gynecol. Obstet. 158, (1984), 219222.
43.
Eisenberg HM, Gary HE, Aldrich EF et al.: Initial CT findings in 753 patients
with severe head injury. J Neurosurg 73:688-698, 1990
44.
Elstein AS. Clinical Judgment: Psychological research and medical practice.
Science, 194:696-700, 1976
45.
Feldman Z, Contant CF, Robertson et al.: Evaluation of the Leeds prognostic
score for severe head injury. Lancet 337:1451-1453, 1991
46.
Fishburn PC. Subjective expected utility: A review of normative theories.
Theory and Decision, 13:139-199,1981.
47.
Geiger D, Verma T, Pearl J: Identifying independence in Bayesian Networks.
Networks: 20:507-534, 1990
48.
Genesereth M. The use of design descriptions in automated diagnosis.
Artificial Intelligence, 24:311-319,1984.
49.
Gibson RM, Stephenson GC: Aggressive management of severe closed head
trauma: time for reappraisal. Lancet :369-371, 1989
50.
Goodman LA. On partitioning and detecting partial association in three way
contingency tables J Roy Statist Soc B 31(3):486-98, 1969
51.
Goodman LA. Partitioning of chi-square, analysis of marginal contingency
tables and estimation and expected frequencies in multidimensional
contingency tables J Amer Statist Assoc 66:339-344, 1971
52.
Goodman LA. The multivariate analysis of qualitative data: interaction among
multiple classifications J Amer Statist Assoc 65:226-256, (1970)
53.
Gorry GA and Barnett GO. Experience with a model of sequential diagnosis.
Computers and Biomedical Research, 1:490-507, 1968.
187
54.
Gorry GA. Computer-assisted clinical decision making. Methods of
Information in Medicine, 12:45-51,1973.
55.
Haberman SJ. The analysis of Frequency Data Univ. Chicago Press: Chicago,
1974
56.
Hamilton PW, Anderson N, Bartels PH, Thompson D: Expert system support
using Bayesian belief networks in the diagnosis of fine needle aspiration
biopsy specimens of the breast. J Clin Pathol: 47:329-336, 1994
57.
Hammond KR. Towards a unified approach to the study of expert judgment. In
Mumpower JL, editor, Expert Judgment and Expert Systems, pages 1-16.
Springer-Verlag, Berlin, Heidelberg, 1987.
58.
Harris NL, Probabilistic belief networks for genetic counseling, Computer
Methods and Programs in Biomedicine 32, (1990), 37-44.
59.
Havranek T. A procedure for model search in multi-dimensional contingency
tables. Biometrics 40:95-100, 1984
60.
Heckerman D, Chickering DM: A comparison of scientific and engineering
criteria for Bayesian model selection. Technical Report, Microsoft MSR-TR96-12, 1996
61.
Heckerman D, Geiger D, Chickering D: Learning Bayesian Networks: the
combination of knowledge and statistical data. Technical Report, Microsoft
MSR-TR-94-09, 1994
62.
Heckerman D, Probabilistic interpretations for MYCIN’s certainty factors.
Uncertainty in Artificial Intelligence (North-Holland, 1986).
63.
Heckerman DE and Horvitz EJ. On the expressiveness of rule-based systems
for reasoning under uncertainty. In Prodeedings AAAI-87 Sixth National
Conference on Artificial Intelligence, Seattle, WA, pages 121-126. Morgan
Kaufmann, San Mateo, CA, July 1987.
64.
Heckerman DE. An empirical comparison of three inference methods. In
Shachter R, Levitt TS, Lemmer J, and Kanal LN, editors, Uncertainty in
Artificial Intelligence 4. North Holland, New York, 1990.
65.
Henrion M, Pradhan M, Del Favero B, Huang K, Provan G and O'Rorke P,
Why is diagnosis using belief networks insensitive to imprecision in
probabilities?, in: Proceedings of the 12th Conference on Uncertainty in
Artificial Intelligence, 1996, (Morgan Kaufmann, San Francisco).
66.
Henrion M. Propagation of uncertainty by Bayesian networks by probabilistic
logic sampling. In J. F. Lemmer and L. N. Kanal, editors, Uncertainty in
Artificial Intelligence 2, pages 149-163. Elsevier/North-Holland, Amsterdam,
London, New York, 1988.
67.
Horvitz EJ and Heckerman DE. The inconsistent use of measures of certainty
in artificial intelligence research. In kanal LN and Lemmer JF, editors,
Uncertainty in Artificial Intelligence, pages 137-151. North Holland, new
York, 1986.
188
68.
Horvitz Ej, Heckerman DE, and Langlotz CP. A framework for comparing
alternative formalisms for plausible reasoning. In Proceedings AAAI-86 Fifth
National Conference on Artificial Intelligence, Philadelphia, PA, pages 210214. Morgan Kaufmann, San Mateo, CA, August 1986.
69.
Howard RA and Matheson JE. Influence diagrams. In Howard RA and
Matheson JE, editors, Readings on the Principles and Applications of
Decisions Analysis, volume II, pages 721-762. Strategic Decisions Group,
Menlo Park, CA, 1981.
70.
Jennett B, Bond M: Assessment of outcome after severe brain damage.
Lancet i:480-484, 1975
71.
Jennett B, Teasdale G: Management of head injuries, F. A. Davis Co.
Philadelphia, 1981
72.
Jensen FV, Lauritzen SL, Olesen KG. Bayesian updating in causal
probabilistic networks by local computations. Computational Statistics
Quarterly 1990; 4:269-282.
73.
Kahneman D, Slovic P, and Tversky A, editors. Judgment Under
Uncertainty: Heuristics and Biases. Cambridge University Press, New York,
1982.
74.
Keeney RL and Raiffa H. Decisions with Multiple Objectives: Preferences
and Value Trade-offs. Wilwy and Sons, New York, 1976.
75.
Kiiveri H, Speed TP and Carlin JB. Recursive causal models. Journal of the
Australian Mathematical Society A, 36:30-52, 1984
76.
Kim JH and Pearl J. A computational model for combined causal and
diagnostic reasoning in inference systems. In Proceedings of the Eighth
International Joint Conference on Artificial Intelligence (IJCAI), pages 190193, Los Angeles, 1983.
77.
Kooperberg C, Bose S and Stone CJ, Polychotomous regression, Journal of
the American Statistical Association 92, (1997), 117-127.
78.
Kreiner S. Graphical modelling using DIGRAM. Research report 11/89,
Statistical Research Unit, Univ. of Copenhagen 1989
79.
Kruse JA, Thill-Baharozian MC, Carlson RW: Comparison of clinical
assessment with APACHE II for predicting mortality risk in patients admitted
in a medical intensie care unit. JAMA 260:1739-1742, 1988
80.
Lam W, Bacchus F. Learning Bayesian belief networks. An approach based
on the MDL principle. Computational Intelligence 1994; 10:269-293.
81.
Lauritzen SL and Spiegelhalter DJ. Fast manipulation of probabilities with
local representations with applications to expert systems. Technical Report R87-7, Institute of Electronic Systems. Aalborg University, 1987
82.
Lauritzen SL and Spiegelhalter DJ. Local computations with probabilities on
graphical structures and their applications to expert systems (with discussion)
J Roy Statist Soc B 50(2): 157-224, 1988
189
83.
Lauritzen SL and Wermuth N. Mixed interaction models. Research Report R84-8. Institute of Electronic Systems. Aalborg University, 1984
84.
Lauritzen SL, Dawid AP, Larsen BN, Leimer HG. Independence properties of
directed Markov fields. Networks 1990; 20:491-505.
85.
Lauritzen SL, Thiesson B, Spiegelhalter DJ: Lecture notes in Statistics, in
Cheeseman P, Oldford R, (eds) Selecting Models from Data: Artificial
Intelligence and Statistics IV. Springer Verlag, New York, pp. 143-152.
86.
Lauritzen SL, Wermuth N: Graphical models for associations between
variables, some of which are qualitative and some quantitative. Annals of
Statistics 17:31-57, 1989
87.
Lemmer JF. Generalized Bayesian updating of incompletely specified
distributions. Large Scale Systems, 5, 1983.
88.
Lim TS, Loh WY and Shih YS, A comparison of prediction accuracy,
complexity and training time of thirty-three old and new classification
algorithms, Machine Learning
89.
Luerssen TG, Klauber MR, Marshall LF: Outcome from head injury related
to patient's age : a longitudinal prospective study of adult and pediatric head
injury. J Neurosurg 68:409-416, 1988
90.
Markov AA. Izvestia Phys-Math Society, Kazan Univ, 15(7), 1906
91.
Marshall LF, Bowers Marshall S, Klauber MR et al.: A new classification of
head injury based on computerized tomography. J Neurosurg 75:S14-S20,
1991
92.
McDermott J. R1: A rule-based configurer of computer systems. Artificial
Intelligence, 19:39-88, 1982.
93.
Minsky M. A framework for representing knowledge. In: P. Winston (ed).
The psuchology of computer vision. New YorkQ McGraw-Hill, 1975: pp.21177
94.
Montironi R, Bartels PH, Hamilton PW and Thompson D. Atypical
adenomatous hyperplasia (adenosis) of the prostate: development of a
Bayesian belief network for its distinction from well-differentiated
adenocarcinoma, Human Pathology 27, (4), (1996), 396-407.
95.
Montironi R, Bartels PH, Thompson D, Diamanti L and Prete E, Androgendeprived prostate adenocarcinoma: evaluation of treatment-related changes
versus no distinctive treatment effect with a Bayesian belief network. A
methodological approach, European Urology 30, (3), (1996), 307-315.
96.
Montironi R, Bartels PH, Thompson D, Scarpelli M, and Hamilton PW,
Prostatic intraepithelial neoplasia (PIN). Performance of Bayesian belief
network for diagnosis and grading, Journal of Pathology 177, (2), (1995),
153-162.
97.
Montironi R, Diamanti L, Pomante R, Thompson D and Bartels PH, Subtle
changes in benign tissue adjacent toprostate neoplasia detected with a
Bayesian belief network, Journal of Pathology 182, (4), (1997), 442-449.
98.
Neapolitan RE, Probabilistic Reasoning in Expert Systems: Theory and
Algorithms , (John Wiley & Sons, New York. 1990).
190
99.
Olmsted SM. On Representing and Solving Decisions Problems. PhD thesis,
Department of Engineering – Economic Systems, Stanford University,
December 1983.
100.
Owen DL. The use of influence diagrams in structuring complex decision
problems. In Howard RA and Matheson JE, editors, Readings on the
Principles and Applications of Decision Analysis, volume II chapter 38, pages
763-771. Strategic decisions Group, Menlo Park, Ca.,1978.
101.
Parkan C, Hollands L: The use of efficiency linear programs for sensitivity
analysis in medical decision making. Med Decis Making 10:116-125, 1990
102.
Patefield WM. Algorithm AS 159. An efficient method of generating random
r x c tables with given row and column totals. Applied Statistics 1981; 30:9197.
103.
Patrick EA. Review of pattern recognition in medicine. IEEE Transactions on
Systems, Man and Cybernetics,6,1977.
104.
Pauker SG, Gorry GA, Kassirer JP, Schwartz WB. Towards the simulation of
clinical cognition. Taking a present illness by computer. Am J Med 1976;
60:981-96
105.
Pearl J and Verma T. The logic of representing dependencies by directed
graphs. In Proceedings of the Sixth National Conference on AI (AAAI), pages
347-379, Seattle, 1987.
106.
Pearl J, Causal diagrams for empirical research, Biometrika 82, (1995), 669710.
107.
Pearl J. Evidential reasoning using stochastic simulation of causal models.
Artificial Intelligence, 32(2):245-257, 1987.
108.
Pearl J. Fusion, propagation and structuring in belief networks. Artificial
Intelligence, 29(3):241-288, 1986.
109.
Pearl J. Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann,
San Mateo, California; 1988.
110.
Pearl J: Probabilistic Reasoning in Intelligent Systems, Morgan Kaufman,
San Mateo, California. 1988.
111.
Peng Y. A formalization of parsimonious covering and probabilistic
reasoning in abductive diagnostic inference. PhD thesis, Dept. of Computer
Science, University of Maryland, 1986. TR-1615
112.
Raiffa H. Decision Analysis: Introductory Lectures on Choice Under
Uncertainty. Addison-Wesley, reading, Ma., 1968.
113.
Reggia JA. Diagnostic expert systems based on a set covering model.
International Journal of Man-Machine Studies, 19:437-460, 1983.
114.
Roberts L, Kahn Jr CE and Haddawy P. Development of a Bayesian network
for diagnosis of breast cancer, Working notes of the IJCAI workshop on
building probabilistic networks, 1995.
115.
Rousseau WF. A method for computing probabilities in complex situations.
Technical Report 6252-2, Center for Systems research, Stanford University,
Stanford, CA, May 1968.
191
116.
San Martini A, Spezzaferi F: A predictive model selection criterion. J. R.
Statist. Soc B 46:296-303, 1984
117.
Schachter RD. Probabilistic inference and influence diagrams. Operations
Research, 36:589-604, 1988
118.
Seroussi B, Computer-aided diagnosis of acute abdominal pain when taking
into account interactions, Methods of Information in Medicine 25, (1986),
194-198.
119.
Shachter RD and Heckerman DE. Thinking backward for knowledge
acquisition. AI Magazine, 8:55-63, 1987.
120.
Shafer G. Probability judgment in artificial intelligence. In Kanal LN and
Lemmer JF, editors, Uncertainty in Artificial Intelligence. North-Holland,
New York, 1986.
121.
Shortliffe EH. Computer-based Medical Consultation: MYCIN. New York:
American Elsevier, 1976
122.
Spiegelhalter DJ and Knill-Jones RP. Statistical and Knowledge-based
approaches to clinical decision support systems, with an application in
gastroenterology. Journal of the Royal Statistical Society, 147:35-77,1984.
123.
Stone M, Cross-validatory choice and assessment of statistical predictions
(with discussion), Journal of the Royal Statistical Society (series B) 36,
(1974), 111-147.
124.
Szolovits P and Pauker SG. Categorical and probabilistic reasoning in
medical diagnosis. Artificial Intelligence, 11:115-144, 1978.
125.
Szolovits P. Artificial intelligence in medicine. In Szolovits P, editor,
Artificial Intelligence in Medicine, pages 1-19. Westview Press, boulder, CO,
1982
126.
Teasdale E, Cardoso E, Galbraith S et al.: CT scan in severe diffuse head
injury: physiological and clinical correlations. Journal of Neurology,
Neurosurgery and Psychiatry 47:600-603,
127.
Teasdale G, Jennett B: Assessment of coma and impaired consciousness. A
practical scale. Lancet, 2(7872):81-84, 1974
128.
Todd BS and Stamper R. The relative accuracy of a variety of medical
diagnostic programs, Methods of Information in Medicine 33 (4), (1994), 402416.
129.
Toutant SM, Klauber MR, Marshall LF et al.: Absent or compressed basal
cisterns on first CT scan: ominous predictors of outcome in severe head
injury. J Neurosurg 61:691-694, 1984
130.
van Dongen KJ, Braakman R, Gelpke GJ: The prognostic value of
computerized tomography in comatose head-injured patients. J Neurosurg
59:951-957, 1983
131.
von Winterfeldt D and Edwards W. Decision Analysis and Behavioral
Research. Cambridge University Press, New York, 1986.
192
132.
Warner HR, Toronto AF, Veasy LG, and Stephenson R. A mathematical
approach to medical diagnosis: Application to congenital heart disease.
Journal of the American Medical Association, 177:177-183, 1961.
133.
Wermuth N and Lauritzen SL. Graphical and recursive models for
contingency tables. Biometrika 70(3):537-552, 1983
134.
Wermuth N. Analogies between multiplicative models in contingency tables
and covariance selection, Biometrics 32:95-108, 1976
135.
Wermuth N. Linear recursive equations, covariance selection and path
analysis J amer Stat Ass 75:963-972, 1980
136.
Wermuth N. Model search among multiplicative models. Biometrics, 32:253263, 1976
137.
Whittaker J. Fitting all possible decomposable and graphical models to multiway contingency tables. In Havranek T. et al. (Eds) Comp-stat, PhysicaVerlag, Vienna, pp.401-6, 1984
138.
Whittaker J. Graphical models in applied multivariate statistics. Wiley, 1990
139.
Wright S. Correlation and causation. J Agric Res 20:557-85, 1921
140.
Zadeh LA. The role of fuzzy logic in the management of uncertainty in expert
systems. Fuzzy Sets and Systems, 11:199-227, 1983.
141.
Zhang NL, Poole D. Exploiting causal independence in Bayesian network
inference. JAIR 1996; 5:301-328.
193