Διπλωµατικές Εργασίες Ακαδηµαϊκού Έτους 2013

Διπλωµατικές Εργασίες Ακαδηµαϊκού Έτους 2013-2014
Β. Μεγαλοοικονόµου, Καθηγητής
1. Εύρεση οµοιότητας δενδρικών δοµών µέσω µοντελοποίησης ως ακολουθίες
Η δενδρική δοµή (tree structure) είναι ένας τρόπος να παραστήσουµε γραφικά την ιεραρχία µιας
δοµής. Στην παρούσα διπλωµατική εργασία θα µελετηθούν µεθοδολογίες αναπαράστασης των
δενδρικών δοµών ως ακολουθίες συµβόλων οι οποίες κωδικοποιούν µοναδικά τις σχέσεις γονιού
- παιδιού. Επίσης, θα δοθεί έµφαση στην εύρεση παρόµοιων δενδρικών δοµών αξιοποιώντας
µετρικές οµοιότητας που εφαρµόζονται για την εύρεση οµοιότητας µεταξύ ακολουθιών. Οι
µεθοδολογίες που θα αναπτυχθούν θα αξιολογηθούν σε διάφορα σύνολα δεδοµένων που
περιέχουν δενδρικές δοµές όπως ιατρικές εικόνες και δοµηµένα δεδοµένα που παρουσιάζονται
µε τη µορφή δένδρου.
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Βιοπληροφορική, Επεξεργασία Σηµάτων, Επεξεργασία
Εικόνας, Γλώσσες προγραµµατισµού (Matlab, C, C++).
Ενδεικτική Βιβλιογραφία:
[1] V. Megalooikonomou, M. Barnathan, D. Kontos, P. R. Bakic, A. D.A. Maidment, “A
Representation and Classification Scheme for Tree-like Structures in Medical Images: Analyzing
the Branching Pattern of Ductal Trees in X-ray Galactograms”, IEEE Transactions on Medical
Imaging, Vol. 28, Issue 4, pp. 487-493, 2009.
2. Ανίχνευση χαρακτηριστικών σηµείων σε ιατρικές εικόνες
Ο όρος "ανίχνευση χαρακτηριστικών" (feature detection) αναφέρεται στα τµήµατα εκείνα µιας
εικόνας στα οποία επικεντρώνει την προσοχή της η ανθρώπινη όραση, όταν πρωτοεκτίθεται σε
µια στατική εικόνα. Οι κυριότερες κατηγορίες χαρακτηριστικών περιλαµβάνουν τις ακµές
(edges), τις γωνίες (corners) και τις κορυφογραµµές (ridges). Η παρούσα διπλωµατική θα
εστιάσει στον εντοπισµό σηµείων διακλάδωσης (σηµεία µιας δενδρικής δοµής στα οποία ξεκινά
η διάσπαση ενός ιεραρχικά υψηλότερου κλάδου σε δύο ή περισσότερους ιεραρχικά
χαµηλότερους κλάδους) σε ιατρικές εικόνες που απεικονίζουν δενδρικές δοµές του ανθρώπινου
σώµατος (Εικ. 1). H εργασία µπορεί επίσης να συνδυαστεί µε την επέκταση και την εφαρµογή
ήδη υλοποιηµένων τεχνικών σε νέα σύνολα δεδοµένων.
Εικόνα 1: Παράδειγµα εντοπισµού των σηµείων διακλάδωσης: εικόνα κλινικής γαλακτογραφίας
(αριστερά), ανίχνευση των κλάδων του γαλακτοφόρου δένδρου (κέντρο) και σήµανση των
σηµείων διακλάδωσης (δεξιά).
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Βιοπληροφορική, Επεξεργασία Σηµάτων, Επεξεργασία
Εικόνας, Γλώσσες προγραµµατισµού (Matlab, C, C++).
Ενδεικτική Βιβλιογραφία:
[1] Angeliki Skoura, Tatyana Nuzhnaya, Predrag R. Bakic, Vasilis Megalooikonomou: Detecting
and Localizing Tree Nodes in Anatomic Structures of Branching Topology. ICIAR 2013: 485493
3. Κατηγοριοποίηση ιατρικών εικόνων που απεικονίζουν δενδρικές δοµές του ανθρώπινου
σώµατος
Στο ανθρώπινο σώµα απαντώνται αρκετά όργανα µε τοπολογία δένδρου. Χαρακτηριστικά
παραδείγµατα αποτελούν το αγγειακό δίκτυο, το βρογχικό δένδρο, το νευρικό σύστηµα και το
γαλακτοφόρο δίκτυο των µαστών. Η παρούσα διπλωµατική εστιάζει στην εξαγωγή
χαρακτηριστικών που µοντελοποιούν τις τοπολογιών δένδρων. Η ανάλυση των εν λόγω
τοπολογιών έχει απώτερο στόχο την εύρεση νέων συσχετίσεων µεταξύ µορφολογίας και
λειτουργικότητας των µελετώµενων οργάνων µε κύρια εφαρµογή τη διάκριση µεταξύ
φυσιολογικών και παθολογικών καταστάσεων. H εργασία µπορεί επίσης να συνδυαστεί µε την
επέκταση και την εφαρµογή ήδη υλοποιηµένων τεχνικών που έχουν αναπτυχθεί για το σκοπό
αυτό.
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Βιοπληροφορική, Επεξεργασία Σηµάτων, Επεξεργασία
Εικόνας, Γλώσσες προγραµµατισµού (Matlab, C, C++).
Ενδεικτική Βιβλιογραφία:
[1] Angeliki Skoura, Michael Barnathan, Vasileios Megalooikonomou: Classification of Ductal
Tree Structures in Galactograms. ISBI 2009: 1015-1018.
4. Γραφοθεωρητικές βάσεις δεδοµένων
Τα τελευταία χρόνια έχουν κάνει δυναµικά την εµφάνισή τους στο προσκήνιο οι
γραφοθεωρητικές βάσεις δεδοµένων [1] ως βασική κατηγορία των noSQL βάσεων δεδοµένων,
οι οποίες δεν ακολουθούν την παραδοσιακή θεώρηση, δόµηση, και διαχείριση των δεδοµένων
υπό µορφή πινάκων. Αξίζει να σηµειωθεί πως η ερµηνεία του όρου διαφέρει, καθώς σύµφωνα µε
µια άποψη σηµαίνει no SQL, ενώ σύµφωνα µε άλλη θεώρηση σηµαίνει not only SQL.
Σηµαντικές γραφοθεωρητικές βάσεις είναι µεταξύ άλλων η neo4j της οµώνυµης εταιρείας, η
FlockDB του twitter και η Spatial and Graph και η NoSQL Database της Oracle.
Σήµερα οι γραφοθεωρητικές βάσεις δεδοµένων βρίσκονται στο επίκεντρο έντονης ακαδηµαϊκής
έρευνας. Επιπλέον οι γραφοθεωρητικές βάσεις δεδοµένων βρίσκουν σηµαντικές εφαρµογές στα
κοινωνικά µέσα δικτυώσεως, στον σηµασιολογικό ιστό (semantic Web) µέσω της
αναπαραστάσεως οντολογιών, στα γραφικά, στην υπολογιστική όραση, και στην βιοϊατρική
µέσω της αναπαραστάσεως πρωτεϊνικών αλληλεξαρτήσεων. Τα κυριότερα χαρακτηριστικά τους
είναι ο εγγενής και εν δυνάµει παραλληλισµός πράξεων, η έµφαση στις σχέσεις και στις
ιδιότητες των υπό αναπαράσταση αντικειµένων, και η ενδεχόµενη µερική µόνον συµµόρφωση
µε τις απαιτήσεις ACID. Στόχος της διπλωµατικής εργασίας είναι η συγκριτική µελέτη των
δυνατοτήτων τουλάχιστον τριών γραφοθεωρητικών βάσεων δεδοµένων.
Επιθυµητές γνώσεις: Αλγόριθµοι, Διακριτά µαθηµατικά, Βάσεις δεδοµένων Ι, Βάσεις δεδοµένων
ΙΙ, Αλγόριθµοι και συνδυαστική βελτιστοποίηση, Παράλληλη επεξεργασία.
Βιβλιογραφία:
[1] Ian Robinson, Jim Webber, Emil Eifrem, "Graph databases", O'Reilly media 2013
[2] Malewicz et al "Pregel: a system for large-scale graph processing", SIGMOD 2010
Συνεπιβλέπων: Ε. Γαλλόπουλος.
5. Μέθοδοι Ανάλυσης και Διαχείρισης Δεδοµένων σε Πραγµατικό Χρόνο
Τα τελευταία χρόνια έχουν εµφανιστεί πολλές εφαρµογές που απαιτούν την διαχείριση και την
επεξεργασία ροών δεδοµένων (data streams). Χαρακτηριστικά παραδείγµατα αποτελούν τα
δίκτυα αισθητήρων, τα κοινωνικά δίκτυα και γενικότερα, το σύνολο των εφαργοµών που
περιλαµβάνουν δεδοµένα τα οποία δηµιουργούνται µε µεγάλους ρυθµούς και είναι απαραίτητη η
εξαγωγή συµπερασµάτων σε πραγµατικό χρόνο. Η εξόρυξη γνώσης από ροές δεδοµένων απαιτεί
την χρήση ιδιαίτερα αποδοτικών αλγορίθµων, ικανών να ανταπεξέλθουν σε ιδιαίτερα υψηλούς
ρυθµούς δεδοµένων. Παράλληλα µε την εξόρυξη γνώσης από ροές έχει αναπτυχθεί ένα σύνολο
εργαλείων διαχείρισης ροών δεδοµένων (Data Stream Management Systems), τα οποία
προσφέρουν µηχανισµούς που υποστηρίζουν την επεξεργασία σε πραγµατικό χρόνο.
Στην παρούσα διπλωµατική εργασία θα κληθείτε να µελετήσετε υπάρχουσες τεχνικές εξώρυξης
γνώσης κατάλληλες για ροές δεδοµένων που αφορούν βασικά προβλήµατα όπως εξαγωγή
χαρακτηριστικών, συσταδοποίηση και κατηγοριοποίηση.
Επίσης, θα πρέπει να
πραγµατοποιήσετε υλοποίηση κάποιων τεχνικών πάνω σε κάποιο υπάρχον σύστηµα διαχείρισης
ροών δεδοµένων.
Επιθυµητές γνώσεις: Βάσεις Δεδοµένων, Εξόρυξη Δεδοµένων, Γλώσσες Προγραµµατισµού (C,
C++, Matlab, Python)
Ενδεικτική Βιβλιογραφία:
[1] C.C. Aggarwal, J. Han, J. Wang, P. Yu, A framework for clustering evolving data streams,
in: Proceedings of the 29th International Conference on Very Large Data Bases, Berlin,
Germany, 2003
[2] Chen, Y.. Density-based clustering for real-time stream data. In Proceedings of the ACM
SIGKDD International Conference on Knowledge Discovery and Data Mining, 2007
[3] Yasushi Sakurai, Spiros Papadimitriou, and Christos Faloutsos. Braid: stream mining through
group lag correlations. In Proceedings of the 2005 ACM SIGMOD international conference on
Management of data, SIGMOD’05, pages 599–610, New York, NY, USA, 2005. ACM.
[4] Yunyue Zhu and Dennis Shasha. Statstream: statistical monitoring of thousands of data
streams in real time. In Proceedings of the 28th international conference on Very Large Data
Bases, VLDB’02, pages 358–369. VLDBEndowment, 2002.
[5] http://wis.cs.ucla.edu/wis/stream-mill/index.php
6. Συστήµατα Διαχείρισης Ροών Δεδοµένων
Τα συστήµατα διαχείρισης ροών δεδοµένων (Data Stream Management Systems - DSMSs)
έχουν εµφανιστεί τα τελευταία χρόνια µε σκοπό την επίλυση του προβλήµατος της οργάνωσης
ροών δεδοµένων σε εφαρµογές που απαιτούν την εξαγωγή αποτελεσµάτων σε πραγµατικό
χρόνο. Σε αντίθεση µε τα παραδοσιακά συστήµατα διαχείρισης βάσεων δεδοµένων, όπου τα
δεδοµένα είναι στατικά ή ο ρυθµός ανανέωσης είναι σχετικά µικρός, τα συστήµατα διαχείρισης
ροών δεδοµένων παρέχουν την δυνατότητα συνεχούς εκτέλεσης ερωτηµάτων (continuous
queries) πάνω σε χρονικά τµήµατα των ροών δεδοµένων που ορίζονται µε τελεστές χρονικών
παραθύρων.
Στην παρούσα εργασία θα κληθείτε να µελετήσετε τα προβλήµατα που αναδύονται στα
συστήµατα διαχείρισης ροών δεδοµένων, όπως η χρονοδροµολόγιση (query scheduling), η
βελτιστοποίηση ερωτηµάτων (query optimization) και η απόρριψη φορτίου (load shedding).
Επίσης, θα πρέπει να µελετήσετε και να συγκρίνετε υπάρχοντα συστήµατα διαχείρισης ροών
δεδοµένων, µε στόχο την εξαγωγή συµπερασµάτων σχετικά µε την αποδοτικότητά τους, την
ευελιξία και τις δυνατότητες που προσφέρουν, στα πλαίσια µιας εφαρµογής που θα αναπτυχθεί
κατα τη διάρκεια της διπλωµατικής εργασίας.
Επιθυµητές γνώσεις: Βάσεις Δεδοµένων, Γλώσσες Προγραµµατισµού (C, C++, Matlab, Python)
Ενδεικτική Βιβλιογραφία:
[1] Daniel J. Abadi, Don Carney, Ugur Çetintemel, Mitch Cherniack, Christian Convey, Sangdon
Lee, Michael Stonebraker, Nesime Tatbul, and Stan Zdonik. Aurora: a new model and
architecture for data stream management. The VLDB Journal, 12:120–139, 2003.
[2] Lewis Girod, Kyle Jamieson, Yuan Mei, Ryan Newton, Stanislav Rost, Arvind Thiagarajan,
Hari Balakrishnan, and Samuel Madden. Wavescope: a signal-oriented data stream management
system. In Proceedings of the 4th international conference on Embedded networked sensor
systems, SenSys ’06, pages 421–422, New York, NY, USA, 2006. ACM.
[3] Lukasz Golab and M. Tamer Özsu. Issues in data stream management. SIGMOD Rec., 32:5–
14, June 2003.
[4] Jiang, Qingchun and Chakravarthy, Sharma. Scheduling Strategies for Processing Continuous
Queries over Streams. Key Technologies for Data Management, Lecture Notes in Computer
Science, 2004.
7. Ανάλυση οικονοµικών δεδοµένων µε χρήση τεχνικών εξόρυξης
Ο διαθέσιµος όγκος οικονοµικών δεδοµένων σήµερα είναι τεράστιος και έχει δηµιουργήσει την
ανάγκη για ανάλυση και επεξεργασία αυτών των δεδοµένων ώστε να µπορούν να µετατραπούν
σε χρήσιµες πληροφορίες και να µας βοηθήσουν στη λήψη αποφάσεων. Οι τεχνικές εξόρυξης
δεδοµένων σε συνδυασµό µε τις στατιστικές µεθόδους αποτελούν σπουδαία εργαλεία για την
ανάλυση αυτών των δεδοµένων. Ένας τοµέας που παρουσιάζει µεγάλο ενδιαφέρον, λόγω του
όγκου των πληροφοριών που συσσωρεύει καθηµερινά, είναι το χρηµατιστήριο. Στα πλαίσια
αυτής της διπλωµατικής θα γίνει αρχικά µια βιβλιογραφική ανασκόπηση των τεχνικών ανάλυσης
που έχουν προταθεί για χρηµατιστηριακά δεδοµένα. Έπειτα η εργασία αυτή θα εστιάσει στην
ανάλυση χρηµατιστηριακών δεδοµένων µε τεχνικές εξόρυξης όπως η συσταδοποίηση, η
κατηγοριοποίηση και η πρόβλεψη. Κάποιες απο αυτές τις τεχνικές θα αξιολογηθούν και θα
εφαρµοστούν σε πραγµατικά δεδοµένα από τον ηµερήσιο δείκτη S&P500 (Standard and Poor’s
500).
Επιθυµητές γνώσεις: Επεξεργασία Σηµάτων, Βάσεις Δεδοµένων, Εξόρυξη Δεδοµένων, Γλώσσες
Προγραµµατισµού (C, C++, Matlab, Python)
Ενδεικτική Βιβλιογραφία:
[1] Chi-Jie Lu, Tian-Shyug Lee, Chih-Chou Chiu, Financial Time Series Forecasting Using
Independent Component Analysis And Support Vector Regression, Decision Support Systems,
Volume 47 Issue 2, May, 2009, Pages 115-125.
[2] Kyoung-Jae Kim, Financial Time Series Forecasting Using Support Vector Machines,
Neurocomputing 55, pp. 307-319, 2003.
[3] Α.Μαζαράκης, Πρόβλεψη Χρηµατιστηριακών Μεγεθών µε Τεχνικές Εξόρυξης ∆εδοµένων,
Μεταπτυχιακή Εργασία, Τµήµα Εφαρµοσµένης Πληροφορικής, Πανεπιστήµιο Μακεδονίας,
2007.
8. Δηµιουργία Aντιστοιχίσεων µεταξύ Ετερογενών Οντολογιών
Οι οντολογίες ως εννοιολογικές µορφοποιήσεις αποτελούν προϊόντα υποκειµενικής κρίσης,
οπότε το ίδιο πεδίο ενδιαφέροντος είναι δυνατόν να περιγραφεί µε διαφορετικούς τρόπους, µε
αποτέλεσµα, οι οντολογίες που αναπτύσσονται να αποτελούν ετερογενείς πηγές γνώσης. Για να
επιτευχθεί η ενιαία πρόσβαση στην πληροφορία και η δια-λειτουργικότητα των συστηµάτων ή
εφαρµογών οι οποίες χρησιµοποιούν τις ετερογενείς οντολογίες, θα πρέπει η γνώση που
περιγράφεται στις διάφορες οντολογίες να είναι εναρµονισµένη. Για το λόγο αυτό ένα από τα
πιο σηµαντικά ερευνητικά θέµατα στο χώρο των οντολογιών είναι η ανάπτυξη αλγορίθµων
εύρεσης σηµασιολογικών οµοιοτήτων µεταξύ δύο ετερογενών οντολογιών. Το πρόβληµα
αναφέρεται ως ευθυγράµµιση οντολογιών και έχουν αναπτυχθεί µια πληθώρα από πλατφόρµες
και αλγόριθµους που προσπαθούν να επιλύσουν το πρόβληµα µε αυτόµατο ή ηµι-αυτόµατο
τρόπο. Στα πλαίσια της διπλωµατικής εργασίας θα µελετηθούν οι αλγόριθµοι ευθυγράµµισης
οντολογιών και θα υλοποιηθεί ένα σύστηµα, το οποίο θα δέχεται ως είσοδο δυο διαφορετικές
οντολογίες ή δύο οντολογίες και ένα αρχικό σύνολο αντιστοιχίσεων και συνδυάζοντας έτοιµους
αλγόριθµους ευθυγράµµισης οντολογιών θα εξάγει αντιστοιχίσεις µεταξύ των οντοτήτων των
δύο οντολογιών σε µια σειρά από κατάλληλες µορφές αρχείων οι οποίες µπορούν να
αναπαραστήσουν τέτοια πληροφορία, όπως είναι τα αρχεία τύπου C-OWL.
Σκοπός της εργασίας αυτής είναι (α) η εξοικείωση µε βασικές έννοιες των οντολογιών και του
πεδίου της ευθυγράµµισης οντολογιών, (β) η ανασκόπηση µεθόδων και εργαλείων τα οποία
έχουν προταθεί για το πρόβληµα της ευθυγράµµισης οντολογιών, (γ) η υλοποίηση ενός
εργαλείου το οποίο θα δέχεται ως είσοδο δύο ετερογενείς οντολογίες και θα εξάγει τις
αντιστοιχίσεις µεταξύ τους σε κατάλληλη µορφή, (δ) ο έλεγχος της παραπάνω τεχνολογίας σε
ένα απλό σενάριο ευθυγράµµισης οντολογικής γνώσης.
Επιθυµητές γνώσεις: Γλωσσική Τεχνολογία, Βάσεις δεδοµένων, Εξόρυξη γνώσης, Ανάκτηση
πληροφορίας, Τεχνολογίες Διαδικτύου, Γλώσσες προγραµµατισµού (C, C++, Java)
Ενδεικτική Βιβλιογραφία:
[1] http://www.ontologymatching.org
[2] Ontology Alignment: Bringing the Semantic Gap. Marc Ehrig. Springer Science+Business
Media, LLC, 2007.
[3] Ontology matching. Jerome Euzenat and Pavel Schvaiko. Springer-Verlag, Berlin Heidelberg
(DE), 2007.
Συνεπιβλέπων: Α. Καµέας (ΕΑΠ)
9. Εφαρµογή Τεχνικών Εξόρυξης σε Πολυδιάστατα Αιµατολογικά Δεδοµένα
Η ανάλυση των αιµατολογικών δεδοµένων είναι µια αρκετά πολύπλοκη διαδικασία. Η
κυτταροµετρία ροής, µια µέθοδος ανάλυσης αιµατολογικών δεδοµένων χρησιµοποιείται για την
ταυτόχρονη µέτρηση και ανάλυση πολλαπλών φυσικών ή/και χηµικών χαρακτηριστικών
µικροσκοπικών σωµατιδίων, συνήθως κυττάρων. Σηµαντική τεχνολογική πρόοδος στα
υλικό/πειραµατικά όργανα και την ανάπτυξη φθοριζόντων ιχνηθετών και υποστρωµάτων, έχουν
καταστήσει δυνατή την παραγωγή πολύ σύνθετων συνόλων δεδοµένων (και µεγάλου αριθµού
παραµέτρων) που απαιτούν την ανάπτυξη προηγµένων εργαλείων ανάλυσης. Αν και ο αριθµός
των µεταβλητών που µετριούνται ταυτόχρονα µπορεί να αυξηθεί από τους διαφορετικούς
δείκτες που χρησιµοποιούνται στην ανάλυση, από τις συνθήκες που επικρατούν κατά τη
διεξαγωγή της µέτρησης (π.χ., χρόνος υποκίνησης, συγκέντρωση του ερεθίσµατος) ή από τα
χρονικά σηµεία σε ένα in-vitro πείραµα ή κλινική δοκιµή τα δεδοµένα αυτά δεν µπορούν να
αξιοποιηθούν κατάλληλα από τους χρήστες µε αποτέλεσµα την απώλεια σηµαντικής
πληροφορίας. Μέχρι σήµερα η ανάλυση βασίζεται σε επιλογή από τον χρήστη δυάδων
παραµέτρων που απεικονίζονται δυσδιάστατα. Την ανάλυση της πρώτης δυάδας, ακολουθεί
δεύτερη και ούτω καθεξής. Αυτή η διαδοχική διπαραµετρική ανάλυση είναι χρονοβώρα, απαιτεί
µεγάλη εµπειρία και δεν αναδεικνύει όλες τις σχέσεις των δεδοµένων.
Αρκετές προσπάθειες έχουν γίνει για να απλοποιηθεί η ανάλυση. Αυτές µπορούν να διαιρεθούν
κατά προσέγγιση σε δύο κύριες κατηγορίες: εποπτευόµενες (supervised) και µη εποπτευόµενες
(unsupervised). Οι περισσότερες από αυτές τις νέες προσεγγίσεις είναι κυρίως explorative και
όχι ποσοτικές. Τα ιστόγραµµα και οι γραφικές παραστάσεις σηµείων είναι πολύ απλοί και
διαισθητικοί τρόποι για την ανάλυση δεδοµένων κυτταροµετρίας ροής. Όσο περιλαµβάνουµε
στην ανάλυση όλο και περισσότερες παραµέτρους, ο αριθµός των πιθανών συνδυασµών (2n,
όπου το n είναι ο αριθµός παραµέτρων) αυξάνεται εκθετικά. Κατά συνέπεια, απαιτείται
απλοποίηση των συνόλων δεδοµένων. Αλγόριθµοι συσταδοποίησης έχουν χρησιµοποιηθεί για
την εύρεση οµοιοτήτων και διαφορών µεταξύ των δειγµάτων. Επίσης δεδοµένου ότι τα
δεδοµένα κυτταροµετρίας ροής είναι υψηλής διαστατικότητας, τεχνικές όπως η PCA έχουν
εφαρµοστεί για µειώσουν τον αριθµό των διαστάσεων. Στη παρούσα εργασία θα γίνει µελέτη
των τεχνικών που έχουν προταθεί στην βιβλιογραφία για την ανάλυση δεδοµένων
κυτταροµετρίας ροής και θα υλοποιηθούν κάποιες από αυτές. Επίσης θα µελετηθεί η χρήση τους
σε πραγµατικά δεδοµένα.
Επιθυµητές γνώσεις: Βάσεις Δεδοµένων, Εξόρυξη Δεδοµένων, Γλώσσες Προγραµµατισµού (C,
C++, C#, Matlab, Python)
Ενδεικτική Βιβλιογραφία:
[1] E. Lugli, M. Roederer, A. Cossarizza, “Data Analysis in Flow Cytometry: The Future Just
Started”, Cytometry, Part A, 77A: 705-713, 2010.
[2] Ali Bashashati and Ryan R. Brinkman, «A Survey of Flow Cytometry Data Analysis
Methods» Advances in Bioinformatics, Volume 2009, Article ID 584603, 19 pages,
doi:10.1155/2009/584603.
Συνεπιβλέπων: Ευγενία Βερίγου (Ιατρική Σχολή)
10. Μελέτη ιδιοτήτων µεγάλων πραγµατικών γραφηµάτων
Τα τελευταία χρόνια έχει παρατηρηθεί ιδιαίτερο ενδιαφέρον στη µελέτη γραφηµάτων που
προκύπτουν από τεχνολογικές, κοινωνικές και επιστηµονικές δραστηριότητες. Χαρακτηριστικά
παραδείγµατα αποτελούν το γράφηµα του Διαδικτύου (οι κόµβοι αναπαριστούν δροµολογητές
και οι ακµές συνδέσεις µεταξύ αυτών), το γράφηµα του Παγκοσµίου Ιστού (οι κόµβοι
αντιστοιχούν σε σελίδες και οι ακµές σε υπερσυνδέσµους µεταξύ των σελίδων), κοινωνικά
δίκτυα (π.χ. Facebook, Flickr), δίκτυα ετεροαναφορών (citation networks) σε επιστηµονικές
εργασίες (οι κόµβοι αντιστοιχούν σε επιστηµονικές εργασίες και οι ακµές υποδηλώνουν
αναφορά της µιας εργασίας στην άλλη), κ.α.. Βασικό συστατικό στην κατανόηση της δοµής
τέτοιου είδους γραφηµάτων, αποτελεί η εύρεση και µελέτη στατιστικών και δοµικών ιδιοτήτων
που εµφανίζονται σε αυτά. Συνήθως οι ιδιότητες αυτές είναι στατικές, δηλαδή προκύπτουν από
τη µελέτη ενός στιγµιοτύπου του γραφήµατος για κάποια χρονική στιγµή. Χαρακτηριστικά
παραδείγµατα τέτοιου είδους ιδιοτήτων αποτελεί η power-law κατανοµή των βαθµών των
κόµβων (degree distribution) και η µικρή διάµετρος (φαινόµενο του µικρού κόσµου (smallworld phenomenon) ή six degrees of separation). Ωστόσο, πολλά από τα γραφήµατα αυτά είναι
δυναµικά, δηλαδή εξελίσσονται στο χρόνο, κάτι που δηµιουργεί την ανάγκη για την εύρεση και
µελέτη δυναµικών ιδιοτήτων. Η µελέτη των ιδιοτήτων αυτών µπορεί να χρησιµοποιηθεί σε
διάφορες πρακτικές εφαρµογές, όπως καθορισµός οµοιότητας µεταξύ δύο γραφηµάτων,
ανίχνευση ανωµαλιών (anomaly detection) και εύρεση κοινοτήτων (community discovery).
Στα πλαίσια της διπλωµατικής αυτής, αρχικά θα µελετηθούν διάφορες στατιστικές ιδιότητες
πραγµατικών γραφηµάτων (τόσο στατικές όσο και δυναµικές), που έχουν παρουσιασθεί στη
βιβλιογραφία. Στη συνέχεια, ορισµένες από τις ιδιότητες αυτές θα εξετασθούν σε πραγµατικά
γραφήµατα διαφόρων τύπων (π.χ. γραφήµατα µε βάρη στις ακµές). Τέλος, θα γίνει µελέτη των
εφαρµογών στις οποίες µπορούν να χρησιµοποιηθούν οι ιδιότητες αυτές.
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Θεωρία γραφηµάτων, Πιθανότητες, Γραµµική Άλγεβρα,
Γλώσσες προγραµµατισµού (Matlab, Python)
Ενδεικτική Βιβλιογραφία:
[1] M. Faloutsos, P. Faloutsos, and C. Faloutsos. On Power-Law Relationships of the Internet
Topology. In ACM SIGCOMM, 1999.
[2] C. E. Tsourakakis. Fast Counting of Triangles in Large Real Networks, without counting:
Algorithms and Laws. In IEEE ICDM, Pisa, Italy, 2008.
[3] J. Leskovec, J. Kleinberg, and C. Faloutsos. Graphs over time: densification laws, shrinking
diameters and possible explanations. In ACM SIGKDD, 2005.
[4] J. Leskovec, D. Chakrabarti, J. M. Kleinberg, and C. Faloutsos. Realistic, mathematically
tractable graph generation and evolution, using Kronecker multiplication. In PKDD, Porto,
Portugal, 2005.
11. Μελέτη και εφαρµογή τεχνικών εξόρυξης γνώσης στα πλαίσια του διαδικτύου των
αντικειµένων (internet of things)
Η ραγδαία ανάπτυξη του κλάδου των δικτύων αισθητήρων σε συνδυασµό µε την δυνατότητα
διαδικτύωσης όλο και περισσότερων συσκευών έχουν συµβάλει στην ανάπτυξη ενός
ανερχόµενου πεδίου, του Διαδικτύου των Αντικειµένων (Internet of Things). Το Internet of
Things αναφέρεται στη δηµιουργία ενός ενιαίου διαδικτύου τρισεκατοµµυρίων κόµβων, στο
οποίο θα συνδέονται, αντίθετα µε τα σηµερινά δεδοµένα, κάθε είδους αντικείµενα, από απλές
καθηµερινές συσκευές και αισθητήρες µέχρι super computers και computer clusters. Από τη
σκοπιά της Εξόρυξης Γνώσης, η διαχείριση και ανάλυση του όγκου των δεδοµένων που θα
δηµιουργήσει το Internet of Things είναι προφανές ότι δε µπορεί να πραγµατοποιηθεί
χρησιµοποιώντας τις υπάρχουσες τεχνικές και µεθόδους. Δηµιουργείται λοιπόν η ανάγκη
εύρεσης νέων αλγορίθµων που θα δώσουν λύση σε αναδυόµενα προβλήµατα όπως ο εντοπισµός
γεγονότων από την αλληλεπίδραση µεγάλου πλήθους συσκευών, η πραγµατικού χρόνου
γεωγραφική παρακολούθηση δισεκατοµµυρίων αντικειµένων και η αποδοτική οργάνωση της
ακατάπαυστης ροής δεδοµένων που δηµιουργούν τα συνδεδεµένα αντικείµενα στο διαδίκτυο. Τα
δεδοµένα που προκύπτουν από ένα τέτοιο δίκτυο είναι υψηλής διαστατικότητας λόγω της
συµµετοχής πολλών µεταβλητών για την εξαγωγή χρήσιµων αποτελεσµάτων. Επίσης, ο
συνδυασµός της συνεχούς ροής των δεδοµένων και της εισαγωγής χωρικής πληροφορίας που
σχετίζεται µε τη θέση των αντικειµένων του δικτύου, προσδίδουν στα τελικά δεδοµένα
χωροχρονικό χαρακτήρα. Στόχος της διπλωµατικής αυτής εργασίας είναι η µελέτη των
προβληµάτων που προκύπτουν στην διαχείριση των δεδοµένων από τους κόµβους του Internet
of Things καθώς και η εξαγωγή χρήσιµης πληροφορίας από τέτοιου είδους δεδοµένα.
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Βάσεις Δεδοµένων, Πιθανότητες, Γραµµική Άλγεβρα,
Επεξεργασία Σηµάτων, Γλώσσες προγραµµατισµού (Matlab,C++).
Ενδεικτική Βιβλιογραφία:
[1] Shen Bin, Liu Yuan, Wang Xiaoyi, Research on Data Mining Models for the Internet of
Things, in IASP '10: International Conference on Image Analysis and Signal Processing, 2010.
[2] Minnen, D., Isbell, C., Essa, I., and Starner, T. 2007. Detecting Subdimensional Motifs: An
Efficient Algorithm for Generalized Multivariate Pattern Discovery. In Proceedings of the 2007
Seventh IEEE international Conference on Data Mining (October 28 - 31, 2007). ICDM. IEEE
Computer Society, Washington, DC, 2007.
12. Βιοπληροφορική - Ανάλυση γονιδιακών δεδοµένων
Το συγκεκριµένο θέµα ασχολείται µε τον έλεγχο της υπόθεσης ότι τα γονίδια µε παρόµοιους
χάρτες έκφρασης παρουσιάζουν παρόµοια λειτουργία. Προκειµένου να προσδιοριστεί η σχέση
µεταξύ χαρτών γονιδιακής έκφρασης και γονιδιακής λειτουργίας µπορούν καταρχήν να
εντοπιστούν γονίδια µε παρόµοιους χάρτες έκφρασης και κατόπιν να ελεχθεί η οµοιότητα των
αντίστοιχων γονιδιακών λειτουργιών. Ο υπολογισµόςς της οµοιότητας των γονιδιακών χαρτών
έκφρασης µπορεί να βασιστεί σε διάφορα χαρακτηριστικά τα οποία µπορούν να εξαχθούν από
τους χάρτες ενώ η οµοιότητα των γονιδιακών λειτουργιών µπορεί να υπολογιστεί µε βάση την
µέση λειτουργική απόσταση της γονιδιακής οντολογίας. Για το συγκεκριµένο θέµα υπάρχει
διαθέσιµο ένα σύνολο σύνολο δεδοµένων, το οποίο περιέχει πληροφορίες για περισσότερα από
20.000 γονίδια. Μεταξύ άλλων η διπλωµατική αυτή θα εστιάσει στην µελέτη της σχετικής
βιβλιογραφίας, στην µελέτη και χρήση διαφόρων τεχνικών για εξαγωγή χαρακτηριστικών από
τους χάρτες έκφρασης γονιδίων, στην µελέτη και χρήση διαφορετικών µετρικών οµοιότητας
χαρτών έκφρασης και γονιδιακών λειτουργιών και στην µελέτη και χρήση της γονιδιακής
οντολογίας (Gene Ontology).
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Βιοπληροφορική, Επεξεργασία Σηµάτων, Επεξεργασία
Εικόνας, Γλώσσες προγραµµατισµού (Matlab, C, C++)
Ενδεικτική Βιβλιογραφία:
[1] Brown VM, Ossadtchi A, Khan AH, Cherry SR, Leahy RM, Smith DJ.: High-throughput
imaging of brain gene expression. Genome Res, 2002. 12(2): p. 244-54.
[2] Velculescu, V.E., Zhang, L., Vogelstein, B., and Kinzler, K.W. 1995: Serial analysis of gene
expression. Science 270, p.484–487.
13. Βιοπληροφιρική: Ανάπτυξη Εργαλείων Πρωτεοµικής Ανάλυσης και Οπτικοποίησης
Αποτελεσµάτων
Η πρωτεοµική ανάλυση διακρίνεται σε δύο στάδια: (1) τον διαχωρισµό των πρωτεϊνών και (2)
την αναγνώριση των πρωτεϊνών µέσω τεχνικών όπως η φασµατοµετρία µάζας. Οι κλασσικές
προσεγγίσεις πρωτεοµικής ανάλυσης που συνήθως χρησιµοποιούνται στην πράξη είναι ο
διαχωρισµός των πρωτεϊνών µε διδιάστατη ηλεκτροφόρηση (2D – gel electrophoresis, 2DGE) ή
υγρή χρωµατογραφία (Liquid Chromatography - LC) και η ταυτοποίησή τους µε τεχνικές
φασµατοµετρίας µάζας (mass spectrometry). Στην διπλωµατική αυτή θα µελετηθούν διάφορα
λογισµικά πακέτα και εργαλεία που χρησιµοποιούνται στην πρωτεοµική ανάλυση. Η µελέτη θα
εστιάσει στις δυνατότητες των λογισµικών πακέτων ως προς τα στάδια της συγκέντρωσης και
µετα-ανάλυσης των πρωτεοµικών δεδοµένων. Θα αναπτυχθούν εργαλεία λογισµικού για την
προεπεξεργασία εικόνων πρωτεοµικής ανάλυσης και την ανακάλυψη συσχετίσεων σε τέτοιες
εικόνες µε τελικό στόχο την σύγκριση των πρωτεοµάτων διαφορετικών βιολογικών
καταστάσεων (παθολογικό, φυσιολογικό) στοχεύοντας έτσι στον εντοπισµό πρωτεϊνών οι οποίες
συµµετέχουν σε διαφορετικές φυσιοπαθολογικές καταστάσεις. Η διπλωµατική αυτή θα
ασχοληθεί επίσης µε την οπτικοποίηση των αποτελεσµάτων της πρωτεοµικής ανάλυσης.
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Βιοπληροφορική, Επεξεργασία Σηµάτων, Επεξεργασία
Εικόνας, Γλώσσες προγραµµατισµού (Matlab, C, C++).
Ενδεικτική Βιβλιογραφία:
[1] D. Tsagkrasoulis, P. Zerefos, G. Loudos, A. Vlahou, M. Baumann, S. Kossida, “ 'Brukin2D':
a 2D visualization and comparison tool for LC-MS data”, BMC Bioinformatics 2009, 10(Suppl
6):S12.
Συνεπιβλέπων: Σ. Κοσσίδα (ΙΙΒΕΑΑ, Ακαδηµία Αθηνών)
14. Μέθοδοι ανάλυσης υφής και εφαρµογή τους σε εικόνες
Η ανάλυση υφής αποτελεί µια από τις σηµαντικότερες τεχνικές ανάλυσης εικόνων για την
εξαγωγή χρήσιµης πληροφορίας. Αρκετές µέθοδοι έχουν παρουσιαστεί στη διεθνή βιβλιογραφία
οι οποίες αποσκοπούν στη βελτίωση της ικανότητας ανίχνευσης περιοχών ειδικού
ενδιαφέροντος σε εικόνες αλλά και στην υποβοήθηση της αξιολόγησης των περιοχών αυτών
µέσα από την εξόρυξη χαρακτηριστικών υφής. Η παρούσα διπλωµατική περιλαµβάνει εκτενή
βιβλιογραφική ανασκόπηση και παρουσίαση των βασικών τεχνικών ανάλυσης υφής µε έµφαση
στην ανάλυση ιατρικών εικόνων. Οι πηγές πληροφορίας θα προέρχονται κυρίως από το
διαδίκτυο (σχετικές ιστοσελίδες, δηµοσιευµένες εργασίες σε ηλεκτρονική µορφή κ.λπ.). H
εργασία περιλαµβάνει επίσης την ανάπτυξη αλγορίθµων για την ανάλυση υφής σε ιατρικές
εικόνες σε περιβάλλον προγραµµατισµού Matlab, C++, Java.
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Βιοπληροφορική, Επεξεργασία Σηµάτων, Επεξεργασία
Εικόνας, Γλώσσες προγραµµατισµού (Matlab, C, C++).
Ενδεικτική Βιβλιογραφία:
[1] R. M. Haralick, K. Shanmugam, and I. Dinstein, “Textural Features of Image Classification,”
IEEE Transactions on Systems, Man and Cybernetics, Vol. 3- 6, pp. 610-621, 1973.
[2] K. Sikka, T.M. Deserno. “Segmentation of Ultrasound Image Based on Texture Feature and
Graph Cut”, CSSE, Vol. 1, pp.795-798, 2008.
[3] H. Li, M.L. Giger, O.I. Olopade, etc, “Computerized texture analysis of mammographic
parenchymal patterns of digitized mammograms,” Acad Radiol, Vol. 12, pp. 863–873, 2005.
[4] A. Bhattacharya, V. Ljosa, J.-Y. Pan, M. R. Verardo, H. Yang, C. Faloutsos and A.K.
Singh,"ViVo: Visual vocabulary construction for mining biomedical images" Proc. Fifth IEEE
International Conference on Data Mining (ICDM), pp. 50-57, Nov. 2005.
15. Τεχνικές διαχείρισης και αποδοτικής ανάκτησης πολυδιάστατων ακολουθιών
Τα τελευταία χρόνια, ο µεγάλος όγκος των πολυδιάστατων ακολουθιών (χρονοσειρών), που
προέρχονται από πολλούς διαφορετικούς κλάδους της επιστήµης και της τεχνολογίας, έχει
στρέψει το ενδιαφέρον των ερευνητών στην εύρεση τρόπων για την αποδοτική οργάνωση και
διαχείρισή τους. Χαρακτηριστικά παραδείγµατα τέτοιων πολυδιάστατων δεδοµένων αποτελούν
το βίντεο (ακολουθία από frames όπου το καθένα µπορεί να περιλαµβάνει διάφορα
χαρακτηριστικά όπως χρώµα, σχήµα κτλ), οι ιατρικές εικόνες/ιατρικά σήµατα (π.χ., ακολουθίες
λειτουργικής µαγνητικής τοµογραφίας (fMRI)), τα χωροχρονικά δεδοµένα που λαµβάνονται από
αισθητήρες (π.χ., για περιβαλλοντικές µελέτες ή µετεωρολογικές προβλέψεις) και πολλά άλλα.
Βασική προϋπόθεση για την εξόρυξη χρήσιµης πληροφορίας από βάσεις πολυδιάστατων
ακολουθιών είναι η οργάνωσή τους µε τέτοιο τρόπο ώστε να επιτρέπονται γρήγορες
αναζητήσεις. Η δηµιουργία ενός ευρετηρίου που να µπορεί να απορρίπτει όλα τα άσχετα ως
προς το ερώτηµα δεδοµένα, ενώ ταυτόχρονα να υποδεικνύει µόνο τις πιθανές απαντήσεις
αποτελεί µια κλασσική τεχνική για την ανάκτηση τέτοιου είδους δεδοµένων. Για να επιτευχθεί
αυτό θα πρέπει να καθοριστεί µία µετρική απόστασης/οµοιότητας ικανής να αποτυπώσει την
απόσταση/οµοιότητα των χρονοσειρών σε όλες τις διαστάσεις.
Στα πλαίσια αυτής της διπλωµατικής, θα µελετηθούν διάφορες µετρικές οµοιότητας
πολυδιάστατων ακολουθιών που έχουν προταθεί στη βιβλιογραφία. Επίσης, θα µελετηθούν
δοµές δεδοµένων και τεχνικές δεικτοδότησης που µπορούν να χρησιµοποιηθούν σε τέτοιου
είδους δεδοµένα. Στη συνέχεια, θα επιλεχθούν ορισµένες από αυτές για να αξιολογηθούν
πειραµατικά σε πραγµατικά δεδοµένα.
Επιθυµητές γνώσεις: Βάσεις Δεδοµένων, Εξόρυξη Δεδοµένων, Δοµές Δεδοµένων, Ανάκτηση
Πληροφορίας, Γλώσσες Προγραµµατισµού (Matlab, C)
Ενδεικτική Βιβλιογραφία:
[1] Α. Guttman. R-trees: a dynamic index structure for spatial searching. Proceedings of ACM
SIGMOD Int’l Conference on Management of Data, pages 47-57, Boston, Massachusetts, June,
1984.
[2] M. Vlachos, M. Hadjieleftheriou, D. Gunopulos, and E. Keogh. Indexing multidimensional
time-series. The VLDB Journal, 15:1–20, 2006. 10.1007/s00778-004-0144-2.
[3] L.J. Latecki, Qiang Wang, S. Koknar-Tezel, V. Megalooikonomou. Optimal Subsequence
Bijection. ICDM 2007. Seventh IEEE International Conference on Data Mining, 2007.
16. Τεχνικές ανάλυσης δεδοµένων απο τον ανθρώπινο εγκέφαλο
Αντικείµενο αυτής της εργασίας είναι η µελέτη τεχνικών για την ανάλυση δεδοµένων που
προέρχονται από συστήµατα απεικόνησης της λειτουργίας του ανθρώπινου εγκεφάλου όπως το
ηλεκτροεγκεφαλογράφηµα (EEG). Τα δεδοµένα που µελετώνται προέρχονται από διαφορετικές
περιοχές του εγκεφάλου και επίσης εξελίσσονται χρονικά. Σκοπός των τεχνικών ανάλυσης είναι
η ανίχνευση συγκεκριµένων µορφών αυτών των σηµάτων (όπως για παράδειγµα τα
συµπλέγµατα -Κ, ή οι άτρακτοι στο EEG), η ανακάλυψη συσχετίσεων µεταξύ αυτών, η
ανακάλυψη οµοιοτήτων, προτύπων ή κανόνων συσχετίσεων ακολουθιών (sequence association
rules), η οµαδοποίηση, η ταξινόµηση τους, κ.λ.π. Η αναπαράσταση επίσης αυτών των
πολυδιάστατων χρονοσειρών αποτελεί ένα άλλο σηµαντικό πρόβληµα που θα µελετηθεί σε αυτή
την διπλωµατική εργασία µαζί µε το θέµα της ανάλυσής τους. Στα πλαίσια αυτής της
διπλωµατικής θα µελετηθούν τεχνικές που έχουν προταθεί στην βιβλιογραφία και θα
υλοποιηθούν κάποιες απο αυτές. Προαιρετικά µπορεί να σχεδιαστεί και να υλοποιηθεί µια νέα
τεχνική που να βελτιώνει σε κάποιο τοµέα τις υπάρχουσες τεχνικές.
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Ανάκτηση πληροφορίας, Eπεξεργασία Σηµάτων, Βάσεις
δεδοµένων, Γλώσσες προγραµµατισµού (C, C++, Matlab)
Συνεπιβλέποντες: Κ. Μπερµπερίδης, Γ. Κωστόπουλος (Εργ. Νευροφυσιολογίας)
Ενδεικτική Βιβλιογραφία:
[1] I. Bankman, V. Sigillito, R. Wise, and P. Smith. Feature based detection of the k-complex
wave in the human electroencephalogram using neural networks. Biomedical Engineering, IEEE
Transactions on, 39(12):1305 –1310, dec. 1992.
[2] S. Devuyst, T. Dutoit, P. Stenuit, and M. Kerkhofs. Automatic k-complexes detection in sleep
eeg recordings using likelihood thresholds. In Engineering in Medicine and Biology Society
(EMBC), 2010 Annual International Conference of the IEEE, pages 4658 –4661, 31 2010-sept. 4
2010.
17. Εξόρυξη γνώσης από πολυδιάστατα δεδοµένα χρησιµοποιώντας διάσπαση τανυστών
(πολυδιάστατων πινάκων)
Δεδοµένης µιας µεγάλης συλλογής πολυδιάστατων δεδοµένων (µέσα στις διαστάσεις είναι και
αυτές του χρόνου και του χώρου) πως µπορεί κάποιος να βρεί πρότυπα και συσχετίσεις;
Παρόµοια, δεδοµένης µιας ροής από δεδοµένα που τρέχουν µε συνεχή ρυθµό και σε µεγάλες
ποσότητες πως µπορεί κάποιος να ανιχνεύσει ανωµαλίες, προβλήµατα, κ.α.; Πολλά τέτοια
θέµατα εξόρυξης δεδοµένων µπορούν να αντιµετωπιστούν χρησιµοποιώντας διάσπαση
τανυστών, δηλ. πολυδιάστατων πινάκων. Αυτοί οι πολυδιάστατοι πίνακες αντιστοιχούν στα
DataCubes της εξόρυξης δεδοµένων. Αρκετή δουλειά έχει ήδη γίνει σε δυσδιάστατους πίνακες
(µητρώα). Σκοπός αυτής της διπλωµατικής είναι η µελέτη της υπαρχουσας βιβλιογραφίας σε
πολυδιάστατους πίνακες, η σχεδίαση αλγορίθµων για διάσπαση τέτοιων πινάκων που θα
µπορούν να δουλέψουν µε µεγάλους όγκους δεδοµένων, και η εφαρµογή αυτών των αλγορίθµων
σε διάφορα δεδοµένα.
Επιθυµητές γνώσεις:
Εξόρυξη δεδοµένων και αλγόριθµοι µάθησης, Ανάκτηση πληροφορίας, Γραµµική Άλγεβρα,
Επιστηµικός Υπολογισµός Ι, Επιστηµονικός Υπολογισµός ΙΙ, Γλώσσες προγραµµατισµού (C,
C++, Matlab, Python)
Ενδεικτική Βιβλιογραφία:
[1] M. Barnathan, V. Megalooikonomou, C. Faloutsos, F.B. Mohamed, S. Faro, “TWave: HighOrder Analysis of Spatiotemporal Data”, In Proceedings of the 14th Pacific-Asia Conference
on Knowledge Discovery and Data Mining (PAKDD), Hyderabad, India, June, 21-24, 2010,
Advances in Knowledge Discovery and Data Mining, Lecture Notes in Computer Science,
2010, Volume 6118/2010, pp. 246-253.
18. Σύστηµα αναγνώρισης φυσικής δραστηριότητας από δεδοµένα 3D επιταχυνσιόµετρων µε
εφαρµογές ιατρικής πρόληψης/αποκατάστασης
Ένα από τα µεγαλύτερα προβλήµατα στην παρακολούθηση ιατρικών περιπτώσεων είναι η
ικανότητα των θεραπευτών να γνωρίζουν τα πραγµατικά επίπεδα φυσικής δραστηριότητας των
ασθενών τους. Για να αποκτηθούν αξιόπιστες πληροφορίες σχετικά µε την πρόδο της θεραπείας
ενός ασθενή, υπάρχουν ειδικές συσκευές (πολλαπλά επιταχυνσιόµετρα) που µπορούν να
δράσουν ως εργαλεία παροχής δεδοµένων τα οποία είναι ανώτερα από λ.χ. ερωτηµατολόγια που
συµπληρώνονται από τους ασθενείς.
Σκοπός αυτής της διπλωµατικής εργασίας είναι η δηµιουργία ενός συστήµατος σχεδιασµένο για
3D επιταχυνσιόµετρα που τοποθετούνται στο ισχύο, µε σκοπό την παρακολούθηση της φυσικής
δραστηριότητας ενός ασθενή. Τα δεδοµένα που θα αναλυθούν είναι απο την βάση δεδοµένων
USC-HAD που περιλαµβάνει βασικές κινήσεις όπως περπάτηµα, τρέξιµο, κάθισµα, ύπνο, κ.α..
Στα δεδοµένα θα εφαρµοστούν βασικές τεχνικές προεπεξεργασίας, τµηµατοποίησης, εξαγωγής
χαρακτηριστικών, µείωσης της διαστατικότητας των δεδοµένων και κατηγοριοποίησης.
Επιθυµητές γνώσεις: Επεξεργασία Σηµάτων, Γλώσσες προγραµµατισµού (Java, Python, Matlab),
Εξόρυξη Δεδοµένων και Αλγόριθµοι Μάθησης
Ενδεικτική Βιβλιογραφία:
[1] M. Zhang, A. A. Sawchuk, USC-HAD: A Daily Activity Dataset for Ubiquitous Activity
Recognition Using Wearable Sensors, ACM UbiComp’12, Sept. 5-8, 2012.
[2] Yu-Jin Hong, Ig-Jae Kim, Sang Chul Ahn, Hyoung-Gon Kim, Mobile health monitoring
system based on activity recognition using accelerometer, Simulation Modelling Practice and
Theory, Volume 18, Issue 4, April 2010, Pages 446-455.
[3] Tomas Brezmes, Juan-Luis Gorricho and Josep Cotrina (2009): Activity Recognition from
Accelerometer Data on a Mobile Phone, in Distributed Computing, Artificial Intelligence,
Bioinformatics, Soft Computing, and Ambient Assisted Living, Springer Lecture Notes in
Computer Science, 2009, Volume 5518/2009, 796-799.
[4] Jennifer R. Kwapisz, Gary M. Weiss, and Samuel A. Moore. 2011. Activity recognition
using cell phone accelerometers. SIGKDD Explor. Newsl. 12, 2 (March 2011), 74-82.
[5] Alberto G. Bonomi (2011) Physical Activity Recognition Using a Wearable Accelerometer,
in Sensing Emotions, Philips Research Book Series, 2011, Volume 12, 41-51.
19. Μέθοδοι ανάλυσης σεισµολογικών δεδοµένων και εφαρµογές
Βασικός στόχος της Σεισµολογίας, πέρα από την παρατήρηση της κατανοµής των σεισµών στο
χώρο και στο χρόνο είναι και η πρόγνωση των σεισµών. Αν και ο στόχος της πρόγνωσης είναι
ακόµα πολύ δύσκολο να επιτευχθεί εντούτοις έχουν προταθεί µοντέλα πρόβλεψης της
σεισµικότητας τα οποία βασίζονται σε σεισµικούς καταλόγους (κατανοµή στο χώρο και στο
χρόνο των σεισµικών µεγεθών). Τα µοντέλα αυτά βασίζονται σε κάποιες παραδοχές για τη
γένεση των σεισµικών γεγονότων (π.χ. µοντέλο ETAS, Epidemic-Type Aftershock Sequences
στο µοντέλο των Gutenberg-Richter, Omori, αλληλεπίδραση σεισµών κλπ). Στα πλαίσια της
διπλωµατικής, θα µελετηθεί η δυνατότητα εφαρµογής µεθόδων/µοντέλων πρόβλεψης της
σεισµικότητας χρησιµοποιώντας δεδοµένα του Ελληνικού καταλόγου (http://www.gein.noa.gr,
http://geophysics.geo.auth.gr/ss/, http://seismo.geology.upatras.gr/).
Επιθυµητές γνώσεις: Βάσεις Δεδοµένων, Εξόρυξη Δεδοµένων και Αλγόριθµοι Μάθησης,
Ανάκτηση Πληροφορίας, Γλώσσες Προγραµµατισµού (Matlab, C, Python)
Ενδεικτική Βιβλιογραφία:
[1] Jordan, T. H. (2006), Earthquake predictability, brick by brick, Seismol. Res. Lett., 77, 3-6.
[2] Lombardi, A., & Marzocchi, W. (2010). The ETAS model for daily forecasting of Italian
seismicity in the CSEP experiment. Annals Of Geophysics, 53(3), 155-164. doi:10.4401/ag-4848
[3] Web Pages: http://www.cseptesting.org/
Συνεπιβλέπων: Ε. Σώκος (Τµήµα Γεωλογίας)
20. Ανάλυση φυσικής δραστηριότητας και κοινωνικής συµπεριφοράς χρησιµοποιώντας
τεχνικές εξόρυξης δεδοµένων
Η φυσική δραστηριότητα και συµπεριφορά αλλάζει µε το χρόνο. Διάφοροι παράγοντες, όπως
π.χ., κοινωνικοί, οικονοµικοί, επαγγελµατικοί, παράγοντες υγείας, οικογένειας µπορούν να
επηρεάσουν τις δραστηριότητές µας και την συµπεριφορά µας. Διάφορες κινητές συσκευές που
χρησιµοπούµε καθηµερινά ή απλά φέρουµε µαζί µας για µεγάλα χρονικά διαστήµατα διαθέτουν
διάφορους αισθητήρες που µπορούν να καταγράψουν στοιχεία τα οποία όταν αναλυθούν να µας
δώσουν περισσότερες πληροφορίες για τις δραστηριότητες µας. Οι δραστηριότητες αυτές
µπορούν να αναπαρασταθούν σαν χρονικά εξελισσόµενα γραφήµατα. Σκοπός της διπλωµατικής
αυτής εργασίας πέρα απο την µελέτη της υπάρχουσας βιβλιογραφίας σε πραγµατικά δυναµικά
γραφήµατα, είναι η ανάλυση υπαρχόντων δεδοµένων φυσικής δραστηριότητας και κοινωνικής
συµπεριφοράς µε τεχνικές εξόρυξης που βασίζονται σε εργαλεία από την γραµµική και
πλειογραµµική άλγεβρα και τη θεωρία γραφηµάτων, µε σκοπό την εύρεση και µελέτη
δυναµικών ιδιοτήτων τέτοιων γραφηµάτων, την ανίχνευση ανωµαλιών (anomaly detection) και
την εύρεση προτύπων (pattern discovery).
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Θεωρία γραφηµάτων, Πιθανότητες, Γραµµική Άλγεβρα,
Γλώσσες προγραµµατισµού (Matlab, Python)
Συνεπιβλέπων: E. Γαλλόπουλος
21. Εξαγωγή χαρακτηριστικών σε ΗΕΓ για εντοπισµό επιληπτικής κρίσης
Το πρόβληµα της ανίχνευσης επιληπτικής κρίσης µπορεί να αντιµετωπιστεί ως ένα πρόβληµα
ταξινόµησης, στο οποίο πρώτα εξάγονται χαρακτηριστικά από καταγεγραµµένα δεδοµένα, όπως
ηλεκτροεγκεφαλογράφηµα (ΗΕΓ), και στη συνέχεια εισάγονται τα χαρακτηριστικά αυτά σε
εκπαιδευµένους ταξινοµητές. Τυπικά χαρακτηριστικά που προέρχονται από σήµατα ΗΕΓ
περιλαµβάνουν την κυρίαρχη φασµατική κορυφή, αναλογία ισχύος, το εύρος ζώνης των
κυρίαρχων φασµατικών αιχµών, µη γραµµική ενέργεια, φασµατική εντροπία, το µήκος της
γραµµής, κ.α.. Ο σκοπός της εργασίας αυτής είναι να εξαχθούν διάφορα ενδιαφέροντα
χαρακτηριστικά που έχουν χρησιµοποιηθεί στη βιβλιογραφία για εντοπισµό επιληπτικής κρίσης
σε ΗΕΓ. Ο υπολογισµός των χαρακτηριστικών µπορεί είτε να γίνει απευθείας σε MATLAB, είτε
να αναπτυχθεί κατάλληλο interface που θα φορτώνει διαθέσιµα προγράµµατα που υπολογίζουν
τα χαρακτηριστικά αυτά.
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Eπεξεργασία Σηµάτων, Γλώσσες προγραµµατισµού (C,
C++, Python, Matlab).
Βιβιλογραφία:
[1] P. McSharry, T. He, L. Smith, et al., "Linear and non-linear methods for automatic seizure
detection in scalp electro-encephalogram recordings,"Med Biol Eng Comput, vol. 40, pp.447–
461, 2002.
[2] B.R. Greene, et al., "Combination of EEG and ECG for improved automatic neonatal seizure
detection," Clinical Neurophysiology, vol. 118, pp. 1348–1359, 2007.
[3] C.A. Teixeira et al., "EPILAB: A software package for studies on the prediction of epileptic
seizures," Journal of Neuroscience Methods, vol. 200 pp. 257– 271, 2011.
Συνεπιβλέποντες: Κ. Μπερµπερίδης, E. Ζαχαράκη
22. Ανάλυση Χωρο-χρονικών Δεδοµένων χρησιµοποιώντας Γεωγραφικά Πληροφοριακά
Συστήµατα
Ο στόχος της διπλωµατικής αυτής είναι η ανάλυση χωρο-χρονικών δεδοµένων και η εξόρυξη
γνώσης από αυτά, είτε για πρόβλεψη µελλοντικών τιµών ή για συσταδοποίηση οµοίων
παρατηρήσεων είτε για ανακάλυψη προτύπων. Η χρήση λογισµικού Γεωγραφικών
Πληροφοριακών Συστηµάτων (GIS) θα καταστήσει εφικτή την άµεση προβολή των εξαγόµενων
συµπερασµάτων σε πραγµατικά δεδοµένα και γεγονότα. Αναφορικά µε τις τεχνολογίες εξόρυξης
δεδοµένων, θα µελετηθούν σύγχρονοι αλγόριθµοι ταξινόµησης χωρο-χρονικών δεδοµένων
καθώς επίσης και τεχνικές συσταδοποίησης και πρόβλεψης ετερογενών δεδοµένων.
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Ανάκτηση πληροφορίας, Κατανεµηµένα συστήµατα,
Βάσεις δεδοµένων, Γλώσσες προγραµµατισµού (Java, C, C++, Matlab)
23. Ανίχνευση εστιών εγκεφαλικής βλάβης σε δεδοµένα MRI
Στην εργασία αυτή θα αναπτυχθεί µέθοδος για αυτόµατη ανίχνευση αλλοιώσεων ιστού του εγκεφάλου
που οφείλονται σε αγγειακή νόσο ή εγκεφαλικά επεισόδια. Η ανίχνευση θα γίνει σε δεδοµένα µαγνητικής
τοµογραφίας (MRI) και θα βασιστεί στη χρήση µοντέλου που περιγράφει την απεικονιστική πληροφορία
φυσιολογικού εγκεφάλου (χωρίς βλάβη). Το στατιστικό µοντέλο θα δηµιουργηθεί χρησιµοποιώντας MRI
δεδοµένα ενός πληθυσµού υγιών ατόµων. Η µελέτη θα βασιστεί σε προηγούµενη έρευνα η οποία
εφάρµοσε πολυ-παραµετρική ανάλυση µοντελοποιώντας τη µορφολογία του εγκεφάλου στο σύνολό της
[1] ή voxel-based ανάλυση µοντελοποιώντας την τιµή φωτεινότητας κάθε ιστού [2].
Επιθυµητές γνώσεις: Εξόρυξη γνώσης, Μηχανική
προγραµµατισµού (C, C++, Python, Matlab).
µάθηση,
Επεξεργασία
Εικόνας,
Γλώσσες
Ενδεικτική Βιβλιογραφία:
[1] E.I. Zacharaki, A. Bezerianos, “Abnormality segmentation in brain images via distributed estimation,”
IEEE Transaction on Information Technology in Biomedicine, vol. 16, no. 3, pp. 330-338, 2012.
[2] E.I. Zacharaki, G. Erus, A. Bezerianos, C. Davatzikos, “Fuzzy multi-channel clustering with
individualized spatial priors for segmenting brain lesions and infarcts,” 2nd Artificial Intelligence
Applications in Biomedicine Workshop (AIAB 2012), 27-30 September 2012, Halkidiki, Greece.
[3] http://www.ia.unc.edu/MSseg/papers.php
Συνεπιβλέπων: E. Ζαχαράκη
24. Μελέτη ηλεκτροκαρδιογραφήµατος και µοντελοποίηση
Η διπλωµατική εργασία αφορά την µελέτη καρδιακών σηµάτων (ECG) και την επεξεργασία
τους µε χρήση signal processing και data mining τεχνικών για την αυτόµατη εξαγωγή προτύπων
από τα σήµατα αυτά. Τα δεδοµένα που θα χρησιµοποιηθούν είναι αυτά του physionet
(http://www.physionet.org).
Επιθυµητά Προσόντα: Εξόρυξη γνώσης, βασικές γνώσεις signal processing, βασικές γνώσεις
matlab.
25. Αναγνώριση στρες σε οδηγούς αυτοκινήτων
Η διπλωµατική εργασία αφορά την µελέτη εγκεφαλικών (EEG) και καρδιακών (ECG) σηµάτων
και την επεξεργασία τους µε χρήση signal processing και data mining τεχνικών για την
µοντελοποίηση του stress κατά την διάρκεια της οδήγησης. Τα δεδοµένα που θα
χρησιµοποιηθούν είναι αυτά του: http://www.physionet.org/physiobank/database/drivedb/
Επιθυµητά Προσόντα: Εξόρυξη γνώσης, βασικές γνώσεις signal processing, βασικές γνώσεις
matlab.
26. Ανάλυση άπνιας, µοντελοποίηση και ανίχνευση
Η διπλωµατική εργασία αφορά την µελέτη καρδιακών σηµάτων (ECG) και την επεξεργασία
τους µε χρήση signal processing και data mining τεχνικών για την µελέτη της άπνιας. Τα
δεδοµένα που θα χρησιµοποιηθούν είναι αυτά του:
http://www.physionet.org/physiobank/database/apnea-ecg/
Επιθυµητά Προσόντα: Εξόρυξη γνώσης, βασικές γνώσεις signal processing, βασικές γνώσεις
matlab.
27. Ανάλυση των σταδίων του ύπνου, µοντελοποίηση και ανίχνευση χρησιµοποιώντας
δεδοµένα από Polysomnography
Η διπλωµατική εργασία αφορά την µελέτη φυσιολογικών σηµάτων (εγκεφαλικών, καρδιακών)
και την επεξεργασία τους µε χρήση signal processing και data mining τεχνικών για την µελέτη
της δοµής του ύπνου. Τα δεδοµένα που θα χρησιµοποιηθούν είναι αυτά του:
http://www.physionet.org/physiobank/database/slpdb/
Επιθυµητά Προσόντα: Εξόρυξη γνώσης, βασικές γνώσεις signal processing, βασικές γνώσεις
matlab.
28. Ανάλυση και µοντελοποίηση των επιπτώσεων της γήρανσης και ασθενιών στο βάδισµα
Η διπλωµατική εργασία αφορά την µελέτη φυσιολογικών σηµάτων (εγκεφαλικών, καρδιακών)
και την επεξεργασία τους µε χρήση signal processing και data mining τεχνικών για την µελέτη
των επιπτώσεων που προκαλεί η γήρανση και τύποι ασθενιών στο βάδισµα. Τα δεδοµένα που θα
χρησιµοποιηθούν είναι αυτά του: http://www.physionet.org/physiobank/database/gaitdb/
Επιθυµητά Προσόντα: Εξόρυξη γνώσης, βασικές γνώσεις signal processing, βασικές γνώσεις
matlab.
29. Ανάλυση και µοντελοποίηση της ανθρώπινης συναισθηµατικής κατάστασης
Η διπλωµατική εργασία αφορά την µελέτη φυσιολογικών σηµάτων (εγκεφαλικών - EEG) και
την επεξεργασία τους µε χρήση signal processing και data mining τεχνικών για την µελέτη της
συναισθηµατικής κατάστασης του ανθρώπου. Τα δεδοµένα που θα χρησιµοποιηθούν είναι αυτά
του: http://www.eecs.qmul.ac.uk/mmv/datasets/deap/
Επιθυµητά Προσόντα: Εξόρυξη γνώσης, βασικές γνώσεις signal processing, βασικές γνώσεις
matlab.
Επιπλέον πιθανά θέµατα για διπλωµατική εργασία µπορούν να διερευνηθούν σε συνενόηση
µε τον διδάσκοντα.
Διευκρινήσεις για τα θέµατα δίνονται από τον διδάσκοντα ([email protected]).
Aιτήσεις µε email στην ηλεκτρονική διεύθυνση [email protected]
- απλή αίτηση όπου θα αναγράφονται το πολύ µέχρι 2 θέµατα µε σειρά προτίµησης
- αντίγραφο αναλυτικής βαθµολογίας (scanned αφού η αίτηση θα σταλεί ηλεκτρονικά).