Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών Σχολή Θετικών Επιστηµών Τµήµα Βιολογίας Μεταπτυχιακό Πρόγραµµα Σπουδών ¨Βιοπληροφορική¨ ∆ηµιουργία ϐάσης δεδοµένων για χαρακτηριστικά µοριακής αναγνώρισης (Molecular Recognition Features, MoRFs) σε µεµβρανικές πρωτεΐνες. Φοίβος Γύπας Αθήνα, Σεπτέµβριος 2013 Τριµελής εξεταστική επιτροπή Καθηγητής Σταύρος Ι. Χαµόδρακας Τµήµα Βιολογίας, Εθνικό και (Επιβλέπων) Καποδιστριακό Πανεπιστήµιο Αϑηνών Επίκουρος Καθηγητής Παντελής Γ. Τµήµα Πληροφορικής µε ΕφαρΜπάγκος µογές στη Βιοϊατρική, Πανεπιστήµιο Θεσσαλίας Λέκτορας Βασιλική Α. Οικονοµίδου Τµήµα Βιολογίας, Εθνικό και Καποδιστριακό Πανεπιστήµιο Αϑηνών 3 4 Περίληψη Τα Χαρακτηριστικά Μοριακής Αναγνώρισης (Molecular Recognition Features, MoRFs) [1] είναι µικρά (10-70 αµινοξικά κατάλοιπα), εγγενώς µη δοµηµένα τµήµατα σε πρωτεΐνες, που αποκτούν χαρακτηριστική δοµή µετά από την αλληλεπίδρασή τους µε άλλες πρωτεΐνες. Εµπλέκονται σε αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών και έχουν σηµαντικό ϱόλο στην διαδικασία της µοριακής αναγνώρισης. Σκοπός της εργασίας ήταν η συλλογή, οργάνωση και αποθήκευση όλων των µεµβρανικών πρωτεϊνών που περιέχουν MoRFs. Επικεντρωθήκαµε στις µεµβρανικές πρωτεΐνες, καθώς αποτελούν το ένα τρίτο των πλήρως αλληλουχηµένων πρωτεωµάτων και είναι υπεύθυνες για ποικιλία κυτταρικών λειτουργιών. Αρχικά τα δεδοµένα συλλέχθηκαν από τις ϐάσεις δεδοµένων Protein Data Bank (PDB) και Uniprot ενώ η διαχείριση τους έγινε µε προγράµµατα που γράφτηκαν στη γλώσσα προγραµµατισµού Perl. ΄Εγινε ταξινόµηση των MoRFs µε ϐάση τη δευτεροταγή δοµή που αποκτούν κατά την αλληλεπίδραση µε άλλα πρωτεϊνικά µόρια. Εντοπίσαµε χαρακτηριστικά µοριακής αναγνώρισης (MoRFs) τόσο σε διαµεµβρανικές όσο και σε περιφερειακές µεµβρανικές πρωτεΐνες [2]. Επιπρόσθετα, προσδιορίσθηκε η ϑέση των MoRFs στις διαµεµβρανικές πρωτεΐνες, σε σχέση µε την τοπολογία της πρωτεΐνης. ΄Ολη η πληροφορία αποθηκεύτηκε σε µία δηµόσια διαθέσιµη ϐάση δεδοµένων ϐασισµένη στο σύστηµα διαχείρισης ϐάσεων δεδοµένων mySQL, µε ένα ϕιλικό προς το χρήστη περιβάλλον. Ακόµη, ένα Jmol applet (µικροεφαρµογή) έχει ενσωµατωθεί µε σκοπό την οπτικοποίηση των δοµών. Η mpMoRFsDB [3] στοχεύει στην παροχή πληροφοριών για αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών σε µεµβρανικές πρωτεΐνες, στις οποίες εµπλέκονται εγγενώς µη δοµηµένες περιοχές. Οι πρωτεΐνες αυτές παίζουν σηµαντικό ϱόλο σε κρίσιµες ϐιολογικές λειτουργίες ενώ περίπου το 50%, είναι πιθανοί κόµβοι σε δίκτυα αλληλεπιδράσεων πρωτεϊνών και σχετίζονται µε ασθένειες. Η ϐάση ϑα ανανεώνεται ανά τακτά χρονικά διαστήµατα µέσω µιας αυτοµατοποιηµένης διαδικασίας. Σύνδεσµος : http://bioinformatics.biol.uoa.gr/mpMoRFsDB/ i ii Abstract Molecular Recognition Features (MoRFs) [1] are short (10-70 residues), intrinsically disordered regions in proteins that undergo a disorder-toorder transition upon binding to their partners. MoRFs are implicated in protein-protein interactions, which serve as the initial step in molecular recognition. The aim of this work was to collect, organize and store all membrane proteins that contain MoRFs. We focused in membrane proteins, as they constitute one third of fully sequenced proteomes and are responsible for a wide variety of cellular functions. Data were initially collected from Protein Data Bank (PDB) and Uniprot and were managed with Perl scripts. MoRFs were classified according to their secondary structure, after interacting with their partners. We identified MoRFs both in transmembrane and peripheral proteins [2]. The position of transmembrane protein MoRFs was determined relative to a protein’s topology. All information was stored in a publicly available mySQL database with a user-friendly web interface. A Jmol applet is integrated for visualization of the structures. The utility of the database [3] is the provision of information related to disordered based proteinprotein interactions in membrane proteins. Such proteins play key roles in crucial biological functions and ca. 50% of them are putative hubs in protein interaction networks. Consequently, these proteins may be correlated with various human diseases. The database will be updated on a regular basis by an automated procedure. Link to the database: http://bioinformatics.biol.uoa.gr/mpMoRFsDB/ iii iv Ευχαριστίες Η παρούσα ∆ιπλωµατική Εργασία εκπονήθηκε στον Τοµέα Βιολογίας Κυττάρου και Βιοφυσικής στα πλαίσια του µεταπτυχιακού διπλώµατος ειδίκευσης ¨Βιοπληροφορική¨, του τµήµατος Βιολογίας του Εθνικού και Καποδιστριακού Πανεπιστηµίου Αθηνών, υπό την επίβλεψη του Καθηγητή κ. Σταύρου Χαµόδρακα. Σε αυτό το σηµείο αισθάνοµαι την ανάγκη και την ηθική υποχρέωση να ευχαριστήσω ορισµένους ανθρώπους, των οποίων η συµβολή, η ϐοήθεια και η καθοδήγηση ήταν πολύτιµη κατά τη διάρκεια συγγραφής και εκπόνησης της παρούσας ∆ιπλωµατικής Εργασίας. Καταρχήν, οφείλω ένα µεγάλο ευχαριστώ στον Καθηγητή κ. Σταύρο Χαµόδρακα, ο οποίος επέβλεψε την παρούσα ∆ιπλωµατική Εργασία, για την εµπιστοσύνη του να µου αναθέσει το ϑέµα αυτό. Θα ήθελα να τον ευχαριστήσω γιατί µέσα από τη διδασκαλία του και την προσωπική επαφή µαζί του µε δίδαξε τον τρόπο µε τον οποίο πρέπει να γίνεται η έρευνα και µου έδωσε σηµαντικά εφόδια για να αντιλαµβάνοµαι και να επεξεργάζοµαι τα διάφορα ερωτήµατα που εγείρονται κατά την διάρκεια µιας επιστηµονικής µελέτης. Σε κάθε στάδιο της εργασίας αυτής, ήταν διαρκώς δίπλα µου µε πολύτιµες συµβουλές, αφιερώνοντάς µου πολύτιµο προσωπικό του χρόνο. Τέλος, τον ευχαριστώ για την τιµή να µε συµπεριλάβει στην ερευνητική οµάδα του Εργαστηρίου του, δίνοντάς µου την ευκαιρία να γνωρίσω και να συνεργαστώ µε αξιόλογους ανθρώπους. Θα ήθελα να ευχαριστήσω ακόµη τα υπόλοιπα µέλη της τριµελούς επιτροπής, τον Επίκουρο Καθηγητή Παντελή Γ. Μπάγκο και την Λέκτορα Βασιλική Α. Οικονοµίδου για την πολύτιµη ϐοήθεια τους, τις χρήσιµες συµβουλές τους και το χρόνο που µου αφιέρωσαν. v Ευχαριστώ ακόµη τους ∆ρ. Νικόλαο Παπανδρέου, ∆ρ. Ζωή Λίτου και Υπ. ∆ιδάκτορα Μαργαρίτα Θεωδοροπούλου καθώς και όλα τα µέλη του εργαστηρίου που ήταν πάντα πρόθυµοι να µε ϐοηθήσουν σε οτιδήποτε χρειάστηκα. Ιδιαίτερες ευχαριστίες ϑα ήθελα να δώσω στον Υπ. ∆ιδάκτορα Γεώργιο Τσαούση για την πολύτιµη ϐοήθεια του, σε όλη τη διάρκεια της διπλωµατικής µου εργασίας. ΄Ηταν σαν να έχω έναν δεύτερο επιβλέποντα που µε στήριξε και µε ϐοήθησε να κατανοήσω πολλές ϐιολογικές έννοιες και να εµβαθύνω πάνω σε ϑέµατα ϐιοπληροφορικής. Ευχαριστώ ακόµη τους ϕίλους και συµφοιτητές µου για τα δύο αυτά χρόνια τα οποία περάσαµε παρέα. Τέλος ϑα ήθελα να ευχαριστήσω πάνω από όλα την οικογένειά µου, για την ηθική και οικονοµική στήριξη σε όλη τη διάρκεια της ϕοίτησής µου και της Ϲωής µου. vi ∆ηµοσιεύσεις και Συνέδρια ∆ηµοσιεύσεις σε Επιστηµονικά Περιοδικά µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας Foivos Gypas, Georgios N. Tsaousis, and Stavros J. Hamodrakas mpMoRFsDB: A database of Molecular Recognition Features in Membrane Proteins Bioinformatics first published online July 26, 2013 doi:10.1093/bioinformatics/btt427 [3] Ανακοινώσεις σε ∆ιεθνή Συνέδρια µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας Foivos Gypas, Georgios N. Tsaousis, Stavros J. Hamodrakas mpMoRFsDB: A database of molecular recognition features (MoRFs) in membrane proteins. Joint 21st Annual International Conference on Intelligent Systems for Molecular Biology and 12th Annual European Conference on Computational Biology (ISMB/ECCB) 2013, 21 - 23 Jul 2013. vii viii Περιεχόµενα Περίληψη ι Abstract iii Ευχαριστίες v ∆ηµοσιεύσεις και Συνέδρια vii Κατάλογος Σχηµάτων xi Κατάλογος Πινάκων xv 1 Εισαγωγή 1.1 Εγγενώς µη ∆οµηµένες Πρωτεΐνες . . . . . . . . . 1.1.1 Χαρακτηριστικά . . . . . . . . . . . . . . . 1.1.2 Βάσεις ∆εδοµένων . . . . . . . . . . . . . . 1.1.3 Αλγόριθµοι Πρόγνωσης . . . . . . . . . . . 1.2 Χαρακτηριστικά Μοριακής Αναγνώρισης . . . . . 1.2.1 Χαρακτηριστικά . . . . . . . . . . . . . . . 1.2.2 Βάσεις ∆εδοµένων . . . . . . . . . . . . . . 1.2.3 Αλγόριθµοι Πρόγνωσης . . . . . . . . . . . 1.3 Μεµβρανικές Πρωτεΐνες . . . . . . . . . . . . . . 1.3.1 ∆ιαµεµβρανικές Πρωτεΐνες . . . . . . . . . 1.3.2 Περιφερειακές Μεµβρανικές Πρωτεΐνες . . . 1.3.3 Αγκυροβοληµένες στη Μεµβράνη Πρωτεΐνες 1 1 2 4 7 8 9 12 12 14 14 16 16 2 Σκοπός . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3 Μεθοδολογία 21 3.1 Συγκέντρωση και επεξεργασία δεδοµένων . . . . . . . . . . . 21 3.1.1 Βάσεις ∆εδοµένων . . . . . . . . . . . . . . . . . . . . 21 ix 3.1.2 3.1.3 3.1.4 3.1.5 3.1.6 Συγκέντρωση δοµών από PDB . . . . . . . . . . . . . Επεξεργασία PDB αρχείων . . . . . . . . . . . . . . . Επεξεργασία Uniprot αρχείων . . . . . . . . . . . . . Εύρεση τύπου µεµβρανικής πρωτεΐνης . . . . . . . . . Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.7 Εύρεση πρωτεΐνης µε την οποία αλληλεπιδρά το χαϱακτηριστικό µοριακής αναγνώρισης . . . . . . . . . . 3.2 Κατασκευή ϐάσης δεδοµένων . . . . . . . . . . . . . . . . . 4 Αποτελέσµατα 4.1 mpMoRFsDB . . . . . . . . . . . . 4.1.1 Αρχική σελίδα mpMoRFsDB 4.1.2 Browse mpMoRFsDB . . . . 4.1.3 Search mpMoRFsDB . . . . 4.1.4 Entry mpMoRFsDB . . . . . 4.1.5 Blast Search mpMoRFsDB . 4.1.6 Download mpMoRFsDB . . 4.2 Στατιστικά . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 22 23 25 26 27 28 33 33 33 33 34 37 39 42 45 5 Συµπεράσµατα - Μελλοντική Εργασία 49 6 Βιβλιογραφία 51 Α΄ ∆ηµοσιεύσεις και Συνέδρια 63 x Κατάλογος Σχηµάτων 1.1 Η δοµή της a-synuclein. PDB ID: 1XQ8. Με κόκκινο χρώµα έχει σηµανθεί η εγγενώς µη δοµηµένη περιοχή της πρωτεΐνης (αµινοξικά κατάλοιπα 96 - 160). . . . . . . . . . . . . . . . . 2 1.2 Ονόµατα τα οποία έχουν δοθεί για τις εγγενώς µη δοµηµένες πρωτεΐνες στη διάρκεια των χρόνων. . . . . . . . . . . . . . . 3 1.3 PDB και εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές . . . . 6 1.4 Ολικό ϕορτίο (πάνω), ποσοστό προλίνης (µέση) και ποσοστό αρωµατικών (κάτω) σε χαρακτηριστικά µοριακής αναγνώρισης (κόκκινο χρώµα) και PDB_25 (µπλε χρώµα) [1]. . . . . . 9 1.5 Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης µε ϐάση τα στοιχεία δευτεροταγούς δοµής. Πάνω αριστεϱά α-MoRF (PDB ID: 1BXL), πάνω δεξιά β -MoRF (PDB ID: 2ZPY), κάτω αριστερά irregular-MoRF (PDB ID: 1A6A), κάτω δεξιά complex-MoRF (PDB ID: 1YBO). . . . . . . . . . . . . 10 1.6 ∆ιαχωρισµός πρωτεϊνών που περιέχουν χαρακτηριστικά µοϱιακής αναγνώρισης από σφαιρικές πρωτεΐνες. Στον οριζόντιο άξονα είναι το µέγεθος της επιφάνειας αλληλεπίδρασης (Interface area), ενώ στον κάθετο άξονα είναι το µέγεθος της επιφάνειας (Surface area). . . . . . . . . . . . . . . . . . . . 11 1.7 Κατηγορίες µεµβρανικών πρωτεΐνών. ∆ιαµεµβρανικές οι οποίες διαπερνούν την λιπιδική διπλοστοιβάδα. Περιφερειακές και αγκυροβοληµένες πρωτεΐνες οι οποίες ϐρίσκονται προσκολληµένες στην επιφάνεια της µεµβράνης µε ασθενείς αλληλεπιδράσεις (περιφερειακές µεµβρανικές πρωτεΐνες) ή οµοιοπολικούς δεσµούς µε τα λιπίδια. . . . . . . . . . . . . . 15 xi 1.8 Τέσσερις διαφορετικοί τρόποι µε τους οποίους πρωτεϊνικά µόρια µπορούν να συνδεθούν σε µια µεµβράνη. Με πράσινο είναι οι περιοχές που διαπερνούν ή ϐυθίζονται στη µεµβράνη και κόκκινο οι περιοχές έξω από τη µεµβράνη. Οι α-έλικες απεικονίζονται ως κύλινδροι και οι ϐ-κλώνοι ως ϐέλη. Από αριστερά προς τα δεξιά είναι : (a) µια πρωτεΐνη της οποίας η πολυπεπτιδική αλυσίδα διαπερνά τη µεµβράνη µια ϕορά ως α-έλικα, (b) µια πρωτεΐνη η οποία σχηµατίζει αρκετές διαµεµϐρανικές α-έλικες που συνδέονται µε υδρόφιλους ϐρόχους, (c) µια πρωτεΐνη µε αρκετούς ϐ-κλώνους που σχηµατίζουν ένα κανάλι διαµέσου της µεµβράνης και (d) µια πρωτεΐνη η οποία είναι αγκυροβοληµένη στη µεµβράνη µέσω µιας αέλικας παράλληλη προς το επίπεδο της µεµβράνης. . . . . . 17 3.1 Μέρος του Advanced Search της PDB. Στο πάνω τµήµα το Chain Length επιλέγεται µεταξύ 10 και 70 καταλοίπων. Στο κάτω τµήµα το Number of Entities πρέπει να αποτελείται από τουλάχιστον 2 οντότητες. Με αυτές τις επιλογές γίνεται κατέβασµα των συµπλόκων που πιθανόν να περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από την PDB. . . . . . . . 3.2 Το πεδίο SEQRES ενός PDB αρχείου . . . . . . . . . . . . . 3.3 Το πεδίο DBREF ενός PDB αρχείου . . . . . . . . . . . . . . 3.4 Τµήµα Uniprot (flat file) αρχείου. Φαίνονται τα πεδία ID και Accession της πρωτεΐνης. . . . . . . . . . . . . . . . . . . . 3.5 Τµήµα αρχείου το οποίο είναι διαθέσιµο από το EBI και κάνει αντιστοίχιση PDB κωδικών σε Uniprot Accessions. . . . . . 3.6 Αρχείο που δηµιουργείται από τον κώδικά µας. Η πληροϕορία η οποία περιέχει είναι (από αριστερά προς τα δεξιά) ο κωδικός PDB, η αλυσίδα PDB, που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στη δοµή, το Uniprot Accession και που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στην πρωτεΐνη. . . . 3.7 Το πεδίο CC (SUBCELLULAR LOCATION) µιας Uniprot εγγραφής. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Πιθανό πρωτεϊνικό σύµπλοκο το οποίο αποτελείται από τρεις αλυσίδες. Την A, τη B και τη C. Το Α αλληλεπιδρά µε το Β όταν (Α+Β) 6= (Α)+(Β), ενώ δεν αλληλεπιδρά όταν (Α+Β) = (Α)+(Β) όπου (Α), (Β) οι ASA του χαρακτηριστικού µοριακής αναγνώρισης και της πρωτεΐνης µε την οποία πιθανόν να αλληλεπιδρά και (Α+Β) η ASA του συµπλόκου. . . . . . . . . . xii 22 23 24 24 25 25 26 28 3.9 Σχεσιακό σχήµα της ϐάσης δεδοµένων mpMoRFsDB 4.1 4.2 4.3 4.4 . . . . 29 Αρχική σελίδα της ϐάσης δεδοµένων mpMoRFsDB . . . . . . Το εργαλείο Browse της ϐάσης δεδοµένων mpMoRFsDB . . . Φίλτρα που εφαρµόζονται στο Browse της mpMoRFsDB . . . Φίλτρο ανάλογα µε τον τύπο των µεµβρανικών πρωτεϊνών στο Browse της mpMoRFsDB . . . . . . . . . . . . . . . . . . . 4.5 Φίλτρο ανάλογα µε τον τύπο των χαρακτηριστικών µοριακής αναγνώρισης πρωτεϊνών στο Browse της mpMoRFsDB . . . . 4.6 ΄Ολες οι πρωτεΐνες που περιέχουν complex-MoRFs στην mpMoRFsDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 Παράδειγµα χρήσης του Search στην mpMoRFsDB. Η αναϹήτηση µπορεί να γίνει αρκετά σύνθετη όπως ϕαίνεται. . . . . 4.8 Παράδειγµα εγγραφής στη ϐάση δεδοµένων mpMoRFsDB. Uniprot Accession: P01730. . . . . . . . . . . . . . . . . . . 4.9 Η σελίδα του Blast Search της mpMoRFsDB όπου ο χρήστης µπορεί να εισάξει µια αλληλουχία σε FASTA format και να αναζητήσει οµόλογες έναντι της mpMoRFsDB. Επιπλέον δίνεται η δυνατότητα να επιλέξει συγκεκριµένο κατώφλι για το e-value των αποτελεσµάτων που ϑα εµφανιστούν. . . . . . . . 4.10 Ο πίνακας µε τα αποτελέσµατα των στοιχίσεων όπου δίνονται πληροφορίες για τις πρωτεΐνες καθώς και στατιστικά στοιχεία για την στοίχιση. . . . . . . . . . . . . . . . . . . . . . . . . 4.11 Αναλυτικές πληροφορίες µιας στοίχισης µέσω του εργαλείου BLAST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.12 Παράδειγµα Text αρχείου της ϐάσης δεδοµένων mpMoRFsDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.13 Παράδειγµα XML αρχείου της ϐάσης δεδοµένων mpMoRFsDB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.14 Με κόκκινο χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης µικρού µήκους (µέχρι 30 αµινοξικά κατάλοιπα). Με µπλε χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης µεγάλου µήκους (πάνω από 30 αµινοξικά κατάλοιπα). . . . . . xiii 34 35 35 35 36 36 36 39 40 41 42 43 44 46 xiv Κατάλογος Πινάκων 1.1 Αλγόριθµοι Πρόγνωσης Εγγενώς Μη ∆οµηµένων Πρωτεϊνών . 8 1.2 Οι 8 πιο συχνά εµφανιζόµενες λειτουργικές τάξεις από τη Swiss Prot για χαρακτηριστικά µοριακής αναγνώρισης [1]. . 12 4.1 ∆ιαχωρισµός µεµβρανικών πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 ∆ιαχωρισµός χαρακτηριστικών µοριακής αναγνώρισης µε ϐάση τα στοιχεία δευτεροταγούς δοµής . . . . . . . . . . . . . . . 4.3 Ποσοστά υποδοχέων στις µεµβρανικές πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης. . . . . . . . . 4.4 ∆ιαχωρισµός µεµβρανικών πρωτεϊνών (οργανισµός Homo sapiens) που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης. . . . . . . . . . . . . . . . xv 45 46 46 47 xvi Κεφάλαιο 1 Εισαγωγή Την τελευταία δεκαετία νέοι τοµείς σχετικοί µε τον τοµέα της Βιολογίας έχουν αρχίσει να εµφανίζονται στο προσκήνιο. Τα αποτελέσµατα που προκύπτουν καθηµερινά από πειράµατα αλληλούχισης επόµενης γενιάς αυξάνουν εκθετικά τον όγκο της πληροφορίας που γίνεται δηµόσια διαϑέσιµη. Αυτός ο όγκος της πληροφορίας δεν µπορεί να διαχειριστεί από επιστήµονες ενός µόνο κλάδου. ΄Ετσι γίνεται αναγκαία η συνύπαρξη και συνεργασία επιστηµόνων από διαφορετικούς τοµείς, όπως Βιολογίας, Μαϑηµατικών, Στατιστικής, Πληροφορικής και Μηχανικής. Προς αυτή την κατεύθυνση και σε συνδυασµό µε τη ϱαγδαία ανάπτυξη της τεχνολογίας, ο κλάδος της Βιοπληροφορικής εξελίσσεται ταχύτατα. Οι τοµείς στους οποίους ϐρίσκει εφαρµογή η Βιοπληροφορική είναι πολλοί, ενώ η έννοια του όρου περιλαµβάνει ποικίλες εφαρµογές. Ιδαίτερα χρήσιµη έχει αποδειχτεί στον τοµέα της µελέτης και ανάλυσης πρωτεϊνών. 1.1 Εγγενώς µη ∆οµηµένες Πρωτεΐνες Τα τελευταία χρόνια υπήρξε ένα αυξανόµενο ενδιαφέρον για την µελέτη των εγγενώς µη δοµηµένων πρωτεϊνών. Οι εγγενώς µη δοµηµένες ή µη κανονικές πρωτεΐνες (Intrinsically Disordered Proteins - IDPs) [4] είναι πρωτεΐνες οι οποίες στο ϕυσικό περιβάλλον δε διαθέτουν συγκεκριµένη σταθερή στερεοδοµή, αλλά είναι λειτουργικές. Μία πρωτεΐνη µπορεί να είναι πλήρως ή µερικώς µη δοµηµένη, περιέχοντας µεγάλες ή µικρές εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές (Intrinsically Disordered Regions (IDRs) ή Intrinsically Disordered Protein Regions (IDPRs)) [4] [5]. Στους 1 ευκαρυωτικούς οργανισµούς το 20-30% των πρωτεϊνών περιέχουν εγγενώς µη δοµηµένα τµήµατα, ενώ περισσότερες από το 50% των πρωτεϊνών πεϱιέχουν µεγάλα εγγενώς µη δοµηµένα τµήµατα [6]. Μικρότερα ποσοστά έχουν σηµειωθεί στα Ευβακτήρια και τα Αρχαία [7]. ΄Ενα χαρακτηριστικό παράδειγµα εγγενώς µη δοµηµένης πρωτεΐνης είναι η α-συνουκλεΐνη η οποία ϕαίνεται στο σχήµα 1.1. Η α-συνουκλεΐνη είναι µια πρωτεΐνη της οποίας η λειτουργία δεν είναι σίγουρα γνωστή. Πιθανόν να συµµετέχει στην ϱύθµιση για απελευθέωση και µεταφορά ντοπαµίνης. Η συγκεκριµένη πρωτεΐνη αποτελείται από 160 αµινοξικά κατάλοιπα και περιέχει µια µεγάλη περιοχή η οποία είναι µη δοµηµένη [8] και πιο συγκεκριµένα στα κατάλοιπα 96 - 160. Σχήµα 1.1: Η δοµή της a-synuclein. PDB ID: 1XQ8. Με κόκκινο χρώµα έχει σηµανθεί η εγγενώς µη δοµηµένη περιοχή της πρωτεΐνης (αµινοξικά κατάλοιπα 96 - 160). 1.1.1 Χαρακτηριστικά Στη διάρκεια των χρόνων ποικιλία ονοµάτων έχουν δοθεί για τις εγγενώς µη δοµηµένες πρωτεΐνες. Κάποια είναι πιο λογικά, ενώ κάποια πιο ευφάνταστα [4]. Στο σχήµα 1.2 ϕαίνονται κάποια από αυτά, όπως proteinclouds, natively-unfolded, vulnerable, mobile, malleable, natively-disordered, 2 dancing-proteins, flexible, intrinsically-unstructured, chameleon, nativelydenatured, intrinsically-unfolded, floppy, rheomorphic, partially-folded, pliable. Ο όρος όµως ο οποίος έχει επικρατήσει και χρησιµοποιείται στη διεθνή ϐιβλιογραφία είναι Intrinsically Disordered Proteins οι οποίες εν συντοµία λέγονται IDPs. Σχήµα 1.2: Ονόµατα τα οποία έχουν δοθεί για τις εγγενώς µη δοµηµένες πρωτεΐνες στη διάρκεια των χρόνων. Οι εγγενώς µη δοµηµένες πρωτεΐνες διαφέρουν στην αµινοξική σύσταση από τις σφαιρικές πρωτεΐνες. Πιο συγκεκριµένα υπάρχει έλλειψη στα αµινοξικά κατάλοιπα που ϐοηθούν την αναδίπλωση των πρωτεϊνών, όπως Ile, Leu, Val, Trp, Tyr, Phe, Cys, και Asn, ενώ είναι εµπλουτισµένες στα αµινοξικά κατάλοιπα που δε ϐοηθούν στην αναδίπλωση όπως Ala, Arg, Gly, Gln, Ser, Glu, Lys, και Pro [9] [10] [11] [12] [13]. Πολλές εγγενώς µη δοµηµένες πρωτεΐνες, εµπλέκονται σε αλληλεπιδράσεις µε άλλα αλληλεπιδρώντα µόρια. Πολύ συχνά λειτουργούν σαν κύριοι κόµβοι (hubs) σε δίκτυα αλληλεπιδράσεων πρωτεϊνών - πρωτεϊνών [14] [15] [16] [17] [18] [19] [20] [21]. Η ανάλυση δικτύων αλληλεπιδράσεων εγγενώς µη δοµηµένων πρωτεϊνών έχει αποκαλύψει πολλούς πιθανούς ϱόλους. Μια δοµηµένη πρωτεϊνική πεϱιοχή (που λειτουργεί σαν κόµβος) µπορεί να αλληλεπιδρά µε περισσότερα από ένα µόρια. Επισπρόσθετα πολλές εγγενώς µη δοµηµένες πρωτεΐνες µπορούν να αλληλεπιδράσουν µε τις ίδιες σφαιρικές πρωτεΐνες/κόµβους [14] [15]. 3 Λόγω των σηµαντικών ϱόλων που διαδραµατίζουν οι εγγενώς µη δοµηµένες πρωτεΐνες και της σηµαντικής τους ϑέσης σε δίκτυα αλληλεπιδράσεων πρωτεϊνών - πρωτεϊνών, πολλές εγγενώς µη δοµηµένες πρωτεΐνες εµπλέκονται σε πολλές ανθρώπινες ασθένειες [22] [23]. Παρουσία εγγενώς µη δοµηµένων πρωτεϊνών, εµφανίζεται σε πρωτεΐνες που έχουν συσχετιστεί µε καρκίνο, καρδιαγγειακά νοσήµατα, νευροεκφυλιστικές ασθένειες, αµυλοειδώσεις καθώς και σε πρωτεΐνες από παθογόνα µικρόβια και ιούς [24] [22] [25] [26] [27] [28] [29] [30] [31]. Οι εγγενώς µη δοµηµένες πρωτεΐνες χωρίζονται σε έξι µεγάλες κατηγοϱίες (assemblers, chaperones, display sites, effectors, entropic chains, scavengers) [32] [33] και 28 ξεχωριστές λειτουργίες τους έχουν ανατεθεί, περιλαµβάνοντας τη µοριακή αναγνώριση µέσω σύνδεσης µε άλλες πρωτεΐνες ή νουκλεϊκά οξέα [34] [35]. Πολλές εγγενώς µη δοµηµένες πρωτεΐνες εµπλέκονται σε λειτουργίες ϱύθµισης, αναγνώρισης, σηµατοδότησης και ελέγχου µονοπατιών, όπου αλληλεπιδράσεις υψηλής ειδικότητας και χαµηλής συγγένειας είναι απαραίτητες για αλληλεπιδράσεις µε πολλά µακροµόρια. 1.1.2 Βάσεις ∆εδοµένων DISPROT Η πιο γνωστή ϐάση που περιέχει εγγενώς µη δοµηµένες πρωτεΐνες είναι η DISPROT [36]. Η συγκεκριµένη ϐάση δεδοµένων αναπτύχθηκε στο Center of Computational Biology and Bioinformatics του Indiana University και στο Center of Information Science and Technology του Temple University από τις οµάδες των Dunker AK και Uversky VN. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στην ιστοσελίδα http://www.disprot.org. Η DISPROT αναπτύχθηκε µε σκοπό τη συλλογή και οργάνωση γνώσης σχετικά µε τον πειραµατικό χαρακτηρισµό και τη λειτουργική συσχέτιση των εγγενώς µη δοµηµένων πρωτεϊνών. Η συλλογή των δεδοµένων έχει γίνει ϐιβλιογραφικά. IDEAL 4 Μια ακόµη σηµαντική ϐάση είναι η IDEAL (Intrinsically Disordered proteins with Extensive Annotations and Literature). Η συγκεκριµένη ϐάση έχει αναπτυχθεί στο πανεπιστήµιο της Nagoya στην Ιαπωνία. Η ιστοσελίδα της ϐάσης είναι http://www.ideal.force.cs.is.nagoya-u.ac.jp/IDEAL/. Η IDEAL παρέχει µια συλλογή από πειραµατικά ελεγµένων εγγενώς µη δοµηµένων πρωτεϊνών και εγγενώς µη δοµηµένων πρωτεϊνικών τµηµάτων. Η IDEAL περιέχει σχολιασµό πρωτεϊνών µε µη αυτοµατοποιηµένο τρόπο, ενώ παρέχεται πληροφορία σχετικά µε τις περιοχές, τις δοµές και λειτουργικές ϑέσεις των εγγενώς µη δοµηµένων πρωτεϊνών, όπως περιοχές δέσµευσης πρωτεϊνών και ϑέσεις µεταµεταφραστικών τροποποιήσεων µαζί µε αναφοϱές και αναθέσεις αυτοτελώς δοµικών µονάδων. ComSin Μια ενδιαφέρουσα προσπάθεια είναι η ComSin (Database of protein structures in bound (Complex) and unbound (Single) states in relation to their intrinsic disorder) [37]. Η συγκεκριµένη ϐάση αναπτύχθηκε στο Institute of Protein Research, της ϱωσικής ακαδηµίας επιστηµών στη Μόσχα από την οµάδα της Galzitskaya OV. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στην ιστοσελίδα http://bioinfo.protres.ru/comsin/. Η συγκεκριµένη ϐάση περιλαµβάνει δοµές από την PDB τόσο σε κατάσταση δέσµευσης, όσο και σε κατάσταση αποδέσµευσης. Με αυτό τον τρόπο µπορεί να γίνει µελέτη πρωτεϊνών πριν και µετά την αλληλεπίδρασή τους µε άλλες πρωτεΐνες. MobiDB Η MobiDB (a database of protein disorder and mobility annotations) [38] είναι µια ϐάση δεδοµένων που αναπτύχθηκε στο πανεπιστήµιο της Padova στην Ιταλία. Η MobiDB συγκεντρώνει πληροφορίες σχετικά µε εγγενώς µη δοµηµένες πρωτεΐνες από ϐάσεις δεδοµένων και από αλγόριθµους πρόγνωσης. Στη συνέχεια τις συνδυάζει, µε απώτερο σκοπό την ταξινόµηση των εγγενώς µη δοµηµένων περιοχών σε ευέλικτες και συντηρηµένες. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στη διεύθυνση http://mobidb.bio.unipd.it. D2 P 2 5 Η D2 P2 (Database of Disordered Protein Predictions) [39] είναι µια ϐάση δεδοµένων η οποία συγκεντρώνει αποτελέσµατα από αλγόριθµους πρόγνωσης για εγγενώς µη δοµηµένες πρωτεΐνες και τα συγκρίνει µεταξύ τους. Η συγκεκριµένη ϐάση αναπτύχθηκε από την οµάδα των Dunker AK και Uversky VN. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στη διεύθυνση http://d2p2.pro PDB και εγγενώς µη δοµηµένες πρωτεΐνες Το ενδιαφέρον για τις εγγενώς µη δοµηµένες πρωτεΐνες έχει αυξηθεί τα τελευταία χρόνια κάτι το οποίο ϕαίνεται και από το γεγονός ότι η PDB [40] έχει ενσωµατώσει ένα πεδίο στην ιστοσελίδα της, που αναφέρει αν οι δοµές περιλαµβάνουν εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές όπως ϕαίνεται και στο σχήµα 1.3. Το συγκεκριµένο πεδίο κάνει χρήση του αλγόριθµου πρόγνωσης JRonn [41]. Σχήµα 1.3: PDB και εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές 6 1.1.3 Αλγόριθµοι Πρόγνωσης Στη διάρκεια των χρόνων πολλοί αλγόριθµοι πρόγνωσης για εγγενώς µη δοµηµένες πρωτεΐνες έχουν αναπτυχθεί. Οι πρώτοι αλγόριθµοι πρόγνωσης που αναπτύχθηκαν ϐασίζονταν στις ϕυσικοχηµικές ιδιότητες των αµινοξέων. Με την πάροδο των χρόνων οι αλγόριθµοι πρόγνωσης χρησιµοποιούν πιο σύγχρονες τεχνικές µηχανικής µάθησης όπως τεχνητά νευρωνικά δίκτυα, support vector machines ή συνδυασµό αυτών. Τα τελευταία χρόνια έχουν αναπτυχθεί και χρησιµοποιούνται κατά κύριο λόγο συναινετικοί αλγόριθµοι οι οποίοι επιτυγχάνουν υψηλότερα ποσοστά επιτυχίας. Μία χρονολογική ταξινόµηση των αλγορίθµων πρόγνωσης εγγενώς µη δοµηµένων πρωτεϊνών, µε µια µικρή περιγραφή των χαρακτηριστικών τους ακολουθεί στον πίνακα 1.1. ΄Ονοµα PONDR GlobPlot DisEMBL DISOPRED DISOPRED2 DRIP-RED IUPred RONN DISpro FoldIndex FoldUnfold Spritz DisPSSMP iPDA PrDOS NORSet Χαρακτηριστικά ΄Ετος Αναφορά Πολλοί Predictors 1997 [42] Σχετική τάση καταλοίπου να είναι 2003 [43] σε κανονική ή µη κανονική κατάσταση. Προβλέπει 3 είδη µη κανονικής δο- 2003 [44] µής. Νευρωνικά δίκτυα (χρήση ολόκλη- 2003 [45] ϱης της ακολουθίας). SVMs (χρήση ολόκληρης της ακο- 2004 [46] λουθίας). Kohonen’s SOM 2004 [47] ∆ιαµοριακές αλληλεπιδράσεις (για 2005 [48] σχηµατισµό δοµής) Λειτουργικές στοιχίσεις 2005 [41] 1D-RNN 2005 [49] Λόγος ϕορτίου/υδροφοβικότητας 2005 [50] Χρήση εντροπίας 2006 [51] Συνδυασµός δύο binary classifiers 2006 [52] Βασίζεται σε Radial Basis Func- 2006 [53] tion Networks µε είσοδο PSSM Πιο συνοπτικό PSSM 2007 [54] Συνδυασµός δύο predictors. Ο 2007 [55] ένας στοίχιση οµόλογων Feed Forward Neural Network 2007 [56] 7 POODLE-S POODLE-L Bayes IUP 7 SVMs 2007 SVM σε δύο επίπεδα 2007 Πιθανότητα ακολουθίας 2008 Recursive Maximum Constant 2008 Tree OnD-CRFs Conditional Random Fields 2008 DISOclust Χρήση συντηρηµένων περιοχών 2008 metaPrDOS Χρήση 7 διαφορετικών Predic- 2008 tors: PrDOS, DISOPRED2, DisEMBL, DISPROT, DISpro, IUPred, POODLE-S MD Metapredictor: NORSnet, Ucon, 2009 PROFBval, DISOPRED2, IUPred, FoldIndex CDF-ALL Metapredictor: VLXT, VSL2, VL3, 2008 TopIDP, IUPred, FoldIndex PRONDR-FIT Metapredictor. Consensus ANN 2010 Πίνακας 1.1: Αλγόριθµοι Πρόγνωσης Εγγενώς Μη ∆οµηµένων Πρωτεϊνών 1.2 [57] [58] [59] [60] [61] [62] [55] [63] [64] [65] Χαρακτηριστικά Μοριακής Αναγνώρισης Τα Χαρακτηριστικά Μοριακής Αναγνώρισης (Molecular Recognition Features, MoRFs ή Molecular Recognition Elements, MoREs) [1] είναι µικρά (10-70 κατάλοιπα), εγγενώς µη δοµηµένα τµήµατα σε πρωτεΐνες που αποκτούν χαρακτηριστική δοµή µετά την αλληλεπίδρασή τους µε άλλες πρωτεΐνες [66]. Τα χαρακτηριστικά µοριακής αναγνώρισης εµπλέκονται σε αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών και διαδραµατίζουν σηµαντικό ϱόλο στη διαδικασία της µοριακής αναγνώρισης. 8 1.2.1 Χαρακτηριστικά Αµινοξική Σύσταση Τα χαρακτηριστικά µοριακής αναγνώρισης είναι εγγενώς µη δοµηµένες περιοχές σε µια πρωτεΐνη πριν από την αλληλεπίδρασή τους µε κάποια πρωτεΐνη, ενώ αποκτούν χαρακτηριστική δοµή µετά την αλληλεπίδρασή τους µε αυτή. Η αµινοξική τους σύσταση [1] είναι παρόµοια µε αυτή των εγγενώς µη δοµηµένων πρωτεϊνών. Υπάρχει έλλειψη στα αµινοξικά κατάλοιπα που ϐοηθούν την αναδίπλωση των πρωτεϊνών, δηλαδή TRP, ILE, TYR, VAL, LEU ενώ είναι εµπλουτισµένες στα αµινοξικά κατάλοιπα που δε ϐοηθούν στην αναδίπλωση των πρωτεϊνών όπως ARG, GLY, SER, PRO. [11] [9] [10]. Αντίθετα το ολικό ϕορτίο, τα ποσοστά προλίνης και τα ποσοστά αρωµατικών καταλοίπων εµφανίζουν παρόµοια χαρακτηριστικά µε τις σφαιρικές πρωτεΐνες όπως ϕαίνεται και στο σχήµα 1.4 σύµφωνα µε την εργασία των Mohan και συνεργατών [1]. 26.4 21.9 0 5 10 15 20 25 30 5.9% 4.0% 0% 2.5% 5% 7.5% 10% 8.4% 9.4% 0% 2.5% 5% 7.5% 10% Σχήµα 1.4: Ολικό ϕορτίο (πάνω), ποσοστό προλίνης (µέση) και ποσοστό αρωµατικών (κάτω) σε χαρακτηριστικά µοριακής αναγνώρισης (κόκκινο χρώµα) και PDB_25 (µπλε χρώµα) [1]. Κατηγορίες Τα χαρακτηριστικά µοριακής αναγνώρισης µπορούν να διαχωριστούν σε τέσσερις µεγάλες κατηγορίες (σχήµα 1.5) [1] µε ϐάση τη δευτεροταγή δοµή που αποκτούν κατά την αλληλεπίδραση µε άλλες πρωτεΐνες. ΄Ετσι στην 9 περίπτωση που σχηµατίζουν α-έλικες ταξινοµούνται ως α-MoRFs, στην πεϱίπτωση που σχηµατίζουν ϐ-ϕύλλα ταξινοµούνται ως β -MoRFs, στην πεϱίπτωση που δε σχηµατίζουν κάποια συγκεκριµένη δοµή ταξινοµούνται ως irregular-MoRFs, ενώ αν γίνεται συνδυασµός των παραπάνω ταξινοµούνται ως complex-MoRFs. Σηµαντικό είναι να σηµειωθεί ότι για να ϑεωρηθεί ένα χαρακτηριστικό µοριακής αναγνώρισης complex δε ϑα πρέπει τα ποσοστά των στοιχείων δευτεροταγούς δοµής που το σχηµατίζουν να διαφέρουν περισσότερο από 1% µεταξύ τους. ∆ηλαδή η διαφορά για παράδειγµα στοιχείων που σχηµατίζουν ϐ-ϕύλλα από στοιχεία που σχηµατίζουν µη κανονική δοµή (irregular) να είναι µικρότερη του 1%, µε χαρακτηριστικό παράδειγµα το complex-MoRF του σχήµατος 1.5 όπου τα ποσοστά µεταξύ ϐ και irregular είναι περίπου ίσα. Σχήµα 1.5: Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης µε ϐάση τα στοιχεία δευτεροταγούς δοµής. Πάνω αριστερά α-MoRF (PDB ID: 1BXL), πάνω δεξιά β -MoRF (PDB ID: 2ZPY), κάτω αριστερά irregularMoRF (PDB ID: 1A6A), κάτω δεξιά complex-MoRF (PDB ID: 1YBO). 10 ∆ιαχωρισµός από σφαιρικές πρωτεΐνες Οι πρωτεΐνες οι οποίες περιλαµβάνουν εγγενώς µη δοµηµένα τµήµατα (όπως χαρακτηριστικά µοριακής αναγνώρισης για παράδειγµα) έχουν πιο εκτεταµένη δοµή σε σχέση µε τις σφαιρικές πρωτεΐνες. ΄Ενα καλό κριτήριο διαχωρισµού (σχήµα 1.6) είναι µέσω της σύγκρισης του µεγέθους της επιφάνειας (Surface area) και του µεγέθους της επιφάνειας αλληλεπίδρασης(interface area). ΄Οπως ϕαίνεται επιτυγχάνεται καλός διαχωρισµός µεταξύ πρωτεΐνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από σφαιρικές πρωτεϊνες. Σχήµα 1.6: ∆ιαχωρισµός πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από σφαιρικές πρωτεΐνες. Στον οριζόντιο άξονα είναι το µέγεθος της επιφάνειας αλληλεπίδρασης (Interface area), ενώ στον κάθετο άξονα είναι το µέγεθος της επιφάνειας (Surface area). Λειτουργίες Οι λειτουργίες των χαρακτηριστικών µοριακής αναγνώρισης είναι πολλές και σηµαντικές [1]. Οι πιο σηµαντικές είναι η σηµατοδότηση, η σύνδεση και η µοριακή αναγνώριση. Στον πίνακα 1.2 απεικονίζονται οι 8 πιο συχνά εµφανιζόµενες λειτουργικές τάξεις από τη Swiss Prot (keywords) για χαρακτηριστικά µοριακής αναγνώρισης. Αυτές είναι Signal, Glycoprotein, Transmembrane, Alternative splicing, Hydrolase, DNA binding, Transcription regulation, Serine protease inhibitor. Παρατηρείται ότι χαϱακτηριστικά µοριακής αναγνώρισης εντοπίζονται συχνά και στις διαµεµϐρανικές πρωτεΐνες. Αυτός ήταν ένας σηµαντικός λόγος για την περαιτέρω µελέτη των χαρακτηριστικών µοριακής αναγνώρισης σε σχέση µε τις µεµϐρανικές πρωτεΐνες [2]. 11 Λειτουργία Συχνότητα Signal 57 Glycoprotein 41 Transmembrane 37 Alternative splicing 35 Hydrolase 25 DNA binding 24 Transcription regulation 23 Serine protease inhibitor 21 Πίνακας 1.2: Οι 8 πιο συχνά εµφανιζόµενες λειτουργικές τάξεις από τη Swiss Prot για χαρακτηριστικά µοριακής αναγνώρισης [1]. 1.2.2 Βάσεις ∆εδοµένων Μέχρι την υλοποίηση της παρούσας εργασίας καµία ϐάση δεδοµένων δεν υπήρχε η οποία να περιλαµβάνει χαρακτηριστικά µοριακής αναγνώρισης. Η µόνη προσπάθεια που έγινε στο παρελθόν είναι η συγκέντρωση συνόλων είτε για ανάλυση [1], είτε για χρήση σε αλγόριθµους πρόγνωσης [67] [68]. Η πρώτη ολοκληρωµένη, δηµόσια διαθέσιµη ϐάση δεδοµένων είναι η mpMoRFsDB [3]. 1.2.3 Αλγόριθµοι Πρόγνωσης ∆εν υπάρχουν αρκετοί αλγόριθµοι πρόγνωσης για χαρακτηριστικά µοϱιακής αναγνώρισης. Και για τους υπάρχοντες τα ποσοστά επιτυχίας δεν είναι ιδιαίτερα ικανοποιητικά. Παρακάτω παρουσιάζονται όλοι οι σχετικοί αλγόριθµοι πρόγνωσης. a-MoRF-PredI/a-MoRF-PredII Η πρώτη προσπάθεια για τον εντοπισµό χαρακτηριστικών µοριακής αναγνώρισης είναι οι αλγόριθµοι a-MoRF-PredI και a-MoRF-PredII [67]. οι οποίοι ϐασίζονται σε τεχνητά νευρωνικά δίκτυα. Βασίζονται στην παϱατήρηση ότι οι αλγόριθµοι πρόγνωσης για εγγενώς µη δοµηµένες πρωτεΐνες παρουσιάζαν χαµηλότερα ποσοστά επιτυχίας στα σηµεία τα οποία εντοπίζονταν χαρακτηριστικά µοριακής αναγνώρισης. Οι συγκεκριµένοι 12 αλγόριθµοι περιορίζονται στον εντοπισµό χαρακτηριστικών µοριακής αναγνώρισης που σχηµατίζουν α-έλικες κατά την αλληλεπίδρασή τους µε άλλες πρωτεΐνες. ∆εν υπάρχει κάποια διαδικτυακή διεπαφή και στην πραγµατικότητα οι συγκεκριµένοι αλγόριθµοι δε χρησιµοποιούνται πλέον. ANCHOR ΄Ενας αλγόριθµος που χρησιµοποιείται για να εντοπίσει περιοχές σύνδεσης σε εγγενώς µη δοµηµένες πρωτεΐνες είναι ο ANCHOR [69] [70]. Ο ANCHOR δέχεται ως είσοδο αµινοξική ακολουθία και κάνει πρόγνωση περιοχών πρόσδεσης σε πρωτεΐνες που είναι εγγενώς µη δοµηµένες σε αποµόνωση, αλλά αποκτούν χαρακτηριστική δοµή µετά την αλληλεπίδρασή τους µε άλλες πρωτεΐνες. Για το λόγο αυτό ο ANCHOR χρησιµοποιείται για πρόγνωση χαρακτηριστικών µοριακής αναγνώρισης. Ο σύνδεσµος του προγράµµατος είναι διαθέσιµος στη διεύθυνση http://anchor.enzim.hu. MoRFPred Ο γνωστότερος αλγόριθµος για πρόγνωση και χαρακτηρισµό χαρακτηριστικών µοριακής αναγνώρισης είναι ο MoRFPred [68]. Ο MoRFPred αναγνωρίζει όλους τους τύπους των χαρακτηριστικών µοριακής αναγνώρισης (α-MoRFs, β -MoRFs, irregular-MoRFs, complex-MoRFs). Ο αλγόριθµος ϐασίζεται σε Support Vector Machines (SVMs), ενώ ο σύνδεσµος του προγράµµατος είναι διαθέσιµος στη διεύθυνση http://biomine-ws.ece.ualberta.ca/MoRFpred/index.html. MFPSSMPred ΄Ενας αλγόριθµος που παρουσιάστηκε πρόσφατα είναι ο MFPSSMPred [71]. Ο αλγόριθµος ϐασίζεται σε Position Specific Scoring Matrices (PSSM) και Support Vector Machines (SVMs). ∆εν είναι διαθέσιµος διαδικτυακά αλλά σύµφωνα µε τους συγγραφείς αποδίδει καλύτερα αν συγκριθεί µε τους παραπάνω αλγόριθµους πρόγνωσης. 13 1.3 Μεµβρανικές Πρωτεΐνες Οι µεµβρανικές πρωτεΐνες επιτελούν µια σειρά από πολύ σηµαντικές λειτουργίες, απαραίτητες για την Ϲωή του κυττάρου. Αυτές ποικίλουν, από την αναγνώριση και σύνδεση κυττάρων µεταξύ τους ή και µε άλλους σχηµατισµούς, τη λειτουργία τους ως µοριακοί υποδοχείς, τη µεταφορά ουσιών διαµέσου των µεµβρανών, έως και την εξειδικευµένη ενζυµική δραστηριότητα. Η γνώση της δοµής µιας πρωτεΐνης σε ατοµική διακριτικότητα, είναι ένα αποφασιστικό ϐήµα στην προσπάθεια κατανόησης της ϐιολογικής της λειτουργίας. Υψηλής διακριτικότητας τρισδιάστατες δοµές είναι διαθέσιµες για µια µεγάλη ποικιλία σφαιρικών υδατοδιαλυτών πρωτεϊνών, σε αντίθεση µε τον αριθµό των µοναδικών τρισδιάστατων δοµών για µεµϐρανικές πρωτεΐνες ο οποίος είναι αναλογικά πολύ µικρός. Κύριος λόγος είναι η δυσκολία κρυστάλλωσης των συγκεκριµένων πρωτεϊνών λόγω του υδρόφοβου χαρακτήρα τους. ΄Ετσι η υπολογιστική µελέτη των µεµβρανικών πρωτεϊνών µπορεί να δώσει περισσότερες πληροφορίες σχετικά µε τη δοµή και τη λειτουργία τους. Οι µεµβρανικές πρωτεΐνες (σχήµα 1.7) είναι δυνατόν να ταξινοµηθούν σε δυο µεγάλες οµάδες, τις διαµεµβρανικές οι οποίες διαπερνούν την λιπιδική διπλοστοιβάδα, και τις περιφερειακές και αγκυροβοληµένες πρωτεΐνες οι οποίες ϐρίσκονται προσκολληµένες στην επιφάνεια της µεµβράνης µε ασθενείς αλληλεπιδράσεις (περιφερειακές µεµβρανικές πρωτεΐνες) ή οµοιοπολικούς δεσµούς µε τα λιπίδια (αγκυροβοληµένες στη µεµβράνη πρωτεΐνες). 1.3.1 ∆ιαµεµβρανικές Πρωτεΐνες Οι διαµεµβρανικές πρωτεΐνες διαθέτουν ειδικά χαρακτηριστικά γνωρίσµατα στην αµινοξική σύστασή τους κατά µήκος της ακολουθίας, µέσω των οποίων επιτυγχάνεται αλλά και εξηγείται η ενσωµάτωσή τους στη λιπιδική διπλοστοιβάδα. Αποφασιστικής σηµασίας για την µελέτη της δοµής µιας διαµεµβρανικής πρωτεΐνης είναι η εύρεση της τοπολογίας της στη µεµβράνη, δηλαδή ο αριθµός των διαµεµβρανικών τµηµάτων, η ϑέση τους στην ακολουθία της πρωτεΐνης και ο προσανατολισµός τους στο επίπεδο της µεµβράνης. Οι διαµεµβρανικές πρωτεΐνες µπορούν να διαχωριστούν σε δύο µεγάλες κατηγορίες ανάλογα µε το πόσες ϕορές διαπερνούν τη 14 Σχήµα 1.7: Κατηγορίες µεµβρανικών πρωτεΐνών. ∆ιαµεµβρανικές οι οποίες διαπερνούν την λιπιδική διπλοστοιβάδα. Περιφερειακές και αγκυροβοληµένες πρωτεΐνες οι οποίες ϐρίσκονται προσκολληµένες στην επιφάνεια της µεµβράνης µε ασθενείς αλληλεπιδράσεις (περιφερειακές µεµβρανικές πρωτεΐνες) ή οµοιοπολικούς δεσµούς µε τα λιπίδια. µεµβράνη. Τις πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη και τις πρωτεΐνες που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη. Πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη Οι διαµεµβρανικές πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη περιλαµβάνουν συνήθως ένα υδρόφοβο τµήµα λίγων αµινιξέων που είναι ϐυθισµένο µε µορφή α-έλικας (σχήµα 1.8 - a) στην υδρόφοβη περιοχή των λιπιδίων. Πρωτεΐνες που διαπερνούν περισσότερες από µία ϕορές τη µεµϐράνη Οι διαµεµβρανικές πρωτεΐνες που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη αποτελούν πρωτεΐνες των οποίων τα διαµεµβρανικά τµήµατα έχουν την δοµή α-έλικας η οποία συντίθεται από υδρόφοβα αµινοξικά κατάλοιπα που διαπερνούν το υδρόφοβο περιβάλλον της λιπιδικής διπλοστοιβάδας (σχήµα 1.8 - b). Ειδική, πιο σπάνια και λιγότερο µελετηµένη περίπτωση αποτελούν οι πρωτεΐνες της εξωτερικής µεµβράνης 15 των αρνητικών κατά Gram ϐακτηρίων καθώς (πιθανότατα) και των µιτοχονδρίων και των χλωροπλαστών, στις οποίες τα διαµεµβρανικά τµήµατα είναι αντιπαράλληλοι κλώνοι µιας ϐ-πτυχωτής επιφάνειας (διαµεµβρανικά ϐ-ϐαρέλια) (σχήµα 1.8 - c). 1.3.2 Περιφερειακές Μεµβρανικές Πρωτεΐνες Οι περιφερειακές µεµβρανικές πρωτεΐνες προσκολλώνται µε ασθενείς αλληλεπιδράσεις σε άλλες διαµεµβρανικές πρωτεΐνες µε τρόπο που δε διαϕέρει από τον γενικότερο τρόπο πρωτεϊνικών αλληλεπιδράσεων που συναντάµε στις σφαιρικές υδατοδιαλυτές πρωτεΐνες [72]. Οι περιφερειακές πρωτεΐνες µπορούν να ϐρίσκονται είτε στην ενδοκυττάρια είτε στην εξωκυττάρια πλευρά της µεµβράνης. 1.3.3 Αγκυροβοληµένες στη Μεµβράνη Πρωτεΐνες Οι αγκυροβοληµένες µε οµοιοπολικό τρόπο στα λιπίδια πρωτεΐνες, επιτυγχάνουν την πρόσδεση µε τη λιπιδική διπλοστοιβάδα µέσω αναγνώρισης από ειδικά ένζυµα µια συγκεκριµένης αλληλουχίας στην αµινοξική τους ακολουθία. Εντοπίζονται εξωκυττάρια ή ενδοκυττάρια. 16 Σχήµα 1.8: Τέσσερις διαφορετικοί τρόποι µε τους οποίους πρωτεϊνικά µόρια µπορούν να συνδεθούν σε µια µεµβράνη. Με πράσινο είναι οι πεϱιοχές που διαπερνούν ή ϐυθίζονται στη µεµβράνη και κόκκινο οι περιοχές έξω από τη µεµβράνη. Οι α-έλικες απεικονίζονται ως κύλινδροι και οι ϐ-κλώνοι ως ϐέλη. Από αριστερά προς τα δεξιά είναι : (a) µια πρωτεΐνη της οποίας η πολυπεπτιδική αλυσίδα διαπερνά τη µεµβράνη µια ϕορά ως α-έλικα, (b) µια πρωτεΐνη η οποία σχηµατίζει αρκετές διαµεµβρανικές α-έλικες που συνδέονται µε υδρόφιλους ϐρόχους, (c) µια πρωτεΐνη µε αρκετούς ϐ-κλώνους που σχηµατίζουν ένα κανάλι διαµέσου της µεµβράνης και (d) µια πρωτεΐνη η οποία είναι αγκυροβοληµένη στη µεµβράνη µέσω µιας α-έλικας παράλληλη προς το επίπεδο της µεµβράνης. 17 18 Κεφάλαιο 2 Σκοπός ΄Οπως αναφέρθηκε και στην Εισαγωγή πολλές πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης έχουν άµεση σχέση µε τη µεµϐράνη. Σε προηγούµενη µελέτη [2] έγινε ανάλυση των χαρακτηριστικών µοριακής αναγνώρισης σε µεµβρανικές πρωτεΐνες. Σκοπός της συγκεκριµένης διπλωµατικής εργασίας είναι η συγκέντρωση χαρακτηριστικών µοριακής αναγνώρισης που εντοπίζονται σε µεµβρανικές πρωτεΐνες µε αυτοµατοποιηµένο τρόπο. Τα χαρακτηριστικά µοριακής αναγνώρισης τα οποία συγκεντρώνονται, οργανώνονται και καταχωρούνται σε µία ϐάση δεδοµένων η οποία έχει σχεδιαστεί. Για τη συγκέντρωση των δεδοµένων γίνεται χρήση της γλώσσας προγραµµατισµού Perl [73] (bioPerl). Για την καλύτερη διαχείριση της πληροφορίας σχεδιάστηκε ϐάση δεδοµένων µε το σύστηµα διαχείρισης ϐάσεων δεδοµένων mySQL [74], ενώ για την καλύτερη οπτικοποίηση των αποτελεσµάτων χρησιµοποιήθηκαν οι γλώσσες προγραµµατισµού HTML [75], PHP [76], Javascript [77], Java [78] και CSS [79], καθώς και ένα πρόγραµµα οπτικοποίησης µοριακών γραφικών το Jmol [80]. 19 20 Κεφάλαιο 3 Μεθοδολογία Η µεθοδολογία συγκέντρωσης και ανάλυσης των δεδοµένων ϐασίζεται στην εργασία των Mohan και συνεργατών [1] και επεκτείνεται µε ϐάση τη µεθοδολογία που περιγράφεται από τους Kotta-Loizou και συνεργάτες [2]. Για την ευκολότερη, καλύτερη και αποδοτικότερη συγκέντρωση των δεδοµένων έγινε χρήση λειτουργικών συστηµάτων που ϐασίζονται σε Unix [81], όπως Linux [82] ή Mac [83]. 3.1 Συγκέντρωση και επεξεργασία δεδοµένων 3.1.1 Βάσεις ∆εδοµένων ∆ύο είναι οι ϐάσεις δεδοµένων από τις οποίες συγκεντρώθηκαν δεδοµένα και τα οποία στη συνέχεια επεξεργάζονται. • Η πρώτη ϐάση δεδοµένων είναι η PDB (Protein Data Bank) [40]. Η συγκεκριµένη ϐάση δεδοµένων περιέχει δοµικά δεδοµένα ϐιολογικών µακροµορίων τα οποία έχουν προκύψει στην πλειονότητά τους είτε από πειράµατα κρυσταλλογραφίας είτε πειράµατα πυρηνικού µαγνητικού συντονισµού (NMR - Nuclear Magnetic Resonance). • Η δεύτερη ϐάση δεδοµένων είναι η Uniprot [84]. Η συγκεκριµένη ϐάση δεδοµένων περιέχει αναλυτικά χαρακτηρισµένες πρωτεϊνικές ακολουθίες, µε πολλές συνδέσεις προς τρίτες ϐάσεις δεδοµένων. 21 3.1.2 Συγκέντρωση δοµών από PDB ΄Οπως έχουµε αναφέρει και στην Εισαγωγή τα χαρακτηριστικά µοριακής αναγνώρισης έχουν µήκος από 10 έως 70 κατάλοιπα. Ο εντοπισµός τους στηρίζεται στην ιδέα ότι αυτές οι µικρές περιοχές ϑα πρέπει να έχουν ένα µόριο (πρωτεΐνη στην προκειµένη περίπτωση) µε το οποίο αλληλεπιδρούν. Η πρωτεΐνη µε την οποία ϑα αλληλεπιδρά πρέπει να έχει µέγεθος πάνω από 100 αµινοξικά κατάλοιπα ώστε να ϐοηθάει το χαρακτηριστικό µοριακής αναγνώρισης να µεταβεί από µη κανονική δοµή σε κάποιο στοιχείο δευτεϱοταγούς δοµής. Για το σκοπό αυτό επιλέγεται το Advanced Search της PDB όπως ϕαίνεται στο σχήµα 3.1. Το Chain Length επιλέγεται µεταξύ 10 και 70 καταλοίπων, ενώ το Number of Entities πρέπει να αποτελείται από τουλάχιστον 2 οντότητες. ΄Ετσι συγκεντώθηκαν 5309 PDB αρχεία. Σχήµα 3.1: Μέρος του Advanced Search της PDB. Στο πάνω τµήµα το Chain Length επιλέγεται µεταξύ 10 και 70 καταλοίπων. Στο κάτω τµήµα το Number of Entities πρέπει να αποτελείται από τουλάχιστον 2 οντότητες. Με αυτές τις επιλογές γίνεται κατέβασµα των συµπλόκων που πιθανόν να περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από την PDB. 3.1.3 Επεξεργασία PDB αρχείων Σε αυτό το στάδιο γίνεται επεξεργασία των PDB αρχείων που έχουν συγκεντρωθεί. Σε πρώτη ϕάση γίνεται έλεγχος του πεδίου SEQRES (σχήµα 3.2). Για να κρατήσουµε κάποιο σύµπλοκο ϑα πρέπει να υπάρχουν του22 λάχιστον δύο αλυσίδες, εκ των οποίων η µία να έχει µήκος 10 - 70 κατάλοιπα και η δεύτερη τουλάχιστον 100 κατάλοιπα. Πολλές ϕορές είναι πιθανό τα PDB αρχεία να περιέχουν σφάλµατα στην αµινοξική τους ακολουθία. Για το λόγο αυτό, γίνεται έλεγχος ώστε τα χαρακτηριστικά µοριακής αναγνώρισης να µην περιέχουν κάποιο λάθος. Χαρακτηριστικό παράδειγµα είναι να µην έχει προσδιοριστεί κάποιο αµινοξύ και να εµφανίζεται κάποιο σύµβολο στη ϑέση του (όπως Χ). ΄Ενα άλλο παράδειγµα είναι κάποιο µη κανονικό αµινοξύ να εµφανίζεται στην αµινοξική ακολουθία, όπως Selenocysteine (Sec) ή Pyrrolysine (Pyl). SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES SEQRES 17 18 19 20 21 22 1 2 3 4 5 E E E E E E I I I I I 281 281 281 281 281 281 64 64 64 64 64 LEU MET LEU SER PHE ALA MET GLU ALA MET ARG PRO ALA SER SER TYR GLN LYS GLU GLN GLU LEU GLY SER LYS LEU TYR HIS THR ALA ILE TYR ASP ASN PRO HIS GLU GLY HIS GLU LYS ILE ALA ASN LYS HIS PRO ASN LYS HIS TRP LYS VAL ILE ILE TYR VAL ASN THR GLY HIS PRO VAL LEU ASP ALA GLY ALA TRP THR LEU HIS GLU ILE PRO ARG GLN ALA GLY THR THR ILE HIS LEU LEU VAL VAL VAL TYR ALA ASN LYS ASN ASN ALA THR LEU VAL GLY ALA GLN GLY GLN THR LEU VAL ASP ALA SER ILE ARG SER ALA VAL GLN GLY ARG PRO GLY ASP THR LEU ARG LYS LYS ILE PHE VAL SER PRO VAL VAL GLY VAL ALA THR ASP Σχήµα 3.2: Το πεδίο SEQRES ενός PDB αρχείου Σε δεύτερη ϕάση γίνεται έλεγχος του πεδίου DBREF (σχήµα 3.3). Το συγκεκριµένο πεδίο είναι πολύ σηµαντικό καθώς σε αυτό γίνεται αντιστοίχιση των εγγραφών της PDB µε τις πρωτεΐνες στη Uniprot. Καθώς η mpMoRFsDB είναι µια ϐάση δεδοµένων µε επίκεντρο την πρωτεΐνη, γίνεται άµεσα αντιληπτό ο λόγος για τον οποίο είναι σηµαντική αντιστοίχιση στη Uniprot. Εποµένως κρατάµε τα PDB IDs, την αλυσίδα, από που ξεκινάει και που τελειώνει η αλυσίδα, το Uniprot Accession και που ξεκινάει και που τελειώνει η αλληλουχία πάνω στην πρωτεΐνη. ΄Ετσι καταλήγουµε σε 785 µοναδικά Uniprot Accessions. 3.1.4 Επεξεργασία Uniprot αρχείων ΄Ενα πρόβληµα µε τις εγγραφές της Uniprot είναι ότι το ID που έχουν µπορεί να αλλάξει για ποικίλους λόγους. Για το λόγο αυτό όταν γίνεται αναφορά στη Uniprot πρέπει να χρησιµοποιείται το Uniprot Accession. 23 DBREF DBREF DBREF DBREF DBREF DBREF DBREF DBREF DBREF DBREF DBREF DBREF 1Y19 1Y19 1Y19 1Y19 1Y19 1Y19 1Y19 1Y19 1Y19 1Y19 1Y19 1Y19 A C E G I K B D F H J L 638 638 638 638 638 638 209 209 209 209 209 209 651 651 651 651 651 651 410 410 410 410 410 410 UNP UNP UNP UNP UNP UNP UNP UNP UNP UNP UNP UNP O70161 O70161 O70161 O70161 O70161 O70161 P26039 P26039 P26039 P26039 P26039 P26039 PI51C_MOUSE PI51C_MOUSE PI51C_MOUSE PI51C_MOUSE PI51C_MOUSE PI51C_MOUSE TLN1_MOUSE TLN1_MOUSE TLN1_MOUSE TLN1_MOUSE TLN1_MOUSE TLN1_MOUSE 638 638 638 638 638 638 209 209 209 209 209 209 651 651 651 651 651 651 410 410 410 410 410 410 Σχήµα 3.3: Το πεδίο DBREF ενός PDB αρχείου Η εκάστοτε εγγραφή στη Uniprot µπορεί να περιέχει παραπάνω από ένα Uniprot Accessions (σχήµα 3.4). Κάθε ϕορά που γίνεται ανανέωση σε κάποια εγγραφή ένας νέος κωδικός Uniprot της ανατίθεται, ενώ οι παλιοί κωδικοί κρατούνται και αυτοί σαν λίστα. Σε µία αυτοµατοποιηµένη διαδικασία συγκέντρωσης δεδοµένων όπως αυτή, είναι απαραίτητη η αναφορά στις Uniprot εγγραφές µε τον τελευταίο Uniprot κωδικό. Για το σκοπό αυτό γίνεται χρήση ενός αρχείου που παρέχεται από το EBI και αντιστοιχεί PDB αρχεία στο τελευταίο Uniprot Accession. Το συγκεκριµένο αρχείο είναι διαθέσιµο στο σύνδεσµο ftp://ftp.ebi.ac.uk/pub/databases/msd/sifts/text/pdb_chain_uniprot.lst Συνδυάζοντας τα δεδοµένα από το αρχείο της παραπάνω διεύθυνσης (σχήµα 3.5) και από το αρχείο που έχει προκύψει από τους κώδικές µας (σχήµα 3.6) καταλήγουµε σε ένα αρχείο που περιέχει όλα τα πιθανά χαρακτηριστικά µοριακής αναγνώρισης µε αντιστοίχιση στο πιο πρόσφατο Uniprot Accession. ID AC AC AC 1A02_HUMAN Reviewed; 365 AA. P01892; O19619; P06338; P10313; P30444; P30445; P30446; P30514; Q29680; Q29837; Q29899; Q95352; Q95380; Q9TPX8; Q9TPX9; Q9TPY0; Q9TQH5; Q9TQI3; Σχήµα 3.4: Τµήµα Uniprot (flat file) αρχείου. Φαίνονται τα πεδία ID και Accession της πρωτεΐνης. 24 PDB 1aqd 1aqd 1aqd CHAIN F G H SP_PRIMARY P01892 P01903 P04229 RES_BEG 1 1 1 RES_END 15 192 198 PDB_BEG 1 1 1 PDB_END 15 192 198 Σχήµα 3.5: Τµήµα αρχείου το οποίο είναι διαθέσιµο από το EBI και κάνει αντιστοίχιση PDB κωδικών σε Uniprot Accessions. 1AFQ 1AL2 1AQD 1AQD A 4 C F 1 2 1 1 13 69 15 15 UNP UNP UNP UNP P00766 P03299 P01892 P01892 1 13 1 68 127 141 127 141 Σχήµα 3.6: Αρχείο που δηµιουργείται από τον κώδικά µας. Η πληροφορία η οποία περιέχει είναι (από αριστερά προς τα δεξιά) ο κωδικός PDB, η αλυσίδα PDB, που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στη δοµή, το Uniprot Accession και που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στην πρωτεΐνη. 3.1.5 Εύρεση τύπου µεµβρανικής πρωτεΐνης Στη συνέχεια κρατάµε τις πρωτεΐνες οι οποίες είναι µεµβρανικές και γίνεται διαχωρισµός σε κατηγορίες. Τα Uniprot αρχεία τα οποία έχουν συγκεντρωθεί από το προηγούµενο στάδιο κατεβαίνουν τοπικά για περαιτέρω επεξεργασία. Για να ϑεωρηθεί µια πρωτεΐνη ότι είναι µεµβρανική ϑα πρέπει στο πεδίο CC να αναφέρει "SUBCELLULAR LOCATION" και πιο συγκεκριµένα "Membrane", όπως ϕαίνεται στο σχήµα 3.7. Για να γίνει διαχωρισµός σε κατηγορίες γίνεται µελέτη του τί αναφέρεται στο συγκεκριµένο πεδίο. Πιο συγκεκριµένα αν αναφέρει µία από τις ακόλουθες λέξεις κλειδιά : Single-pass, Single span, Singlespan, Singlepass, Single pass, Singlepass τότε ϑεωρείται διαµεµβρανική η οποία διαπερνά µια ϕορά τη µεµβράνη, αν αναφέρει µία από τις ακόλουθες λέξεις κλειδιά : Multi-pass membrane protein, Multi-pass, Multi span, Multispan, Multi-pass, Multi pass, Multipass, Polytopic membrane protein τότε ϑεωρείται διαµεµβρανική η οποία διαπερνά πάνω από µια ϕορά τη µεµβράνη, αν αναφέρει Peripheral membrane protein τότε ϑεωρείται πεϱιφερειακή µεµβρανική πρωτεΐνη, ενώ αν αναφέρει Lipid-anchor τότε ϑεωρείται αγκυροβοληµένη στη µεµβράνη πρωτεΐνη. 25 ΄Ενα πρόβληµα το οποίο συναντάται συχνά στις εγγραφές της Unirprot είναι αυτό των ισοµορφών. Πολλές ϕορές µπορεί να υπάρχουν παραπάνω από ένα πεδία που αναφέρουν "SUBCELLULAR LOCATION" µε το ένα να χαρακτηρίζει την πρωτεΐνη ως "Single-pass" και το άλλο ως "Multi-pass" για παράδειγµα. ΄Οσες εγγραφές παρουσίασαν το συγκεκριµένο πρόβληµα ελέγχθηκαν και χαρακτηρίστηκαν χειροκίνητα. CC CC -!- SUBCELLULAR LOCATION: Membrane; Single-pass type I membrane protein. Σχήµα 3.7: Το πεδίο CC (SUBCELLULAR LOCATION) µιας Uniprot εγγραφής. 3.1.6 Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης Σε επόµενο στάδιο γίνεται χρήση του προγράµµατος DSSP [85] µε σκοπό τον προσδιορισµό της δευτεροταγούς δοµής των χαρακτηριστικών µοριακής αναγνώρισης. Το DSSP είναι ένα πρόγραµµα το οποίο κάνει ανάθεση στοιχείων δευτεροταγούς δοµής στην αµινοξική ακολουθία. Η έξοδος του προγράµµατος DSSP είναι G (310 helix), H (α helix), I (π helix), B (Beta Bridge), E (Beta Bulges), T (Turn), S (Bend), L (Other). Τα χαρακτηριστικά µοριακής αναγνώρισης χωρίζονται σε τέσσερις κατηγορίες όπως έχει αναϕερθεί στην εισαγωγή (α-MoRFs, β -MoRFs, irregular-MoRFs, complexMoRFs). ΄Ετσι τα H, G, I ϑεωρούνται α-χαρακτηριστικά, τα B, E ϑεωρούνται ϐ-χαρακτηριστικά και τα T, S, L ϑεωρούνται χαρακτηριστικά χωρίς κανονική δοµή. Για τον προσδιορισµό της κατηγορίας των χαρακτηριστικών µοριακής αναγνώρισης αθροίζονται οι τιµές που έχει ϐγάλει το DSSP. Αν υπερτεϱούν τα α-χαρακτηριστικά (µε ποσοστό > 1% από τα υπόλοιπα) τότε το χαρακτηριστικό µοριακής αναγνώρισης ανήκει στην κατηγορία α-MoRF, αν υπερτερούν τα ϐ-χαρακτηριστικά (µε ποσοστό > 1% από τα υπόλοιπα) τότε το χαρακτηριστικό µοριακής αναγνώρισης ανήκει στην κατηγορία β MoRF, αν υπερτερούν τα µη κανονικά χαρακτηριστικά (µε ποσοστό > 1% από τα υπόλοιπα) τότε το χαρακτηριστικό µοριακής αναγνώρισης ανήκει στην κατηγορία irregular-MoRF ενώ αν δεν υπερτερεί κάποιο χαρακτηριστικό τότε ανήκει στην κατηγορία complex-MoRF. 26 3.1.7 Εύρεση πρωτεΐνης µε την οποία αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης Για την εύρεση και τον προσδιορισµό της πρωτεΐνης µε την οποία αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης γίνεται και πάλι χρήση του προγράµµατος DSSP και χρησιµοποιείται η τιµή του ASA (Accessible Surface Area) που ϐγάζει ως έξοδο το πρόγραµµα. Η ASA (Accessible Surface Area) ή SASA (Solvent-Accessible Surface Area) είναι η προσβάσιµη από το διαλύτη επιφάνεια [86]. Η ASA υπολογίζεται συνηθέστερα µε τον αλγόριθµο της κυλιόµενης σφαίρας νερού [87]. Για το συγκεκριµένο µέρος της εργασίας γίνεται χρήση των PDB αρχείων τα οποία αντιστοιχούν στους κωδικούς Uniprot που έχουν προκύψει από τα προηγούµενα ϐηµάτα. ΄Ετσι υπάρχει ένα σύνολο από PDB αρχεία τα οποία περιέχουν χαρακτηριστικά µοριακής αναγνώρισης και πιθανές πρωτεΐνες µε τις οποίες αλληλεπιδρούν. Γίνεται διαχωρισµός των PDB αρχείων (πεδίο ATOM) ανάλογα µε την αλυσίδα. Για την αλυσίδα η οποία αντιστοιχεί στο πιθανό χαρακτηριστικό µοριακής αναγνώρισης γίνεται υπολογισµός της ASA. Η ίδια τιµή υπολογίζεται για τις αλυσίδες µε τις οποίες πιθανόν να αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης. Στη συνέχεια ενώνονται τα αρχεία των χαρακτηριστικών µοριακής αναγνώρισης µε τις πιθανές πρωτεΐνες µε τις οποίες πιθανόν να αλληλεπιδρά (µία µία κάθε ϕορά) και υπολογίζεται και πάλι η ASA. Αν η τιµή της ASA του χαρακτηριστικού µοριακής αναγνώρισης αθροιζόµενη µη την τιµή της ASA της πρωτεΐνης µε την οποία αλληλεπιδρά είναι ίση µε την τιµή της ASA του συµπλόκου τότε δεν υπάρχει αλληλεπίδραση. Στην περίπτωση που η τιµή είναι διαφορετική τότε υπάρχει αλληλεπίδραση. ΄Εστω ένα σύµπλοκο το οποίο ϕαίνεται στο σχήµα 3.8. Το Α αλληλεπιδρά µε το Β όταν (Α+Β) 6= (Α)+(Β), ενώ δεν αλληλεπιδρά όταν (Α+Β) = (Α)+(Β) όπου (Α), (Β) οι ASA του χαρακτηριστικού µοριακής αναγνώρισης και της πρωτεΐνης µε την οποία πιθανόν να αλληλεπιδρά και (Α+Β) η ASA του συµπλόκου. Το κατώφλι το οποίο χρησιµοποιήθηκε στην προκειµένη 2 περίπτωση είναι τα 400 Å . 27 Σχήµα 3.8: Πιθανό πρωτεϊνικό σύµπλοκο το οποίο αποτελείται από τρεις αλυσίδες. Την A, τη B και τη C. Το Α αλληλεπιδρά µε το Β όταν (Α+Β) 6= (Α)+(Β), ενώ δεν αλληλεπιδρά όταν (Α+Β) = (Α)+(Β) όπου (Α), (Β) οι ASA του χαρακτηριστικού µοριακής αναγνώρισης και της πρωτεΐνης µε την οποία πιθανόν να αλληλεπιδρά και (Α+Β) η ASA του συµπλόκου. 3.2 Κατασκευή ϐάσης δεδοµένων Η ϐάση δεδοµένων mpMoRFsDB σχεδιάστηκε για την καταχώρηση, οργάνωση και οπτικοποίηση της παραπάνω πληροφορίας. Για το σκοπό αυτό χρησιµοποιήθηκε η γλώσσα προγραµµατισµού mySQL. Το σχεσιακό σχήµα της ϐάσης ϕαίνεται στο σχήµα 3.9. Το κύριος πίνακας της ϐάσης είναι αυτός της πρωτεΐνης (Protein). Η πρωτεΐνη µπορεί να περιέχει ένα ή περισσότερα χαρακτηριστικά µοϱιακής αναγνώρισης. Για το λόγο αυτό σχετίζεται µε τον πίνακα που περιέχει τα χαρακτηριστικά µοριακής αναγνώρισης (MoRF) µε µια σχέση 1 ... Ν. Με παρόµοιο τρόπο ο πίνακας Protein σχετίζεται µε τον πίνακα Cross References. Ο πίνακας Cross References περιλαµβάνει συνδέσµους προς χρήσιµες ϐάσεις δεδοµένων µε πληροφορία σχετική µε την εκάστοτε πρωτεΐνη. Επειδή περισσότεροι από ένας σύνδεσµοι µπορεί να υπάρχουν για µία πρωτεΐνη η σχέση µεταξύ των δύο πινάκων και σε αυτή την περίπτωση είναι 1 ... Ν. 28 Ο πίνακας MoRF ,δηλαδή ο πίνακας των χαρακτηριστικών µοριακής αναγνώρισης, σχετίζεται µε τον πίνακα Partner. Ο πίνακας Partner περιλαµβάνει τις πρωτεΐνες που αλληλεπιδρούν µε το χαρακτηριστικό µοριακής αναγνώρισης. ΄Ενα χαρακτηριστικό µοριακής αναγνώρισης µπορεί να αλληλεπιδρά µε περισσότερες από µία πρωτεΐνες. Για το λόγο αυτό η σχέση µεταξύ των δύο πινάκων είναι 1 ... Ν. Παρόµοια ο πίνακας MoRF σχετίζεται µε τον πίνακα Literature. Ο πίνακας Literature περιλαµβάνει όλες τις δηµοσιεύσεις που είναι διαθέσιµες στην Pubmed και σχετίζονται µε το εκάστοτε PDB αρχείο. Και σε αυτή την περίπτωση η σχέση των δύο πινάκων είναι 1 ... Ν. Σχήµα 3.9: Σχεσιακό σχήµα της ϐάσης δεδοµένων mpMoRFsDB Ο πίνακας (Protein) σχετίζεται µε τους πίνακες MoRF και Cross References και περιλαµβάνει την ακόλουθη πληροφορία. • Accession, το οποίο είναι το Uniprot Accession και χρησιµοποιέιται ως πρωτεύων κλειδί στη ϐάση. 29 • Protein Description, το οποίο είναι το όνοµα της πρωτεΐνης. • Gene Name, το οποίο είναι το όνοµα του γονιδίου. • Organism, το οποίο είναι ο οργανισµός. • NCBI Taxonomy, το οποίο είναι η ταξινοµική µε ϐάση το NCBI . • Sequence, το οποίο είναι η αµινοξική ακολουθία της πρωτεΐνης. • Sequence Length, το οποίο είναι το µήκος της αµινοξικής ακολουϑίας της πρωτεΐνης. • Type, το οποίο είναι ο τύπος της µεµβρανικής πρωτεΐνης • Subcellular Location, περιέχει πληροφορίες σχετικές µε την υποκυτταρική ϑέση. • Topology, περιέχει πληροφορίες σχετικές µε την τοπολογία των διαµεµβρανικών πρωτεϊνών. Ο πίνακας (MoRF) σχετίζεται µε τους πίνακες Partner και Literature και περιλαµβάνει την ακόλουθη πληροφορία. • PDB ID, το οποίο είναι ο κωδικός της PDB στο οποίο υπάρχει το χαρακτηριστικό µοριακής αναγνώρισης. • PDB Chain, το οποίο είναι η αλυσίδα του χαρακτηριστικού µοριακής αναγνώρισης στο PDB αρχείο. Τα PDB ID, PDB Chain είναι τα πρωτεύοντα κλειδιά του πίνακα MoRF. • Uniprot Start, είναι η ϑέση που ξεκινάει το χαρακτηριστικό µοριακής αναγνώρισης σε σχέση µε την πρωτεϊνική ακολουθία (της Uniprot). • Uniprot End, είναι η ϑέση που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης σε σχέση µε την πρωτεϊνική ακολουθία (της Uniprot). • Type, το οποίο είναι η κατηγορία στην οποία ανήκει το χαρακτηριστικό µοριακής αναγνώρισης. • Uniprot Accession, το οποίο είναι το Uniprot Accession της πρωτεΐνης στην οποία ανήκει το χαρακτηριστικό µοριακής αναγνώρισης. Ο πίνακας (Partner) σχετίζεται µε τον πίνακα MoRF και περιλαµβάνει την ακόλουθη πληροφορία. 30 • PDB ID, το οποίο είναι ο PDB κωδικός της πρωτεΐνης που αλληλεπιδρά µε το χαρακτηριστικό µοριακής αναγνώρισης. • PDB Chain, το οποίο είναι η αλυσίδα στο αρχείο PDB της πρωτεΐνης που αλληλεπιδρά µε το χαρακτηριστικό µοριακής αναγνώρισης. • Accession, είναι ο Uniprot κωδικός της πρωτεΐνης µε την οποία αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης. • MoRF ASA, είναι η προσβάσιµη από το διαλύτη επιφάνεια του χαρακτηριστικού µοριακής αναγνώρισης. • Partner ASA, είναι η προσβάσιµη από το διαλύτη επιφάνεια της πρωτεΐνης που αλληλεπιδρά µε το χαρακτηριστικό µοριακής αναγνώρισης. • Complex ASA, είναι η προσβάσιµη από το διαλύτη επιφάνεια του συµπλόκου. • MoRF PDB ID, το οποίο είναι ο κωδικός της PDB στο οποίο υπάρχει το χαρακτηριστικό µοριακής αναγνώρισης. • MoRF PDB Chain, το οποίο είναι η αλυσίδα του χαρακτηριστικού µοριακής αναγνώρισης στο PDB αρχείο. Τα PDB ID, PDB Chain, MoRF PDB ID, MoRF PDB Chain χρησιµοποιούνται ως πρωτεύοντα κλειδιά στον πίνακα. Ο πίνακας (Literature) σχετίζεται µε τον πίνακα MoRF και περιλαµβάνει την ακόλουθη πληροφορία. • Literature ID, το οποίο είναι το πρωτεύων κλειδί του πίνακα. • Pubmed ID, το οποίο είναι ο κωδικός της δηµοσίευσης στην Pubmed. • Text, το οποίο είναι η δηµοσίευση στην Pubmed. • PDB ID, το οποίο είναι ο κωδικός PDB στον οποίο αναφέρεται η δηµοσίευση. Ο πίνακας (Cross References) σχετίζεται µε τον πίνακα Protein και πεϱιλαµβάνει την ακόλουθη πληροφορία. • Cross References ID, το οποίο είναι το πρωτεύων κλειδί του πίνακα. 31 • DB, το οποίο είναι το όνοµα της ϐάση δεδοµένων στην οποία αναϕέρεται η πρωτεΐνη. • Reference, το οποίο είναι ο κωδικός της ϐάση δεδοµένων στην οποία αναφέρεται η πρωτεΐνη. • Protein Accession, είναι το Uniprot Accession της πρωτεΐνης. 32 Κεφάλαιο 4 Αποτελέσµατα 4.1 mpMoRFsDB Η ϐάση δεδοµένων mpMoRFsDB [3] είναι δηµόσια διαθέσιµη στην ιστοσελίδα : http://bioinformatics.biol.uoa.gr/mpMoRFsDB/ 4.1.1 Αρχική σελίδα mpMoRFsDB Η αρχική σελίδα της ϐάσης ϕαίνεται στην εικόνα 4.1. Μέσω αυτής ο χρήστης µπορεί να πλοηγηθεί στα εργαλεία τα οποία είναι διαθέσιµα. Πατώντας το κουµπί "Browse" ο χρήστης µπορεί να δει όλες τις εγγραϕές της ϐάσης δεδοµένων, ενώ µπορεί να εφαρµόσει και ορισµένα ϕίλτρα. Πατώντας το κουµπί "Search" δίνεται η δυνατότητα στο χρήστη να κάνει σύνθετες αναζητήσεις έναντι της ϐάσης δεδοµένων. Μέσω της επιλογής "Blast Search" είναι δυνατή η εύρεση οµόλογων αλληλουχιών. Μέσω του "Download" δίνεται η δυνατότητα στο χρήστη να κατεβάσει τοπικά τη ϐάση δεδοµένων για περαιτέρω επεξεργασία. Ο χρήστης µπορεί να κατεβάσει τη ϐάση σε XML (σχήµα 4.13) και σε Text format (σχήµα 4.12). 4.1.2 Browse mpMoRFsDB Πατώντας το κουµπί "Browse" ο χρήστης µπορεί να δει όλες τις εγγραφές της ϐάσης δεδοµένων όπως ϕαίνεται στο σχήµα 4.2 33 Σχήµα 4.1: Αρχική σελίδα της ϐάσης δεδοµένων mpMoRFsDB Φίλτρα µπορούν να εφαρµοστούν, είτε ϐάσει του τύπου της µεµβρανικής πρωτεΐνης, είτε ϐάσει της κατηγοριοποίησης των χαρακτηριστικών µοριακής αναγνώρισης ανάλογα µε τη δευτεροταγή τους δοµή. Κάτι τέτοιο ϕαίνεται στο σχήµα 4.3 Αν ο χρήστης επιλέξει "Type of membrane protein" τότε του δίνεται η επιλογή να διαλέξει ανάµεσα σε περιφερειακές µεµβρανικές πρωτεΐνες και σε διαµεµβρανικές πρωτεΐνες που διαπερνούν µία ή περισσότερες ϕορές τη µεµβράνη. Κάτι τέτοιο ϕαίνεται στο σχήµα 4.4. Αντίστοιχα αν ο χρήστης επιλέξει "Secondary structure of MoRF" του δίνεται η επιλογή να διαλέξει ανάµεσα σε α-MoRFs, β -MoRFs, irregular-MoRFs και complex-MoRFs. Κάτι τέτοιο ϕαίνεται στο σχήµα 4.5. Το αποτέλεσµα αν επιλέγαµε complexMoRFs ϕαίνεται στο σχήµα 4.6. 4.1.3 Search mpMoRFsDB Μέσω του "Search" δίνεται η δυνατότητα στο χρήστη να κάνει σύνθετες αναζητήσεις έναντι της ϐάσης δεδοµένων. Οι δυνατότητες επιλογής είναι 34 Σχήµα 4.2: Το εργαλείο Browse της ϐάσης δεδοµένων mpMoRFsDB Σχήµα 4.3: Φίλτρα που εφαρµόζονται στο Browse της mpMoRFsDB Σχήµα 4.4: Φίλτρο ανάλογα µε τον τύπο των µεµβρανικών πρωτεϊνών στο Browse της mpMoRFsDB αρκετές όπως ϕαίνεται και στο σχήµα 4.7. Ο χρήστης µπορεί να επιλέξει ανάλογα µε τον τύπο της πρωτεΐνης. Του δίνεται η επιλογή να διαλέξει ανάµεσα σε περιφερειακές µεµβρανικές πρωτεΐνες και σε διαµεµβρανικές 35 Σχήµα 4.5: Φίλτρο ανάλογα µε τον τύπο των χαρακτηριστικών µοριακής αναγνώρισης πρωτεϊνών στο Browse της mpMoRFsDB Σχήµα 4.6: ΄Ολες οι πρωτεΐνες που περιέχουν complex-MoRFs στην mpMoRFsDB πρωτεΐνες που διαπερνούν µία ή περισσότερες ϕορές τη µεµβράνη. Ακόµη του δίνεται η επιλογή να διαλέξει ανάµεσα σε πρωτεΐνες οι οποίες περιέχουν α-MoRFs, β -MoRFs, irregular-MoRFs ή complex-MoRFs. Επιπρόσθετα η αναζήτηση µπορεί να γίνεται µε ϐάση το µήκος των χαρακτηριστικών µοριακής αναγνώρισης, το όνοµα της πρωτεΐνης, το όνοµα του γονιδίου, τον οργανισµό στον οποίο ανήκει, το Uniprot Accession, τον κωδικό PDB ή συνδυασµό των παραπάνω. Σχήµα 4.7: Παράδειγµα χρήσης του Search στην mpMoRFsDB. Η αναϹήτηση µπορεί να γίνει αρκετά σύνθετη όπως ϕαίνεται. 36 4.1.4 Entry mpMoRFsDB Το παράδειγµα µιας εγγραφής ϕαίνεται στο σχήµα 4.8. Αυτή είναι η κύρια σελίδα στην οποία εµφανίζονται οι εγγραφές στη ϐάση δεδοµένων mpMoRFsDB. Στο πάνω αριστερά σηµείο εµφανίζονται πληροφορίες σχετικά µε την πρωτεΐνη. Οι συγκεκριµένες πληροφορίες προέρχονται από τη ϐάση δεδοµένων Uniprot [84]. Πιο συγκεκριµένα οι πληροφορίες οι οποίες είναι διαθέσιµες είναι το όνοµα της πρωτεΐνης (Protein Name), το όνοµα του γονιδίου (Gene Name), ο οργανισµός (Organism), η ταξινοµική µε ϐάση το NCBI (NCBI Taxonomy), η πρωτεϊνική ακολουθία (Sequence), το µήκος της πρωτεϊνικής ακολουθίας (Sequence Length) και το Uniprot Accession. Ακόµα προσδιορίζεται ο τύπος της µεµβρανικής πρωτεΐνης καθώς και ο αριθµός των χαρακτηριστικών µοριακής αναγνώρισης που περιέχει η συγκεκριµένη εγγραφή. Στο πάνω δεξιά µέρος της εκάστοτε εγγραφής έχει ενσωµατωθεί µία Jmol [80] µικροεφαρµογή (applet), για την καλύτερη οπτικοποίηση των δοµών. Τα χαρακτηριστικά µοριακής αναγνώρισης σηµαίνονται µε κόκκινο χρώµα, ενώ οι πρωτεΐνες µε τις οποίες αλληλεπιδρούν µε πράσινο χρώµα. Παρέχονται σύνδεσµοι προς ϐάσεις δεδοµένων οι οποίες περιέχουν χρήσιµες πληροφορίες σχετικές µε την πρωτεΐνη. Πιο συγκεκριµένα παρέχονται σύνδεσµοι προς τις ϐάσεις : • PhosphoSite [88] η οποία περιλαµβάνει πειραµατικά δεδοµένα για ϑέσεις ϕωσφορυλίωσης πρωτεΐνών που προέρχονται από άνθρωπο και ποντίκι • Pfam [89] η οποία περιέχει πρωτεϊνικές οικογένειες • PROSITE [90] η οποία περιλαµβάνει µία µεγάλη συλλογή µε υπογραφές µε ϐιολογικό νόηµα, οι οποίες περιγράφονται ως patterns ή profiles, • InterPro [91] η οποία ενσωµατώνει πολύπλευρη πληροφόρηση σχετικά µε πρωτεϊνικές οικογένειες, αυτοτελείς δοµικές µονάδες (domains) και λειτουργικές ϑέσεις (functional sites) • SUPFAM [92] η οποία περιλαµβάνει τις σχέσεις υπεροικογένειας µεταξύ οικογενειών αυτοτελών δοµικών µονάδων µε γνωστή ή άγνωστη 37 3D δοµή. • IntAct [93] η οποία περιέχει πειραµατικά δεδοµένα από πρωτεϊνικές αλληλεπιδράσεις τα οποία προέρχονται είτε από τη ϐιβλιογραφία, είτε από τις άµεσες καταθέσεις των δεδοµένων. • DIP [94] η οποία συγκεντρώνει πειραµατικά επιβεβαιωµένες αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών. • MINT [95] η οποία περιέχει λειτουργικές αλληλεπιδράσεις µεταξύ πρωτεϊνών. • STRING [96] η οποία περιέχει τόσο πειραµατικά επιβεβαιωµένες, όσο και αποτελέσµατα από αλγόριθµους πρόγνωσης πληροφορίες σχετικά µε αλληλεπιδράσεις πρωτεϊνών. • OMIM [97] η οποία περιέχει ανθρώπινα γονίδια και τα συσχετίζει µε γενετικές διαταραχές. • Drugbank [98] η οποία περιέχει πληροφορίες γύρω από ϕάρµακα και στόχους ϕαρµάκων. Οι πρωτεΐνες οι οποίες περιλαµβάνονται στη ϐάση δεδοµένων mpMoRFsDB περιέχουν όλες τουλάχιστον ένα χαρακτηριστικό µοριακής αναγνώρισης. Τα χαρακτηριστικά µοριακής αναγνώρισης καθώς και οι πρωτεΐνες µε τις οποίες αλληλεπιδρούν εµφανίζονται στη σελίδα της εκάστοτε εγγραφής. Πιο συγκεκριµένα είναι διαθέσιµα ο κωδικός της PDB (PDB ID) µαζί µε την αλυσίδα (chain), από που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στην αλληλουχία, ο τύπος του χαρακτηριστικού µοϱιακής αναγνώρισης καθώς και ο PDB κωδικός, η αλυσίδα και ο κωδικός της πρωτεΐνης (Uniprot Accession) µε την οποία αλληλεπιδρά. ∆ύο ακόµα σηµαντικά στοιχεία είναι διαθέσιµα στην κάθε εγγραφή. Το πρώτο είναι ότι στις διαµεµβρανικές πρωτεΐνες έχει προσδιοριστεί η τοπολογία της πρωτεΐνης µε χρήση πειραµατικά επιβεβαιωµένων δεδοµένων τα οποία έχουν εξορυχθεί από τη ϐάση δεδοµένων ExTopoDB [99] καθώς και αποτελέσµατα από αλγόριθµους πρόγνωσης και πιο συγκεκριµένα από τα SignalP [100], TOPCONS [101] και Phobius [102]. ΄Ετσι δηµιουργείται ένα αρχείο τοπολογίας (όπως ϕαίνεται στο κάτω µέρος του σχήµατος 4.8) το οποίο δείχνει το/τα διαµεµβρανικά τµήµατα τα οποία συµβολίζονται µε 38 "M", τα εξοκυττάρια τα οποία συµβολίζονται µε "o" τα ενδοκυττάρια τα οποία συµβολίζονται µε "i" και το signal peptide το οποίο συµβολίζεται µε "s", όπου αυτό υπάρχει. Συνδυαστικά µε την τοπολογία έχει προσδιοριστεί η ϑέση του χαρακτηριστικού ή των χαρακτηριστικών µοριακής αναγνώρισης πάνω στην πρωτεΐνη και τα οποία συµβολίζονται µε "#". Το δεύτερο στοιχείο είναι ότι υπάρχουν ϐιβλιογραφικές αναφορές για τις δοµές της εκάστοτε εγγραφής. Σχήµα 4.8: Παράδειγµα εγγραφής στη ϐάση δεδοµένων mpMoRFsDB. Uniprot Accession: P01730. 4.1.5 Blast Search mpMoRFsDB Με τη χρήση του εργαλείου Blast [103] δίνεται η δυνατότητα στο χρήστη να εισάγει µια πρωτεϊνική ακολουθία και να αναζητήσει στη ϐάση mp39 MoRFsDB οµόλογες πρωτεΐνες. Είσοδος στο Blast είναι η αµινοξική ακολουθία σε FASTA format όπως ϕαίνεται και στο σχήµα 4.9. Υπάρχει ακόµα η δυνατότητα ο χρήστης να επιλέξει το κατώφλι (e-value) το οποίο επιθυµεί να χρησιµοποιήσει. Σχήµα 4.9: Η σελίδα του Blast Search της mpMoRFsDB όπου ο χρήστης µπορεί να εισάξει µια αλληλουχία σε FASTA format και να αναζητήσει οµόλογες έναντι της mpMoRFsDB. Επιπλέον δίνεται η δυνατότητα να επιλέξει συγκεκριµένο κατώφλι για το e-value των αποτελεσµάτων που ϑα εµφανιστούν. Η αναζήτηση καταλήγει σε έναν πίνακα µε τις πρωτεΐνες που είχαν σηµαντική στοίχιση µε την πρωτεΐνη που υποβλήθηκε όπως ϕαίνεται και στο σχήµα 4.10. Η λίστα η οποία εµφανίζεται περιέχει τις πρωτεΐνες µε τις οποίες στοιχίστηκε η πρωτεΐνη καθώς και κάποιες παραπάνω πληροφορίες για αυτή. Πατώντας το κουµπί Show/Hide εµφανίζονται περισσότερες πληροφοϱίες για την κάθε στοίχιση που έχει πραγµατοποιηθεί όπως ϕαίνεται στο σχήµα 4.11 40 Σχήµα 4.10: Ο πίνακας µε τα αποτελέσµατα των στοιχίσεων όπου δίνονται πληροφορίες για τις πρωτεΐνες καθώς και στατιστικά στοιχεία για την στοίχιση. 41 Σχήµα 4.11: Αναλυτικές πληροφορίες µιας στοίχισης µέσω του εργαλείου BLAST 4.1.6 Download mpMoRFsDB Η ϐάση δεδοµένων mpMoRFsDB µπορεί να κατέβει τοπικά για περαιτέρω επεξεργασία. Οι µορφές των αρχείων τις οποίες µπορεί να κατεβάσει ο χρήστης είναι δύο. Text ή XML. Τα αρχεία κατεβαίνουν είτε όλα µαζί από τη σελίδα "Download" ή µπορεί ο χρήστης να τα κατεβάσει ένα ένα από την εκάστοτε εγγραφή. 42 Protein Name: Proteinase-activated receptor 3 Gene Name: F2rl2 Organism: Mus musculus Taxonomy: 10090 Sequence: MKILILVAAGLLFLPVTVCQSGINVSDNSAKPTLTIKSFNGGPQNTFEEFPLSDIE GWTGATTTIKAECPEDSISTLHVNNATIGYLRSSLSTQVIPAIYILLFVVGVPANI VTLWKLSLRTKSISLVIFHTNLAIADLLFCVTLPFKIAYHLNGNNWVFGEVTCRIT TVVFYGNMYCAILILTCMGINRYLATAHPFTYQKLPKRSFSMLMCGMVWVMVFLYM LPFVILKQEYHLVHSEITTCHDVVDACESPSSFRFYYFVSLAFFGFLIPFVIIIFC YTTLIHKLKSKDRIWLGYIKAVLLILVIFTICFAPTNIILVIHHANYYYHNTDSLY FMYLIALCLGSLNSCLDPFLYFVMSKVVDQLNP Sequence Length: 369 aa Uniprot Accession: O08675 Type: Multi Spanning Total MoRFs: 1 PhosphoSite: O08675 Pfam: PF00001 PROSITE: PS00237 PS50262 InterPro: IPR000276 IPR017452 IPR003943 IPR003912 SUPFAM: IntAct: DIP: MINT: MINT-261941 STRING: OMIM: DrugBank: MoRF PDB:Chain: 2PUX:C Start: 44 End: 56 Type: irregular Partner: 2PUX:B (P19221) References: 17606903 // Σχήµα 4.12: MoRFsDB Παράδειγµα Text αρχείου της ϐάσης δεδοµένων mp- 43 <Protein> <ProteinName>Proteinase-activated receptor 3</ProteinName> <GeneName>F2rl2</GeneName> <Organism>Mus musculus</Organism> <Taxonomy>10090</Taxonomy> <Sequence> MKILILVAAGLLFLPVTVCQSGINVSDNSAKPTLTIKSFNGGPQNTFEEFPLSDIE GWTGATTTIKAECPEDSISTLHVNNATIGYLRSSLSTQVIPAIYILLFVVGVPANI VTLWKLSLRTKSISLVIFHTNLAIADLLFCVTLPFKIAYHLNGNNWVFGEVTCRIT TVVFYGNMYCAILILTCMGINRYLATAHPFTYQKLPKRSFSMLMCGMVWVMVFLYM LPFVILKQEYHLVHSEITTCHDVVDACESPSSFRFYYFVSLAFFGFLIPFVIIIFC YTTLIHKLKSKDRIWLGYIKAVLLILVIFTICFAPTNIILVIHHANYYYHNTDSLY FMYLIALCLGSLNSCLDPFLYFVMSKVVDQLNP </Sequence> <SequenceLength>369 aa</SequenceLength> <Accession>O08675</Accession> <Type>Multi Spanning</Type> <TotalMoRFs>1</TotalMoRFs> <PhosphoSite>O08675</PhosphoSite> <Pfam>PF00001</Pfam> <PROSITE>PS00237</PROSITE> <PROSITE>PS50262</PROSITE> <InterPro>IPR000276</InterPro> <InterPro>IPR017452</InterPro> <InterPro>IPR003943</InterPro> <InterPro>IPR003912</InterPro> <MoRF> <PdbID>2PUX</PdbID> <PdbChain>C</PdbChain> <Start>44</Start> <End>56</End> <Type>irregular</Type> <Partner> <PdbID>2PUX</PdbID> <PdbChain>B</PdbChain> <Accession>P19221</Accession> </Partner> </MoRF> <Reference>17606903</Reference> </Protein> Σχήµα 4.13: MoRFsDB Παράδειγµα XML αρχείου της ϐάσης δεδοµένων mp- 44 4.2 Στατιστικά Η ϐάση δεδοµενων mpMoRFsDB περιλαµβάνει συνολικά 173 µεµβρανικές πρωτεΐνες, οι οποίες περιέχουν 244 χαρακτηριστικά µοριακής αναγνώρισης. Η πλειονότητα των µεµβρανικών πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης είναι είτε περιφερειακές µεµβρανικές πρωτεΐνες, είτε διαµεµβρανικές πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη. Πιο συγκεκριµένα 71 είναι περιφερειακές µεµβρανικές πρωτεΐνες, 70 είναι διαµεµβρανικές που διαπερνούν µία ϕορά τη µεµβράνη και 32 είναι διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη (πίνακας 4.1). Τύπος µεµβρανικής πρωτεΐνης Αριθµός 71 Περιφερειακή µεµβρανική ∆ιαµεµβρανική που διαπερνά µία ϕορά τη µεµβράνη ∆ιαµεµβρανική που διαπερνά περισσότερες από µία ϕορές τη µεµβράνη 70 32 Πίνακας 4.1: ∆ιαχωρισµός µεµβρανικών πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης. ∆ιαχωρισµός µπορεί να γίνει και µε ϐάση τα στοιχεία δευτεροταγούς δοµής των χαρακτηριστικών µοριακής αναγνώρισης. Στην πλειοψηφία τους δηµιουργούν είτε α-έλικες, οπότε ϑεωρούνται α-MoRFs είτε δε σχηµατίζουν κάποια συγκεκριµένη δοµή, οπότε ϑεωρούνται irregular-MoRFs. Πιο συγκεκριµένα το 33.47% των χαρακτηριστικών µοριακής αναγνώρισης κατηγοριοποιούνται ως α-MoRFs, το 3.83% κατηγοριοποιούνται ως β -MoRFs, το 60.48% κατηγοριοποιούνται ως irregular-MoRFs και το 2.22% κατηγοϱιοποιούνται ως complex-MoRFs (πίνακας 4.2). Από τις 173 πρωτεΐνες οι 29 είναι ιϊκές. Χαρακτηριστικά µοριακής αναγνώρισης µικρού µήκους (δηλαδή µέχρι 30 αµινοξικά κατάλοιπα) εµφανίζονται σε 114 από τις 173 µεµβρανικές πρωτεΐνες, ενώ µεγάλου µήκους (δηλαδή πάνω από 30 αµινοξικά κατάλοιπα) εµφανίζονται σε 72 από τις 173 µεµβρανικές πρωτεΐνες (εικόνα 4.14). 45 Χαρακτηριστικά µοριακής αναγνώρισης Ποσοστά α-MoRF 33.47% β -MoRF 3.83% irregular-MoRF 60.48% complex-MoRF 2.22% Πίνακας 4.2: ∆ιαχωρισµός χαρακτηριστικών µοριακής αναγνώρισης µε ϐάση τα στοιχεία δευτεροταγούς δοµής 114 72 0 20 40 60 80 100 120 140 160 180 Σχήµα 4.14: Με κόκκινο χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης µικρού µήκους (µέχρι 30 αµινοξικά κατάλοιπα). Με µπλε χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηϱιστικά µοριακής αναγνώρισης µεγάλου µήκους (πάνω από 30 αµινοξικά κατάλοιπα). Από τις 70 διαµεµβρανικές που διαπερνούν µία ϕορά τη µεµβράνη οι 17 έχουν ϱόλο υποδοχέα (receptors), ενώ από τις 32 διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη οι 7 είναι υποδοχείς (receptors), ενώ από τις 71 περιφερειακές µεµβρανικές πρωτεΐνες οι 3 είναι υποδοχείς (receptors) (πίνακας 4.3). Τύπος µεµβρανικής πρωτεΐνης Περιφερειακή µεµβρανική ∆ιαµεµβρανική που διαπερνά µία ϕοϱά τη µεµβράνη ∆ιαµεµβρανική που διαπερνά περισσότερες από µία ϕορές τη µεµβράνη Αριθµός Ποσοστό 3/71 4.23% 17/70 24.29% 7/32 21.86% Πίνακας 4.3: Ποσοστά υποδοχέων στις µεµβρανικές πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης. Από τις 32 διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη οι 13 λειτουργούν ως κανάλια ιόντων. Οι περισσότερες από 46 αυτές (9/13) είναι κανάλια καλίου. Από τις 173 πρωτεΐνες οι 75 προέρχονται από τον άνθρωπο. Από αυτές οι 23 είναι περιφερειακές µεµβρανικές πρωτεΐνες, οι 41 είναι διαµεµβρανικές που διαπερνούν µία ϕορά τη µεµβράνη και οι 15 είναι διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη (πίνακας 4.4). Και οι 75 έχουν σύνδεσµο προς τη ϐάση δεδοµένων OMIM [97]. Τύπος µεµβρανικής πρωτεΐνης Αριθµός 23 Περιφερειακή µεµβρανική ∆ιαµεµβρανική που διαπερνά µία ϕορά τη µεµβράνη ∆ιαµεµβρανική που διαπερνά περισσότερες από µία ϕορές τη µεµβράνη 41 15 Πίνακας 4.4: ∆ιαχωρισµός µεµβρανικών πρωτεϊνών (οργανισµός Homo sapiens) που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης. Αν µελετήσουµε τις πρωτεΐνες της ϐάσης mpMoRFsDB ως προς τις λειτουργίες τους, ϑα παρατηρήσουµε ότι εµπλέκονται κυρίως στην πρόσδεση (binding) πρωτεϊνών και µικρών µορίων κάτι το οποίο είναι αναµενόµενο. Κάποιες άλλες σηµαντικές λειτουργίες ακολουθούν. Αυτές είναι καταλυτική δραστικότητα (catalytic activity), ϱύθµιση λειτουργίας καναλιών (channel regulator activity), ενζυµική δραστικότητα (enzyme regulator activity), δράση υποδοχέα (receptor activity), µετατροπή σήµατος (signal transducer activity), δοµικός ϱόλος (structural molecule activity), ϱόλο µεταφορέα (transporter activity). 47 48 Κεφάλαιο 5 Συµπεράσµατα Μελλοντική Εργασία Η παρούσα εργασία κάλυψε ένα µικρό κενό στον ϱαγδαία αναπτυσσόµενο τοµέα των εγγενώς µη δοµηµένων πρωτεϊνών. Η δηµιουργία της ϐάσης δεδοµένων mpMoRFsDB [3] ϑα ϐοηθήσει στην περαιτέρω µελέτη των µεµβρανικών πρωτεϊνών που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης και ϑα ϐοηθήσει στην περαιτέρω µελέτη των εγγενώς µη δοµηµένων πρωτεϊνών [104]. Παρόλη τη χρησιµότητα της ϐάσης, η mpMoRFsDB είναι µια πολύ εξειδικευµένη ϐάση δεδοµένων. Αυτό το οποίο ϑα µπορούσε να γίνει στο µέλλον είναι η δηµιουργία µιας ϐάσης δεδοµένων που να περιλαµβάνει γενικά πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης. Τέλος τα δεδοµένα της ϐάσης mpMoRFsDB µπορούν να αξιοποιηθούν σε αλγόριθµους πρόγνωσης για τον προσδιορισµό χαρακτηριστικών µοριακής αναγνώρισης σε άγνωστες πρωτεΐνες. 49 50 Κεφάλαιο 6 Βιβλιογραφία [1] Α. Mohan, C. J. Oldfield, P. Radivojac, V. Vacic, M. S. Cortese, A. K. Dunker, and V. N. Uversky Journal of molecular biology. [2] I. Kotta-Loizou, G. N. Tsaousis, and S. J. Hamodrakas, ‘‘Analysis of Molecular Recognition Features (MoRFs) in membrane proteins.,’’ Biochimica et biophysica acta, vol. null, pp. 798–807, Apr. 2013. [3] F. Gypas, G. N. Tsaousis, and S. J. Hamodrakas, ‘‘mpMoRFsDB: A database of Molecular Recognition Features in Membrane Proteins,’’ Bioinformatics, July 2013. [4] V. N. Uversky, ‘‘Intrinsically disordered proteins from A to Z.,’’ The international journal of biochemistry & cell biology, vol. 43, pp. 1090–103, Aug. 2011. [5] P. Romero, Z. Obradovic, C. R. Kissinger, J. E. Villafranca, E. Garner, S. Guilliot, and A. K. Dunker, ‘‘Thousands of proteins likely to have long disordered regions.,’’ Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing, pp. 437–48, Jan. 1998. [6] C. J. Oldfield, Y. Cheng, M. S. Cortese, P. Romero, V. N. Uversky, and A. K. Dunker, ‘‘Coupled folding and binding with alpha-helixforming molecular recognition elements.,’’ Biochemistry, vol. 44, pp. 12454–70, Sept. 2005. [7] A. K. Dunker, Z. Obradovic, P. Romero, E. C. Garner, and C. J. Brown, ‘‘Intrinsic protein disorder in complete genomes.,’’ Genome 51 informatics. Workshop on Genome Informatics, vol. 11, pp. 161–71, Jan. 2000. [8] D. F. Clayton and J. M. George, ‘‘The synucleins: a family of proteins involved in synaptic function, plasticity, neurodegeneration and disease,’’ Trends in Neurosciences, vol. 21, pp. 249–254, June 1998. [9] A. K. Dunker, J. D. Lawson, C. J. Brown, R. M. Williams, P. Romero, J. S. Oh, C. J. Oldfield, A. M. Campen, C. M. Ratliff, K. W. Hipps, J. Ausio, M. S. Nissen, R. Reeves, C. Kang, C. R. Kissinger, R. W. Bailey, M. D. Griswold, W. Chiu, E. C. Garner, and Z. Obradovic, ‘‘Intrinsically disordered protein.,’’ Journal of molecular graphics & modelling, vol. 19, pp. 26–59, Jan. 2001. [10] R. M. Williams, Z. Obradovi, V. Mathura, W. Braun, E. C. Garner, J. Young, S. Takayama, C. J. Brown, and A. K. Dunker, ‘‘The protein non-folding problem: amino acid determinants of intrinsic order and disorder.,’’ Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing, pp. 89–100, Jan. 2001. [11] P. Romero, Z. Obradovic, X. Li, E. C. Garner, C. J. Brown, and A. K. Dunker, ‘‘Sequence complexity of disordered protein.,’’ Proteins, vol. 42, pp. 38–48, Jan. 2001. [12] P. Radivojac, L. M. Iakoucheva, C. J. Oldfield, Z. Obradovic, V. N. Uversky, and A. K. Dunker, ‘‘Intrinsic disorder and functional proteomics.,’’ Biophysical journal, vol. 92, pp. 1439–56, Mar. 2007. [13] V. Vacic, V. N. Uversky, A. K. Dunker, and S. Lonardi, ‘‘Composition Profiler: a tool for discovery and visualization of amino acid composition differences.,’’ BMC bioinformatics, vol. 8, p. 211, Jan. 2007. [14] A. K. Dunker, M. S. Cortese, P. Romero, L. M. Iakoucheva, and V. N. Uversky, ‘‘Flexible nets. The roles of intrinsic disorder in protein interaction networks.,’’ The FEBS journal, vol. 272, pp. 5129– 48, Oct. 2005. [15] V. N. Uversky, C. J. Oldfield, and A. K. Dunker, ‘‘Showing your ID: intrinsic disorder as an ID for recognition, regulation and cell signaling.,’’ Journal of molecular recognition : JMR, vol. 18, no. 5, pp. 343–84. 52 [16] A. Patil and H. Nakamura, ‘‘Disordered domains and high surface charge confer hubs with the ability to interact with multiple proteins in interaction networks.,’’ FEBS letters, vol. 580, pp. 2041–5, Apr. 2006. [17] D. Ekman, S. Light, A. K. Bj¨orklund, and A. Elofsson, ‘‘What properties characterize the hub proteins of the protein-protein interaction network of Saccharomyces cerevisiae?,’’ Genome biology, vol. 7, p. R45, Jan. 2006. [18] C. Haynes, C. J. Oldfield, F. Ji, N. Klitgord, M. E. Cusick, P. Radivojac, V. N. Uversky, M. Vidal, and L. M. Iakoucheva, ‘‘Intrinsic disorder is a common feature of hub proteins from four eukaryotic interactomes.,’’ PLoS computational biology, vol. 2, p. e100, Aug. 2006. ´ [19] Z. Dosztanyi, J. Chen, A. K. Dunker, I. Simon, and P. Tompa, ‘‘Disorder and sequence repeats in hub proteins and their implications for network evolution.,’’ Journal of proteome research, vol. 5, pp. 2985–95, Nov. 2006. [20] G. P. Singh, M. Ganapathi, and D. Dash, ‘‘Role of intrinsic disorder in transient interactions of hub proteins.,’’ Proteins, vol. 66, pp. 761–5, Mar. 2007. [21] G. P. Singh and D. Dash, ‘‘Intrinsic disorder in yeast transcriptional regulatory network.,’’ Proteins, vol. 68, pp. 602–5, Aug. 2007. [22] V. N. Uversky, C. J. Oldfield, and A. K. Dunker, ‘‘Intrinsically disordered proteins in human diseases: introducing the D2 concept.,’’ Annual review of biophysics, vol. 37, pp. 215–46, Jan. 2008. [23] U. Midic, C. J. Oldfield, A. K. Dunker, Z. Obradovic, and V. N. Uversky, ‘‘Protein disorder in the human diseasome: unfoldomics of human genetic diseases.,’’ BMC genomics, vol. 10 Suppl 1, p. S12, Jan. 2009. [24] V. N. Uversky, A. Roman, C. J. Oldfield, and A. K. Dunker, ‘‘Protein intrinsic disorder and human papillomaviruses: increased amount of disorder in E6 and E7 oncoproteins from high risk HPVs.,’’ Journal of proteome research, vol. 5, pp. 1829–42, Aug. 2006. 53 [25] L. M. Iakoucheva, C. J. Brown, J. D. Lawson, Z. Obradovi´c, and A. K. Dunker, ‘‘Intrinsic disorder in cell-signaling and cancerassociated proteins.,’’ Journal of molecular biology, vol. 323, pp. 573–84, Oct. 2002. [26] Y. Cheng, T. LeGall, C. J. Oldfield, A. K. Dunker, and V. N. Uversky, ‘‘Abundance of intrinsic disorder in protein associated with cardiovascular disease.,’’ Biochemistry, vol. 45, pp. 10448– 60, Sept. 2006. [27] V. N. Uversky, ‘‘Intrinsic disorder in proteins associated with neurodegenerative diseases.,’’ Frontiers in bioscience : a journal and virtual library, vol. 14, pp. 5188–238, Jan. 2009. [28] A. Mohan, W. J. Sullivan, P. Radivojac, A. K. Dunker, and V. N. Uversky, ‘‘Intrinsic disorder in pathogenic and non-pathogenic microbes: discovering and analyzing the unfoldomes of earlybranching eukaryotes.,’’ Molecular bioSystems, vol. 4, pp. 328–40, Apr. 2008. [29] B. Xue, R. W. Williams, C. J. Oldfield, G. K.-M. Goh, A. K. Dunker, and V. N. Uversky, ‘‘Viral disorder or disordered viruses: do viral proteins possess unique features?,’’ Protein and peptide letters, vol. 17, pp. 932–51, Aug. 2010. [30] G. K.-M. Goh, A. K. Dunker, and V. N. Uversky, ‘‘A comparative analysis of viral matrix proteins using disorder predictors.,’’ Virology journal, vol. 5, p. 126, Jan. 2008. [31] G. K.-M. Goh, A. K. Dunker, and V. N. Uversky, ‘‘Protein intrinsic disorder and influenza virulence: the 1918 H1N1 and H5N1 viruses.,’’ Virology journal, vol. 6, p. 69, Jan. 2009. [32] P. Tompa, ‘‘Intrinsically unstructured proteins.,’’ Trends in biochemical sciences, vol. 27, pp. 527–33, Oct. 2002. [33] P. Tompa and P. Csermely, ‘‘The role of structural disorder in the function of RNA and protein chaperones.,’’ FASEB journal : official publication of the Federation of American Societies for Experimental Biology, vol. 18, pp. 1169–75, Aug. 2004. [34] A. K. Dunker, C. J. Brown, and Z. Obradovic, ‘‘Identification and functions of usefully disordered proteins.,’’ Advances in protein chemistry, vol. 62, pp. 25–49, Jan. 2002. 54 [35] A. K. Dunker, C. J. Brown, J. D. Lawson, L. M. Iakoucheva, and Z. Obradovi´c, ‘‘Intrinsic disorder and protein function.,’’ Biochemistry, vol. 41, pp. 6573–82, May 2002. [36] M. Sickmeier, J. A. Hamilton, T. LeGall, V. Vacic, M. S. Cortese, A. Tantos, B. Szabo, P. Tompa, J. Chen, V. N. Uversky, Z. Obradovic, and A. K. Dunker, ‘‘DisProt: the Database of Disordered Proteins.,’’ Nucleic acids research, vol. 35, pp. D786–93, Jan. 2007. [37] M. Y. Lobanov, B. A. Shoemaker, S. O. Garbuzynskiy, J. H. Fong, A. R. Panchenko, and O. V. Galzitskaya, ‘‘ComSin: database of protein structures in bound (complex) and unbound (single) states in relation to their intrinsic disorder.,’’ Nucleic acids research, vol. 38, pp. D283–7, Jan. 2010. [38] T. Di Domenico, I. Walsh, A. J. M. Martin, and S. C. E. Tosatto, ‘‘MobiDB: a comprehensive database of intrinsic protein disorder annotations.,’’ Bioinformatics (Oxford, England), vol. 28, pp. 2080– 1, Aug. 2012. [39] M. E. Oates, P. Romero, T. Ishida, M. Ghalwash, M. J. Mizianty, ´ B. Xue, Z. Dosztanyi, V. N. Uversky, Z. Obradovic, L. Kurgan, A. K. Dunker, and J. Gough, ‘‘D2 P2 : database of disordered protein predictions.,’’ Nucleic acids research, vol. 41, pp. D508–16, Nov. 2013. [40] H. M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat, H. Weissig, I. N. Shindyalov, and P. E. Bourne, ‘‘The Protein Data Bank.,’’ Nucleic acids research, vol. 28, pp. 235–42, Jan. 2000. [41] Z. R. Yang, R. Thomson, P. McNeil, and R. M. Esnouf, ‘‘RONN: the bio-basis function neural network technique applied to the detection of natively disordered regions in proteins.,’’ Bioinformatics (Oxford, England), vol. 21, pp. 3369–76, Aug. 2005. [42] Romero, Obradovic, and K. Dunker, ‘‘Sequence Data Analysis for Long Disordered Regions Prediction in the Calcineurin Family.,’’ Genome informatics. Workshop on Genome Informatics, vol. 8, pp. 110–124, Jan. 1997. [43] R. Linding, R. B. Russell, V. Neduva, and T. J. Gibson, ‘‘GlobPlot: Exploring protein sequences for globularity and disorder.,’’ Nucleic 55 acids research, vol. 31, pp. 3701–8, July 2003. [44] R. Linding, L. J. Jensen, F. Diella, P. Bork, T. J. Gibson, and R. B. Russell, ‘‘Protein disorder prediction: implications for structural proteomics.,’’ Structure (London, England : 1993), vol. 11, pp. 1453–9, Nov. 2003. [45] D. T. Jones and J. J. Ward, ‘‘Prediction of disordered regions in proteins from position specific score matrices.,’’ Proteins, vol. 53 Suppl 6, pp. 573–8, Jan. 2003. [46] J. J. Ward, J. S. Sodhi, L. J. McGuffin, B. F. Buxton, and D. T. Jones, ‘‘Prediction and functional analysis of native disorder in proteins from the three kingdoms of life.,’’ Journal of molecular biology, vol. 337, pp. 635–45, Mar. 2004. [47] J. Hecker, J. Y. Yang, and J. Cheng, ‘‘Protein disorder prediction at multiple levels of sensitivity and specificity.,’’ BMC genomics, vol. 9 Suppl 1, p. S9, Jan. 2008. ´ [48] Z. Dosztanyi, V. Csizmok, P. Tompa, and I. Simon, ‘‘IUPred: web server for the prediction of intrinsically unstructured regions of proteins based on estimated energy content.,’’ Bioinformatics (Oxford, England), vol. 21, pp. 3433–4, Aug. 2005. [49] J. Cheng, M. J. Sweredoski, and P. Baldi, ‘‘Accurate Prediction of Protein Disordered Regions by Mining Protein Structure Data,’’ Data Mining and Knowledge Discovery, vol. 11, pp. 213–222, July 2005. [50] J. Prilusky, C. E. Felder, T. Zeev-Ben-Mordehai, E. H. Rydberg, O. Man, J. S. Beckmann, I. Silman, and J. L. Sussman, ‘‘FoldIndex: a simple tool to predict whether a given protein sequence is intrinsically unfolded.,’’ Bioinformatics (Oxford, England), vol. 21, pp. 3435–8, Aug. 2005. [51] O. V. Galzitskaya, S. O. Garbuzynskiy, and M. Y. Lobanov, ‘‘FoldUnfold: web server for the prediction of disordered regions in protein chain.,’’ Bioinformatics (Oxford, England), vol. 22, pp. 2948–9, Dec. 2006. [52] A. Vullo, O. Bortolami, G. Pollastri, and S. C. E. Tosatto, ‘‘Spritz: a server for the prediction of intrinsically disordered regions in pro56 tein sequences using kernel machines.,’’ Nucleic acids research, vol. 34, pp. W164–8, July 2006. [53] C.-T. Su, C.-Y. Chen, and Y.-Y. Ou, ‘‘Protein disorder prediction by condensed PSSM considering propensity for order or disorder.,’’ BMC bioinformatics, vol. 7, p. 319, Jan. 2006. [54] C.-T. Su, C.-Y. Chen, and C.-M. Hsu, ‘‘iPDA: integrated protein disorder analyzer.,’’ Nucleic acids research, vol. 35, pp. W465–72, July 2007. [55] T. Ishida and K. Kinoshita, ‘‘PrDOS: prediction of disordered protein regions from amino acid sequence.,’’ Nucleic acids research, vol. 35, pp. W460–4, July 2007. [56] A. Schlessinger, J. Liu, and B. Rost, ‘‘Natively unstructured loops differ from other loops.,’’ PLoS computational biology, vol. 3, p. e140, July 2007. [57] K. Shimizu, S. Hirose, and T. Noguchi, ‘‘POODLE-S: web application for predicting protein disorder by using physicochemical features and reduced amino acid set of a position-specific scoring matrix.,’’ Bioinformatics (Oxford, England), vol. 23, pp. 2337–8, Sept. 2007. [58] S. Hirose, K. Shimizu, S. Kanai, Y. Kuroda, and T. Noguchi, ‘‘POODLE-L: a two-level SVM prediction system for reliably predicting long disordered regions.,’’ Bioinformatics (Oxford, England), vol. 23, pp. 2046–53, Aug. 2007. [59] A. Bulashevska and R. Eils, ‘‘Using Bayesian multinomial classifier to predict whether a given protein sequence is intrinsically disordered.,’’ Journal of theoretical biology, vol. 254, pp. 799–803, Oct. 2008. [60] J. Y. Yang and M. Q. Yang, ‘‘Predicting protein disorder by analyzing amino acid sequence.,’’ BMC genomics, vol. 9 Suppl 2, p. S8, Jan. 2008. [61] L. Wang and U. H. Sauer, ‘‘OnD-CRF: predicting order and disorder in proteins using [corrected] conditional random fields.,’’ Bioinformatics (Oxford, England), vol. 24, pp. 1401–2, June 2008. 57 [62] L. J. McGuffin, ‘‘Intrinsic disorder prediction from the analysis of multiple protein fold recognition models.,’’ Bioinformatics (Oxford, England), vol. 24, pp. 1798–804, Aug. 2008. [63] A. Schlessinger, M. Punta, G. Yachdav, L. Kajan, and B. Rost, ‘‘Improved disorder prediction by combination of orthogonal approaches.,’’ PloS one, vol. 4, p. e4433, Jan. 2009. [64] B. Xue, C. J. Oldfield, A. K. Dunker, and V. N. Uversky, ‘‘CDF it all: consensus prediction of intrinsically disordered proteins based on various cumulative distribution functions.,’’ FEBS letters, vol. 583, pp. 1469–74, May 2009. [65] B. Xue, R. L. Dunbrack, R. W. Williams, A. K. Dunker, and V. N. Uversky, ‘‘PONDR-FIT: a meta-predictor of intrinsically disordered amino acids.,’’ Biochimica et biophysica acta, vol. 1804, pp. 996– 1010, Apr. 2010. [66] V. Vacic, C. J. Oldfield, A. Mohan, P. Radivojac, M. S. Cortese, V. N. Uversky, and A. K. Dunker, ‘‘Characterization of molecular recognition features, MoRFs, and their binding partners.,’’ Journal of proteome research, vol. 6, pp. 2351–66, June 2007. [67] Y. Cheng, C. J. Oldfield, J. Meng, P. Romero, V. N. Uversky, and A. K. Dunker, ‘‘Mining alpha-helix-forming molecular recognition features with cross species sequence alignments.,’’ Biochemistry, vol. 46, pp. 13468–77, Nov. 2007. [68] F. M. Disfani, W.-L. Hsu, M. J. Mizianty, C. J. Oldfield, B. Xue, A. K. Dunker, V. N. Uversky, and L. Kurgan, ‘‘MoRFpred, a computational tool for sequence-based prediction and characterization of short disorder-to-order transitioning binding regions in proteins.,’’ Bioinformatics (Oxford, England), vol. 28, pp. i75–i83, June 2012. ´ ´ [69] Z. Dosztanyi, B. M´eszaros, and I. Simon, ‘‘ANCHOR: web server for predicting protein binding regions in disordered proteins.,’’ Bioinformatics (Oxford, England), vol. 25, pp. 2745–6, Oct. 2009. ´ ´ [70] B. M´eszaros, I. Simon, and Z. Dosztanyi, ‘‘Prediction of protein binding regions in disordered proteins.,’’ PLoS computational biology, vol. 5, p. e1000376, May 2009. [71] C. Fang, Y. Hayato, and T. Noguchi, ‘‘Sequence-Based Prediction of Molecular Recognition Features in Disordered Proteins - Vol58 ume 2, No. 2, June 2013 - Journal of Medical and Bioengineering (JOMB),’’ 2013. ´ [72] D. Marsh, L. I. Horvath, M. J. Swamy, S. Mantripragada, and J. H. Kleinschmidt, ‘‘Interaction of membrane-spanning proteins with peripheral and lipid-anchored membrane proteins: perspectives from protein-lipid interactions (Review).,’’ Molecular membrane biology, vol. 19, no. 4, pp. 247–55. [73] L. Wall, T. Christiansen, and R. L. Schwartz, ‘‘Programming Perl,’’ 1996. [74] D. Axmark and M. Widenius, ‘‘MySQL Introduction,’’ Linux Journal, 1999. [75] T. Berners-lee, ‘‘The World Wide Web: Past, Present and Future,’’ Journal of Digital Information, 1996. [76] R. Lerdorf, A. Gutmans, and Z. Suraski, ‘‘History of PHP and related projects,’’ 1995. [77] M. Chang, E. Smith, R. Reitmaier, M. Bebenita, A. Galy, C. Wimmer, B. Eich, and M. Franz, ‘‘Trace Compilation for the Next Generation Web Applications,’’ [78] K. Arnold, J. Gosling, and D. Holmes, The Java Programming Language, 4th Edition. Addison-Wesley Professional, 2005. [79] H. W. Lie and B. Bos, Cascading Style Sheets: Designing for the Web. 2005. [80] R. M. Hanson, ‘‘Jmol { a paradigm shift in crystallographic visualization,’’ Journal of Applied Crystallography, vol. 43, pp. 1250– 1260, Sept. 2010. [81] D. M. Ritchie, ‘‘The UNIX Timesharing SystemA Retrospective,’’ [82] L. Torvalds and D. Diamond, Just for Fun: The Story of an Accidental Revolutionary. HarperBusiness, 2002. [83] A. Singh, Mac OS X Internals: A Systems Approach. AddisonWesley Professional, 2006. [84] UniprotConsortium, ‘‘Reorganizing the protein space at the Universal Protein Resource (UniProt).,’’ Nucleic acids research, vol. 40, pp. D71–5, Jan. 2012. 59 [85] W. Kabsch and C. Sander, ‘‘Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features.,’’ Biopolymers, vol. 22, pp. 2577–637, Dec. 1983. [86] B. Lee and F. Richards, ‘‘The interpretation of protein structures: Estimation of static accessibility,’’ Journal of Molecular Biology, vol. 55, pp. 379–IN4, Feb. 1971. [87] A. Shrake and J. Rupley, ‘‘Environment and exposure to solvent of protein atoms. Lysozyme and insulin,’’ Journal of Molecular Biology, vol. 79, pp. 351–371, Sept. 1973. [88] P. V. Hornbeck, I. Chabra, J. M. Kornhauser, E. Skrzypek, and B. Zhang, ‘‘PhosphoSite: A bioinformatics resource dedicated to physiological protein phosphorylation.,’’ Proteomics, vol. 4, pp. 1551–61, June 2004. [89] M. Punta, P. C. Coggill, R. Y. Eberhardt, J. Mistry, J. Tate, C. Boursnell, N. Pang, K. Forslund, G. Ceric, J. Clements, A. Heger, L. Holm, E. L. L. Sonnhammer, S. R. Eddy, A. Bateman, and R. D. Finn, ‘‘The Pfam protein families database.,’’ Nucleic acids research, vol. 40, pp. D290–301, Jan. 2012. [90] N. Hulo, A. Bairoch, V. Bulliard, L. Cerutti, E. De Castro, P. S. Langendijk-Genevaux, M. Pagni, and C. J. A. Sigrist, ‘‘The PROSITE database.,’’ Nucleic acids research, vol. 34, pp. D227–30, Jan. 2006. [91] S. Hunter, P. Jones, A. Mitchell, R. Apweiler, T. K. Attwood, A. Bateman, T. Bernard, D. Binns, P. Bork, S. Burge, E. de Castro, P. Coggill, M. Corbett, U. Das, L. Daugherty, L. Duquenne, R. D. Finn, M. Fraser, J. Gough, D. Haft, N. Hulo, D. Kahn, E. Kelly, I. Letunic, D. Lonsdale, R. Lopez, M. Madera, J. Maslen, C. McAnulla, J. McDowall, C. McMenamin, H. Mi, P. Mutowo-Muellenet, N. Mulder, D. Natale, C. Orengo, S. Pesseat, M. Punta, A. F. Quinn, C. Rivoire, A. Sangrador-Vegas, J. D. Selengut, C. J. A. Sigrist, M. Scheremetjew, J. Tate, M. Thimmajanarthanan, P. D. Thomas, C. H. Wu, C. Yeats, and S.-Y. Yong, ‘‘InterPro in 2011: new developments in the family and domain prediction database.,’’ Nucleic acids research, vol. 40, pp. D306–12, Jan. 2012. [92] S. B. Pandit, R. Bhadra, V. S. Gowri, S. Balaji, B. Anand, and N. Srinivasan, ‘‘SUPFAM: a database of sequence superfamilies of 60 protein domains.,’’ BMC bioinformatics, vol. 5, p. 28, Mar. 2004. [93] S. Kerrien, B. Aranda, L. Breuza, A. Bridge, F. Broackes-Carter, C. Chen, M. Duesbury, M. Dumousseau, M. Feuermann, U. Hinz, C. Jandrasits, R. C. Jimenez, J. Khadake, U. Mahadevan, P. Masson, I. Pedruzzi, E. Pfeiffenberger, P. Porras, A. Raghunath, B. Roechert, S. Orchard, and H. Hermjakob, ‘‘The IntAct molecular interaction database in 2012.,’’ Nucleic acids research, vol. 40, pp. D841–6, Jan. 2012. [94] I. Xenarios, D. W. Rice, L. Salwinski, M. K. Baron, E. M. Marcotte, and D. Eisenberg, ‘‘DIP: the database of interacting proteins.,’’ Nucleic acids research, vol. 28, pp. 289–91, Jan. 2000. [95] A. Zanzoni, L. Montecchi-Palazzi, M. Quondam, G. Ausiello, M. Helmer-Citterich, and G. Cesareni, ‘‘MINT: a Molecular INTeraction database.,’’ FEBS letters, vol. 513, pp. 135–40, Feb. 2002. [96] D. Szklarczyk, A. Franceschini, M. Kuhn, M. Simonovic, A. Roth, P. Minguez, T. Doerks, M. Stark, J. Muller, P. Bork, L. J. Jensen, and C. von Mering, ‘‘The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored.,’’ Nucleic acids research, vol. 39, pp. D561–8, Jan. 2011. [97] A. Hamosh, A. F. Scott, J. S. Amberger, C. A. Bocchini, and V. A. McKusick, ‘‘Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders.,’’ Nucleic acids research, vol. 33, pp. D514–7, Jan. 2005. [98] D. S. Wishart, C. Knox, A. C. Guo, D. Cheng, S. Shrivastava, D. Tzur, B. Gautam, and M. Hassanali, ‘‘DrugBank: a knowledgebase for drugs, drug actions and drug targets.,’’ Nucleic acids research, vol. 36, pp. D901–6, Jan. 2008. [99] G. N. Tsaousis, K. D. Tsirigos, X. D. Andrianou, T. D. Liakopoulos, P. G. Bagos, and S. J. Hamodrakas, ‘‘ExTopoDB: a database of experimentally derived topological models of transmembrane proteins.,’’ Bioinformatics (Oxford, England), vol. 26, pp. 2490–2, Oct. 2010. [100] T. N. Petersen, S. r. Brunak, G. von Heijne, and H. Nielsen, ‘‘SignalP 4.0: discriminating signal peptides from transmembrane regions.,’’ Nature methods, vol. 8, pp. 785–6, Jan. 2011. 61 [101] A. Bernsel, H. Viklund, A. Hennerdal, and A. Elofsson, ‘‘TOPCONS: consensus prediction of membrane protein topology,’’ Nucleic Acids Research, vol. 37, pp. W465–W468, May 2009. [102] L. K¨ all, A. Krogh, and E. L. L. Sonnhammer, ‘‘A combined transmembrane topology and signal peptide prediction method.,’’ Journal of molecular biology, vol. 338, pp. 1027–36, May 2004. [103] D. W. Mount, ‘‘Using the Basic Local Alignment Search Tool (BLAST).,’’ CSH protocols, vol. 2007, p. pdb.top17, Jan. 2007. [104] K. A. Dill and J. L. MacCallum, ‘‘The protein-folding problem, 50 years on.,’’ Science (New York, N.Y.), vol. 338, pp. 1042–6, Dec. 2012. 62 Παράρτηµα Α΄ ∆ηµοσιεύσεις και Συνέδρια ∆ηµοσιεύσεις σε Επιστηµονικά Περιοδικά µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας Foivos Gypas, Georgios N. Tsaousis, and Stavros J. Hamodrakas mpMoRFsDB: A database of Molecular Recognition Features in Membrane Proteins Bioinformatics first published online July 26, 2013 doi:10.1093/bioinformatics/btt427 [3] Ανακοινώσεις σε ∆ιεθνή Συνέδρια µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας Foivos Gypas, Georgios N. Tsaousis, Stavros J. Hamodrakas mpMoRFsDB: A database of molecular recognition features (MoRFs) in membrane proteins. Joint 21st Annual International Conference on Intelligent Systems for Molecular Biology and 12th Annual European Conference on Computational Biology (ISMB/ECCB) 2013, 21 - 23 Jul 2013. 63 mpMoRFsDB: A database of Molecular Recognition Features in membrane proteins Foivos Gypas, Georgios N. Tsaousis, Stavros J. Hamodrakas Department of Cell Biology and Biophysics, Faculty of Biology, University of Athens, Athens, 157 01 Greece Intrinsically Disordered Proteins - IDPs Database Intrinsically Disordered Proteins (IDPs) [1] possess no rigit 3D structure under physiological conditions, yet they are functionally active. IDPs are separated in fully disordered proteins and partially disordered proteins. Partially disordered proteins contain Intrinsically Disordered Regions (IDRs). Molecular Recognition Features - MoRFs Molecular Recognition Features (MoRFs) [2] are small regions (between 10 and 70 residues) in proteins that undergo a disorder-to-order transition upon binding to their partners. Proteins containing MoRFs play an important role in molecular recognition. When they are bound to their partners, MoRFs can take various shapes according to their secondary structure. They can form alpha helices (αMoRFs), beta strands (β-MoRFs), irregular structures (i-MoRFs) or combination of previous forms (complex-MoRFs). Figure 1. Categories of MoRFs based on secondary structure. PDB IDs from left to right: 1BXL, 2ZPY, 1A6A, 1YBO Figure 3. In the main page of mpMoRFsDB, a user may find links to the following tools: Search, Browse, Blast Search and Download. Through the Browse page the user has the ability to browse all the entries. Moreover, there is an option for browsing by membrane protein type (transmembrane or peripheral) or by the secondary structure of MoRFs (α-MoRFs, β-MoRFs, i-MoRFs and complex-MoRFs). Figure 4. Through Search, the user may submit advanced queries, whereas through Blast Search, we provide an interface for running Blast searches against the database. Membrane Proteins Membrane proteins constitute approximately 30% of fully sequenced proteomes and are responsible for a wide variety of cellular functions, including cell signaling and binding. Figure 5. Entries related to the previous advanced query are retrieved. Figure 2. Categories of membrane proteins. Membrane proteins are separated in three main categories: I Transmembrane proteins that span the lipid bilayer. I Peripheral membrane proteins that are non-covalently associated with transmembrane proteins and/or lipids. I Lipid-Anchored proteins that are covalently anchored to lipids. Transmembrane proteins are separated in two categories: I Single-Spanning proteins that span the lipid bilayer once. I Multi-Spanning proteins that span the lipid bilayer more than once. Motivation The aim of this work was to collect, organize and store all membrane proteins that contain MoRFs [3]. Methodology 1. An initial dataset was constructed from the Protein Data Bank (PDB), following the methodology proposed by Mohan et al [2]. 2. We retrieved protein complexes containing at least 2 entities with one chain varying from 10 to 70 residues and a second one having length over 100 residues. 3. We further removed proteins where the MoRF’s sequence contained errors or not valid amino acid residues. 4. Membrane proteins were selected using Uniprot’s annotation. 5. We used the secondary structure assignment and the Accessible Surface Area (ASA) values inferred by DSSP in order to categorize MoRFs and to evaluate whether a MoRF can interact with its possible partner, respectively. 6. The position of transmembrane protein MoRFs in relation to the protein’s topology was determined. 7. Finally, we organized all data in a publicly available mySQL database, with a user-friendly web interface based on HTML, CSS, PHP and Javascript. Figure 6. Each entry contains information about the respective membrane protein and related MoRFs. A Jmol applet is integrated for visualization of the structures and cross-references to many publicly available databases are included. In addition, another important feature of mpMoRFsDB is that it provides the exact location of MoRFs along the sequence of membrane proteins. More interestingly, in transmembrane proteins, mpMoRFsDB provides protein topology information and the location of MoRFs in respect to the transmembrane topology of the proteins. This way, users can observe whether transmembrane protein MoRFs are located in extracellular or cytoplasmic loop regions as well as their distance from the transmembrane segments. Statistics The database includes 173 membrane proteins containing 244 MoRFs. Membrane proteins are devided to 102 transmembrane proteins and 71 peripheral. References 1. Uversky VN. Intrinsically disordered proteins from A to Z. Int J Biochem Cell Biol. 2011 Aug;43(8):1090-103. doi: 10.1016/j.biocel.2011.04.001. Epub 2011 Apr 8. Review. PubMed PMID: 21501695. 2. Mohan A, Oldfield CJ, Radivojac P, Vacic V, Cortese MS, Dunker AK, Uversky VN. Analysis of molecular recognition features (MoRFs). J Mol Biol. 2006 Oct 6;362(5):1043-59. Epub 2006 Aug 4. PubMed PMID: 16935303. 3. Kotta-Loizou I, Tsaousis GN, Hamodrakas SJ. Analysis of Molecular Recognition Features (MoRFs) in membrane proteins. Biochim Biophys Acta. 2013 Apr;1834(4):798-807. doi: 10.1016/j.bbapap.2013.01.006. Epub 2013 Jan 15. PubMed PMID: 23328413. 4. Disfani FM, Hsu WL, Mizianty MJ, Oldfield CJ, Xue B, Dunker AK, Uversky VN, Kurgan L. MoRFpred, a computational tool for sequence-based prediction and characterization of short disorder-to-order transitioning binding regions in proteins. Bioinformatics. 2012 Jun 15;28(12):i75-83. doi: 10.1093/bioinformatics/bts209. PubMed PMID: 22689782; PubMed Central PMCID: PMC3371841. Funding The present work was funded by SYNERGASIA 2009 co-funded by the European Regional Development Fund and National resources (Project Code 09SYN-13-999, G.S.R.T. of the Greek Ministry of Education and Religious Affairs, Culture and Sports). Figure 7. Left: Classification of proteins according to membrane protein type. Right: Classification of MoRFs according to secondary structure. Link to mpMoRFsDB http://bioinformatics.biol.uoa.gr/mpMoRFsDB/ ISMB/ECCB 2013 - 21st Annual International Conference on Intelligent Systems for Molecular Biology - 12th European Conference on Computational Biology, July 21 -23, 2013, Berlin, Germany Bioinformatics Advance Access published August 11, 2013 BIOINFORMATICS APPLICATIONS NOTE Databases and ontologies 2013, pages 1–2 doi:10.1093/bioinformatics/btt427 Advance Access publication July 26, 2013 mpMoRFsDB: a database of molecular recognition features in membrane proteins Foivos Gypas, Georgios N. Tsaousis and Stavros J. Hamodrakas* Faculty of Biology, Department of Cell Biology and Biophysics, University of Athens, Panepistimiopolis, Athens 157 01, Greece Associate Editor: Jonathan Wren ABSTRACT Received on June 3, 2013; revised on July 2, 2013; accepted on July 18, 2013 1 INTRODUCTION Intrinsically disordered proteins (IDPs) possess no rigid three-dimensional structure under physiological conditions, yet they are functionally active (Uversky, 2011). IDPs are separated in fully disordered proteins and partially disordered proteins (Oldfield et al., 2005a). Partially disordered proteins contain intrinsically disordered regions (IDRs). IDRs are found in both prokaryotes and eukaryotes. In all, 20–30% of prokaryotic proteins (Dunker et al., 2000) and more than half of eukaryotic proteins contain IDRs (Oldfield et al., 2005a). Vast abundance and functional importance characterize these proteins. For a deeper understanding of IDPs and IDRs, several databases have been developed: DisProt (Vucetic et al., 2005), (Sickmeier et al., 2007), MobiDB (Di Domenico et al., 2012), IDEAL (Fukuchi et al., 2012), ComSin (Lobanov et al., 2010) and D(2)P(2) (Oates et al., 2013) provide information about experimentally determined or theoretically predicted IDPs and IDRs. Moreover, a variety of predictors have been developed for the prediction of IDRs from protein sequence (He et al., 2009). *To whom correspondence should be addressed. 2 METHODS An initial dataset was constructed from the Protein Data Bank (PDB) (Berman et al., 2000), following the methodology proposed by Mohan et al. (2006). We retrieved protein complexes containing at least two entities, with one chain varying from 10 to 70 residues and a second one having a length 4100 residues (until May 2013). We further removed proteins where the MoRF’s sequence contained errors or not valid amino acid residues, ending up with 2458 PDB entries mapping to 785 unique Uniprot Accession numbers (Uniprot_Consortium, 2012). Membrane proteins were selected using Uniprot’s annotation. Moreover, we used the secondary structure assignment and the accessible surface area values inferred by DSSP (Kabsch and Sander, 1983) to categorize MoRFs and to evaluate whether a MoRF can interact with its possible partner, respectively. The position of transmembrane protein MoRFs in relation to a protein’s topology was determined. Transmembrane protein topology was determined based on experimentally derived data from ExTopoDB (Tsaousis et al., 2010) and Uniprot. ß The Author 2013. Published by Oxford University Press. All rights reserved. For Permissions, please e-mail: [email protected] 1 Downloaded from http://bioinformatics.oxfordjournals.org/ at University of Athens on August 28, 2013 Summary: Molecular recognition features (MoRFs) are small, intrinsically disordered regions in proteins that undergo a disorder-to-order transition on binding to their partners. MoRFs are involved in protein–protein interactions and may function as the initial step in molecular recognition. The aim of this work was to collect, organize and store all membrane proteins that contain MoRFs. Membrane proteins constitute 30% of fully sequenced proteomes and are responsible for a wide variety of cellular functions. MoRFs were classified according to their secondary structure, after interacting with their partners. We identified MoRFs in transmembrane and peripheral membrane proteins. The position of transmembrane protein MoRFs was determined in relation to a protein’s topology. All information was stored in a publicly available mySQL database with a user-friendly web interface. A Jmol applet is integrated for visualization of the structures. mpMoRFsDB provides valuable information related to disorder-based protein– protein interactions in membrane proteins. Availability: http://bioinformatics.biol.uoa.gr/mpMoRFsDB Contact: [email protected] Special cases of IDRs are molecular recognition features (MoRFs) or molecular recognition elements (Mohan et al., 2006). MoRFs are small regions (between 10 and 70 residues) in proteins that undergo a disorder-to-order transition on binding to their partners (Tompa, 2002; Uversky et al., 2000; Wright and Dyson, 1999). Proteins containing MoRFs play an important role in molecular recognition. When they are bound to their partners, MoRFs can take various shapes according to their secondary structure. They can form alpha-helices (-MoRFs), beta-strands (-MoRFs), irregular structures (i-MoRFs) or a combination of the previous elements (complex-MoRFs). A number of predictors are available for the prediction of MoRFs from protein sequences (Cheng et al., 2007; Disfani et al., 2012; Dosztanyi et al., 2009; Mooney et al., 2012; Oldfield et al., 2005b). Membrane proteins constitute 30% of fully sequenced proteomes and are responsible for a wide variety of crucial cellular functions, such as binding and signaling (Krogh et al., 2001). Membrane proteins are separated in transmembrane proteins, peripheral membrane proteins and lipid-anchored proteins. Transmembrane proteins are divided into single-spanning and multi-spanning proteins, according to the number of transmembrane segments. An important number of MoRFs can be found in membrane proteins (Mohan et al., 2006) and especially in transmembrane proteins (Kotta-Loizou et al., 2013). IDRs are included in both alpha-helical and beta-barrel transmembrane proteins (Xue et al., 2009) and occur mostly on the cytoplasmic side of human plasma transmembrane proteins (Minezaki et al., 2007; Stavropoulos et al., 2012). mpMoRFsDB is the first publicly available database that collects and provides information about MoRFs found in membrane proteins. F.Gypas et al. The process is automated so that new MoRFs can be collected from membrane proteins, as novel structures are deposited in PDB. Finally, we organized all data in a publicly available mySQL database, with a userfriendly web interface based on HTML, CSS, PHP and Javascript. Protein information can be accessed through three different file formats (Fasta, Text and XML), apart from the classic web view. Moreover, the entire database can be downloaded locally for further analysis. 3 RESULTS 4 DISCUSSION A database containing MoRFs in membrane proteins was constructed. Data were collected with automated Perl scripts and verified manually. The whole process can easily be repeated, and we intend to update the database every 6 months. The proteins in our database are highly connected nodes in protein interaction networks (52% of mpMoRFsDB’s entries have more than five interactions in molecular interaction databases) and are essential to cell survival (Jeong et al., 2001). mpMoRFsDB provides an up-to-date dataset, which can be used for the design and evaluation of methods predicting MoRFs in membrane proteins. The database will contribute to the emerging ‘protein non-folding problem’ (Dill and MacCallum, 2012) and provide insights in disorder-based interactions in membrane proteins. ACKNOWLEDGEMENTS The authors would like to thank the anonymous reviewers and the handling associate editor for their valuable comments and constructive criticism. Funding: The present work was funded by the SYNERGASIA 2009 PROGRAMME. This Programme is co-funded by the European Regional Development Fund and National resources (Project Code 09SYN-13-999). 2 REFERENCES Berman,H.M. et al. (2000) The Protein Data Bank. Nucleic Acids Res., 28, 235–242. Cheng,Y. et al. (2007) Mining alpha-helix-forming molecular recognition features with cross species sequence alignments. Biochemistry, 46, 13468–13477. Di Domenico,T. et al. (2012) MobiDB: a comprehensive database of intrinsic protein disorder annotations. Bioinformatics, 28, 2080–2081. Dill,K.A. and MacCallum,J.L. (2012) The protein-folding problem, 50 years on. Science, 338, 1042–1046. Disfani,F.M. et al. (2012) MoRFpred, a computational tool for sequence-based prediction and characterization of short disorder-to-order transitioning binding regions in proteins. Bioinformatics, 28, i75–i83. Dosztanyi,Z. et al. (2009) ANCHOR: web server for predicting protein binding regions in disordered proteins. Bioinformatics, 25, 2745–2746. Dunker,A.K. et al. (2000) Intrinsic protein disorder in complete genomes. Genome Inform., 11, 161–171. Fukuchi,S. et al. (2012) IDEAL: intrinsically disordered proteins with extensive annotations and literature. Nucleic Acids Res., 40, D507–D511. Hanson,R.M. (2010) Jmol – a paradigm shift in crystallographic visualization. J. Appl. Crystallogr., 43, 1250–1260. He,B. et al. (2009) Predicting intrinsic disorder in proteins: an overview. Cell Res., 19, 929–949. Jeong,H. et al. (2001) Lethality and centrality in protein networks. Nature, 411, 41–42. Kabsch,W. and Sander,C. (1983) Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers, 22, 2577–2637. Kotta-Loizou,I. et al. (2013) Analysis of molecular recognition features (MoRFs) in membrane proteins. Biochim. Biophys. Acta, 1834, 798–807. Krogh,A. et al. (2001) Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes. J. Mol. Biol., 305, 567–580. Lobanov,M.Y. et al. (2010) ComSin: database of protein structures in bound (complex) and unbound (single) states in relation to their intrinsic disorder. Nucleic Acids Res., 38, D283–D287. Minezaki,Y. et al. (2007) Intrinsically disordered regions of human plasma membrane proteins preferentially occur in the cytoplasmic segment. J. Mol. Biol., 368, 902–913. Mohan,A. et al. (2006) Analysis of molecular recognition features (MoRFs). J. Mol. Biol., 362, 1043–1059. Mooney,C. et al. (2012) Prediction of short linear protein binding regions. J. Mol. Biol., 415, 193–204. Oates,M.E. et al. (2013) D(2)P(2): database of disordered protein predictions. Nucleic Acids Res., 41, D508–D516. Oldfield,C.J. et al. (2005a) Comparing and combining predictors of mostly disordered proteins. Biochemistry, 44, 1989–2000. Oldfield,C.J. et al. (2005b) Coupled folding and binding with alpha-helix-forming molecular recognition elements. Biochemistry, 44, 12454–12470. Sickmeier,M. et al. (2007) DisProt: the database of disordered proteins. Nucleic Acids Res., 35, D786–D793. Stavropoulos,I. et al. (2012) Protein disorder and short conserved motifs in disordered regions are enriched near the cytoplasmic side of single-pass transmembrane proteins. PLoS One, 7, e44389. Tompa,P. (2002) Intrinsically unstructured proteins. Trends Biochem. Sci., 27, 527–533. Tsaousis,G.N. et al. (2010) ExTopoDB: a database of experimentally derived topological models of transmembrane proteins. Bioinformatics, 26, 2490–2492. Uniprot_Consortium. (2012) Reorganizing the protein space at the Universal Protein Resource (UniProt). Nucleic Acids Res., 40, D71–D75. Uversky,V.N. (2011) Intrinsically disordered proteins from A to Z. Int. J. Biochem. Cell Biol., 43, 1090–1103. Uversky,V.N. et al. (2000) Why are ‘‘natively unfolded’’ proteins unstructured under physiologic conditions? Proteins, 41, 415–427. Vucetic,S. et al. (2005) DisProt: a database of protein disorder. Bioinformatics, 21, 137–140. Wright,P.E. and Dyson,H.J. (1999) Intrinsically unstructured proteins: re-assessing the protein structure-function paradigm. J. Mol. Biol., 293, 321–331. Xue,B. et al. (2009) Analysis of structured and intrinsically disordered regions of transmembrane proteins. Mol. Biosyst., 5, 1688–1702. Downloaded from http://bioinformatics.oxfordjournals.org/ at University of Athens on August 28, 2013 The database includes 173 membrane proteins containing 244 MoRFs. Membrane proteins are divided in 102 transmembrane proteins (70 single-spanning and 32 multi-spanning) and 71 peripheral membrane proteins. MoRFs were classified in categories according to their secondary structure when bound to their partners, with 33.47% categorized as -MoRFs, 3.83% as -MoRFs, 60.48% as i-MoRFs and 2.22% as complex-MoRFs. In the main page of mpMoRFsDB, a user may find links to the following tools: Browse, Search, Blast Search and Download. Through the Browse page, the user has the ability to browse all the entries. Moreover, there is an option for browsing by membrane protein type (transmembrane or peripheral) or by the secondary structure of MoRFs (-MoRFs, -MoRFs, i-MoRFs and complex-MoRFs). Through Search, the user may submit advanced queries, whereas through Blast Search, we provide an interface for running Blast searches against the database. Each entry contains information about the respective membrane protein and related MoRFs. A Jmol (Hanson, 2010) applet is integrated for visualization of the structures, and cross-references to many publicly available databases are included, providing information for protein domains, molecular interactions and diseases. In the case of transmembrane proteins, we determined whether the MoRFs are positioned in the cytoplasmic or the extracellular space. We observed that the majority of MoRFs in transmembrane proteins are found in the cytoplasmic side. Conflict of interest: none declared.
© Copyright 2024 Paperzz