∆ηµιουργία άσης δεδοµένων για χαρακτηριστικά

Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών
Σχολή Θετικών Επιστηµών
Τµήµα Βιολογίας
Μεταπτυχιακό Πρόγραµµα Σπουδών
¨Βιοπληροφορική¨
∆ηµιουργία ϐάσης δεδοµένων για
χαρακτηριστικά µοριακής
αναγνώρισης (Molecular
Recognition Features, MoRFs) σε
µεµβρανικές πρωτεΐνες.
Φοίβος Γύπας
Αθήνα, Σεπτέµβριος 2013
Τριµελής εξεταστική επιτροπή
Καθηγητής Σταύρος Ι. Χαµόδρακας Τµήµα Βιολογίας, Εθνικό και
(Επιβλέπων)
Καποδιστριακό Πανεπιστήµιο Αϑηνών
Επίκουρος Καθηγητής Παντελής Γ. Τµήµα Πληροφορικής µε ΕφαρΜπάγκος
µογές στη Βιοϊατρική, Πανεπιστήµιο Θεσσαλίας
Λέκτορας Βασιλική Α. Οικονοµίδου Τµήµα Βιολογίας, Εθνικό και
Καποδιστριακό Πανεπιστήµιο Αϑηνών
3
4
Περίληψη
Τα Χαρακτηριστικά Μοριακής Αναγνώρισης (Molecular Recognition Features, MoRFs) [1] είναι µικρά (10-70 αµινοξικά κατάλοιπα), εγγενώς µη
δοµηµένα τµήµατα σε πρωτεΐνες, που αποκτούν χαρακτηριστική δοµή µετά από την αλληλεπίδρασή τους µε άλλες πρωτεΐνες. Εµπλέκονται σε
αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών και έχουν σηµαντικό ϱόλο στην
διαδικασία της µοριακής αναγνώρισης. Σκοπός της εργασίας ήταν η συλλογή, οργάνωση και αποθήκευση όλων των µεµβρανικών πρωτεϊνών που
περιέχουν MoRFs. Επικεντρωθήκαµε στις µεµβρανικές πρωτεΐνες, καθώς
αποτελούν το ένα τρίτο των πλήρως αλληλουχηµένων πρωτεωµάτων και
είναι υπεύθυνες για ποικιλία κυτταρικών λειτουργιών. Αρχικά τα δεδοµένα συλλέχθηκαν από τις ϐάσεις δεδοµένων Protein Data Bank (PDB) και
Uniprot ενώ η διαχείριση τους έγινε µε προγράµµατα που γράφτηκαν στη
γλώσσα προγραµµατισµού Perl. ΄Εγινε ταξινόµηση των MoRFs µε ϐάση τη
δευτεροταγή δοµή που αποκτούν κατά την αλληλεπίδραση µε άλλα πρωτεϊνικά µόρια. Εντοπίσαµε χαρακτηριστικά µοριακής αναγνώρισης (MoRFs)
τόσο σε διαµεµβρανικές όσο και σε περιφερειακές µεµβρανικές πρωτεΐνες
[2]. Επιπρόσθετα, προσδιορίσθηκε η ϑέση των MoRFs στις διαµεµβρανικές
πρωτεΐνες, σε σχέση µε την τοπολογία της πρωτεΐνης. ΄Ολη η πληροφορία
αποθηκεύτηκε σε µία δηµόσια διαθέσιµη ϐάση δεδοµένων ϐασισµένη στο
σύστηµα διαχείρισης ϐάσεων δεδοµένων mySQL, µε ένα ϕιλικό προς το
χρήστη περιβάλλον. Ακόµη, ένα Jmol applet (µικροεφαρµογή) έχει ενσωµατωθεί µε σκοπό την οπτικοποίηση των δοµών. Η mpMoRFsDB [3] στοχεύει στην παροχή πληροφοριών για αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών
σε µεµβρανικές πρωτεΐνες, στις οποίες εµπλέκονται εγγενώς µη δοµηµένες
περιοχές. Οι πρωτεΐνες αυτές παίζουν σηµαντικό ϱόλο σε κρίσιµες ϐιολογικές λειτουργίες ενώ περίπου το 50%, είναι πιθανοί κόµβοι σε δίκτυα αλληλεπιδράσεων πρωτεϊνών και σχετίζονται µε ασθένειες. Η ϐάση ϑα ανανεώνεται ανά τακτά χρονικά διαστήµατα µέσω µιας αυτοµατοποιηµένης διαδικασίας. Σύνδεσµος : http://bioinformatics.biol.uoa.gr/mpMoRFsDB/
i
ii
Abstract
Molecular Recognition Features (MoRFs) [1] are short (10-70 residues),
intrinsically disordered regions in proteins that undergo a disorder-toorder transition upon binding to their partners. MoRFs are implicated
in protein-protein interactions, which serve as the initial step in molecular recognition. The aim of this work was to collect, organize and store
all membrane proteins that contain MoRFs. We focused in membrane
proteins, as they constitute one third of fully sequenced proteomes and
are responsible for a wide variety of cellular functions. Data were initially collected from Protein Data Bank (PDB) and Uniprot and were
managed with Perl scripts. MoRFs were classified according to their
secondary structure, after interacting with their partners. We identified MoRFs both in transmembrane and peripheral proteins [2]. The
position of transmembrane protein MoRFs was determined relative to
a protein’s topology. All information was stored in a publicly available
mySQL database with a user-friendly web interface. A Jmol applet is
integrated for visualization of the structures. The utility of the database
[3] is the provision of information related to disordered based proteinprotein interactions in membrane proteins. Such proteins play key roles
in crucial biological functions and ca. 50% of them are putative hubs
in protein interaction networks. Consequently, these proteins may be
correlated with various human diseases. The database will be updated
on a regular basis by an automated procedure. Link to the database:
http://bioinformatics.biol.uoa.gr/mpMoRFsDB/
iii
iv
Ευχαριστίες
Η παρούσα ∆ιπλωµατική Εργασία εκπονήθηκε στον Τοµέα Βιολογίας
Κυττάρου και Βιοφυσικής στα πλαίσια του µεταπτυχιακού διπλώµατος ειδίκευσης ¨Βιοπληροφορική¨, του τµήµατος Βιολογίας του Εθνικού και Καποδιστριακού Πανεπιστηµίου Αθηνών, υπό την επίβλεψη του Καθηγητή κ.
Σταύρου Χαµόδρακα. Σε αυτό το σηµείο αισθάνοµαι την ανάγκη και την
ηθική υποχρέωση να ευχαριστήσω ορισµένους ανθρώπους, των οποίων η
συµβολή, η ϐοήθεια και η καθοδήγηση ήταν πολύτιµη κατά τη διάρκεια
συγγραφής και εκπόνησης της παρούσας ∆ιπλωµατικής Εργασίας.
Καταρχήν, οφείλω ένα µεγάλο ευχαριστώ στον Καθηγητή κ. Σταύρο Χαµόδρακα, ο οποίος επέβλεψε την παρούσα ∆ιπλωµατική Εργασία, για την
εµπιστοσύνη του να µου αναθέσει το ϑέµα αυτό. Θα ήθελα να τον ευχαριστήσω γιατί µέσα από τη διδασκαλία του και την προσωπική επαφή µαζί
του µε δίδαξε τον τρόπο µε τον οποίο πρέπει να γίνεται η έρευνα και µου
έδωσε σηµαντικά εφόδια για να αντιλαµβάνοµαι και να επεξεργάζοµαι τα
διάφορα ερωτήµατα που εγείρονται κατά την διάρκεια µιας επιστηµονικής
µελέτης. Σε κάθε στάδιο της εργασίας αυτής, ήταν διαρκώς δίπλα µου µε
πολύτιµες συµβουλές, αφιερώνοντάς µου πολύτιµο προσωπικό του χρόνο.
Τέλος, τον ευχαριστώ για την τιµή να µε συµπεριλάβει στην ερευνητική
οµάδα του Εργαστηρίου του, δίνοντάς µου την ευκαιρία να γνωρίσω και να
συνεργαστώ µε αξιόλογους ανθρώπους.
Θα ήθελα να ευχαριστήσω ακόµη τα υπόλοιπα µέλη της τριµελούς επιτροπής, τον Επίκουρο Καθηγητή Παντελή Γ. Μπάγκο και την Λέκτορα
Βασιλική Α. Οικονοµίδου για την πολύτιµη ϐοήθεια τους, τις χρήσιµες
συµβουλές τους και το χρόνο που µου αφιέρωσαν.
v
Ευχαριστώ ακόµη τους ∆ρ. Νικόλαο Παπανδρέου, ∆ρ. Ζωή Λίτου και
Υπ. ∆ιδάκτορα Μαργαρίτα Θεωδοροπούλου καθώς και όλα τα µέλη του
εργαστηρίου που ήταν πάντα πρόθυµοι να µε ϐοηθήσουν σε οτιδήποτε
χρειάστηκα.
Ιδιαίτερες ευχαριστίες ϑα ήθελα να δώσω στον Υπ. ∆ιδάκτορα Γεώργιο
Τσαούση για την πολύτιµη ϐοήθεια του, σε όλη τη διάρκεια της διπλωµατικής µου εργασίας. ΄Ηταν σαν να έχω έναν δεύτερο επιβλέποντα που µε
στήριξε και µε ϐοήθησε να κατανοήσω πολλές ϐιολογικές έννοιες και να
εµβαθύνω πάνω σε ϑέµατα ϐιοπληροφορικής.
Ευχαριστώ ακόµη τους ϕίλους και συµφοιτητές µου για τα δύο αυτά
χρόνια τα οποία περάσαµε παρέα.
Τέλος ϑα ήθελα να ευχαριστήσω πάνω από όλα την οικογένειά µου, για
την ηθική και οικονοµική στήριξη σε όλη τη διάρκεια της ϕοίτησής µου
και της Ϲωής µου.
vi
∆ηµοσιεύσεις και
Συνέδρια
∆ηµοσιεύσεις σε Επιστηµονικά Περιοδικά µε σύστηµα κριτών που
πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας
Foivos Gypas, Georgios N. Tsaousis, and Stavros J. Hamodrakas
mpMoRFsDB: A database of Molecular Recognition Features in Membrane Proteins
Bioinformatics first published online July 26, 2013
doi:10.1093/bioinformatics/btt427 [3]
Ανακοινώσεις σε ∆ιεθνή Συνέδρια µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας
Foivos Gypas, Georgios N. Tsaousis, Stavros J. Hamodrakas
mpMoRFsDB: A database of molecular recognition features (MoRFs) in
membrane proteins.
Joint 21st Annual International Conference on Intelligent Systems for
Molecular Biology and 12th Annual European Conference on Computational Biology (ISMB/ECCB) 2013, 21 - 23 Jul 2013.
vii
viii
Περιεχόµενα
Περίληψη
ι
Abstract
iii
Ευχαριστίες
v
∆ηµοσιεύσεις και Συνέδρια
vii
Κατάλογος Σχηµάτων
xi
Κατάλογος Πινάκων
xv
1 Εισαγωγή
1.1 Εγγενώς µη ∆οµηµένες Πρωτεΐνες . . . . . . . . .
1.1.1 Χαρακτηριστικά . . . . . . . . . . . . . . .
1.1.2 Βάσεις ∆εδοµένων . . . . . . . . . . . . . .
1.1.3 Αλγόριθµοι Πρόγνωσης . . . . . . . . . . .
1.2 Χαρακτηριστικά Μοριακής Αναγνώρισης . . . . .
1.2.1 Χαρακτηριστικά . . . . . . . . . . . . . . .
1.2.2 Βάσεις ∆εδοµένων . . . . . . . . . . . . . .
1.2.3 Αλγόριθµοι Πρόγνωσης . . . . . . . . . . .
1.3 Μεµβρανικές Πρωτεΐνες . . . . . . . . . . . . . .
1.3.1 ∆ιαµεµβρανικές Πρωτεΐνες . . . . . . . . .
1.3.2 Περιφερειακές Μεµβρανικές Πρωτεΐνες . . .
1.3.3 Αγκυροβοληµένες στη Μεµβράνη Πρωτεΐνες
1
1
2
4
7
8
9
12
12
14
14
16
16
2 Σκοπός
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
3 Μεθοδολογία
21
3.1 Συγκέντρωση και επεξεργασία δεδοµένων . . . . . . . . . . . 21
3.1.1 Βάσεις ∆εδοµένων . . . . . . . . . . . . . . . . . . . . 21
ix
3.1.2
3.1.3
3.1.4
3.1.5
3.1.6
Συγκέντρωση δοµών από PDB . . . . . . . . . . . . .
Επεξεργασία PDB αρχείων . . . . . . . . . . . . . . .
Επεξεργασία Uniprot αρχείων . . . . . . . . . . . . .
Εύρεση τύπου µεµβρανικής πρωτεΐνης . . . . . . . . .
Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.7 Εύρεση πρωτεΐνης µε την οποία αλληλεπιδρά το χαϱακτηριστικό µοριακής αναγνώρισης . . . . . . . . . .
3.2 Κατασκευή ϐάσης δεδοµένων . . . . . . . . . . . . . . . . .
4 Αποτελέσµατα
4.1 mpMoRFsDB . . . . . . . . . . . .
4.1.1 Αρχική σελίδα mpMoRFsDB
4.1.2 Browse mpMoRFsDB . . . .
4.1.3 Search mpMoRFsDB . . . .
4.1.4 Entry mpMoRFsDB . . . . .
4.1.5 Blast Search mpMoRFsDB .
4.1.6 Download mpMoRFsDB . .
4.2 Στατιστικά . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
23
25
26
27
28
33
33
33
33
34
37
39
42
45
5 Συµπεράσµατα - Μελλοντική Εργασία
49
6 Βιβλιογραφία
51
Α΄ ∆ηµοσιεύσεις και Συνέδρια
63
x
Κατάλογος Σχηµάτων
1.1 Η δοµή της a-synuclein. PDB ID: 1XQ8. Με κόκκινο χρώµα
έχει σηµανθεί η εγγενώς µη δοµηµένη περιοχή της πρωτεΐνης
(αµινοξικά κατάλοιπα 96 - 160). . . . . . . . . . . . . . . . .
2
1.2 Ονόµατα τα οποία έχουν δοθεί για τις εγγενώς µη δοµηµένες
πρωτεΐνες στη διάρκεια των χρόνων. . . . . . . . . . . . . . .
3
1.3 PDB και εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές . . . .
6
1.4 Ολικό ϕορτίο (πάνω), ποσοστό προλίνης (µέση) και ποσοστό
αρωµατικών (κάτω) σε χαρακτηριστικά µοριακής αναγνώρισης (κόκκινο χρώµα) και PDB_25 (µπλε χρώµα) [1]. . . . . .
9
1.5 Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης
µε ϐάση τα στοιχεία δευτεροταγούς δοµής. Πάνω αριστεϱά α-MoRF (PDB ID: 1BXL), πάνω δεξιά β -MoRF (PDB ID:
2ZPY), κάτω αριστερά irregular-MoRF (PDB ID: 1A6A), κάτω
δεξιά complex-MoRF (PDB ID: 1YBO). . . . . . . . . . . . . 10
1.6 ∆ιαχωρισµός πρωτεϊνών που περιέχουν χαρακτηριστικά µοϱιακής αναγνώρισης από σφαιρικές πρωτεΐνες. Στον οριζόντιο άξονα είναι το µέγεθος της επιφάνειας αλληλεπίδρασης
(Interface area), ενώ στον κάθετο άξονα είναι το µέγεθος της
επιφάνειας (Surface area). . . . . . . . . . . . . . . . . . . . 11
1.7 Κατηγορίες µεµβρανικών πρωτεΐνών. ∆ιαµεµβρανικές οι οποίες διαπερνούν την λιπιδική διπλοστοιβάδα. Περιφερειακές
και αγκυροβοληµένες πρωτεΐνες οι οποίες ϐρίσκονται προσκολληµένες στην επιφάνεια της µεµβράνης µε ασθενείς αλληλεπιδράσεις (περιφερειακές µεµβρανικές πρωτεΐνες) ή οµοιοπολικούς δεσµούς µε τα λιπίδια. . . . . . . . . . . . . . 15
xi
1.8 Τέσσερις διαφορετικοί τρόποι µε τους οποίους πρωτεϊνικά
µόρια µπορούν να συνδεθούν σε µια µεµβράνη. Με πράσινο
είναι οι περιοχές που διαπερνούν ή ϐυθίζονται στη µεµβράνη
και κόκκινο οι περιοχές έξω από τη µεµβράνη. Οι α-έλικες
απεικονίζονται ως κύλινδροι και οι ϐ-κλώνοι ως ϐέλη. Από
αριστερά προς τα δεξιά είναι : (a) µια πρωτεΐνη της οποίας η
πολυπεπτιδική αλυσίδα διαπερνά τη µεµβράνη µια ϕορά ως
α-έλικα, (b) µια πρωτεΐνη η οποία σχηµατίζει αρκετές διαµεµϐρανικές α-έλικες που συνδέονται µε υδρόφιλους ϐρόχους,
(c) µια πρωτεΐνη µε αρκετούς ϐ-κλώνους που σχηµατίζουν
ένα κανάλι διαµέσου της µεµβράνης και (d) µια πρωτεΐνη
η οποία είναι αγκυροβοληµένη στη µεµβράνη µέσω µιας αέλικας παράλληλη προς το επίπεδο της µεµβράνης. . . . . . 17
3.1 Μέρος του Advanced Search της PDB. Στο πάνω τµήµα το
Chain Length επιλέγεται µεταξύ 10 και 70 καταλοίπων. Στο
κάτω τµήµα το Number of Entities πρέπει να αποτελείται από τουλάχιστον 2 οντότητες. Με αυτές τις επιλογές γίνεται
κατέβασµα των συµπλόκων που πιθανόν να περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από την PDB. . . . . . . .
3.2 Το πεδίο SEQRES ενός PDB αρχείου . . . . . . . . . . . . .
3.3 Το πεδίο DBREF ενός PDB αρχείου . . . . . . . . . . . . . .
3.4 Τµήµα Uniprot (flat file) αρχείου. Φαίνονται τα πεδία ID και
Accession της πρωτεΐνης. . . . . . . . . . . . . . . . . . . .
3.5 Τµήµα αρχείου το οποίο είναι διαθέσιµο από το EBI και κάνει
αντιστοίχιση PDB κωδικών σε Uniprot Accessions. . . . . .
3.6 Αρχείο που δηµιουργείται από τον κώδικά µας. Η πληροϕορία η οποία περιέχει είναι (από αριστερά προς τα δεξιά)
ο κωδικός PDB, η αλυσίδα PDB, που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στη δοµή,
το Uniprot Accession και που ξεκινάει και που τελειώνει το
χαρακτηριστικό µοριακής αναγνώρισης στην πρωτεΐνη. . . .
3.7 Το πεδίο CC (SUBCELLULAR LOCATION) µιας Uniprot εγγραφής. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8 Πιθανό πρωτεϊνικό σύµπλοκο το οποίο αποτελείται από τρεις
αλυσίδες. Την A, τη B και τη C. Το Α αλληλεπιδρά µε το
Β όταν (Α+Β) 6= (Α)+(Β), ενώ δεν αλληλεπιδρά όταν (Α+Β) =
(Α)+(Β) όπου (Α), (Β) οι ASA του χαρακτηριστικού µοριακής
αναγνώρισης και της πρωτεΐνης µε την οποία πιθανόν να αλληλεπιδρά και (Α+Β) η ASA του συµπλόκου. . . . . . . . . .
xii
22
23
24
24
25
25
26
28
3.9 Σχεσιακό σχήµα της ϐάσης δεδοµένων mpMoRFsDB
4.1
4.2
4.3
4.4
. . . . 29
Αρχική σελίδα της ϐάσης δεδοµένων mpMoRFsDB . . . . . .
Το εργαλείο Browse της ϐάσης δεδοµένων mpMoRFsDB . . .
Φίλτρα που εφαρµόζονται στο Browse της mpMoRFsDB . . .
Φίλτρο ανάλογα µε τον τύπο των µεµβρανικών πρωτεϊνών στο
Browse της mpMoRFsDB . . . . . . . . . . . . . . . . . . .
4.5 Φίλτρο ανάλογα µε τον τύπο των χαρακτηριστικών µοριακής
αναγνώρισης πρωτεϊνών στο Browse της mpMoRFsDB . . . .
4.6 ΄Ολες οι πρωτεΐνες που περιέχουν complex-MoRFs στην mpMoRFsDB . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7 Παράδειγµα χρήσης του Search στην mpMoRFsDB. Η αναϹήτηση µπορεί να γίνει αρκετά σύνθετη όπως ϕαίνεται. . . . .
4.8 Παράδειγµα εγγραφής στη ϐάση δεδοµένων mpMoRFsDB.
Uniprot Accession: P01730. . . . . . . . . . . . . . . . . . .
4.9 Η σελίδα του Blast Search της mpMoRFsDB όπου ο χρήστης
µπορεί να εισάξει µια αλληλουχία σε FASTA format και να αναζητήσει οµόλογες έναντι της mpMoRFsDB. Επιπλέον δίνεται η δυνατότητα να επιλέξει συγκεκριµένο κατώφλι για το
e-value των αποτελεσµάτων που ϑα εµφανιστούν. . . . . . . .
4.10 Ο πίνακας µε τα αποτελέσµατα των στοιχίσεων όπου δίνονται
πληροφορίες για τις πρωτεΐνες καθώς και στατιστικά στοιχεία
για την στοίχιση. . . . . . . . . . . . . . . . . . . . . . . . .
4.11 Αναλυτικές πληροφορίες µιας στοίχισης µέσω του εργαλείου
BLAST . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.12 Παράδειγµα Text αρχείου της ϐάσης δεδοµένων mpMoRFsDB
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.13 Παράδειγµα XML αρχείου της ϐάσης δεδοµένων mpMoRFsDB
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.14 Με κόκκινο χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης µικρού µήκους (µέχρι 30
αµινοξικά κατάλοιπα). Με µπλε χρώµα οι πρωτεΐνες που
περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης µεγάλου µήκους (πάνω από 30 αµινοξικά κατάλοιπα). . . . . .
xiii
34
35
35
35
36
36
36
39
40
41
42
43
44
46
xiv
Κατάλογος Πινάκων
1.1 Αλγόριθµοι Πρόγνωσης Εγγενώς Μη ∆οµηµένων Πρωτεϊνών . 8
1.2 Οι 8 πιο συχνά εµφανιζόµενες λειτουργικές τάξεις από τη
Swiss Prot για χαρακτηριστικά µοριακής αναγνώρισης [1]. . 12
4.1 ∆ιαχωρισµός µεµβρανικών πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 ∆ιαχωρισµός χαρακτηριστικών µοριακής αναγνώρισης µε ϐάση
τα στοιχεία δευτεροταγούς δοµής . . . . . . . . . . . . . . .
4.3 Ποσοστά υποδοχέων στις µεµβρανικές πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης. . . . . . . . .
4.4 ∆ιαχωρισµός µεµβρανικών πρωτεϊνών (οργανισµός Homo sapiens) που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης
µε ϐάση τον τύπο της πρωτεΐνης. . . . . . . . . . . . . . . .
xv
45
46
46
47
xvi
Κεφάλαιο 1
Εισαγωγή
Την τελευταία δεκαετία νέοι τοµείς σχετικοί µε τον τοµέα της Βιολογίας έχουν αρχίσει να εµφανίζονται στο προσκήνιο. Τα αποτελέσµατα που
προκύπτουν καθηµερινά από πειράµατα αλληλούχισης επόµενης γενιάς
αυξάνουν εκθετικά τον όγκο της πληροφορίας που γίνεται δηµόσια διαϑέσιµη. Αυτός ο όγκος της πληροφορίας δεν µπορεί να διαχειριστεί από
επιστήµονες ενός µόνο κλάδου. ΄Ετσι γίνεται αναγκαία η συνύπαρξη και
συνεργασία επιστηµόνων από διαφορετικούς τοµείς, όπως Βιολογίας, Μαϑηµατικών, Στατιστικής, Πληροφορικής και Μηχανικής. Προς αυτή την
κατεύθυνση και σε συνδυασµό µε τη ϱαγδαία ανάπτυξη της τεχνολογίας, ο
κλάδος της Βιοπληροφορικής εξελίσσεται ταχύτατα. Οι τοµείς στους οποίους ϐρίσκει εφαρµογή η Βιοπληροφορική είναι πολλοί, ενώ η έννοια του
όρου περιλαµβάνει ποικίλες εφαρµογές. Ιδαίτερα χρήσιµη έχει αποδειχτεί
στον τοµέα της µελέτης και ανάλυσης πρωτεϊνών.
1.1
Εγγενώς µη ∆οµηµένες Πρωτεΐνες
Τα τελευταία χρόνια υπήρξε ένα αυξανόµενο ενδιαφέρον για την µελέτη
των εγγενώς µη δοµηµένων πρωτεϊνών. Οι εγγενώς µη δοµηµένες ή µη
κανονικές πρωτεΐνες (Intrinsically Disordered Proteins - IDPs) [4] είναι
πρωτεΐνες οι οποίες στο ϕυσικό περιβάλλον δε διαθέτουν συγκεκριµένη
σταθερή στερεοδοµή, αλλά είναι λειτουργικές. Μία πρωτεΐνη µπορεί να
είναι πλήρως ή µερικώς µη δοµηµένη, περιέχοντας µεγάλες ή µικρές εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές (Intrinsically Disordered Regions
(IDRs) ή Intrinsically Disordered Protein Regions (IDPRs)) [4] [5]. Στους
1
ευκαρυωτικούς οργανισµούς το 20-30% των πρωτεϊνών περιέχουν εγγενώς
µη δοµηµένα τµήµατα, ενώ περισσότερες από το 50% των πρωτεϊνών πεϱιέχουν µεγάλα εγγενώς µη δοµηµένα τµήµατα [6]. Μικρότερα ποσοστά
έχουν σηµειωθεί στα Ευβακτήρια και τα Αρχαία [7].
΄Ενα χαρακτηριστικό παράδειγµα εγγενώς µη δοµηµένης πρωτεΐνης είναι
η α-συνουκλεΐνη η οποία ϕαίνεται στο σχήµα 1.1. Η α-συνουκλεΐνη είναι
µια πρωτεΐνη της οποίας η λειτουργία δεν είναι σίγουρα γνωστή. Πιθανόν
να συµµετέχει στην ϱύθµιση για απελευθέωση και µεταφορά ντοπαµίνης.
Η συγκεκριµένη πρωτεΐνη αποτελείται από 160 αµινοξικά κατάλοιπα και
περιέχει µια µεγάλη περιοχή η οποία είναι µη δοµηµένη [8] και πιο συγκεκριµένα στα κατάλοιπα 96 - 160.
Σχήµα 1.1: Η δοµή της a-synuclein. PDB ID: 1XQ8. Με κόκκινο χρώµα
έχει σηµανθεί η εγγενώς µη δοµηµένη περιοχή της πρωτεΐνης (αµινοξικά
κατάλοιπα 96 - 160).
1.1.1
Χαρακτηριστικά
Στη διάρκεια των χρόνων ποικιλία ονοµάτων έχουν δοθεί για τις εγγενώς µη δοµηµένες πρωτεΐνες. Κάποια είναι πιο λογικά, ενώ κάποια πιο
ευφάνταστα [4]. Στο σχήµα 1.2 ϕαίνονται κάποια από αυτά, όπως proteinclouds, natively-unfolded, vulnerable, mobile, malleable, natively-disordered,
2
dancing-proteins, flexible, intrinsically-unstructured, chameleon, nativelydenatured, intrinsically-unfolded, floppy, rheomorphic, partially-folded,
pliable. Ο όρος όµως ο οποίος έχει επικρατήσει και χρησιµοποιείται στη
διεθνή ϐιβλιογραφία είναι Intrinsically Disordered Proteins οι οποίες εν
συντοµία λέγονται IDPs.
Σχήµα 1.2: Ονόµατα τα οποία έχουν δοθεί για τις εγγενώς µη δοµηµένες
πρωτεΐνες στη διάρκεια των χρόνων.
Οι εγγενώς µη δοµηµένες πρωτεΐνες διαφέρουν στην αµινοξική σύσταση
από τις σφαιρικές πρωτεΐνες. Πιο συγκεκριµένα υπάρχει έλλειψη στα αµινοξικά κατάλοιπα που ϐοηθούν την αναδίπλωση των πρωτεϊνών, όπως Ile,
Leu, Val, Trp, Tyr, Phe, Cys, και Asn, ενώ είναι εµπλουτισµένες στα αµινοξικά κατάλοιπα που δε ϐοηθούν στην αναδίπλωση όπως Ala, Arg, Gly,
Gln, Ser, Glu, Lys, και Pro [9] [10] [11] [12] [13].
Πολλές εγγενώς µη δοµηµένες πρωτεΐνες, εµπλέκονται σε αλληλεπιδράσεις µε άλλα αλληλεπιδρώντα µόρια. Πολύ συχνά λειτουργούν σαν
κύριοι κόµβοι (hubs) σε δίκτυα αλληλεπιδράσεων πρωτεϊνών - πρωτεϊνών
[14] [15] [16] [17] [18] [19] [20] [21].
Η ανάλυση δικτύων αλληλεπιδράσεων εγγενώς µη δοµηµένων πρωτεϊνών
έχει αποκαλύψει πολλούς πιθανούς ϱόλους. Μια δοµηµένη πρωτεϊνική πεϱιοχή (που λειτουργεί σαν κόµβος) µπορεί να αλληλεπιδρά µε περισσότερα
από ένα µόρια. Επισπρόσθετα πολλές εγγενώς µη δοµηµένες πρωτεΐνες
µπορούν να αλληλεπιδράσουν µε τις ίδιες σφαιρικές πρωτεΐνες/κόµβους
[14] [15].
3
Λόγω των σηµαντικών ϱόλων που διαδραµατίζουν οι εγγενώς µη δοµηµένες πρωτεΐνες και της σηµαντικής τους ϑέσης σε δίκτυα αλληλεπιδράσεων πρωτεϊνών - πρωτεϊνών, πολλές εγγενώς µη δοµηµένες πρωτεΐνες εµπλέκονται σε πολλές ανθρώπινες ασθένειες [22] [23]. Παρουσία εγγενώς
µη δοµηµένων πρωτεϊνών, εµφανίζεται σε πρωτεΐνες που έχουν συσχετιστεί
µε καρκίνο, καρδιαγγειακά νοσήµατα, νευροεκφυλιστικές ασθένειες, αµυλοειδώσεις καθώς και σε πρωτεΐνες από παθογόνα µικρόβια και ιούς [24]
[22] [25] [26] [27] [28] [29] [30] [31].
Οι εγγενώς µη δοµηµένες πρωτεΐνες χωρίζονται σε έξι µεγάλες κατηγοϱίες (assemblers, chaperones, display sites, effectors, entropic chains,
scavengers) [32] [33] και 28 ξεχωριστές λειτουργίες τους έχουν ανατεθεί,
περιλαµβάνοντας τη µοριακή αναγνώριση µέσω σύνδεσης µε άλλες πρωτεΐνες ή νουκλεϊκά οξέα [34] [35]. Πολλές εγγενώς µη δοµηµένες πρωτεΐνες εµπλέκονται σε λειτουργίες ϱύθµισης, αναγνώρισης, σηµατοδότησης
και ελέγχου µονοπατιών, όπου αλληλεπιδράσεις υψηλής ειδικότητας και
χαµηλής συγγένειας είναι απαραίτητες για αλληλεπιδράσεις µε πολλά µακροµόρια.
1.1.2
Βάσεις ∆εδοµένων
DISPROT
Η πιο γνωστή ϐάση που περιέχει εγγενώς µη δοµηµένες πρωτεΐνες είναι η
DISPROT [36]. Η συγκεκριµένη ϐάση δεδοµένων αναπτύχθηκε στο Center
of Computational Biology and Bioinformatics του Indiana University και
στο Center of Information Science and Technology του Temple University
από τις οµάδες των Dunker AK και Uversky VN. Ο χρήστης µπορεί να
επισκεφθεί τη ϐάση στην ιστοσελίδα http://www.disprot.org. Η DISPROT
αναπτύχθηκε µε σκοπό τη συλλογή και οργάνωση γνώσης σχετικά µε τον
πειραµατικό χαρακτηρισµό και τη λειτουργική συσχέτιση των εγγενώς µη
δοµηµένων πρωτεϊνών. Η συλλογή των δεδοµένων έχει γίνει ϐιβλιογραφικά.
IDEAL
4
Μια ακόµη σηµαντική ϐάση είναι η IDEAL (Intrinsically Disordered proteins with Extensive Annotations and Literature). Η συγκεκριµένη ϐάση
έχει αναπτυχθεί στο πανεπιστήµιο της Nagoya στην Ιαπωνία. Η ιστοσελίδα
της ϐάσης είναι http://www.ideal.force.cs.is.nagoya-u.ac.jp/IDEAL/. Η
IDEAL παρέχει µια συλλογή από πειραµατικά ελεγµένων εγγενώς µη δοµηµένων πρωτεϊνών και εγγενώς µη δοµηµένων πρωτεϊνικών τµηµάτων. Η
IDEAL περιέχει σχολιασµό πρωτεϊνών µε µη αυτοµατοποιηµένο τρόπο, ενώ
παρέχεται πληροφορία σχετικά µε τις περιοχές, τις δοµές και λειτουργικές
ϑέσεις των εγγενώς µη δοµηµένων πρωτεϊνών, όπως περιοχές δέσµευσης
πρωτεϊνών και ϑέσεις µεταµεταφραστικών τροποποιήσεων µαζί µε αναφοϱές και αναθέσεις αυτοτελώς δοµικών µονάδων.
ComSin
Μια ενδιαφέρουσα προσπάθεια είναι η ComSin (Database of protein
structures in bound (Complex) and unbound (Single) states in relation to
their intrinsic disorder) [37]. Η συγκεκριµένη ϐάση αναπτύχθηκε στο Institute of Protein Research, της ϱωσικής ακαδηµίας επιστηµών στη Μόσχα
από την οµάδα της Galzitskaya OV. Ο χρήστης µπορεί να επισκεφθεί τη
ϐάση στην ιστοσελίδα http://bioinfo.protres.ru/comsin/. Η συγκεκριµένη ϐάση περιλαµβάνει δοµές από την PDB τόσο σε κατάσταση δέσµευσης, όσο και σε κατάσταση αποδέσµευσης. Με αυτό τον τρόπο µπορεί να
γίνει µελέτη πρωτεϊνών πριν και µετά την αλληλεπίδρασή τους µε άλλες
πρωτεΐνες.
MobiDB
Η MobiDB (a database of protein disorder and mobility annotations)
[38] είναι µια ϐάση δεδοµένων που αναπτύχθηκε στο πανεπιστήµιο της
Padova στην Ιταλία. Η MobiDB συγκεντρώνει πληροφορίες σχετικά µε εγγενώς µη δοµηµένες πρωτεΐνες από ϐάσεις δεδοµένων και από αλγόριθµους πρόγνωσης. Στη συνέχεια τις συνδυάζει, µε απώτερο σκοπό την
ταξινόµηση των εγγενώς µη δοµηµένων περιοχών σε ευέλικτες και συντηρηµένες. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στη διεύθυνση
http://mobidb.bio.unipd.it.
D2 P 2
5
Η D2 P2 (Database of Disordered Protein Predictions) [39] είναι µια ϐάση
δεδοµένων η οποία συγκεντρώνει αποτελέσµατα από αλγόριθµους πρόγνωσης για εγγενώς µη δοµηµένες πρωτεΐνες και τα συγκρίνει µεταξύ τους.
Η συγκεκριµένη ϐάση αναπτύχθηκε από την οµάδα των Dunker AK και
Uversky VN. Ο χρήστης µπορεί να επισκεφθεί τη ϐάση στη διεύθυνση
http://d2p2.pro
PDB και εγγενώς µη δοµηµένες πρωτεΐνες
Το ενδιαφέρον για τις εγγενώς µη δοµηµένες πρωτεΐνες έχει αυξηθεί τα
τελευταία χρόνια κάτι το οποίο ϕαίνεται και από το γεγονός ότι η PDB [40]
έχει ενσωµατώσει ένα πεδίο στην ιστοσελίδα της, που αναφέρει αν οι δοµές
περιλαµβάνουν εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές όπως ϕαίνεται
και στο σχήµα 1.3. Το συγκεκριµένο πεδίο κάνει χρήση του αλγόριθµου
πρόγνωσης JRonn [41].
Σχήµα 1.3: PDB και εγγενώς µη δοµηµένες πρωτεϊνικές περιοχές
6
1.1.3
Αλγόριθµοι Πρόγνωσης
Στη διάρκεια των χρόνων πολλοί αλγόριθµοι πρόγνωσης για εγγενώς µη
δοµηµένες πρωτεΐνες έχουν αναπτυχθεί. Οι πρώτοι αλγόριθµοι πρόγνωσης που αναπτύχθηκαν ϐασίζονταν στις ϕυσικοχηµικές ιδιότητες των αµινοξέων. Με την πάροδο των χρόνων οι αλγόριθµοι πρόγνωσης χρησιµοποιούν πιο σύγχρονες τεχνικές µηχανικής µάθησης όπως τεχνητά νευρωνικά δίκτυα, support vector machines ή συνδυασµό αυτών. Τα τελευταία
χρόνια έχουν αναπτυχθεί και χρησιµοποιούνται κατά κύριο λόγο συναινετικοί αλγόριθµοι οι οποίοι επιτυγχάνουν υψηλότερα ποσοστά επιτυχίας.
Μία χρονολογική ταξινόµηση των αλγορίθµων πρόγνωσης εγγενώς µη δοµηµένων πρωτεϊνών, µε µια µικρή περιγραφή των χαρακτηριστικών τους
ακολουθεί στον πίνακα 1.1.
΄Ονοµα
PONDR
GlobPlot
DisEMBL
DISOPRED
DISOPRED2
DRIP-RED
IUPred
RONN
DISpro
FoldIndex
FoldUnfold
Spritz
DisPSSMP
iPDA
PrDOS
NORSet
Χαρακτηριστικά
΄Ετος Αναφορά
Πολλοί Predictors
1997
[42]
Σχετική τάση καταλοίπου να είναι 2003
[43]
σε κανονική ή µη κανονική κατάσταση.
Προβλέπει 3 είδη µη κανονικής δο- 2003
[44]
µής.
Νευρωνικά δίκτυα (χρήση ολόκλη- 2003
[45]
ϱης της ακολουθίας).
SVMs (χρήση ολόκληρης της ακο- 2004
[46]
λουθίας).
Kohonen’s SOM
2004
[47]
∆ιαµοριακές αλληλεπιδράσεις (για 2005
[48]
σχηµατισµό δοµής)
Λειτουργικές στοιχίσεις
2005
[41]
1D-RNN
2005
[49]
Λόγος ϕορτίου/υδροφοβικότητας
2005
[50]
Χρήση εντροπίας
2006
[51]
Συνδυασµός δύο binary classifiers 2006
[52]
Βασίζεται σε Radial Basis Func- 2006
[53]
tion Networks µε είσοδο PSSM
Πιο συνοπτικό PSSM
2007
[54]
Συνδυασµός δύο predictors. Ο 2007
[55]
ένας στοίχιση οµόλογων
Feed Forward Neural Network
2007
[56]
7
POODLE-S
POODLE-L
Bayes
IUP
7 SVMs
2007
SVM σε δύο επίπεδα
2007
Πιθανότητα ακολουθίας
2008
Recursive Maximum Constant 2008
Tree
OnD-CRFs
Conditional Random Fields
2008
DISOclust
Χρήση συντηρηµένων περιοχών
2008
metaPrDOS
Χρήση 7 διαφορετικών Predic- 2008
tors: PrDOS, DISOPRED2, DisEMBL, DISPROT, DISpro, IUPred,
POODLE-S
MD
Metapredictor: NORSnet, Ucon, 2009
PROFBval, DISOPRED2, IUPred,
FoldIndex
CDF-ALL
Metapredictor: VLXT, VSL2, VL3, 2008
TopIDP, IUPred, FoldIndex
PRONDR-FIT Metapredictor. Consensus ANN
2010
Πίνακας 1.1: Αλγόριθµοι Πρόγνωσης Εγγενώς
Μη ∆οµηµένων Πρωτεϊνών
1.2
[57]
[58]
[59]
[60]
[61]
[62]
[55]
[63]
[64]
[65]
Χαρακτηριστικά Μοριακής Αναγνώρισης
Τα Χαρακτηριστικά Μοριακής Αναγνώρισης (Molecular Recognition Features, MoRFs ή Molecular Recognition Elements, MoREs) [1] είναι µικρά
(10-70 κατάλοιπα), εγγενώς µη δοµηµένα τµήµατα σε πρωτεΐνες που αποκτούν χαρακτηριστική δοµή µετά την αλληλεπίδρασή τους µε άλλες
πρωτεΐνες [66]. Τα χαρακτηριστικά µοριακής αναγνώρισης εµπλέκονται
σε αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών και διαδραµατίζουν σηµαντικό
ϱόλο στη διαδικασία της µοριακής αναγνώρισης.
8
1.2.1
Χαρακτηριστικά
Αµινοξική Σύσταση
Τα χαρακτηριστικά µοριακής αναγνώρισης είναι εγγενώς µη δοµηµένες
περιοχές σε µια πρωτεΐνη πριν από την αλληλεπίδρασή τους µε κάποια
πρωτεΐνη, ενώ αποκτούν χαρακτηριστική δοµή µετά την αλληλεπίδρασή
τους µε αυτή. Η αµινοξική τους σύσταση [1] είναι παρόµοια µε αυτή των
εγγενώς µη δοµηµένων πρωτεϊνών. Υπάρχει έλλειψη στα αµινοξικά κατάλοιπα που ϐοηθούν την αναδίπλωση των πρωτεϊνών, δηλαδή TRP, ILE,
TYR, VAL, LEU ενώ είναι εµπλουτισµένες στα αµινοξικά κατάλοιπα που
δε ϐοηθούν στην αναδίπλωση των πρωτεϊνών όπως ARG, GLY, SER, PRO.
[11] [9] [10]. Αντίθετα το ολικό ϕορτίο, τα ποσοστά προλίνης και τα ποσοστά αρωµατικών καταλοίπων εµφανίζουν παρόµοια χαρακτηριστικά µε
τις σφαιρικές πρωτεΐνες όπως ϕαίνεται και στο σχήµα 1.4 σύµφωνα µε την
εργασία των Mohan και συνεργατών [1].
26.4
21.9
0
5
10
15
20
25
30
5.9%
4.0%
0%
2.5%
5%
7.5%
10%
8.4%
9.4%
0%
2.5%
5%
7.5%
10%
Σχήµα 1.4: Ολικό ϕορτίο (πάνω), ποσοστό προλίνης (µέση) και ποσοστό
αρωµατικών (κάτω) σε χαρακτηριστικά µοριακής αναγνώρισης (κόκκινο
χρώµα) και PDB_25 (µπλε χρώµα) [1].
Κατηγορίες
Τα χαρακτηριστικά µοριακής αναγνώρισης µπορούν να διαχωριστούν σε
τέσσερις µεγάλες κατηγορίες (σχήµα 1.5) [1] µε ϐάση τη δευτεροταγή δοµή που αποκτούν κατά την αλληλεπίδραση µε άλλες πρωτεΐνες. ΄Ετσι στην
9
περίπτωση που σχηµατίζουν α-έλικες ταξινοµούνται ως α-MoRFs, στην πεϱίπτωση που σχηµατίζουν ϐ-ϕύλλα ταξινοµούνται ως β -MoRFs, στην πεϱίπτωση που δε σχηµατίζουν κάποια συγκεκριµένη δοµή ταξινοµούνται ως
irregular-MoRFs, ενώ αν γίνεται συνδυασµός των παραπάνω ταξινοµούνται ως complex-MoRFs. Σηµαντικό είναι να σηµειωθεί ότι για να ϑεωρηθεί
ένα χαρακτηριστικό µοριακής αναγνώρισης complex δε ϑα πρέπει τα ποσοστά των στοιχείων δευτεροταγούς δοµής που το σχηµατίζουν να διαφέρουν
περισσότερο από 1% µεταξύ τους. ∆ηλαδή η διαφορά για παράδειγµα
στοιχείων που σχηµατίζουν ϐ-ϕύλλα από στοιχεία που σχηµατίζουν µη κανονική δοµή (irregular) να είναι µικρότερη του 1%, µε χαρακτηριστικό
παράδειγµα το complex-MoRF του σχήµατος 1.5 όπου τα ποσοστά µεταξύ
ϐ και irregular είναι περίπου ίσα.
Σχήµα 1.5: Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης µε
ϐάση τα στοιχεία δευτεροταγούς δοµής. Πάνω αριστερά α-MoRF (PDB
ID: 1BXL), πάνω δεξιά β -MoRF (PDB ID: 2ZPY), κάτω αριστερά irregularMoRF (PDB ID: 1A6A), κάτω δεξιά complex-MoRF (PDB ID: 1YBO).
10
∆ιαχωρισµός από σφαιρικές πρωτεΐνες
Οι πρωτεΐνες οι οποίες περιλαµβάνουν εγγενώς µη δοµηµένα τµήµατα (όπως χαρακτηριστικά µοριακής αναγνώρισης για παράδειγµα) έχουν
πιο εκτεταµένη δοµή σε σχέση µε τις σφαιρικές πρωτεΐνες. ΄Ενα καλό κριτήριο διαχωρισµού (σχήµα 1.6) είναι µέσω της σύγκρισης του µεγέθους της
επιφάνειας (Surface area) και του µεγέθους της επιφάνειας αλληλεπίδρασης(interface area). ΄Οπως ϕαίνεται επιτυγχάνεται καλός διαχωρισµός µεταξύ πρωτεΐνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από
σφαιρικές πρωτεϊνες.
Σχήµα 1.6: ∆ιαχωρισµός πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από σφαιρικές πρωτεΐνες. Στον οριζόντιο άξονα είναι το
µέγεθος της επιφάνειας αλληλεπίδρασης (Interface area), ενώ στον κάθετο
άξονα είναι το µέγεθος της επιφάνειας (Surface area).
Λειτουργίες
Οι λειτουργίες των χαρακτηριστικών µοριακής αναγνώρισης είναι πολλές
και σηµαντικές [1]. Οι πιο σηµαντικές είναι η σηµατοδότηση, η σύνδεση και η µοριακή αναγνώριση. Στον πίνακα 1.2 απεικονίζονται οι 8 πιο
συχνά εµφανιζόµενες λειτουργικές τάξεις από τη Swiss Prot (keywords)
για χαρακτηριστικά µοριακής αναγνώρισης. Αυτές είναι Signal, Glycoprotein, Transmembrane, Alternative splicing, Hydrolase, DNA binding,
Transcription regulation, Serine protease inhibitor. Παρατηρείται ότι χαϱακτηριστικά µοριακής αναγνώρισης εντοπίζονται συχνά και στις διαµεµϐρανικές πρωτεΐνες. Αυτός ήταν ένας σηµαντικός λόγος για την περαιτέρω
µελέτη των χαρακτηριστικών µοριακής αναγνώρισης σε σχέση µε τις µεµϐρανικές πρωτεΐνες [2].
11
Λειτουργία
Συχνότητα
Signal
57
Glycoprotein
41
Transmembrane
37
Alternative splicing
35
Hydrolase
25
DNA binding
24
Transcription regulation
23
Serine protease inhibitor
21
Πίνακας 1.2: Οι 8 πιο συχνά εµφανιζόµενες λειτουργικές τάξεις από τη
Swiss Prot για χαρακτηριστικά µοριακής αναγνώρισης [1].
1.2.2
Βάσεις ∆εδοµένων
Μέχρι την υλοποίηση της παρούσας εργασίας καµία ϐάση δεδοµένων
δεν υπήρχε η οποία να περιλαµβάνει χαρακτηριστικά µοριακής αναγνώρισης. Η µόνη προσπάθεια που έγινε στο παρελθόν είναι η συγκέντρωση
συνόλων είτε για ανάλυση [1], είτε για χρήση σε αλγόριθµους πρόγνωσης
[67] [68]. Η πρώτη ολοκληρωµένη, δηµόσια διαθέσιµη ϐάση δεδοµένων
είναι η mpMoRFsDB [3].
1.2.3 Αλγόριθµοι Πρόγνωσης
∆εν υπάρχουν αρκετοί αλγόριθµοι πρόγνωσης για χαρακτηριστικά µοϱιακής αναγνώρισης. Και για τους υπάρχοντες τα ποσοστά επιτυχίας δεν
είναι ιδιαίτερα ικανοποιητικά. Παρακάτω παρουσιάζονται όλοι οι σχετικοί
αλγόριθµοι πρόγνωσης.
a-MoRF-PredI/a-MoRF-PredII
Η πρώτη προσπάθεια για τον εντοπισµό χαρακτηριστικών µοριακής αναγνώρισης είναι οι αλγόριθµοι a-MoRF-PredI και a-MoRF-PredII [67].
οι οποίοι ϐασίζονται σε τεχνητά νευρωνικά δίκτυα. Βασίζονται στην παϱατήρηση ότι οι αλγόριθµοι πρόγνωσης για εγγενώς µη δοµηµένες πρωτεΐνες παρουσιάζαν χαµηλότερα ποσοστά επιτυχίας στα σηµεία τα οποία
εντοπίζονταν χαρακτηριστικά µοριακής αναγνώρισης. Οι συγκεκριµένοι
12
αλγόριθµοι περιορίζονται στον εντοπισµό χαρακτηριστικών µοριακής αναγνώρισης που σχηµατίζουν α-έλικες κατά την αλληλεπίδρασή τους µε άλλες
πρωτεΐνες. ∆εν υπάρχει κάποια διαδικτυακή διεπαφή και στην πραγµατικότητα οι συγκεκριµένοι αλγόριθµοι δε χρησιµοποιούνται πλέον.
ANCHOR
΄Ενας αλγόριθµος που χρησιµοποιείται για να εντοπίσει περιοχές σύνδεσης σε εγγενώς µη δοµηµένες πρωτεΐνες είναι ο ANCHOR [69] [70]. Ο ANCHOR δέχεται ως είσοδο αµινοξική ακολουθία και κάνει πρόγνωση περιοχών πρόσδεσης σε πρωτεΐνες που είναι εγγενώς µη δοµηµένες σε αποµόνωση, αλλά αποκτούν χαρακτηριστική δοµή µετά την αλληλεπίδρασή τους µε
άλλες πρωτεΐνες. Για το λόγο αυτό ο ANCHOR χρησιµοποιείται για πρόγνωση χαρακτηριστικών µοριακής αναγνώρισης. Ο σύνδεσµος του προγράµµατος είναι διαθέσιµος στη διεύθυνση http://anchor.enzim.hu.
MoRFPred
Ο γνωστότερος αλγόριθµος για πρόγνωση και χαρακτηρισµό χαρακτηριστικών µοριακής αναγνώρισης είναι ο MoRFPred [68]. Ο MoRFPred αναγνωρίζει όλους τους τύπους των χαρακτηριστικών µοριακής αναγνώρισης
(α-MoRFs, β -MoRFs, irregular-MoRFs, complex-MoRFs). Ο αλγόριθµος
ϐασίζεται σε Support Vector Machines (SVMs), ενώ ο σύνδεσµος του προγράµµατος είναι διαθέσιµος στη διεύθυνση
http://biomine-ws.ece.ualberta.ca/MoRFpred/index.html.
MFPSSMPred
΄Ενας αλγόριθµος που παρουσιάστηκε πρόσφατα είναι ο MFPSSMPred
[71]. Ο αλγόριθµος ϐασίζεται σε Position Specific Scoring Matrices (PSSM)
και Support Vector Machines (SVMs). ∆εν είναι διαθέσιµος διαδικτυακά
αλλά σύµφωνα µε τους συγγραφείς αποδίδει καλύτερα αν συγκριθεί µε
τους παραπάνω αλγόριθµους πρόγνωσης.
13
1.3
Μεµβρανικές Πρωτεΐνες
Οι µεµβρανικές πρωτεΐνες επιτελούν µια σειρά από πολύ σηµαντικές λειτουργίες, απαραίτητες για την Ϲωή του κυττάρου. Αυτές ποικίλουν, από την
αναγνώριση και σύνδεση κυττάρων µεταξύ τους ή και µε άλλους σχηµατισµούς, τη λειτουργία τους ως µοριακοί υποδοχείς, τη µεταφορά ουσιών
διαµέσου των µεµβρανών, έως και την εξειδικευµένη ενζυµική δραστηριότητα. Η γνώση της δοµής µιας πρωτεΐνης σε ατοµική διακριτικότητα,
είναι ένα αποφασιστικό ϐήµα στην προσπάθεια κατανόησης της ϐιολογικής της λειτουργίας. Υψηλής διακριτικότητας τρισδιάστατες δοµές είναι
διαθέσιµες για µια µεγάλη ποικιλία σφαιρικών υδατοδιαλυτών πρωτεϊνών,
σε αντίθεση µε τον αριθµό των µοναδικών τρισδιάστατων δοµών για µεµϐρανικές πρωτεΐνες ο οποίος είναι αναλογικά πολύ µικρός. Κύριος λόγος
είναι η δυσκολία κρυστάλλωσης των συγκεκριµένων πρωτεϊνών λόγω του
υδρόφοβου χαρακτήρα τους. ΄Ετσι η υπολογιστική µελέτη των µεµβρανικών πρωτεϊνών µπορεί να δώσει περισσότερες πληροφορίες σχετικά µε τη
δοµή και τη λειτουργία τους.
Οι µεµβρανικές πρωτεΐνες (σχήµα 1.7) είναι δυνατόν να ταξινοµηθούν σε
δυο µεγάλες οµάδες, τις διαµεµβρανικές οι οποίες διαπερνούν την λιπιδική διπλοστοιβάδα, και τις περιφερειακές και αγκυροβοληµένες πρωτεΐνες
οι οποίες ϐρίσκονται προσκολληµένες στην επιφάνεια της µεµβράνης µε ασθενείς αλληλεπιδράσεις (περιφερειακές µεµβρανικές πρωτεΐνες) ή οµοιοπολικούς δεσµούς µε τα λιπίδια (αγκυροβοληµένες στη µεµβράνη πρωτεΐνες).
1.3.1
∆ιαµεµβρανικές Πρωτεΐνες
Οι διαµεµβρανικές πρωτεΐνες διαθέτουν ειδικά χαρακτηριστικά γνωρίσµατα στην αµινοξική σύστασή τους κατά µήκος της ακολουθίας, µέσω των
οποίων επιτυγχάνεται αλλά και εξηγείται η ενσωµάτωσή τους στη λιπιδική διπλοστοιβάδα. Αποφασιστικής σηµασίας για την µελέτη της δοµής
µιας διαµεµβρανικής πρωτεΐνης είναι η εύρεση της τοπολογίας της στη
µεµβράνη, δηλαδή ο αριθµός των διαµεµβρανικών τµηµάτων, η ϑέση τους
στην ακολουθία της πρωτεΐνης και ο προσανατολισµός τους στο επίπεδο
της µεµβράνης. Οι διαµεµβρανικές πρωτεΐνες µπορούν να διαχωριστούν
σε δύο µεγάλες κατηγορίες ανάλογα µε το πόσες ϕορές διαπερνούν τη
14
Σχήµα 1.7: Κατηγορίες µεµβρανικών πρωτεΐνών. ∆ιαµεµβρανικές οι οποίες διαπερνούν την λιπιδική διπλοστοιβάδα. Περιφερειακές και αγκυροβοληµένες πρωτεΐνες οι οποίες ϐρίσκονται προσκολληµένες στην επιφάνεια
της µεµβράνης µε ασθενείς αλληλεπιδράσεις (περιφερειακές µεµβρανικές
πρωτεΐνες) ή οµοιοπολικούς δεσµούς µε τα λιπίδια.
µεµβράνη. Τις πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη και τις
πρωτεΐνες που διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη.
Πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη
Οι διαµεµβρανικές πρωτεΐνες που διαπερνούν µία ϕορά τη µεµβράνη
περιλαµβάνουν συνήθως ένα υδρόφοβο τµήµα λίγων αµινιξέων που είναι
ϐυθισµένο µε µορφή α-έλικας (σχήµα 1.8 - a) στην υδρόφοβη περιοχή των
λιπιδίων.
Πρωτεΐνες που διαπερνούν περισσότερες από µία ϕορές τη µεµϐράνη
Οι διαµεµβρανικές πρωτεΐνες που διαπερνούν περισσότερες από µία
ϕορές τη µεµβράνη αποτελούν πρωτεΐνες των οποίων τα διαµεµβρανικά
τµήµατα έχουν την δοµή α-έλικας η οποία συντίθεται από υδρόφοβα αµινοξικά κατάλοιπα που διαπερνούν το υδρόφοβο περιβάλλον της λιπιδικής
διπλοστοιβάδας (σχήµα 1.8 - b). Ειδική, πιο σπάνια και λιγότερο µελετηµένη περίπτωση αποτελούν οι πρωτεΐνες της εξωτερικής µεµβράνης
15
των αρνητικών κατά Gram ϐακτηρίων καθώς (πιθανότατα) και των µιτοχονδρίων και των χλωροπλαστών, στις οποίες τα διαµεµβρανικά τµήµατα
είναι αντιπαράλληλοι κλώνοι µιας ϐ-πτυχωτής επιφάνειας (διαµεµβρανικά
ϐ-ϐαρέλια) (σχήµα 1.8 - c).
1.3.2 Περιφερειακές Μεµβρανικές Πρωτεΐνες
Οι περιφερειακές µεµβρανικές πρωτεΐνες προσκολλώνται µε ασθενείς αλληλεπιδράσεις σε άλλες διαµεµβρανικές πρωτεΐνες µε τρόπο που δε διαϕέρει από τον γενικότερο τρόπο πρωτεϊνικών αλληλεπιδράσεων που συναντάµε στις σφαιρικές υδατοδιαλυτές πρωτεΐνες [72]. Οι περιφερειακές
πρωτεΐνες µπορούν να ϐρίσκονται είτε στην ενδοκυττάρια είτε στην εξωκυττάρια πλευρά της µεµβράνης.
1.3.3
Αγκυροβοληµένες στη Μεµβράνη Πρωτεΐνες
Οι αγκυροβοληµένες µε οµοιοπολικό τρόπο στα λιπίδια πρωτεΐνες, επιτυγχάνουν την πρόσδεση µε τη λιπιδική διπλοστοιβάδα µέσω αναγνώρισης
από ειδικά ένζυµα µια συγκεκριµένης αλληλουχίας στην αµινοξική τους
ακολουθία. Εντοπίζονται εξωκυττάρια ή ενδοκυττάρια.
16
Σχήµα 1.8: Τέσσερις διαφορετικοί τρόποι µε τους οποίους πρωτεϊνικά
µόρια µπορούν να συνδεθούν σε µια µεµβράνη. Με πράσινο είναι οι πεϱιοχές που διαπερνούν ή ϐυθίζονται στη µεµβράνη και κόκκινο οι περιοχές έξω από τη µεµβράνη. Οι α-έλικες απεικονίζονται ως κύλινδροι και
οι ϐ-κλώνοι ως ϐέλη. Από αριστερά προς τα δεξιά είναι : (a) µια πρωτεΐνη της οποίας η πολυπεπτιδική αλυσίδα διαπερνά τη µεµβράνη µια ϕορά
ως α-έλικα, (b) µια πρωτεΐνη η οποία σχηµατίζει αρκετές διαµεµβρανικές
α-έλικες που συνδέονται µε υδρόφιλους ϐρόχους, (c) µια πρωτεΐνη µε αρκετούς ϐ-κλώνους που σχηµατίζουν ένα κανάλι διαµέσου της µεµβράνης
και (d) µια πρωτεΐνη η οποία είναι αγκυροβοληµένη στη µεµβράνη µέσω
µιας α-έλικας παράλληλη προς το επίπεδο της µεµβράνης.
17
18
Κεφάλαιο 2
Σκοπός
΄Οπως αναφέρθηκε και στην Εισαγωγή πολλές πρωτεΐνες που περιέχουν
χαρακτηριστικά µοριακής αναγνώρισης έχουν άµεση σχέση µε τη µεµϐράνη. Σε προηγούµενη µελέτη [2] έγινε ανάλυση των χαρακτηριστικών
µοριακής αναγνώρισης σε µεµβρανικές πρωτεΐνες.
Σκοπός της συγκεκριµένης διπλωµατικής εργασίας είναι η συγκέντρωση
χαρακτηριστικών µοριακής αναγνώρισης που εντοπίζονται σε µεµβρανικές
πρωτεΐνες µε αυτοµατοποιηµένο τρόπο. Τα χαρακτηριστικά µοριακής αναγνώρισης τα οποία συγκεντρώνονται, οργανώνονται και καταχωρούνται
σε µία ϐάση δεδοµένων η οποία έχει σχεδιαστεί. Για τη συγκέντρωση των
δεδοµένων γίνεται χρήση της γλώσσας προγραµµατισµού Perl [73] (bioPerl). Για την καλύτερη διαχείριση της πληροφορίας σχεδιάστηκε ϐάση
δεδοµένων µε το σύστηµα διαχείρισης ϐάσεων δεδοµένων mySQL [74], ενώ
για την καλύτερη οπτικοποίηση των αποτελεσµάτων χρησιµοποιήθηκαν οι
γλώσσες προγραµµατισµού HTML [75], PHP [76], Javascript [77], Java
[78] και CSS [79], καθώς και ένα πρόγραµµα οπτικοποίησης µοριακών
γραφικών το Jmol [80].
19
20
Κεφάλαιο 3
Μεθοδολογία
Η µεθοδολογία συγκέντρωσης και ανάλυσης των δεδοµένων ϐασίζεται
στην εργασία των Mohan και συνεργατών [1] και επεκτείνεται µε ϐάση
τη µεθοδολογία που περιγράφεται από τους Kotta-Loizou και συνεργάτες
[2]. Για την ευκολότερη, καλύτερη και αποδοτικότερη συγκέντρωση των
δεδοµένων έγινε χρήση λειτουργικών συστηµάτων που ϐασίζονται σε Unix
[81], όπως Linux [82] ή Mac [83].
3.1
Συγκέντρωση και επεξεργασία δεδοµένων
3.1.1 Βάσεις ∆εδοµένων
∆ύο είναι οι ϐάσεις δεδοµένων από τις οποίες συγκεντρώθηκαν δεδοµένα
και τα οποία στη συνέχεια επεξεργάζονται.
• Η πρώτη ϐάση δεδοµένων είναι η PDB (Protein Data Bank) [40]. Η
συγκεκριµένη ϐάση δεδοµένων περιέχει δοµικά δεδοµένα ϐιολογικών µακροµορίων τα οποία έχουν προκύψει στην πλειονότητά τους
είτε από πειράµατα κρυσταλλογραφίας είτε πειράµατα πυρηνικού
µαγνητικού συντονισµού (NMR - Nuclear Magnetic Resonance).
• Η δεύτερη ϐάση δεδοµένων είναι η Uniprot [84]. Η συγκεκριµένη
ϐάση δεδοµένων περιέχει αναλυτικά χαρακτηρισµένες πρωτεϊνικές
ακολουθίες, µε πολλές συνδέσεις προς τρίτες ϐάσεις δεδοµένων.
21
3.1.2
Συγκέντρωση δοµών από PDB
΄Οπως έχουµε αναφέρει και στην Εισαγωγή τα χαρακτηριστικά µοριακής
αναγνώρισης έχουν µήκος από 10 έως 70 κατάλοιπα. Ο εντοπισµός τους
στηρίζεται στην ιδέα ότι αυτές οι µικρές περιοχές ϑα πρέπει να έχουν ένα
µόριο (πρωτεΐνη στην προκειµένη περίπτωση) µε το οποίο αλληλεπιδρούν.
Η πρωτεΐνη µε την οποία ϑα αλληλεπιδρά πρέπει να έχει µέγεθος πάνω από 100 αµινοξικά κατάλοιπα ώστε να ϐοηθάει το χαρακτηριστικό µοριακής
αναγνώρισης να µεταβεί από µη κανονική δοµή σε κάποιο στοιχείο δευτεϱοταγούς δοµής. Για το σκοπό αυτό επιλέγεται το Advanced Search της
PDB όπως ϕαίνεται στο σχήµα 3.1. Το Chain Length επιλέγεται µεταξύ 10
και 70 καταλοίπων, ενώ το Number of Entities πρέπει να αποτελείται από
τουλάχιστον 2 οντότητες. ΄Ετσι συγκεντώθηκαν 5309 PDB αρχεία.
Σχήµα 3.1: Μέρος του Advanced Search της PDB. Στο πάνω τµήµα το
Chain Length επιλέγεται µεταξύ 10 και 70 καταλοίπων. Στο κάτω τµήµα
το Number of Entities πρέπει να αποτελείται από τουλάχιστον 2 οντότητες.
Με αυτές τις επιλογές γίνεται κατέβασµα των συµπλόκων που πιθανόν να
περιέχουν χαρακτηριστικά µοριακής αναγνώρισης από την PDB.
3.1.3
Επεξεργασία PDB αρχείων
Σε αυτό το στάδιο γίνεται επεξεργασία των PDB αρχείων που έχουν συγκεντρωθεί. Σε πρώτη ϕάση γίνεται έλεγχος του πεδίου SEQRES (σχήµα
3.2). Για να κρατήσουµε κάποιο σύµπλοκο ϑα πρέπει να υπάρχουν του22
λάχιστον δύο αλυσίδες, εκ των οποίων η µία να έχει µήκος 10 - 70 κατάλοιπα και η δεύτερη τουλάχιστον 100 κατάλοιπα.
Πολλές ϕορές είναι πιθανό τα PDB αρχεία να περιέχουν σφάλµατα στην
αµινοξική τους ακολουθία. Για το λόγο αυτό, γίνεται έλεγχος ώστε τα
χαρακτηριστικά µοριακής αναγνώρισης να µην περιέχουν κάποιο λάθος.
Χαρακτηριστικό παράδειγµα είναι να µην έχει προσδιοριστεί κάποιο αµινοξύ και να εµφανίζεται κάποιο σύµβολο στη ϑέση του (όπως Χ). ΄Ενα
άλλο παράδειγµα είναι κάποιο µη κανονικό αµινοξύ να εµφανίζεται στην
αµινοξική ακολουθία, όπως Selenocysteine (Sec) ή Pyrrolysine (Pyl).
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
SEQRES
17
18
19
20
21
22
1
2
3
4
5
E
E
E
E
E
E
I
I
I
I
I
281
281
281
281
281
281
64
64
64
64
64
LEU
MET
LEU
SER
PHE
ALA
MET
GLU
ALA
MET
ARG
PRO
ALA
SER
SER
TYR
GLN
LYS
GLU
GLN
GLU
LEU
GLY
SER
LYS
LEU
TYR
HIS
THR
ALA
ILE
TYR
ASP
ASN
PRO
HIS
GLU
GLY
HIS
GLU
LYS
ILE
ALA
ASN
LYS
HIS
PRO
ASN
LYS
HIS
TRP
LYS
VAL
ILE
ILE
TYR
VAL
ASN
THR
GLY
HIS
PRO
VAL
LEU
ASP
ALA
GLY
ALA
TRP
THR
LEU
HIS
GLU
ILE
PRO
ARG
GLN
ALA
GLY
THR
THR
ILE
HIS
LEU
LEU
VAL
VAL
VAL
TYR
ALA
ASN
LYS
ASN
ASN
ALA
THR
LEU
VAL
GLY
ALA
GLN
GLY
GLN
THR
LEU
VAL
ASP
ALA
SER
ILE
ARG
SER
ALA
VAL
GLN
GLY
ARG
PRO
GLY
ASP
THR
LEU
ARG
LYS
LYS
ILE
PHE
VAL
SER
PRO
VAL
VAL
GLY
VAL
ALA
THR
ASP
Σχήµα 3.2: Το πεδίο SEQRES ενός PDB αρχείου
Σε δεύτερη ϕάση γίνεται έλεγχος του πεδίου DBREF (σχήµα 3.3). Το
συγκεκριµένο πεδίο είναι πολύ σηµαντικό καθώς σε αυτό γίνεται αντιστοίχιση των εγγραφών της PDB µε τις πρωτεΐνες στη Uniprot. Καθώς η mpMoRFsDB είναι µια ϐάση δεδοµένων µε επίκεντρο την πρωτεΐνη, γίνεται
άµεσα αντιληπτό ο λόγος για τον οποίο είναι σηµαντική αντιστοίχιση στη
Uniprot. Εποµένως κρατάµε τα PDB IDs, την αλυσίδα, από που ξεκινάει
και που τελειώνει η αλυσίδα, το Uniprot Accession και που ξεκινάει και
που τελειώνει η αλληλουχία πάνω στην πρωτεΐνη. ΄Ετσι καταλήγουµε σε
785 µοναδικά Uniprot Accessions.
3.1.4
Επεξεργασία Uniprot αρχείων
΄Ενα πρόβληµα µε τις εγγραφές της Uniprot είναι ότι το ID που έχουν
µπορεί να αλλάξει για ποικίλους λόγους. Για το λόγο αυτό όταν γίνεται
αναφορά στη Uniprot πρέπει να χρησιµοποιείται το Uniprot Accession.
23
DBREF
DBREF
DBREF
DBREF
DBREF
DBREF
DBREF
DBREF
DBREF
DBREF
DBREF
DBREF
1Y19
1Y19
1Y19
1Y19
1Y19
1Y19
1Y19
1Y19
1Y19
1Y19
1Y19
1Y19
A
C
E
G
I
K
B
D
F
H
J
L
638
638
638
638
638
638
209
209
209
209
209
209
651
651
651
651
651
651
410
410
410
410
410
410
UNP
UNP
UNP
UNP
UNP
UNP
UNP
UNP
UNP
UNP
UNP
UNP
O70161
O70161
O70161
O70161
O70161
O70161
P26039
P26039
P26039
P26039
P26039
P26039
PI51C_MOUSE
PI51C_MOUSE
PI51C_MOUSE
PI51C_MOUSE
PI51C_MOUSE
PI51C_MOUSE
TLN1_MOUSE
TLN1_MOUSE
TLN1_MOUSE
TLN1_MOUSE
TLN1_MOUSE
TLN1_MOUSE
638
638
638
638
638
638
209
209
209
209
209
209
651
651
651
651
651
651
410
410
410
410
410
410
Σχήµα 3.3: Το πεδίο DBREF ενός PDB αρχείου
Η εκάστοτε εγγραφή στη Uniprot µπορεί να περιέχει παραπάνω από ένα
Uniprot Accessions (σχήµα 3.4). Κάθε ϕορά που γίνεται ανανέωση σε
κάποια εγγραφή ένας νέος κωδικός Uniprot της ανατίθεται, ενώ οι παλιοί
κωδικοί κρατούνται και αυτοί σαν λίστα.
Σε µία αυτοµατοποιηµένη διαδικασία συγκέντρωσης δεδοµένων όπως
αυτή, είναι απαραίτητη η αναφορά στις Uniprot εγγραφές µε τον τελευταίο Uniprot κωδικό. Για το σκοπό αυτό γίνεται χρήση ενός αρχείου που
παρέχεται από το EBI και αντιστοιχεί PDB αρχεία στο τελευταίο Uniprot
Accession. Το συγκεκριµένο αρχείο είναι διαθέσιµο στο σύνδεσµο
ftp://ftp.ebi.ac.uk/pub/databases/msd/sifts/text/pdb_chain_uniprot.lst
Συνδυάζοντας τα δεδοµένα από το αρχείο της παραπάνω διεύθυνσης (σχήµα
3.5) και από το αρχείο που έχει προκύψει από τους κώδικές µας (σχήµα
3.6) καταλήγουµε σε ένα αρχείο που περιέχει όλα τα πιθανά χαρακτηριστικά µοριακής αναγνώρισης µε αντιστοίχιση στο πιο πρόσφατο Uniprot
Accession.
ID
AC
AC
AC
1A02_HUMAN
Reviewed;
365 AA.
P01892; O19619; P06338; P10313; P30444; P30445; P30446; P30514;
Q29680; Q29837; Q29899; Q95352; Q95380; Q9TPX8; Q9TPX9; Q9TPY0;
Q9TQH5; Q9TQI3;
Σχήµα 3.4: Τµήµα Uniprot (flat file) αρχείου. Φαίνονται τα πεδία ID και
Accession της πρωτεΐνης.
24
PDB
1aqd
1aqd
1aqd
CHAIN
F
G
H
SP_PRIMARY
P01892
P01903
P04229
RES_BEG
1
1
1
RES_END
15
192
198
PDB_BEG
1
1
1
PDB_END
15
192
198
Σχήµα 3.5: Τµήµα αρχείου το οποίο είναι διαθέσιµο από το EBI και κάνει
αντιστοίχιση PDB κωδικών σε Uniprot Accessions.
1AFQ
1AL2
1AQD
1AQD
A
4
C
F
1
2
1
1
13
69
15
15
UNP
UNP
UNP
UNP
P00766
P03299
P01892
P01892
1 13
1 68
127 141
127 141
Σχήµα 3.6: Αρχείο που δηµιουργείται από τον κώδικά µας. Η πληροφορία
η οποία περιέχει είναι (από αριστερά προς τα δεξιά) ο κωδικός PDB, η
αλυσίδα PDB, που ξεκινάει και που τελειώνει το χαρακτηριστικό µοριακής
αναγνώρισης στη δοµή, το Uniprot Accession και που ξεκινάει και που
τελειώνει το χαρακτηριστικό µοριακής αναγνώρισης στην πρωτεΐνη.
3.1.5
Εύρεση τύπου µεµβρανικής πρωτεΐνης
Στη συνέχεια κρατάµε τις πρωτεΐνες οι οποίες είναι µεµβρανικές και
γίνεται διαχωρισµός σε κατηγορίες. Τα Uniprot αρχεία τα οποία έχουν
συγκεντρωθεί από το προηγούµενο στάδιο κατεβαίνουν τοπικά για περαιτέρω επεξεργασία. Για να ϑεωρηθεί µια πρωτεΐνη ότι είναι µεµβρανική ϑα
πρέπει στο πεδίο CC να αναφέρει "SUBCELLULAR LOCATION" και πιο
συγκεκριµένα "Membrane", όπως ϕαίνεται στο σχήµα 3.7.
Για να γίνει διαχωρισµός σε κατηγορίες γίνεται µελέτη του τί αναφέρεται στο συγκεκριµένο πεδίο. Πιο συγκεκριµένα αν αναφέρει µία από τις
ακόλουθες λέξεις κλειδιά : Single-pass, Single span, Singlespan, Singlepass, Single pass, Singlepass τότε ϑεωρείται διαµεµβρανική η οποία διαπερνά µια ϕορά τη µεµβράνη, αν αναφέρει µία από τις ακόλουθες λέξεις
κλειδιά : Multi-pass membrane protein, Multi-pass, Multi span, Multispan, Multi-pass, Multi pass, Multipass, Polytopic membrane protein
τότε ϑεωρείται διαµεµβρανική η οποία διαπερνά πάνω από µια ϕορά τη
µεµβράνη, αν αναφέρει Peripheral membrane protein τότε ϑεωρείται πεϱιφερειακή µεµβρανική πρωτεΐνη, ενώ αν αναφέρει Lipid-anchor τότε ϑεωρείται αγκυροβοληµένη στη µεµβράνη πρωτεΐνη.
25
΄Ενα πρόβληµα το οποίο συναντάται συχνά στις εγγραφές της Unirprot
είναι αυτό των ισοµορφών. Πολλές ϕορές µπορεί να υπάρχουν παραπάνω
από ένα πεδία που αναφέρουν "SUBCELLULAR LOCATION" µε το ένα να
χαρακτηρίζει την πρωτεΐνη ως "Single-pass" και το άλλο ως "Multi-pass"
για παράδειγµα. ΄Οσες εγγραφές παρουσίασαν το συγκεκριµένο πρόβληµα
ελέγχθηκαν και χαρακτηρίστηκαν χειροκίνητα.
CC
CC
-!- SUBCELLULAR LOCATION: Membrane; Single-pass type I membrane
protein.
Σχήµα 3.7: Το πεδίο CC (SUBCELLULAR LOCATION) µιας Uniprot εγγραφής.
3.1.6
Κατηγοριοποίηση χαρακτηριστικών µοριακής αναγνώρισης
Σε επόµενο στάδιο γίνεται χρήση του προγράµµατος DSSP [85] µε σκοπό
τον προσδιορισµό της δευτεροταγούς δοµής των χαρακτηριστικών µοριακής αναγνώρισης. Το DSSP είναι ένα πρόγραµµα το οποίο κάνει ανάθεση
στοιχείων δευτεροταγούς δοµής στην αµινοξική ακολουθία. Η έξοδος του
προγράµµατος DSSP είναι G (310 helix), H (α helix), I (π helix), B (Beta
Bridge), E (Beta Bulges), T (Turn), S (Bend), L (Other). Τα χαρακτηριστικά
µοριακής αναγνώρισης χωρίζονται σε τέσσερις κατηγορίες όπως έχει αναϕερθεί στην εισαγωγή (α-MoRFs, β -MoRFs, irregular-MoRFs, complexMoRFs). ΄Ετσι τα H, G, I ϑεωρούνται α-χαρακτηριστικά, τα B, E ϑεωρούνται ϐ-χαρακτηριστικά και τα T, S, L ϑεωρούνται χαρακτηριστικά χωρίς
κανονική δοµή.
Για τον προσδιορισµό της κατηγορίας των χαρακτηριστικών µοριακής
αναγνώρισης αθροίζονται οι τιµές που έχει ϐγάλει το DSSP. Αν υπερτεϱούν τα α-χαρακτηριστικά (µε ποσοστό > 1% από τα υπόλοιπα) τότε το
χαρακτηριστικό µοριακής αναγνώρισης ανήκει στην κατηγορία α-MoRF,
αν υπερτερούν τα ϐ-χαρακτηριστικά (µε ποσοστό > 1% από τα υπόλοιπα)
τότε το χαρακτηριστικό µοριακής αναγνώρισης ανήκει στην κατηγορία β MoRF, αν υπερτερούν τα µη κανονικά χαρακτηριστικά (µε ποσοστό > 1%
από τα υπόλοιπα) τότε το χαρακτηριστικό µοριακής αναγνώρισης ανήκει
στην κατηγορία irregular-MoRF ενώ αν δεν υπερτερεί κάποιο χαρακτηριστικό τότε ανήκει στην κατηγορία complex-MoRF.
26
3.1.7 Εύρεση πρωτεΐνης µε την οποία αλληλεπιδρά το
χαρακτηριστικό µοριακής αναγνώρισης
Για την εύρεση και τον προσδιορισµό της πρωτεΐνης µε την οποία αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης γίνεται και πάλι χρήση
του προγράµµατος DSSP και χρησιµοποιείται η τιµή του ASA (Accessible
Surface Area) που ϐγάζει ως έξοδο το πρόγραµµα. Η ASA (Accessible Surface Area) ή SASA (Solvent-Accessible Surface Area) είναι η προσβάσιµη
από το διαλύτη επιφάνεια [86]. Η ASA υπολογίζεται συνηθέστερα µε τον
αλγόριθµο της κυλιόµενης σφαίρας νερού [87].
Για το συγκεκριµένο µέρος της εργασίας γίνεται χρήση των PDB αρχείων
τα οποία αντιστοιχούν στους κωδικούς Uniprot που έχουν προκύψει από τα
προηγούµενα ϐηµάτα. ΄Ετσι υπάρχει ένα σύνολο από PDB αρχεία τα οποία
περιέχουν χαρακτηριστικά µοριακής αναγνώρισης και πιθανές πρωτεΐνες
µε τις οποίες αλληλεπιδρούν. Γίνεται διαχωρισµός των PDB αρχείων (πεδίο ATOM) ανάλογα µε την αλυσίδα. Για την αλυσίδα η οποία αντιστοιχεί
στο πιθανό χαρακτηριστικό µοριακής αναγνώρισης γίνεται υπολογισµός
της ASA. Η ίδια τιµή υπολογίζεται για τις αλυσίδες µε τις οποίες πιθανόν
να αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης. Στη συνέχεια
ενώνονται τα αρχεία των χαρακτηριστικών µοριακής αναγνώρισης µε τις
πιθανές πρωτεΐνες µε τις οποίες πιθανόν να αλληλεπιδρά (µία µία κάθε
ϕορά) και υπολογίζεται και πάλι η ASA. Αν η τιµή της ASA του χαρακτηριστικού µοριακής αναγνώρισης αθροιζόµενη µη την τιµή της ASA της
πρωτεΐνης µε την οποία αλληλεπιδρά είναι ίση µε την τιµή της ASA του
συµπλόκου τότε δεν υπάρχει αλληλεπίδραση. Στην περίπτωση που η τιµή
είναι διαφορετική τότε υπάρχει αλληλεπίδραση.
΄Εστω ένα σύµπλοκο το οποίο ϕαίνεται στο σχήµα 3.8. Το Α αλληλεπιδρά µε το Β όταν (Α+Β) 6= (Α)+(Β), ενώ δεν αλληλεπιδρά όταν (Α+Β) =
(Α)+(Β) όπου (Α), (Β) οι ASA του χαρακτηριστικού µοριακής αναγνώρισης
και της πρωτεΐνης µε την οποία πιθανόν να αλληλεπιδρά και (Α+Β) η ASA
του συµπλόκου. Το κατώφλι το οποίο χρησιµοποιήθηκε στην προκειµένη
2
περίπτωση είναι τα 400 Å .
27
Σχήµα 3.8: Πιθανό πρωτεϊνικό σύµπλοκο το οποίο αποτελείται από τρεις
αλυσίδες. Την A, τη B και τη C. Το Α αλληλεπιδρά µε το Β όταν (Α+Β) 6=
(Α)+(Β), ενώ δεν αλληλεπιδρά όταν (Α+Β) = (Α)+(Β) όπου (Α), (Β) οι ASA του
χαρακτηριστικού µοριακής αναγνώρισης και της πρωτεΐνης µε την οποία
πιθανόν να αλληλεπιδρά και (Α+Β) η ASA του συµπλόκου.
3.2
Κατασκευή ϐάσης δεδοµένων
Η ϐάση δεδοµένων mpMoRFsDB σχεδιάστηκε για την καταχώρηση, οργάνωση και οπτικοποίηση της παραπάνω πληροφορίας. Για το σκοπό αυτό χρησιµοποιήθηκε η γλώσσα προγραµµατισµού mySQL. Το σχεσιακό
σχήµα της ϐάσης ϕαίνεται στο σχήµα 3.9. Το κύριος πίνακας της ϐάσης
είναι αυτός της πρωτεΐνης (Protein).
Η πρωτεΐνη µπορεί να περιέχει ένα ή περισσότερα χαρακτηριστικά µοϱιακής αναγνώρισης. Για το λόγο αυτό σχετίζεται µε τον πίνακα που περιέχει τα χαρακτηριστικά µοριακής αναγνώρισης (MoRF) µε µια σχέση 1 ...
Ν. Με παρόµοιο τρόπο ο πίνακας Protein σχετίζεται µε τον πίνακα Cross
References. Ο πίνακας Cross References περιλαµβάνει συνδέσµους προς
χρήσιµες ϐάσεις δεδοµένων µε πληροφορία σχετική µε την εκάστοτε πρωτεΐνη. Επειδή περισσότεροι από ένας σύνδεσµοι µπορεί να υπάρχουν για
µία πρωτεΐνη η σχέση µεταξύ των δύο πινάκων και σε αυτή την περίπτωση
είναι 1 ... Ν.
28
Ο πίνακας MoRF ,δηλαδή ο πίνακας των χαρακτηριστικών µοριακής
αναγνώρισης, σχετίζεται µε τον πίνακα Partner. Ο πίνακας Partner περιλαµβάνει τις πρωτεΐνες που αλληλεπιδρούν µε το χαρακτηριστικό µοριακής
αναγνώρισης. ΄Ενα χαρακτηριστικό µοριακής αναγνώρισης µπορεί να αλληλεπιδρά µε περισσότερες από µία πρωτεΐνες. Για το λόγο αυτό η σχέση
µεταξύ των δύο πινάκων είναι 1 ... Ν. Παρόµοια ο πίνακας MoRF σχετίζεται µε τον πίνακα Literature. Ο πίνακας Literature περιλαµβάνει όλες τις
δηµοσιεύσεις που είναι διαθέσιµες στην Pubmed και σχετίζονται µε το εκάστοτε PDB αρχείο. Και σε αυτή την περίπτωση η σχέση των δύο πινάκων
είναι 1 ... Ν.
Σχήµα 3.9: Σχεσιακό σχήµα της ϐάσης δεδοµένων mpMoRFsDB
Ο πίνακας (Protein) σχετίζεται µε τους πίνακες MoRF και Cross References και περιλαµβάνει την ακόλουθη πληροφορία.
• Accession, το οποίο είναι το Uniprot Accession και χρησιµοποιέιται
ως πρωτεύων κλειδί στη ϐάση.
29
• Protein Description, το οποίο είναι το όνοµα της πρωτεΐνης.
• Gene Name, το οποίο είναι το όνοµα του γονιδίου.
• Organism, το οποίο είναι ο οργανισµός.
• NCBI Taxonomy, το οποίο είναι η ταξινοµική µε ϐάση το NCBI .
• Sequence, το οποίο είναι η αµινοξική ακολουθία της πρωτεΐνης.
• Sequence Length, το οποίο είναι το µήκος της αµινοξικής ακολουϑίας της πρωτεΐνης.
• Type, το οποίο είναι ο τύπος της µεµβρανικής πρωτεΐνης
• Subcellular Location, περιέχει πληροφορίες σχετικές µε την υποκυτταρική ϑέση.
• Topology, περιέχει πληροφορίες σχετικές µε την τοπολογία των διαµεµβρανικών πρωτεϊνών.
Ο πίνακας (MoRF) σχετίζεται µε τους πίνακες Partner και Literature και
περιλαµβάνει την ακόλουθη πληροφορία.
• PDB ID, το οποίο είναι ο κωδικός της PDB στο οποίο υπάρχει το
χαρακτηριστικό µοριακής αναγνώρισης.
• PDB Chain, το οποίο είναι η αλυσίδα του χαρακτηριστικού µοριακής αναγνώρισης στο PDB αρχείο. Τα PDB ID, PDB Chain είναι τα
πρωτεύοντα κλειδιά του πίνακα MoRF.
• Uniprot Start, είναι η ϑέση που ξεκινάει το χαρακτηριστικό µοριακής
αναγνώρισης σε σχέση µε την πρωτεϊνική ακολουθία (της Uniprot).
• Uniprot End, είναι η ϑέση που τελειώνει το χαρακτηριστικό µοριακής
αναγνώρισης σε σχέση µε την πρωτεϊνική ακολουθία (της Uniprot).
• Type, το οποίο είναι η κατηγορία στην οποία ανήκει το χαρακτηριστικό µοριακής αναγνώρισης.
• Uniprot Accession, το οποίο είναι το Uniprot Accession της πρωτεΐνης στην οποία ανήκει το χαρακτηριστικό µοριακής αναγνώρισης.
Ο πίνακας (Partner) σχετίζεται µε τον πίνακα MoRF και περιλαµβάνει
την ακόλουθη πληροφορία.
30
• PDB ID, το οποίο είναι ο PDB κωδικός της πρωτεΐνης που αλληλεπιδρά µε το χαρακτηριστικό µοριακής αναγνώρισης.
• PDB Chain, το οποίο είναι η αλυσίδα στο αρχείο PDB της πρωτεΐνης
που αλληλεπιδρά µε το χαρακτηριστικό µοριακής αναγνώρισης.
• Accession, είναι ο Uniprot κωδικός της πρωτεΐνης µε την οποία αλληλεπιδρά το χαρακτηριστικό µοριακής αναγνώρισης.
• MoRF ASA, είναι η προσβάσιµη από το διαλύτη επιφάνεια του χαρακτηριστικού µοριακής αναγνώρισης.
• Partner ASA, είναι η προσβάσιµη από το διαλύτη επιφάνεια της πρωτεΐνης που αλληλεπιδρά µε το χαρακτηριστικό µοριακής αναγνώρισης.
• Complex ASA, είναι η προσβάσιµη από το διαλύτη επιφάνεια του
συµπλόκου.
• MoRF PDB ID, το οποίο είναι ο κωδικός της PDB στο οποίο υπάρχει
το χαρακτηριστικό µοριακής αναγνώρισης.
• MoRF PDB Chain, το οποίο είναι η αλυσίδα του χαρακτηριστικού
µοριακής αναγνώρισης στο PDB αρχείο. Τα PDB ID, PDB Chain,
MoRF PDB ID, MoRF PDB Chain χρησιµοποιούνται ως πρωτεύοντα
κλειδιά στον πίνακα.
Ο πίνακας (Literature) σχετίζεται µε τον πίνακα MoRF και περιλαµβάνει
την ακόλουθη πληροφορία.
• Literature ID, το οποίο είναι το πρωτεύων κλειδί του πίνακα.
• Pubmed ID, το οποίο είναι ο κωδικός της δηµοσίευσης στην Pubmed.
• Text, το οποίο είναι η δηµοσίευση στην Pubmed.
• PDB ID, το οποίο είναι ο κωδικός PDB στον οποίο αναφέρεται η
δηµοσίευση.
Ο πίνακας (Cross References) σχετίζεται µε τον πίνακα Protein και πεϱιλαµβάνει την ακόλουθη πληροφορία.
• Cross References ID, το οποίο είναι το πρωτεύων κλειδί του πίνακα.
31
• DB, το οποίο είναι το όνοµα της ϐάση δεδοµένων στην οποία αναϕέρεται η πρωτεΐνη.
• Reference, το οποίο είναι ο κωδικός της ϐάση δεδοµένων στην οποία
αναφέρεται η πρωτεΐνη.
• Protein Accession, είναι το Uniprot Accession της πρωτεΐνης.
32
Κεφάλαιο 4
Αποτελέσµατα
4.1
mpMoRFsDB
Η ϐάση δεδοµένων mpMoRFsDB [3] είναι δηµόσια διαθέσιµη στην ιστοσελίδα : http://bioinformatics.biol.uoa.gr/mpMoRFsDB/
4.1.1 Αρχική σελίδα mpMoRFsDB
Η αρχική σελίδα της ϐάσης ϕαίνεται στην εικόνα 4.1. Μέσω αυτής
ο χρήστης µπορεί να πλοηγηθεί στα εργαλεία τα οποία είναι διαθέσιµα.
Πατώντας το κουµπί "Browse" ο χρήστης µπορεί να δει όλες τις εγγραϕές της ϐάσης δεδοµένων, ενώ µπορεί να εφαρµόσει και ορισµένα ϕίλτρα.
Πατώντας το κουµπί "Search" δίνεται η δυνατότητα στο χρήστη να κάνει
σύνθετες αναζητήσεις έναντι της ϐάσης δεδοµένων. Μέσω της επιλογής
"Blast Search" είναι δυνατή η εύρεση οµόλογων αλληλουχιών. Μέσω του
"Download" δίνεται η δυνατότητα στο χρήστη να κατεβάσει τοπικά τη ϐάση
δεδοµένων για περαιτέρω επεξεργασία. Ο χρήστης µπορεί να κατεβάσει τη
ϐάση σε XML (σχήµα 4.13) και σε Text format (σχήµα 4.12).
4.1.2 Browse mpMoRFsDB
Πατώντας το κουµπί "Browse" ο χρήστης µπορεί να δει όλες τις εγγραφές
της ϐάσης δεδοµένων όπως ϕαίνεται στο σχήµα 4.2
33
Σχήµα 4.1: Αρχική σελίδα της ϐάσης δεδοµένων mpMoRFsDB
Φίλτρα µπορούν να εφαρµοστούν, είτε ϐάσει του τύπου της µεµβρανικής πρωτεΐνης, είτε ϐάσει της κατηγοριοποίησης των χαρακτηριστικών
µοριακής αναγνώρισης ανάλογα µε τη δευτεροταγή τους δοµή. Κάτι τέτοιο
ϕαίνεται στο σχήµα 4.3
Αν ο χρήστης επιλέξει "Type of membrane protein" τότε του δίνεται η
επιλογή να διαλέξει ανάµεσα σε περιφερειακές µεµβρανικές πρωτεΐνες και
σε διαµεµβρανικές πρωτεΐνες που διαπερνούν µία ή περισσότερες ϕορές τη
µεµβράνη. Κάτι τέτοιο ϕαίνεται στο σχήµα 4.4. Αντίστοιχα αν ο χρήστης
επιλέξει "Secondary structure of MoRF" του δίνεται η επιλογή να διαλέξει
ανάµεσα σε α-MoRFs, β -MoRFs, irregular-MoRFs και complex-MoRFs.
Κάτι τέτοιο ϕαίνεται στο σχήµα 4.5. Το αποτέλεσµα αν επιλέγαµε complexMoRFs ϕαίνεται στο σχήµα 4.6.
4.1.3 Search mpMoRFsDB
Μέσω του "Search" δίνεται η δυνατότητα στο χρήστη να κάνει σύνθετες
αναζητήσεις έναντι της ϐάσης δεδοµένων. Οι δυνατότητες επιλογής είναι
34
Σχήµα 4.2: Το εργαλείο Browse της ϐάσης δεδοµένων mpMoRFsDB
Σχήµα 4.3: Φίλτρα που εφαρµόζονται στο Browse της mpMoRFsDB
Σχήµα 4.4: Φίλτρο ανάλογα µε τον τύπο των µεµβρανικών πρωτεϊνών στο
Browse της mpMoRFsDB
αρκετές όπως ϕαίνεται και στο σχήµα 4.7. Ο χρήστης µπορεί να επιλέξει
ανάλογα µε τον τύπο της πρωτεΐνης. Του δίνεται η επιλογή να διαλέξει
ανάµεσα σε περιφερειακές µεµβρανικές πρωτεΐνες και σε διαµεµβρανικές
35
Σχήµα 4.5: Φίλτρο ανάλογα µε τον τύπο των χαρακτηριστικών µοριακής
αναγνώρισης πρωτεϊνών στο Browse της mpMoRFsDB
Σχήµα 4.6: ΄Ολες οι πρωτεΐνες που περιέχουν complex-MoRFs στην mpMoRFsDB
πρωτεΐνες που διαπερνούν µία ή περισσότερες ϕορές τη µεµβράνη. Ακόµη
του δίνεται η επιλογή να διαλέξει ανάµεσα σε πρωτεΐνες οι οποίες περιέχουν
α-MoRFs, β -MoRFs, irregular-MoRFs ή complex-MoRFs. Επιπρόσθετα
η αναζήτηση µπορεί να γίνεται µε ϐάση το µήκος των χαρακτηριστικών
µοριακής αναγνώρισης, το όνοµα της πρωτεΐνης, το όνοµα του γονιδίου,
τον οργανισµό στον οποίο ανήκει, το Uniprot Accession, τον κωδικό PDB
ή συνδυασµό των παραπάνω.
Σχήµα 4.7: Παράδειγµα χρήσης του Search στην mpMoRFsDB. Η αναϹήτηση µπορεί να γίνει αρκετά σύνθετη όπως ϕαίνεται.
36
4.1.4 Entry mpMoRFsDB
Το παράδειγµα µιας εγγραφής ϕαίνεται στο σχήµα 4.8. Αυτή είναι η
κύρια σελίδα στην οποία εµφανίζονται οι εγγραφές στη ϐάση δεδοµένων
mpMoRFsDB. Στο πάνω αριστερά σηµείο εµφανίζονται πληροφορίες σχετικά µε την πρωτεΐνη. Οι συγκεκριµένες πληροφορίες προέρχονται από τη
ϐάση δεδοµένων Uniprot [84]. Πιο συγκεκριµένα οι πληροφορίες οι οποίες
είναι διαθέσιµες είναι το όνοµα της πρωτεΐνης (Protein Name), το όνοµα
του γονιδίου (Gene Name), ο οργανισµός (Organism), η ταξινοµική µε
ϐάση το NCBI (NCBI Taxonomy), η πρωτεϊνική ακολουθία (Sequence), το
µήκος της πρωτεϊνικής ακολουθίας (Sequence Length) και το Uniprot Accession. Ακόµα προσδιορίζεται ο τύπος της µεµβρανικής πρωτεΐνης καθώς
και ο αριθµός των χαρακτηριστικών µοριακής αναγνώρισης που περιέχει
η συγκεκριµένη εγγραφή.
Στο πάνω δεξιά µέρος της εκάστοτε εγγραφής έχει ενσωµατωθεί µία Jmol
[80] µικροεφαρµογή (applet), για την καλύτερη οπτικοποίηση των δοµών.
Τα χαρακτηριστικά µοριακής αναγνώρισης σηµαίνονται µε κόκκινο χρώµα,
ενώ οι πρωτεΐνες µε τις οποίες αλληλεπιδρούν µε πράσινο χρώµα.
Παρέχονται σύνδεσµοι προς ϐάσεις δεδοµένων οι οποίες περιέχουν χρήσιµες πληροφορίες σχετικές µε την πρωτεΐνη. Πιο συγκεκριµένα παρέχονται
σύνδεσµοι προς τις ϐάσεις :
• PhosphoSite [88] η οποία περιλαµβάνει πειραµατικά δεδοµένα για
ϑέσεις ϕωσφορυλίωσης πρωτεΐνών που προέρχονται από άνθρωπο και
ποντίκι
• Pfam [89] η οποία περιέχει πρωτεϊνικές οικογένειες
• PROSITE [90] η οποία περιλαµβάνει µία µεγάλη συλλογή µε υπογραφές µε ϐιολογικό νόηµα, οι οποίες περιγράφονται ως patterns ή
profiles,
• InterPro [91] η οποία ενσωµατώνει πολύπλευρη πληροφόρηση σχετικά µε πρωτεϊνικές οικογένειες, αυτοτελείς δοµικές µονάδες (domains) και λειτουργικές ϑέσεις (functional sites)
• SUPFAM [92] η οποία περιλαµβάνει τις σχέσεις υπεροικογένειας µεταξύ οικογενειών αυτοτελών δοµικών µονάδων µε γνωστή ή άγνωστη
37
3D δοµή.
• IntAct [93] η οποία περιέχει πειραµατικά δεδοµένα από πρωτεϊνικές
αλληλεπιδράσεις τα οποία προέρχονται είτε από τη ϐιβλιογραφία, είτε
από τις άµεσες καταθέσεις των δεδοµένων.
• DIP [94] η οποία συγκεντρώνει πειραµατικά επιβεβαιωµένες αλληλεπιδράσεις πρωτεϊνών - πρωτεϊνών.
• MINT [95] η οποία περιέχει λειτουργικές αλληλεπιδράσεις µεταξύ
πρωτεϊνών.
• STRING [96] η οποία περιέχει τόσο πειραµατικά επιβεβαιωµένες, όσο
και αποτελέσµατα από αλγόριθµους πρόγνωσης πληροφορίες σχετικά µε αλληλεπιδράσεις πρωτεϊνών.
• OMIM [97] η οποία περιέχει ανθρώπινα γονίδια και τα συσχετίζει µε
γενετικές διαταραχές.
• Drugbank [98] η οποία περιέχει πληροφορίες γύρω από ϕάρµακα
και στόχους ϕαρµάκων.
Οι πρωτεΐνες οι οποίες περιλαµβάνονται στη ϐάση δεδοµένων mpMoRFsDB
περιέχουν όλες τουλάχιστον ένα χαρακτηριστικό µοριακής αναγνώρισης.
Τα χαρακτηριστικά µοριακής αναγνώρισης καθώς και οι πρωτεΐνες µε τις
οποίες αλληλεπιδρούν εµφανίζονται στη σελίδα της εκάστοτε εγγραφής.
Πιο συγκεκριµένα είναι διαθέσιµα ο κωδικός της PDB (PDB ID) µαζί µε
την αλυσίδα (chain), από που ξεκινάει και που τελειώνει το χαρακτηριστικό
µοριακής αναγνώρισης στην αλληλουχία, ο τύπος του χαρακτηριστικού µοϱιακής αναγνώρισης καθώς και ο PDB κωδικός, η αλυσίδα και ο κωδικός
της πρωτεΐνης (Uniprot Accession) µε την οποία αλληλεπιδρά.
∆ύο ακόµα σηµαντικά στοιχεία είναι διαθέσιµα στην κάθε εγγραφή. Το
πρώτο είναι ότι στις διαµεµβρανικές πρωτεΐνες έχει προσδιοριστεί η τοπολογία της πρωτεΐνης µε χρήση πειραµατικά επιβεβαιωµένων δεδοµένων τα
οποία έχουν εξορυχθεί από τη ϐάση δεδοµένων ExTopoDB [99] καθώς και
αποτελέσµατα από αλγόριθµους πρόγνωσης και πιο συγκεκριµένα από τα
SignalP [100], TOPCONS [101] και Phobius [102]. ΄Ετσι δηµιουργείται
ένα αρχείο τοπολογίας (όπως ϕαίνεται στο κάτω µέρος του σχήµατος 4.8)
το οποίο δείχνει το/τα διαµεµβρανικά τµήµατα τα οποία συµβολίζονται µε
38
"M", τα εξοκυττάρια τα οποία συµβολίζονται µε "o" τα ενδοκυττάρια τα οποία συµβολίζονται µε "i" και το signal peptide το οποίο συµβολίζεται µε "s",
όπου αυτό υπάρχει. Συνδυαστικά µε την τοπολογία έχει προσδιοριστεί η
ϑέση του χαρακτηριστικού ή των χαρακτηριστικών µοριακής αναγνώρισης
πάνω στην πρωτεΐνη και τα οποία συµβολίζονται µε "#". Το δεύτερο στοιχείο είναι ότι υπάρχουν ϐιβλιογραφικές αναφορές για τις δοµές της εκάστοτε
εγγραφής.
Σχήµα 4.8: Παράδειγµα εγγραφής στη ϐάση δεδοµένων mpMoRFsDB.
Uniprot Accession: P01730.
4.1.5 Blast Search mpMoRFsDB
Με τη χρήση του εργαλείου Blast [103] δίνεται η δυνατότητα στο χρήστη
να εισάγει µια πρωτεϊνική ακολουθία και να αναζητήσει στη ϐάση mp39
MoRFsDB οµόλογες πρωτεΐνες. Είσοδος στο Blast είναι η αµινοξική ακολουθία σε FASTA format όπως ϕαίνεται και στο σχήµα 4.9. Υπάρχει
ακόµα η δυνατότητα ο χρήστης να επιλέξει το κατώφλι (e-value) το οποίο
επιθυµεί να χρησιµοποιήσει.
Σχήµα 4.9: Η σελίδα του Blast Search της mpMoRFsDB όπου ο χρήστης
µπορεί να εισάξει µια αλληλουχία σε FASTA format και να αναζητήσει
οµόλογες έναντι της mpMoRFsDB. Επιπλέον δίνεται η δυνατότητα να επιλέξει συγκεκριµένο κατώφλι για το e-value των αποτελεσµάτων που ϑα
εµφανιστούν.
Η αναζήτηση καταλήγει σε έναν πίνακα µε τις πρωτεΐνες που είχαν σηµαντική στοίχιση µε την πρωτεΐνη που υποβλήθηκε όπως ϕαίνεται και στο
σχήµα 4.10. Η λίστα η οποία εµφανίζεται περιέχει τις πρωτεΐνες µε τις
οποίες στοιχίστηκε η πρωτεΐνη καθώς και κάποιες παραπάνω πληροφορίες
για αυτή.
Πατώντας το κουµπί Show/Hide εµφανίζονται περισσότερες πληροφοϱίες για την κάθε στοίχιση που έχει πραγµατοποιηθεί όπως ϕαίνεται στο
σχήµα 4.11
40
Σχήµα 4.10: Ο πίνακας µε τα αποτελέσµατα των στοιχίσεων όπου δίνονται πληροφορίες για τις πρωτεΐνες καθώς και στατιστικά στοιχεία για την
στοίχιση.
41
Σχήµα 4.11: Αναλυτικές πληροφορίες µιας στοίχισης µέσω του εργαλείου
BLAST
4.1.6 Download mpMoRFsDB
Η ϐάση δεδοµένων mpMoRFsDB µπορεί να κατέβει τοπικά για περαιτέρω
επεξεργασία. Οι µορφές των αρχείων τις οποίες µπορεί να κατεβάσει ο
χρήστης είναι δύο. Text ή XML. Τα αρχεία κατεβαίνουν είτε όλα µαζί από
τη σελίδα "Download" ή µπορεί ο χρήστης να τα κατεβάσει ένα ένα από την
εκάστοτε εγγραφή.
42
Protein Name:
Proteinase-activated receptor 3
Gene Name:
F2rl2
Organism:
Mus musculus
Taxonomy:
10090
Sequence:
MKILILVAAGLLFLPVTVCQSGINVSDNSAKPTLTIKSFNGGPQNTFEEFPLSDIE
GWTGATTTIKAECPEDSISTLHVNNATIGYLRSSLSTQVIPAIYILLFVVGVPANI
VTLWKLSLRTKSISLVIFHTNLAIADLLFCVTLPFKIAYHLNGNNWVFGEVTCRIT
TVVFYGNMYCAILILTCMGINRYLATAHPFTYQKLPKRSFSMLMCGMVWVMVFLYM
LPFVILKQEYHLVHSEITTCHDVVDACESPSSFRFYYFVSLAFFGFLIPFVIIIFC
YTTLIHKLKSKDRIWLGYIKAVLLILVIFTICFAPTNIILVIHHANYYYHNTDSLY
FMYLIALCLGSLNSCLDPFLYFVMSKVVDQLNP
Sequence Length:
369 aa
Uniprot Accession:
O08675
Type:
Multi Spanning
Total MoRFs:
1
PhosphoSite:
O08675
Pfam:
PF00001
PROSITE:
PS00237 PS50262
InterPro:
IPR000276 IPR017452 IPR003943 IPR003912
SUPFAM:
IntAct:
DIP:
MINT:
MINT-261941
STRING:
OMIM:
DrugBank:
MoRF PDB:Chain: 2PUX:C Start: 44 End: 56
Type: irregular Partner:
2PUX:B (P19221)
References:
17606903
//
Σχήµα 4.12:
MoRFsDB
Παράδειγµα Text αρχείου της ϐάσης δεδοµένων mp-
43
<Protein>
<ProteinName>Proteinase-activated receptor 3</ProteinName>
<GeneName>F2rl2</GeneName>
<Organism>Mus musculus</Organism>
<Taxonomy>10090</Taxonomy>
<Sequence>
MKILILVAAGLLFLPVTVCQSGINVSDNSAKPTLTIKSFNGGPQNTFEEFPLSDIE
GWTGATTTIKAECPEDSISTLHVNNATIGYLRSSLSTQVIPAIYILLFVVGVPANI
VTLWKLSLRTKSISLVIFHTNLAIADLLFCVTLPFKIAYHLNGNNWVFGEVTCRIT
TVVFYGNMYCAILILTCMGINRYLATAHPFTYQKLPKRSFSMLMCGMVWVMVFLYM
LPFVILKQEYHLVHSEITTCHDVVDACESPSSFRFYYFVSLAFFGFLIPFVIIIFC
YTTLIHKLKSKDRIWLGYIKAVLLILVIFTICFAPTNIILVIHHANYYYHNTDSLY
FMYLIALCLGSLNSCLDPFLYFVMSKVVDQLNP
</Sequence>
<SequenceLength>369 aa</SequenceLength>
<Accession>O08675</Accession>
<Type>Multi Spanning</Type>
<TotalMoRFs>1</TotalMoRFs>
<PhosphoSite>O08675</PhosphoSite>
<Pfam>PF00001</Pfam>
<PROSITE>PS00237</PROSITE>
<PROSITE>PS50262</PROSITE>
<InterPro>IPR000276</InterPro>
<InterPro>IPR017452</InterPro>
<InterPro>IPR003943</InterPro>
<InterPro>IPR003912</InterPro>
<MoRF>
<PdbID>2PUX</PdbID>
<PdbChain>C</PdbChain>
<Start>44</Start>
<End>56</End>
<Type>irregular</Type>
<Partner>
<PdbID>2PUX</PdbID>
<PdbChain>B</PdbChain>
<Accession>P19221</Accession>
</Partner>
</MoRF>
<Reference>17606903</Reference>
</Protein>
Σχήµα 4.13:
MoRFsDB
Παράδειγµα XML αρχείου της ϐάσης δεδοµένων mp-
44
4.2
Στατιστικά
Η ϐάση δεδοµενων mpMoRFsDB περιλαµβάνει συνολικά 173 µεµβρανικές πρωτεΐνες, οι οποίες περιέχουν 244 χαρακτηριστικά µοριακής αναγνώρισης. Η πλειονότητα των µεµβρανικών πρωτεϊνών που περιέχουν
χαρακτηριστικά µοριακής αναγνώρισης είναι είτε περιφερειακές µεµβρανικές πρωτεΐνες, είτε διαµεµβρανικές πρωτεΐνες που διαπερνούν µία ϕορά
τη µεµβράνη. Πιο συγκεκριµένα 71 είναι περιφερειακές µεµβρανικές πρωτεΐνες, 70 είναι διαµεµβρανικές που διαπερνούν µία ϕορά τη µεµβράνη και
32 είναι διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές τη
µεµβράνη (πίνακας 4.1).
Τύπος µεµβρανικής πρωτεΐνης
Αριθµός
71
Περιφερειακή µεµβρανική
∆ιαµεµβρανική που διαπερνά µία ϕορά τη
µεµβράνη
∆ιαµεµβρανική που διαπερνά περισσότερες από µία ϕορές τη µεµβράνη
70
32
Πίνακας 4.1: ∆ιαχωρισµός µεµβρανικών πρωτεϊνών που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση τον τύπο της πρωτεΐνης.
∆ιαχωρισµός µπορεί να γίνει και µε ϐάση τα στοιχεία δευτεροταγούς δοµής των χαρακτηριστικών µοριακής αναγνώρισης. Στην πλειοψηφία τους
δηµιουργούν είτε α-έλικες, οπότε ϑεωρούνται α-MoRFs είτε δε σχηµατίζουν
κάποια συγκεκριµένη δοµή, οπότε ϑεωρούνται irregular-MoRFs. Πιο συγκεκριµένα το 33.47% των χαρακτηριστικών µοριακής αναγνώρισης κατηγοριοποιούνται ως α-MoRFs, το 3.83% κατηγοριοποιούνται ως β -MoRFs,
το 60.48% κατηγοριοποιούνται ως irregular-MoRFs και το 2.22% κατηγοϱιοποιούνται ως complex-MoRFs (πίνακας 4.2).
Από τις 173 πρωτεΐνες οι 29 είναι ιϊκές. Χαρακτηριστικά µοριακής αναγνώρισης µικρού µήκους (δηλαδή µέχρι 30 αµινοξικά κατάλοιπα) εµφανίζονται σε 114 από τις 173 µεµβρανικές πρωτεΐνες, ενώ µεγάλου µήκους
(δηλαδή πάνω από 30 αµινοξικά κατάλοιπα) εµφανίζονται σε 72 από τις
173 µεµβρανικές πρωτεΐνες (εικόνα 4.14).
45
Χαρακτηριστικά µοριακής αναγνώρισης Ποσοστά
α-MoRF
33.47%
β -MoRF
3.83%
irregular-MoRF
60.48%
complex-MoRF
2.22%
Πίνακας 4.2: ∆ιαχωρισµός χαρακτηριστικών µοριακής αναγνώρισης µε
ϐάση τα στοιχεία δευτεροταγούς δοµής
114
72
0
20 40 60 80 100 120 140 160 180
Σχήµα 4.14: Με κόκκινο χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης µικρού µήκους (µέχρι 30 αµινοξικά
κατάλοιπα). Με µπλε χρώµα οι πρωτεΐνες που περιλαµβάνουν χαρακτηϱιστικά µοριακής αναγνώρισης µεγάλου µήκους (πάνω από 30 αµινοξικά
κατάλοιπα).
Από τις 70 διαµεµβρανικές που διαπερνούν µία ϕορά τη µεµβράνη οι
17 έχουν ϱόλο υποδοχέα (receptors), ενώ από τις 32 διαµεµβρανικές που
διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη οι 7 είναι υποδοχείς
(receptors), ενώ από τις 71 περιφερειακές µεµβρανικές πρωτεΐνες οι 3 είναι
υποδοχείς (receptors) (πίνακας 4.3).
Τύπος µεµβρανικής πρωτεΐνης
Περιφερειακή µεµβρανική
∆ιαµεµβρανική που διαπερνά µία ϕοϱά τη µεµβράνη
∆ιαµεµβρανική που διαπερνά περισσότερες από µία ϕορές τη µεµβράνη
Αριθµός Ποσοστό
3/71
4.23%
17/70
24.29%
7/32
21.86%
Πίνακας 4.3: Ποσοστά υποδοχέων στις µεµβρανικές πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης.
Από τις 32 διαµεµβρανικές που διαπερνούν περισσότερες από µία ϕορές
τη µεµβράνη οι 13 λειτουργούν ως κανάλια ιόντων. Οι περισσότερες από
46
αυτές (9/13) είναι κανάλια καλίου.
Από τις 173 πρωτεΐνες οι 75 προέρχονται από τον άνθρωπο. Από αυτές οι
23 είναι περιφερειακές µεµβρανικές πρωτεΐνες, οι 41 είναι διαµεµβρανικές
που διαπερνούν µία ϕορά τη µεµβράνη και οι 15 είναι διαµεµβρανικές που
διαπερνούν περισσότερες από µία ϕορές τη µεµβράνη (πίνακας 4.4). Και
οι 75 έχουν σύνδεσµο προς τη ϐάση δεδοµένων OMIM [97].
Τύπος µεµβρανικής πρωτεΐνης
Αριθµός
23
Περιφερειακή µεµβρανική
∆ιαµεµβρανική που διαπερνά µία ϕορά τη
µεµβράνη
∆ιαµεµβρανική που διαπερνά περισσότερες από µία ϕορές τη µεµβράνη
41
15
Πίνακας 4.4: ∆ιαχωρισµός µεµβρανικών πρωτεϊνών (οργανισµός Homo
sapiens) που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης µε ϐάση
τον τύπο της πρωτεΐνης.
Αν µελετήσουµε τις πρωτεΐνες της ϐάσης mpMoRFsDB ως προς τις λειτουργίες τους, ϑα παρατηρήσουµε ότι εµπλέκονται κυρίως στην πρόσδεση
(binding) πρωτεϊνών και µικρών µορίων κάτι το οποίο είναι αναµενόµενο. Κάποιες άλλες σηµαντικές λειτουργίες ακολουθούν. Αυτές είναι καταλυτική δραστικότητα (catalytic activity), ϱύθµιση λειτουργίας καναλιών (channel regulator activity), ενζυµική δραστικότητα (enzyme regulator
activity), δράση υποδοχέα (receptor activity), µετατροπή σήµατος (signal
transducer activity), δοµικός ϱόλος (structural molecule activity), ϱόλο
µεταφορέα (transporter activity).
47
48
Κεφάλαιο 5
Συµπεράσµατα Μελλοντική Εργασία
Η παρούσα εργασία κάλυψε ένα µικρό κενό στον ϱαγδαία αναπτυσσόµενο τοµέα των εγγενώς µη δοµηµένων πρωτεϊνών. Η δηµιουργία της
ϐάσης δεδοµένων mpMoRFsDB [3] ϑα ϐοηθήσει στην περαιτέρω µελέτη
των µεµβρανικών πρωτεϊνών που περιλαµβάνουν χαρακτηριστικά µοριακής αναγνώρισης και ϑα ϐοηθήσει στην περαιτέρω µελέτη των εγγενώς µη
δοµηµένων πρωτεϊνών [104].
Παρόλη τη χρησιµότητα της ϐάσης, η mpMoRFsDB είναι µια πολύ εξειδικευµένη ϐάση δεδοµένων. Αυτό το οποίο ϑα µπορούσε να γίνει στο
µέλλον είναι η δηµιουργία µιας ϐάσης δεδοµένων που να περιλαµβάνει
γενικά πρωτεΐνες που περιέχουν χαρακτηριστικά µοριακής αναγνώρισης.
Τέλος τα δεδοµένα της ϐάσης mpMoRFsDB µπορούν να αξιοποιηθούν σε
αλγόριθµους πρόγνωσης για τον προσδιορισµό χαρακτηριστικών µοριακής
αναγνώρισης σε άγνωστες πρωτεΐνες.
49
50
Κεφάλαιο 6
Βιβλιογραφία
[1] Α. Mohan, C. J. Oldfield, P. Radivojac, V. Vacic, M. S. Cortese,
A. K. Dunker, and V. N. Uversky Journal of molecular biology.
[2] I. Kotta-Loizou, G. N. Tsaousis, and S. J. Hamodrakas, ‘‘Analysis of Molecular Recognition Features (MoRFs) in membrane proteins.,’’ Biochimica et biophysica acta, vol. null, pp. 798–807, Apr.
2013.
[3] F. Gypas, G. N. Tsaousis, and S. J. Hamodrakas, ‘‘mpMoRFsDB:
A database of Molecular Recognition Features in Membrane Proteins,’’ Bioinformatics, July 2013.
[4] V. N. Uversky, ‘‘Intrinsically disordered proteins from A to Z.,’’
The international journal of biochemistry & cell biology, vol. 43,
pp. 1090–103, Aug. 2011.
[5] P. Romero, Z. Obradovic, C. R. Kissinger, J. E. Villafranca, E. Garner, S. Guilliot, and A. K. Dunker, ‘‘Thousands of proteins likely to
have long disordered regions.,’’ Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing, pp. 437–48, Jan. 1998.
[6] C. J. Oldfield, Y. Cheng, M. S. Cortese, P. Romero, V. N. Uversky,
and A. K. Dunker, ‘‘Coupled folding and binding with alpha-helixforming molecular recognition elements.,’’ Biochemistry, vol. 44,
pp. 12454–70, Sept. 2005.
[7] A. K. Dunker, Z. Obradovic, P. Romero, E. C. Garner, and C. J.
Brown, ‘‘Intrinsic protein disorder in complete genomes.,’’ Genome
51
informatics. Workshop on Genome Informatics, vol. 11, pp. 161–71,
Jan. 2000.
[8] D. F. Clayton and J. M. George, ‘‘The synucleins: a family of proteins involved in synaptic function, plasticity, neurodegeneration
and disease,’’ Trends in Neurosciences, vol. 21, pp. 249–254, June
1998.
[9] A. K. Dunker, J. D. Lawson, C. J. Brown, R. M. Williams,
P. Romero, J. S. Oh, C. J. Oldfield, A. M. Campen, C. M. Ratliff,
K. W. Hipps, J. Ausio, M. S. Nissen, R. Reeves, C. Kang, C. R.
Kissinger, R. W. Bailey, M. D. Griswold, W. Chiu, E. C. Garner,
and Z. Obradovic, ‘‘Intrinsically disordered protein.,’’ Journal of
molecular graphics & modelling, vol. 19, pp. 26–59, Jan. 2001.
[10] R. M. Williams, Z. Obradovi, V. Mathura, W. Braun, E. C. Garner,
J. Young, S. Takayama, C. J. Brown, and A. K. Dunker, ‘‘The
protein non-folding problem: amino acid determinants of intrinsic
order and disorder.,’’ Pacific Symposium on Biocomputing. Pacific
Symposium on Biocomputing, pp. 89–100, Jan. 2001.
[11] P. Romero, Z. Obradovic, X. Li, E. C. Garner, C. J. Brown, and A. K.
Dunker, ‘‘Sequence complexity of disordered protein.,’’ Proteins,
vol. 42, pp. 38–48, Jan. 2001.
[12] P. Radivojac, L. M. Iakoucheva, C. J. Oldfield, Z. Obradovic, V. N.
Uversky, and A. K. Dunker, ‘‘Intrinsic disorder and functional proteomics.,’’ Biophysical journal, vol. 92, pp. 1439–56, Mar. 2007.
[13] V. Vacic, V. N. Uversky, A. K. Dunker, and S. Lonardi, ‘‘Composition Profiler: a tool for discovery and visualization of amino acid
composition differences.,’’ BMC bioinformatics, vol. 8, p. 211, Jan.
2007.
[14] A. K. Dunker, M. S. Cortese, P. Romero, L. M. Iakoucheva, and
V. N. Uversky, ‘‘Flexible nets. The roles of intrinsic disorder in protein interaction networks.,’’ The FEBS journal, vol. 272, pp. 5129–
48, Oct. 2005.
[15] V. N. Uversky, C. J. Oldfield, and A. K. Dunker, ‘‘Showing your
ID: intrinsic disorder as an ID for recognition, regulation and cell
signaling.,’’ Journal of molecular recognition : JMR, vol. 18, no. 5,
pp. 343–84.
52
[16] A. Patil and H. Nakamura, ‘‘Disordered domains and high surface
charge confer hubs with the ability to interact with multiple proteins in interaction networks.,’’ FEBS letters, vol. 580, pp. 2041–5,
Apr. 2006.
[17] D. Ekman, S. Light, A. K. Bj¨orklund, and A. Elofsson, ‘‘What properties characterize the hub proteins of the protein-protein interaction network of Saccharomyces cerevisiae?,’’ Genome biology,
vol. 7, p. R45, Jan. 2006.
[18] C. Haynes, C. J. Oldfield, F. Ji, N. Klitgord, M. E. Cusick, P. Radivojac, V. N. Uversky, M. Vidal, and L. M. Iakoucheva, ‘‘Intrinsic
disorder is a common feature of hub proteins from four eukaryotic interactomes.,’’ PLoS computational biology, vol. 2, p. e100,
Aug. 2006.
´
[19] Z. Dosztanyi,
J. Chen, A. K. Dunker, I. Simon, and P. Tompa,
‘‘Disorder and sequence repeats in hub proteins and their implications for network evolution.,’’ Journal of proteome research,
vol. 5, pp. 2985–95, Nov. 2006.
[20] G. P. Singh, M. Ganapathi, and D. Dash, ‘‘Role of intrinsic disorder in transient interactions of hub proteins.,’’ Proteins, vol. 66,
pp. 761–5, Mar. 2007.
[21] G. P. Singh and D. Dash, ‘‘Intrinsic disorder in yeast transcriptional regulatory network.,’’ Proteins, vol. 68, pp. 602–5, Aug.
2007.
[22] V. N. Uversky, C. J. Oldfield, and A. K. Dunker, ‘‘Intrinsically
disordered proteins in human diseases: introducing the D2 concept.,’’ Annual review of biophysics, vol. 37, pp. 215–46, Jan. 2008.
[23] U. Midic, C. J. Oldfield, A. K. Dunker, Z. Obradovic, and V. N.
Uversky, ‘‘Protein disorder in the human diseasome: unfoldomics
of human genetic diseases.,’’ BMC genomics, vol. 10 Suppl 1,
p. S12, Jan. 2009.
[24] V. N. Uversky, A. Roman, C. J. Oldfield, and A. K. Dunker, ‘‘Protein intrinsic disorder and human papillomaviruses: increased
amount of disorder in E6 and E7 oncoproteins from high risk
HPVs.,’’ Journal of proteome research, vol. 5, pp. 1829–42, Aug.
2006.
53
[25] L. M. Iakoucheva, C. J. Brown, J. D. Lawson, Z. Obradovi´c, and
A. K. Dunker, ‘‘Intrinsic disorder in cell-signaling and cancerassociated proteins.,’’ Journal of molecular biology, vol. 323,
pp. 573–84, Oct. 2002.
[26] Y. Cheng, T. LeGall, C. J. Oldfield, A. K. Dunker, and V. N.
Uversky, ‘‘Abundance of intrinsic disorder in protein associated
with cardiovascular disease.,’’ Biochemistry, vol. 45, pp. 10448–
60, Sept. 2006.
[27] V. N. Uversky, ‘‘Intrinsic disorder in proteins associated with neurodegenerative diseases.,’’ Frontiers in bioscience : a journal and
virtual library, vol. 14, pp. 5188–238, Jan. 2009.
[28] A. Mohan, W. J. Sullivan, P. Radivojac, A. K. Dunker, and V. N.
Uversky, ‘‘Intrinsic disorder in pathogenic and non-pathogenic
microbes: discovering and analyzing the unfoldomes of earlybranching eukaryotes.,’’ Molecular bioSystems, vol. 4, pp. 328–40,
Apr. 2008.
[29] B. Xue, R. W. Williams, C. J. Oldfield, G. K.-M. Goh, A. K. Dunker,
and V. N. Uversky, ‘‘Viral disorder or disordered viruses: do viral
proteins possess unique features?,’’ Protein and peptide letters,
vol. 17, pp. 932–51, Aug. 2010.
[30] G. K.-M. Goh, A. K. Dunker, and V. N. Uversky, ‘‘A comparative
analysis of viral matrix proteins using disorder predictors.,’’ Virology journal, vol. 5, p. 126, Jan. 2008.
[31] G. K.-M. Goh, A. K. Dunker, and V. N. Uversky, ‘‘Protein intrinsic disorder and influenza virulence: the 1918 H1N1 and H5N1
viruses.,’’ Virology journal, vol. 6, p. 69, Jan. 2009.
[32] P. Tompa, ‘‘Intrinsically unstructured proteins.,’’ Trends in biochemical sciences, vol. 27, pp. 527–33, Oct. 2002.
[33] P. Tompa and P. Csermely, ‘‘The role of structural disorder in the
function of RNA and protein chaperones.,’’ FASEB journal : official
publication of the Federation of American Societies for Experimental
Biology, vol. 18, pp. 1169–75, Aug. 2004.
[34] A. K. Dunker, C. J. Brown, and Z. Obradovic, ‘‘Identification and
functions of usefully disordered proteins.,’’ Advances in protein
chemistry, vol. 62, pp. 25–49, Jan. 2002.
54
[35] A. K. Dunker, C. J. Brown, J. D. Lawson, L. M. Iakoucheva, and
Z. Obradovi´c, ‘‘Intrinsic disorder and protein function.,’’ Biochemistry, vol. 41, pp. 6573–82, May 2002.
[36] M. Sickmeier, J. A. Hamilton, T. LeGall, V. Vacic, M. S.
Cortese, A. Tantos, B. Szabo, P. Tompa, J. Chen, V. N. Uversky,
Z. Obradovic, and A. K. Dunker, ‘‘DisProt: the Database of Disordered Proteins.,’’ Nucleic acids research, vol. 35, pp. D786–93,
Jan. 2007.
[37] M. Y. Lobanov, B. A. Shoemaker, S. O. Garbuzynskiy, J. H. Fong,
A. R. Panchenko, and O. V. Galzitskaya, ‘‘ComSin: database of
protein structures in bound (complex) and unbound (single) states
in relation to their intrinsic disorder.,’’ Nucleic acids research,
vol. 38, pp. D283–7, Jan. 2010.
[38] T. Di Domenico, I. Walsh, A. J. M. Martin, and S. C. E. Tosatto,
‘‘MobiDB: a comprehensive database of intrinsic protein disorder
annotations.,’’ Bioinformatics (Oxford, England), vol. 28, pp. 2080–
1, Aug. 2012.
[39] M. E. Oates, P. Romero, T. Ishida, M. Ghalwash, M. J. Mizianty,
´
B. Xue, Z. Dosztanyi,
V. N. Uversky, Z. Obradovic, L. Kurgan, A. K.
Dunker, and J. Gough, ‘‘D2 P2 : database of disordered protein
predictions.,’’ Nucleic acids research, vol. 41, pp. D508–16, Nov.
2013.
[40] H. M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat,
H. Weissig, I. N. Shindyalov, and P. E. Bourne, ‘‘The Protein Data
Bank.,’’ Nucleic acids research, vol. 28, pp. 235–42, Jan. 2000.
[41] Z. R. Yang, R. Thomson, P. McNeil, and R. M. Esnouf, ‘‘RONN: the
bio-basis function neural network technique applied to the detection of natively disordered regions in proteins.,’’ Bioinformatics
(Oxford, England), vol. 21, pp. 3369–76, Aug. 2005.
[42] Romero, Obradovic, and K. Dunker, ‘‘Sequence Data Analysis
for Long Disordered Regions Prediction in the Calcineurin Family.,’’ Genome informatics. Workshop on Genome Informatics, vol. 8,
pp. 110–124, Jan. 1997.
[43] R. Linding, R. B. Russell, V. Neduva, and T. J. Gibson, ‘‘GlobPlot:
Exploring protein sequences for globularity and disorder.,’’ Nucleic
55
acids research, vol. 31, pp. 3701–8, July 2003.
[44] R. Linding, L. J. Jensen, F. Diella, P. Bork, T. J. Gibson, and
R. B. Russell, ‘‘Protein disorder prediction: implications for structural proteomics.,’’ Structure (London, England : 1993), vol. 11,
pp. 1453–9, Nov. 2003.
[45] D. T. Jones and J. J. Ward, ‘‘Prediction of disordered regions in
proteins from position specific score matrices.,’’ Proteins, vol. 53
Suppl 6, pp. 573–8, Jan. 2003.
[46] J. J. Ward, J. S. Sodhi, L. J. McGuffin, B. F. Buxton, and D. T.
Jones, ‘‘Prediction and functional analysis of native disorder in
proteins from the three kingdoms of life.,’’ Journal of molecular
biology, vol. 337, pp. 635–45, Mar. 2004.
[47] J. Hecker, J. Y. Yang, and J. Cheng, ‘‘Protein disorder prediction
at multiple levels of sensitivity and specificity.,’’ BMC genomics,
vol. 9 Suppl 1, p. S9, Jan. 2008.
´
[48] Z. Dosztanyi,
V. Csizmok, P. Tompa, and I. Simon, ‘‘IUPred: web
server for the prediction of intrinsically unstructured regions of
proteins based on estimated energy content.,’’ Bioinformatics (Oxford, England), vol. 21, pp. 3433–4, Aug. 2005.
[49] J. Cheng, M. J. Sweredoski, and P. Baldi, ‘‘Accurate Prediction
of Protein Disordered Regions by Mining Protein Structure Data,’’
Data Mining and Knowledge Discovery, vol. 11, pp. 213–222, July
2005.
[50] J. Prilusky, C. E. Felder, T. Zeev-Ben-Mordehai, E. H. Rydberg,
O. Man, J. S. Beckmann, I. Silman, and J. L. Sussman, ‘‘FoldIndex: a simple tool to predict whether a given protein sequence is
intrinsically unfolded.,’’ Bioinformatics (Oxford, England), vol. 21,
pp. 3435–8, Aug. 2005.
[51] O. V. Galzitskaya, S. O. Garbuzynskiy, and M. Y. Lobanov,
‘‘FoldUnfold: web server for the prediction of disordered regions in protein chain.,’’ Bioinformatics (Oxford, England), vol. 22,
pp. 2948–9, Dec. 2006.
[52] A. Vullo, O. Bortolami, G. Pollastri, and S. C. E. Tosatto, ‘‘Spritz: a
server for the prediction of intrinsically disordered regions in pro56
tein sequences using kernel machines.,’’ Nucleic acids research,
vol. 34, pp. W164–8, July 2006.
[53] C.-T. Su, C.-Y. Chen, and Y.-Y. Ou, ‘‘Protein disorder prediction
by condensed PSSM considering propensity for order or disorder.,’’
BMC bioinformatics, vol. 7, p. 319, Jan. 2006.
[54] C.-T. Su, C.-Y. Chen, and C.-M. Hsu, ‘‘iPDA: integrated protein
disorder analyzer.,’’ Nucleic acids research, vol. 35, pp. W465–72,
July 2007.
[55] T. Ishida and K. Kinoshita, ‘‘PrDOS: prediction of disordered protein regions from amino acid sequence.,’’ Nucleic acids research,
vol. 35, pp. W460–4, July 2007.
[56] A. Schlessinger, J. Liu, and B. Rost, ‘‘Natively unstructured
loops differ from other loops.,’’ PLoS computational biology, vol. 3,
p. e140, July 2007.
[57] K. Shimizu, S. Hirose, and T. Noguchi, ‘‘POODLE-S: web application for predicting protein disorder by using physicochemical
features and reduced amino acid set of a position-specific scoring matrix.,’’ Bioinformatics (Oxford, England), vol. 23, pp. 2337–8,
Sept. 2007.
[58] S. Hirose, K. Shimizu, S. Kanai, Y. Kuroda, and T. Noguchi,
‘‘POODLE-L: a two-level SVM prediction system for reliably predicting long disordered regions.,’’ Bioinformatics (Oxford, England),
vol. 23, pp. 2046–53, Aug. 2007.
[59] A. Bulashevska and R. Eils, ‘‘Using Bayesian multinomial classifier to predict whether a given protein sequence is intrinsically
disordered.,’’ Journal of theoretical biology, vol. 254, pp. 799–803,
Oct. 2008.
[60] J. Y. Yang and M. Q. Yang, ‘‘Predicting protein disorder by analyzing amino acid sequence.,’’ BMC genomics, vol. 9 Suppl 2, p. S8,
Jan. 2008.
[61] L. Wang and U. H. Sauer, ‘‘OnD-CRF: predicting order and disorder in proteins using [corrected] conditional random fields.,’’ Bioinformatics (Oxford, England), vol. 24, pp. 1401–2, June 2008.
57
[62] L. J. McGuffin, ‘‘Intrinsic disorder prediction from the analysis of
multiple protein fold recognition models.,’’ Bioinformatics (Oxford,
England), vol. 24, pp. 1798–804, Aug. 2008.
[63] A. Schlessinger, M. Punta, G. Yachdav, L. Kajan, and B. Rost,
‘‘Improved disorder prediction by combination of orthogonal approaches.,’’ PloS one, vol. 4, p. e4433, Jan. 2009.
[64] B. Xue, C. J. Oldfield, A. K. Dunker, and V. N. Uversky, ‘‘CDF it all:
consensus prediction of intrinsically disordered proteins based on
various cumulative distribution functions.,’’ FEBS letters, vol. 583,
pp. 1469–74, May 2009.
[65] B. Xue, R. L. Dunbrack, R. W. Williams, A. K. Dunker, and V. N.
Uversky, ‘‘PONDR-FIT: a meta-predictor of intrinsically disordered
amino acids.,’’ Biochimica et biophysica acta, vol. 1804, pp. 996–
1010, Apr. 2010.
[66] V. Vacic, C. J. Oldfield, A. Mohan, P. Radivojac, M. S. Cortese,
V. N. Uversky, and A. K. Dunker, ‘‘Characterization of molecular
recognition features, MoRFs, and their binding partners.,’’ Journal
of proteome research, vol. 6, pp. 2351–66, June 2007.
[67] Y. Cheng, C. J. Oldfield, J. Meng, P. Romero, V. N. Uversky, and
A. K. Dunker, ‘‘Mining alpha-helix-forming molecular recognition
features with cross species sequence alignments.,’’ Biochemistry,
vol. 46, pp. 13468–77, Nov. 2007.
[68] F. M. Disfani, W.-L. Hsu, M. J. Mizianty, C. J. Oldfield, B. Xue,
A. K. Dunker, V. N. Uversky, and L. Kurgan, ‘‘MoRFpred, a computational tool for sequence-based prediction and characterization of
short disorder-to-order transitioning binding regions in proteins.,’’
Bioinformatics (Oxford, England), vol. 28, pp. i75–i83, June 2012.
´
´
[69] Z. Dosztanyi,
B. M´eszaros,
and I. Simon, ‘‘ANCHOR: web server for
predicting protein binding regions in disordered proteins.,’’ Bioinformatics (Oxford, England), vol. 25, pp. 2745–6, Oct. 2009.
´
´
[70] B. M´eszaros,
I. Simon, and Z. Dosztanyi,
‘‘Prediction of protein
binding regions in disordered proteins.,’’ PLoS computational biology, vol. 5, p. e1000376, May 2009.
[71] C. Fang, Y. Hayato, and T. Noguchi, ‘‘Sequence-Based Prediction
of Molecular Recognition Features in Disordered Proteins - Vol58
ume 2, No. 2, June 2013 - Journal of Medical and Bioengineering
(JOMB),’’ 2013.
´
[72] D. Marsh, L. I. Horvath,
M. J. Swamy, S. Mantripragada, and J. H.
Kleinschmidt, ‘‘Interaction of membrane-spanning proteins with
peripheral and lipid-anchored membrane proteins: perspectives
from protein-lipid interactions (Review).,’’ Molecular membrane biology, vol. 19, no. 4, pp. 247–55.
[73] L. Wall, T. Christiansen, and R. L. Schwartz, ‘‘Programming Perl,’’
1996.
[74] D. Axmark and M. Widenius, ‘‘MySQL Introduction,’’ Linux Journal, 1999.
[75] T. Berners-lee, ‘‘The World Wide Web: Past, Present and Future,’’
Journal of Digital Information, 1996.
[76] R. Lerdorf, A. Gutmans, and Z. Suraski, ‘‘History of PHP and related projects,’’ 1995.
[77] M. Chang, E. Smith, R. Reitmaier, M. Bebenita, A. Galy, C. Wimmer, B. Eich, and M. Franz, ‘‘Trace Compilation for the Next Generation Web Applications,’’
[78] K. Arnold, J. Gosling, and D. Holmes, The Java Programming Language, 4th Edition. Addison-Wesley Professional, 2005.
[79] H. W. Lie and B. Bos, Cascading Style Sheets: Designing for the
Web. 2005.
[80] R. M. Hanson, ‘‘Jmol { a paradigm shift in crystallographic visualization,’’ Journal of Applied Crystallography, vol. 43, pp. 1250–
1260, Sept. 2010.
[81] D. M. Ritchie, ‘‘The UNIX Timesharing SystemA Retrospective,’’
[82] L. Torvalds and D. Diamond, Just for Fun: The Story of an Accidental Revolutionary. HarperBusiness, 2002.
[83] A. Singh, Mac OS X Internals: A Systems Approach. AddisonWesley Professional, 2006.
[84] UniprotConsortium, ‘‘Reorganizing the protein space at the Universal Protein Resource (UniProt).,’’ Nucleic acids research, vol. 40,
pp. D71–5, Jan. 2012.
59
[85] W. Kabsch and C. Sander, ‘‘Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features.,’’ Biopolymers, vol. 22, pp. 2577–637, Dec. 1983.
[86] B. Lee and F. Richards, ‘‘The interpretation of protein structures:
Estimation of static accessibility,’’ Journal of Molecular Biology,
vol. 55, pp. 379–IN4, Feb. 1971.
[87] A. Shrake and J. Rupley, ‘‘Environment and exposure to solvent
of protein atoms. Lysozyme and insulin,’’ Journal of Molecular Biology, vol. 79, pp. 351–371, Sept. 1973.
[88] P. V. Hornbeck, I. Chabra, J. M. Kornhauser, E. Skrzypek, and
B. Zhang, ‘‘PhosphoSite: A bioinformatics resource dedicated
to physiological protein phosphorylation.,’’ Proteomics, vol. 4,
pp. 1551–61, June 2004.
[89] M. Punta, P. C. Coggill, R. Y. Eberhardt, J. Mistry, J. Tate,
C. Boursnell, N. Pang, K. Forslund, G. Ceric, J. Clements,
A. Heger, L. Holm, E. L. L. Sonnhammer, S. R. Eddy, A. Bateman,
and R. D. Finn, ‘‘The Pfam protein families database.,’’ Nucleic
acids research, vol. 40, pp. D290–301, Jan. 2012.
[90] N. Hulo, A. Bairoch, V. Bulliard, L. Cerutti, E. De Castro,
P. S. Langendijk-Genevaux, M. Pagni, and C. J. A. Sigrist, ‘‘The
PROSITE database.,’’ Nucleic acids research, vol. 34, pp. D227–30,
Jan. 2006.
[91] S. Hunter, P. Jones, A. Mitchell, R. Apweiler, T. K. Attwood,
A. Bateman, T. Bernard, D. Binns, P. Bork, S. Burge, E. de Castro,
P. Coggill, M. Corbett, U. Das, L. Daugherty, L. Duquenne, R. D.
Finn, M. Fraser, J. Gough, D. Haft, N. Hulo, D. Kahn, E. Kelly,
I. Letunic, D. Lonsdale, R. Lopez, M. Madera, J. Maslen, C. McAnulla, J. McDowall, C. McMenamin, H. Mi, P. Mutowo-Muellenet,
N. Mulder, D. Natale, C. Orengo, S. Pesseat, M. Punta, A. F. Quinn,
C. Rivoire, A. Sangrador-Vegas, J. D. Selengut, C. J. A. Sigrist,
M. Scheremetjew, J. Tate, M. Thimmajanarthanan, P. D. Thomas,
C. H. Wu, C. Yeats, and S.-Y. Yong, ‘‘InterPro in 2011: new developments in the family and domain prediction database.,’’ Nucleic
acids research, vol. 40, pp. D306–12, Jan. 2012.
[92] S. B. Pandit, R. Bhadra, V. S. Gowri, S. Balaji, B. Anand, and
N. Srinivasan, ‘‘SUPFAM: a database of sequence superfamilies of
60
protein domains.,’’ BMC bioinformatics, vol. 5, p. 28, Mar. 2004.
[93] S. Kerrien, B. Aranda, L. Breuza, A. Bridge, F. Broackes-Carter,
C. Chen, M. Duesbury, M. Dumousseau, M. Feuermann, U. Hinz,
C. Jandrasits, R. C. Jimenez, J. Khadake, U. Mahadevan, P. Masson, I. Pedruzzi, E. Pfeiffenberger, P. Porras, A. Raghunath,
B. Roechert, S. Orchard, and H. Hermjakob, ‘‘The IntAct molecular interaction database in 2012.,’’ Nucleic acids research, vol. 40,
pp. D841–6, Jan. 2012.
[94] I. Xenarios, D. W. Rice, L. Salwinski, M. K. Baron, E. M. Marcotte,
and D. Eisenberg, ‘‘DIP: the database of interacting proteins.,’’
Nucleic acids research, vol. 28, pp. 289–91, Jan. 2000.
[95] A. Zanzoni, L. Montecchi-Palazzi, M. Quondam, G. Ausiello,
M. Helmer-Citterich, and G. Cesareni, ‘‘MINT: a Molecular INTeraction database.,’’ FEBS letters, vol. 513, pp. 135–40, Feb. 2002.
[96] D. Szklarczyk, A. Franceschini, M. Kuhn, M. Simonovic, A. Roth,
P. Minguez, T. Doerks, M. Stark, J. Muller, P. Bork, L. J. Jensen,
and C. von Mering, ‘‘The STRING database in 2011: functional
interaction networks of proteins, globally integrated and scored.,’’
Nucleic acids research, vol. 39, pp. D561–8, Jan. 2011.
[97] A. Hamosh, A. F. Scott, J. S. Amberger, C. A. Bocchini, and
V. A. McKusick, ‘‘Online Mendelian Inheritance in Man (OMIM),
a knowledgebase of human genes and genetic disorders.,’’ Nucleic
acids research, vol. 33, pp. D514–7, Jan. 2005.
[98] D. S. Wishart, C. Knox, A. C. Guo, D. Cheng, S. Shrivastava,
D. Tzur, B. Gautam, and M. Hassanali, ‘‘DrugBank: a knowledgebase for drugs, drug actions and drug targets.,’’ Nucleic acids
research, vol. 36, pp. D901–6, Jan. 2008.
[99] G. N. Tsaousis, K. D. Tsirigos, X. D. Andrianou, T. D. Liakopoulos, P. G. Bagos, and S. J. Hamodrakas, ‘‘ExTopoDB: a database of
experimentally derived topological models of transmembrane proteins.,’’ Bioinformatics (Oxford, England), vol. 26, pp. 2490–2, Oct.
2010.
[100] T. N. Petersen, S. r. Brunak, G. von Heijne, and H. Nielsen, ‘‘SignalP 4.0: discriminating signal peptides from transmembrane regions.,’’ Nature methods, vol. 8, pp. 785–6, Jan. 2011.
61
[101] A. Bernsel, H. Viklund, A. Hennerdal, and A. Elofsson, ‘‘TOPCONS: consensus prediction of membrane protein topology,’’ Nucleic Acids Research, vol. 37, pp. W465–W468, May 2009.
[102] L. K¨
all, A. Krogh, and E. L. L. Sonnhammer, ‘‘A combined transmembrane topology and signal peptide prediction method.,’’ Journal of molecular biology, vol. 338, pp. 1027–36, May 2004.
[103] D. W. Mount, ‘‘Using the Basic Local Alignment Search Tool
(BLAST).,’’ CSH protocols, vol. 2007, p. pdb.top17, Jan. 2007.
[104] K. A. Dill and J. L. MacCallum, ‘‘The protein-folding problem, 50
years on.,’’ Science (New York, N.Y.), vol. 338, pp. 1042–6, Dec.
2012.
62
Παράρτηµα Α΄
∆ηµοσιεύσεις και
Συνέδρια
∆ηµοσιεύσεις σε Επιστηµονικά Περιοδικά µε σύστηµα κριτών που
πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας
Foivos Gypas, Georgios N. Tsaousis, and Stavros J. Hamodrakas
mpMoRFsDB: A database of Molecular Recognition Features in Membrane Proteins
Bioinformatics first published online July 26, 2013
doi:10.1093/bioinformatics/btt427 [3]
Ανακοινώσεις σε ∆ιεθνή Συνέδρια µε σύστηµα κριτών που πραγµατοποιήθηκαν κατά τη διάρκεια της παρούσας Μεταπτυχιακής εργασίας
Foivos Gypas, Georgios N. Tsaousis, Stavros J. Hamodrakas
mpMoRFsDB: A database of molecular recognition features (MoRFs) in
membrane proteins.
Joint 21st Annual International Conference on Intelligent Systems for
Molecular Biology and 12th Annual European Conference on Computational Biology (ISMB/ECCB) 2013, 21 - 23 Jul 2013.
63
mpMoRFsDB: A database of Molecular Recognition Features in membrane proteins
Foivos Gypas, Georgios N. Tsaousis, Stavros J. Hamodrakas
Department of Cell Biology and Biophysics, Faculty of Biology, University of Athens, Athens, 157 01 Greece
Intrinsically Disordered Proteins - IDPs
Database
Intrinsically Disordered Proteins (IDPs) [1] possess no rigit 3D structure under
physiological conditions, yet they are functionally active. IDPs are separated in
fully disordered proteins and partially disordered proteins. Partially disordered
proteins contain Intrinsically Disordered Regions (IDRs).
Molecular Recognition Features - MoRFs
Molecular Recognition Features (MoRFs) [2] are small regions (between 10
and 70 residues) in proteins that undergo a disorder-to-order transition upon binding to their partners. Proteins containing MoRFs play an important role in molecular recognition. When they are bound to their partners, MoRFs can take various
shapes according to their secondary structure. They can form alpha helices (αMoRFs), beta strands (β-MoRFs), irregular structures (i-MoRFs) or combination
of previous forms (complex-MoRFs).
Figure 1. Categories of MoRFs based on secondary structure. PDB IDs from left to right: 1BXL, 2ZPY, 1A6A, 1YBO
Figure 3. In the main page of mpMoRFsDB, a user may find links to the following tools: Search, Browse, Blast Search
and Download. Through the Browse page the user has the ability to browse all the entries. Moreover, there is an
option for browsing by membrane protein type (transmembrane or peripheral) or by the secondary structure of MoRFs
(α-MoRFs, β-MoRFs, i-MoRFs and complex-MoRFs).
Figure 4. Through Search, the user may submit advanced queries, whereas through Blast Search, we provide an
interface for running Blast searches against the database.
Membrane Proteins
Membrane proteins constitute approximately 30% of fully sequenced proteomes
and are responsible for a wide variety of cellular functions, including cell signaling
and binding.
Figure 5. Entries related to the previous advanced query are retrieved.
Figure 2. Categories of membrane proteins.
Membrane proteins are separated in three main categories:
I Transmembrane proteins that span the lipid bilayer.
I Peripheral membrane proteins that are non-covalently associated with transmembrane proteins and/or lipids.
I Lipid-Anchored proteins that are covalently anchored to lipids.
Transmembrane proteins are separated in two categories:
I Single-Spanning proteins that span the lipid bilayer once.
I Multi-Spanning proteins that span the lipid bilayer more than once.
Motivation
The aim of this work was to collect, organize and store all membrane proteins that
contain MoRFs [3].
Methodology
1. An initial dataset was constructed from the Protein Data Bank (PDB), following
the methodology proposed by Mohan et al [2].
2. We retrieved protein complexes containing at least 2 entities with one chain varying from 10 to 70 residues and a second one having length over 100 residues.
3. We further removed proteins where the MoRF’s sequence contained errors or
not valid amino acid residues.
4. Membrane proteins were selected using Uniprot’s annotation.
5. We used the secondary structure assignment and the Accessible Surface Area
(ASA) values inferred by DSSP in order to categorize MoRFs and to evaluate
whether a MoRF can interact with its possible partner, respectively.
6. The position of transmembrane protein MoRFs in relation to the protein’s topology was determined.
7. Finally, we organized all data in a publicly available mySQL database, with a
user-friendly web interface based on HTML, CSS, PHP and Javascript.
Figure 6. Each entry contains information about the respective membrane protein and related MoRFs. A Jmol
applet is integrated for visualization of the structures and cross-references to many publicly available databases are
included. In addition, another important feature of mpMoRFsDB is that it provides the exact location of MoRFs along
the sequence of membrane proteins. More interestingly, in transmembrane proteins, mpMoRFsDB provides protein
topology information and the location of MoRFs in respect to the transmembrane topology of the proteins. This way,
users can observe whether transmembrane protein MoRFs are located in extracellular or cytoplasmic loop regions as
well as their distance from the transmembrane segments.
Statistics
The database includes 173 membrane proteins containing 244 MoRFs. Membrane proteins are devided to 102 transmembrane proteins and 71 peripheral.
References
1. Uversky VN. Intrinsically disordered proteins from A to Z. Int J Biochem Cell Biol. 2011 Aug;43(8):1090-103. doi:
10.1016/j.biocel.2011.04.001. Epub 2011 Apr 8. Review. PubMed PMID: 21501695.
2. Mohan A, Oldfield CJ, Radivojac P, Vacic V, Cortese MS, Dunker AK, Uversky VN. Analysis of molecular recognition
features (MoRFs). J Mol Biol. 2006 Oct 6;362(5):1043-59. Epub 2006 Aug 4. PubMed PMID: 16935303.
3. Kotta-Loizou I, Tsaousis GN, Hamodrakas SJ. Analysis of Molecular Recognition Features (MoRFs) in membrane
proteins. Biochim Biophys Acta. 2013 Apr;1834(4):798-807. doi: 10.1016/j.bbapap.2013.01.006. Epub 2013 Jan
15. PubMed PMID: 23328413.
4. Disfani FM, Hsu WL, Mizianty MJ, Oldfield CJ, Xue B, Dunker AK, Uversky VN, Kurgan L. MoRFpred, a computational tool for sequence-based prediction and characterization of short disorder-to-order transitioning binding
regions in proteins. Bioinformatics. 2012 Jun 15;28(12):i75-83. doi: 10.1093/bioinformatics/bts209. PubMed PMID:
22689782; PubMed Central PMCID: PMC3371841.
Funding
The present work was funded by SYNERGASIA 2009 co-funded by the European Regional Development Fund and
National resources (Project Code 09SYN-13-999, G.S.R.T. of the Greek Ministry of Education and Religious Affairs,
Culture and Sports).
Figure 7. Left: Classification of proteins according to membrane protein type. Right: Classification of MoRFs according to secondary structure.
Link to mpMoRFsDB
http://bioinformatics.biol.uoa.gr/mpMoRFsDB/
ISMB/ECCB 2013 - 21st Annual International Conference on Intelligent Systems for Molecular Biology - 12th European Conference on Computational Biology, July 21 -23, 2013, Berlin, Germany
Bioinformatics Advance Access published August 11, 2013
BIOINFORMATICS
APPLICATIONS NOTE
Databases and ontologies
2013, pages 1–2
doi:10.1093/bioinformatics/btt427
Advance Access publication July 26, 2013
mpMoRFsDB: a database of molecular recognition features in
membrane proteins
Foivos Gypas, Georgios N. Tsaousis and Stavros J. Hamodrakas*
Faculty of Biology, Department of Cell Biology and Biophysics, University of Athens, Panepistimiopolis, Athens 157 01,
Greece
Associate Editor: Jonathan Wren
ABSTRACT
Received on June 3, 2013; revised on July 2, 2013; accepted on
July 18, 2013
1 INTRODUCTION
Intrinsically disordered proteins (IDPs) possess no rigid three-dimensional structure under physiological conditions, yet they are
functionally active (Uversky, 2011). IDPs are separated in fully
disordered proteins and partially disordered proteins (Oldfield
et al., 2005a). Partially disordered proteins contain intrinsically
disordered regions (IDRs). IDRs are found in both prokaryotes
and eukaryotes. In all, 20–30% of prokaryotic proteins (Dunker
et al., 2000) and more than half of eukaryotic proteins contain
IDRs (Oldfield et al., 2005a). Vast abundance and functional importance characterize these proteins. For a deeper understanding of
IDPs and IDRs, several databases have been developed: DisProt
(Vucetic et al., 2005), (Sickmeier et al., 2007), MobiDB (Di
Domenico et al., 2012), IDEAL (Fukuchi et al., 2012), ComSin
(Lobanov et al., 2010) and D(2)P(2) (Oates et al., 2013) provide
information about experimentally determined or theoretically predicted IDPs and IDRs. Moreover, a variety of predictors have been
developed for the prediction of IDRs from protein sequence (He
et al., 2009).
*To whom correspondence should be addressed.
2
METHODS
An initial dataset was constructed from the Protein Data Bank (PDB)
(Berman et al., 2000), following the methodology proposed by Mohan
et al. (2006). We retrieved protein complexes containing at least two entities,
with one chain varying from 10 to 70 residues and a second one having a
length 4100 residues (until May 2013). We further removed proteins where
the MoRF’s sequence contained errors or not valid amino acid residues,
ending up with 2458 PDB entries mapping to 785 unique Uniprot Accession
numbers (Uniprot_Consortium, 2012). Membrane proteins were selected
using Uniprot’s annotation. Moreover, we used the secondary structure assignment and the accessible surface area values inferred by DSSP (Kabsch
and Sander, 1983) to categorize MoRFs and to evaluate whether a MoRF
can interact with its possible partner, respectively. The position of transmembrane protein MoRFs in relation to a protein’s topology was determined. Transmembrane protein topology was determined based on
experimentally derived data from ExTopoDB (Tsaousis et al., 2010) and
Uniprot.
ß The Author 2013. Published by Oxford University Press. All rights reserved. For Permissions, please e-mail: [email protected]
1
Downloaded from http://bioinformatics.oxfordjournals.org/ at University of Athens on August 28, 2013
Summary: Molecular recognition features (MoRFs) are small, intrinsically disordered regions in proteins that undergo a disorder-to-order
transition on binding to their partners. MoRFs are involved in protein–protein interactions and may function as the initial step in molecular recognition. The aim of this work was to collect, organize and store
all membrane proteins that contain MoRFs. Membrane proteins constitute 30% of fully sequenced proteomes and are responsible for a
wide variety of cellular functions. MoRFs were classified according to
their secondary structure, after interacting with their partners. We identified MoRFs in transmembrane and peripheral membrane proteins.
The position of transmembrane protein MoRFs was determined in
relation to a protein’s topology. All information was stored in a publicly
available mySQL database with a user-friendly web interface. A Jmol
applet is integrated for visualization of the structures. mpMoRFsDB
provides valuable information related to disorder-based protein–
protein interactions in membrane proteins.
Availability: http://bioinformatics.biol.uoa.gr/mpMoRFsDB
Contact: [email protected]
Special cases of IDRs are molecular recognition features
(MoRFs) or molecular recognition elements (Mohan et al., 2006).
MoRFs are small regions (between 10 and 70 residues) in proteins
that undergo a disorder-to-order transition on binding to their partners (Tompa, 2002; Uversky et al., 2000; Wright and Dyson, 1999).
Proteins containing MoRFs play an important role in molecular
recognition. When they are bound to their partners, MoRFs can
take various shapes according to their secondary structure. They
can form alpha-helices (-MoRFs), beta-strands (-MoRFs),
irregular structures (i-MoRFs) or a combination of the previous
elements (complex-MoRFs). A number of predictors are available
for the prediction of MoRFs from protein sequences (Cheng et al.,
2007; Disfani et al., 2012; Dosztanyi et al., 2009; Mooney et al., 2012;
Oldfield et al., 2005b).
Membrane proteins constitute 30% of fully sequenced proteomes
and are responsible for a wide variety of crucial cellular functions,
such as binding and signaling (Krogh et al., 2001). Membrane proteins are separated in transmembrane proteins, peripheral membrane proteins and lipid-anchored proteins. Transmembrane
proteins are divided into single-spanning and multi-spanning proteins, according to the number of transmembrane segments. An
important number of MoRFs can be found in membrane proteins
(Mohan et al., 2006) and especially in transmembrane proteins
(Kotta-Loizou et al., 2013). IDRs are included in both alpha-helical
and beta-barrel transmembrane proteins (Xue et al., 2009) and
occur mostly on the cytoplasmic side of human plasma transmembrane proteins (Minezaki et al., 2007; Stavropoulos et al., 2012).
mpMoRFsDB is the first publicly available database that
collects and provides information about MoRFs found in
membrane proteins.
F.Gypas et al.
The process is automated so that new MoRFs can be collected from
membrane proteins, as novel structures are deposited in PDB. Finally, we
organized all data in a publicly available mySQL database, with a userfriendly web interface based on HTML, CSS, PHP and Javascript.
Protein information can be accessed through three different file formats
(Fasta, Text and XML), apart from the classic web view. Moreover, the
entire database can be downloaded locally for further analysis.
3
RESULTS
4
DISCUSSION
A database containing MoRFs in membrane proteins was constructed. Data were collected with automated Perl scripts and verified manually. The whole process can easily be repeated, and we
intend to update the database every 6 months. The proteins in our
database are highly connected nodes in protein interaction networks (52% of mpMoRFsDB’s entries have more than five interactions in molecular interaction databases) and are essential to cell
survival (Jeong et al., 2001). mpMoRFsDB provides an up-to-date
dataset, which can be used for the design and evaluation of methods predicting MoRFs in membrane proteins. The database will
contribute to the emerging ‘protein non-folding problem’ (Dill and
MacCallum, 2012) and provide insights in disorder-based interactions in membrane proteins.
ACKNOWLEDGEMENTS
The authors would like to thank the anonymous reviewers and the
handling associate editor for their valuable comments and constructive criticism.
Funding: The present work was funded by the SYNERGASIA
2009 PROGRAMME. This Programme is co-funded by the
European Regional Development Fund and National resources
(Project Code 09SYN-13-999).
2
REFERENCES
Berman,H.M. et al. (2000) The Protein Data Bank. Nucleic Acids Res., 28, 235–242.
Cheng,Y. et al. (2007) Mining alpha-helix-forming molecular recognition features
with cross species sequence alignments. Biochemistry, 46, 13468–13477.
Di Domenico,T. et al. (2012) MobiDB: a comprehensive database of intrinsic
protein disorder annotations. Bioinformatics, 28, 2080–2081.
Dill,K.A. and MacCallum,J.L. (2012) The protein-folding problem, 50 years on.
Science, 338, 1042–1046.
Disfani,F.M. et al. (2012) MoRFpred, a computational tool for sequence-based
prediction and characterization of short disorder-to-order transitioning binding
regions in proteins. Bioinformatics, 28, i75–i83.
Dosztanyi,Z. et al. (2009) ANCHOR: web server for predicting protein binding
regions in disordered proteins. Bioinformatics, 25, 2745–2746.
Dunker,A.K. et al. (2000) Intrinsic protein disorder in complete genomes. Genome
Inform., 11, 161–171.
Fukuchi,S. et al. (2012) IDEAL: intrinsically disordered proteins with extensive
annotations and literature. Nucleic Acids Res., 40, D507–D511.
Hanson,R.M. (2010) Jmol – a paradigm shift in crystallographic visualization.
J. Appl. Crystallogr., 43, 1250–1260.
He,B. et al. (2009) Predicting intrinsic disorder in proteins: an overview. Cell Res.,
19, 929–949.
Jeong,H. et al. (2001) Lethality and centrality in protein networks. Nature, 411,
41–42.
Kabsch,W. and Sander,C. (1983) Dictionary of protein secondary structure: pattern
recognition of hydrogen-bonded and geometrical features. Biopolymers, 22,
2577–2637.
Kotta-Loizou,I. et al. (2013) Analysis of molecular recognition features (MoRFs) in
membrane proteins. Biochim. Biophys. Acta, 1834, 798–807.
Krogh,A. et al. (2001) Predicting transmembrane protein topology with a hidden
Markov model: application to complete genomes. J. Mol. Biol., 305, 567–580.
Lobanov,M.Y. et al. (2010) ComSin: database of protein structures in bound
(complex) and unbound (single) states in relation to their intrinsic disorder.
Nucleic Acids Res., 38, D283–D287.
Minezaki,Y. et al. (2007) Intrinsically disordered regions of human plasma membrane proteins preferentially occur in the cytoplasmic segment. J. Mol. Biol.,
368, 902–913.
Mohan,A. et al. (2006) Analysis of molecular recognition features (MoRFs). J. Mol.
Biol., 362, 1043–1059.
Mooney,C. et al. (2012) Prediction of short linear protein binding regions. J. Mol.
Biol., 415, 193–204.
Oates,M.E. et al. (2013) D(2)P(2): database of disordered protein predictions.
Nucleic Acids Res., 41, D508–D516.
Oldfield,C.J. et al. (2005a) Comparing and combining predictors of mostly
disordered proteins. Biochemistry, 44, 1989–2000.
Oldfield,C.J. et al. (2005b) Coupled folding and binding with alpha-helix-forming
molecular recognition elements. Biochemistry, 44, 12454–12470.
Sickmeier,M. et al. (2007) DisProt: the database of disordered proteins. Nucleic
Acids Res., 35, D786–D793.
Stavropoulos,I. et al. (2012) Protein disorder and short conserved motifs in
disordered regions are enriched near the cytoplasmic side of single-pass transmembrane proteins. PLoS One, 7, e44389.
Tompa,P. (2002) Intrinsically unstructured proteins. Trends Biochem. Sci., 27,
527–533.
Tsaousis,G.N. et al. (2010) ExTopoDB: a database of experimentally derived topological models of transmembrane proteins. Bioinformatics, 26, 2490–2492.
Uniprot_Consortium. (2012) Reorganizing the protein space at the Universal
Protein Resource (UniProt). Nucleic Acids Res., 40, D71–D75.
Uversky,V.N. (2011) Intrinsically disordered proteins from A to Z. Int. J. Biochem.
Cell Biol., 43, 1090–1103.
Uversky,V.N. et al. (2000) Why are ‘‘natively unfolded’’ proteins unstructured
under physiologic conditions? Proteins, 41, 415–427.
Vucetic,S. et al. (2005) DisProt: a database of protein disorder. Bioinformatics, 21,
137–140.
Wright,P.E. and Dyson,H.J. (1999) Intrinsically unstructured proteins: re-assessing
the protein structure-function paradigm. J. Mol. Biol., 293, 321–331.
Xue,B. et al. (2009) Analysis of structured and intrinsically disordered regions of
transmembrane proteins. Mol. Biosyst., 5, 1688–1702.
Downloaded from http://bioinformatics.oxfordjournals.org/ at University of Athens on August 28, 2013
The database includes 173 membrane proteins containing 244
MoRFs. Membrane proteins are divided in 102 transmembrane
proteins (70 single-spanning and 32 multi-spanning) and 71 peripheral membrane proteins. MoRFs were classified in categories according to their secondary structure when bound to their partners,
with 33.47% categorized as -MoRFs, 3.83% as -MoRFs,
60.48% as i-MoRFs and 2.22% as complex-MoRFs.
In the main page of mpMoRFsDB, a user may find links to the
following tools: Browse, Search, Blast Search and Download.
Through the Browse page, the user has the ability to browse all
the entries. Moreover, there is an option for browsing by membrane
protein type (transmembrane or peripheral) or by the secondary
structure of MoRFs (-MoRFs, -MoRFs, i-MoRFs and complex-MoRFs). Through Search, the user may submit advanced
queries, whereas through Blast Search, we provide an interface for
running Blast searches against the database. Each entry contains
information about the respective membrane protein and related
MoRFs. A Jmol (Hanson, 2010) applet is integrated for visualization of the structures, and cross-references to many publicly available databases are included, providing information for protein
domains, molecular interactions and diseases. In the case of transmembrane proteins, we determined whether the MoRFs are positioned in the cytoplasmic or the extracellular space. We observed
that the majority of MoRFs in transmembrane proteins are found in
the cytoplasmic side.
Conflict of interest: none declared.