κεφαλαιο 9

5/12/2012
Μελέτη του γονιδιώματος
• Ποια είναι τα γονίδια και που βρίσκονται;
• Ποιοι μηχανισμοί ρυθμίζουν την έκφραση κάθε γονιδίου;
• Σε τι επίπεδα εκφράζονται τα γονίδια υπό διαφορετικές
συνθήκες;
• Ποια είναι η λειτουργία των γονιδίων;
• Πως τα προϊόντα των διαφόρων γονιδίων αλληλεπιδρούν
ΠΡΟΓΝΩΣΗ ΓΟΝΙΔΙΩΝ
μεταξύ τους ή με άλλα μόρια στο κύτταρο;
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 1
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Γονίδιο
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 3
Σελίδα 5
Τ. Θηραίου
Γενετικός κώδικας
Τ. Θηραίου
ανοιχτό πλαίσιο ανάγνωσης
(open reading frame, ORF)
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 2
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 4
Τ. Θηραίου
Προκαρυωτικά vs. Ευκαρυωτικά Γονίδια
Τ. Θηραίου
1
5/12/2012
Μέθοδοι πρόγνωσης
Μέθοδοι πρόγνωσης
• Απαρχής μέθοδοι
 coding statistics

διαφορές στη νουκλεοτιδική σύσταση στις κωδικοποιούσες
περιοχές
 signals

μικρά μοτίβα DNA π.χ. εκκινητές
 Συνδυασμός χαρακτηριστικών αποτυπωμάτων και
νουκλεοτιδικής σύστασης της ακολουθίας.
• Ομολογία
• Υβριδικές
Σελίδα 7
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Τ. Θηραίου
Σελίδα 8
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
coding statistics
Τ. Θηραίου
coding statistics
• διαφορές στη νουκλεοτιδική σύσταση των κωδικοποιουσών
αλληλουχιών
• Συχνότητα εμφάνισης ζευγών αμινοξέων σε πρωτεΐνες του
οργανισμού shewanella
 μείωση των stop codons
 προτίμηση κωδικονίων

συχνότητα χρήσης αμινοξέων

συχνότητα χρήσης συνώνυμων κωδικονίων
 προτίμηση ζευγών κωδικονίων
• διαφορές ανάλογα με το επίπεδο έκφρασης
• διαφορές μεταξύ οργανισμών
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 9
Τ. Θηραίου
Σελίδα 10
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
coding statistics
Τ. Θηραίου
coding statistics
• Συχνότητα εμφάνισης ζευγών αμινοξέων σε πρωτεΐνες των
οργανισμών shewanella και bovine
• Κάποια αμινοξέα προτιμούν / δεν προτιμούν να βρίσκονται
δίπλα σε κάποια άλλα.
 Διαφορά στη συχνότητα εμφάνισης εξαμερών (π.χ. AAA
TTT) μεταξύ κωδικοποιουσών (K) / μη κωδικοποιουσών
(MK) αλληλουχιών.
 Στον άνθρωπο, συχνότητα εμφάνισης εξαμερούς "AAA
AAA"

~1% στις κωδικοποιούσες αλληλουχίες

~5% στις μη κωδικοποιούσες αλληλουχίες
• Αναγνώριση γονιδίων βάσει της συχνότητας εμφάνισης
εξαμερών.
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 11
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 12
Τ. Θηραίου
2
5/12/2012
coding statistics
coding statistics
• FC(X) συχνότητα εμφάνισης του εξαμερούς X σε K
• FN(X) συχνότητα εμφάνισης του εξαμερούς X σε MK
• P(X) = log (FC(X)/FN(X))
• Αναγνώριση γονιδίων βάσει της συχνότητας εμφάνισης
εξαμερών.
 Για κάθε ORF
 P(X) = 0, X ίδια συχνότητα σε K και MK

Κυλιόμενο παράθυρο μήκους 60 βάσεων
 P(X) > 0, X μεγαλύτερη συχνότητα σε K

Υπολογισμός του score προτίμησης
 P(X) < 0, X μεγαλύτερη συχνότητα σε MK

Χρήση τιμής κατωφλίου για τον καθορισμό των γονιδίων
που έχει προκύψει από τη μελέτη γνωστών Κ και ΜΚ
• score προτίμησης S(X) = Σ (P0(X) + P1(X) + P2(X))
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 13
Τ. Θηραίου
signals
signals
• Οι μηχανισμοί της μεταγραφής και της μετάφρασης
• Θέσεις πρόσδεσης μεταγραφικών παραγόντων
δημιουργούν χαρακτηριστικά "αποτυπώματα" στην ακολουθία
του DNA.
 Κωδικόνια έναρξης (ATG) και λήξης (TAA, TAG, TGA) της
μετάφρασης
 μήκος 5-15 νουκλεοτίδια
 συνήθως στο 5’ άκρο των γονιδίων σε μεταβλητές
αποστάσεις
 ακολουθία: συντηρημένες και εκφυλισμένες θέσεις
 Θέσεις πρόσδεσης μεταγραφικών παραγόντων
 δυσκολίες στην ανίχνευσή τους
 Σημεία συρραφής δότη – δέκτη
 Σηµείο πολυαδενυλίωσης
 CpG islands
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 15
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
signals
Σελίδα 16
Τ. Θηραίου
signals
• Αναπαράσταση μοτίβων
• Σημεία συρραφής δότη – δέκτη
 PSSM
 Η αποκοπή των εσωνίων και το μάτισμα των εξωνίων
 HMM
πρέπει να γίνονται με απόλυτη ακριβεία, έτσι ώστε να
διαφυλάσσεται το σωστό πλαίσιο ανάγνωσης.
 Sequence Logo
 Υπάρχουν συντηρημένα μοτίβα στα σημεία συρραφής
• Εύρεση μοτίβων
δότη - δέκτη (donor - acceptor splice junction);
T A A T A T G T C C A C GGG T A T T G AG C A T T G T A C A C GGGG T A T T G A G C A T G T A A T G A A
εξώνιο 1
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 17
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
εξώνιο 2
Σελίδα 18
εξώνιο 3
Τ. Θηραίου
3
5/12/2012
signals
signals
• Σημεία συρραφής δότη – δέκτη
Σελίδα 19
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
• CpG islands
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
signals
Σελίδα 20
Τ. Θηραίου
signals
• CpG islands
 Το δινουκλεοτίδιο CG υποεκπροσωπείται σε πολλά
γονιδιώματα.

ΤΑCGTACTGATCTGATC
 Στις περιοχές κοντά στο 5’ άκρο των γονιδίων (upstream
regions) η συχνότητα εμφάνισης του δινουκλεοτιδίου CG
αυξάνεται.  CpG islands

p φωσφοδιεστερικός δεσμός μεταξύ C και G, δηλαδή τα C
και G βρίσκονται στην ίδια αλυσίδα
 Τα CpG islands αποτελούν ένδειξη για την ύπαρξη
γονιδίων, αλλά πάντα σε συνδυασμό με άλλα στοιχεία.
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 21
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Απαρχής μέθοδοι
Σελίδα 22
Τ. Θηραίου
Ομολογία
• geneid http://genome.crg.es/software/geneid/
• Genscan http://genes.mit.edu/GENSCAN.html
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 23
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 24
Τ. Θηραίου
4
5/12/2012
Ομολογία
Υβριδικές Τεχνικές
• GeneWise http://www.ebi.ac.uk/Tools/psa/genewise/
• Απαρχής πρόγνωση και στοίχιση ακολουθιών
 Στοίχιση γενομικού DNA με πρωτεϊνική ακολουθία
 AUGUSTUS http://bioinf.uni-greifswald.de/augustus/
 Χειρίζεται τα εσώνια και λάθη στο πλαίσιο ανάγνωσης
 N-SCAN / Twinscan http://mblab.wustl.edu/nscan
 Απαραίτητο υψηλό ποσοστό ομοιότητας
• BLAST http://blast.ncbi.nlm.nih.gov/

HMM

στοίχιση δύο ακολουθιών & χαρακτηρισμός κάθε βάσης ως

αλφάβητο 12 γραμμάτων

ταύτιση βάσεων ευνοείται σε εξώνια

κενά ευνοούνται σε εσώνια
– gap (-), mismatch (:), match (|)
 Γρήγορη αναζήτηση εξωνίων
 Μείωση του χώρου αναζήτησης για άλλα προγράμματα
Σελίδα 25
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Τ. Θηραίου
– Σ {A-, A:, A |, C-, C:, C |, G-, G:, G |, T-, T:, T|}
Εκτίμηση ακρίβειας πρόγνωσης
βάσεων ή εξωνίων) που προβλέπονται σωστά
 εκπαίδευση σε συγκεκριμένους οργανισμούς
• Ιδιαίτερη δυσκολία στα ευκαρυωτικά γονίδια
 εξώνια / εσώνια
γονιδίων (ή βάσεων ή εξωνίων) που αντιστοιχούν σε
πραγματικά γονίδια
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
 εναλλακτικό ματίσμα
• Μη τυπικά γονίδια
• Λάθη στην αλληλούχιση
• Ψευδώς θετικές / αρνητικές προβλέψεις
TruePositive
TruePositive

AllPositiv e TruePositive  FalsePosit ive
Σελίδα 27
• Χαμηλός λόγος σήμα/θόρυβο
• Εξειδικευμένα προγράμματα για συγκεκριμένους οργανισμούς
 διαφορετικά χαρακτηριστικά π.χ. προτίμηση κωδικονίων
TruePositive
TruePositive

AllTrue
TruePositive  FalseNegat ive
• Εξειδίκευση (Specificity, Sp) ποσοστό προβλεπόμενων
Sp 
Τ. Θηραίου
Πρόγνωση γονιδίων
• Ευαισθησία (Sensitivity, Sn) ποσοστό γνωστών γονιδίων (ή
Sn 
Σελίδα 26
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 28
Τ. Θηραίου
Πρόγνωση γονιδίων
• "Finally, we wish to again warn the users of gene prediction
software that the results produced should be taken with
caution: although such results are becoming increasingly
more reliable, they do only remain predictions. These are
very useful for speeding up gene discovery and knowledge
mining thereof, but biological expertise remains necessary in
order to confirm the existence of a virtual protein and to find
or prove its biological function and its condition of expression
in the organism."
Mathe, Nucleic Acids Research, 2002, 30 (19) 4103
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 29
Τ. Θηραίου
5