5/12/2012
Μελέτη του γονιδιώματος
• Ποια είναι τα γονίδια και που βρίσκονται;
• Ποιοι μηχανισμοί ρυθμίζουν την έκφραση κάθε γονιδίου;
• Σε τι επίπεδα εκφράζονται τα γονίδια υπό διαφορετικές
συνθήκες;
• Ποια είναι η λειτουργία των γονιδίων;
• Πως τα προϊόντα των διαφόρων γονιδίων αλληλεπιδρούν
ΠΡΟΓΝΩΣΗ ΓΟΝΙΔΙΩΝ
μεταξύ τους ή με άλλα μόρια στο κύτταρο;
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 1
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Γονίδιο
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 3
Σελίδα 5
Τ. Θηραίου
Γενετικός κώδικας
Τ. Θηραίου
ανοιχτό πλαίσιο ανάγνωσης
(open reading frame, ORF)
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 2
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 4
Τ. Θηραίου
Προκαρυωτικά vs. Ευκαρυωτικά Γονίδια
Τ. Θηραίου
1
5/12/2012
Μέθοδοι πρόγνωσης
Μέθοδοι πρόγνωσης
• Απαρχής μέθοδοι
 coding statistics
διαφορές στη νουκλεοτιδική σύσταση στις κωδικοποιούσες
περιοχές
 signals
μικρά μοτίβα DNA π.χ. εκκινητές
 Συνδυασμός χαρακτηριστικών αποτυπωμάτων και
νουκλεοτιδικής σύστασης της ακολουθίας.
• Ομολογία
• Υβριδικές
Σελίδα 7
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Τ. Θηραίου
Σελίδα 8
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
coding statistics
Τ. Θηραίου
coding statistics
• διαφορές στη νουκλεοτιδική σύσταση των κωδικοποιουσών
αλληλουχιών
• Συχνότητα εμφάνισης ζευγών αμινοξέων σε πρωτεΐνες του
οργανισμού shewanella
 μείωση των stop codons
 προτίμηση κωδικονίων
συχνότητα χρήσης αμινοξέων
συχνότητα χρήσης συνώνυμων κωδικονίων
 προτίμηση ζευγών κωδικονίων
• διαφορές ανάλογα με το επίπεδο έκφρασης
• διαφορές μεταξύ οργανισμών
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 9
Τ. Θηραίου
Σελίδα 10
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
coding statistics
Τ. Θηραίου
coding statistics
• Συχνότητα εμφάνισης ζευγών αμινοξέων σε πρωτεΐνες των
οργανισμών shewanella και bovine
• Κάποια αμινοξέα προτιμούν / δεν προτιμούν να βρίσκονται
δίπλα σε κάποια άλλα.
 Διαφορά στη συχνότητα εμφάνισης εξαμερών (π.χ. AAA
TTT) μεταξύ κωδικοποιουσών (K) / μη κωδικοποιουσών
(MK) αλληλουχιών.
 Στον άνθρωπο, συχνότητα εμφάνισης εξαμερούς "AAA
AAA"
~1% στις κωδικοποιούσες αλληλουχίες
~5% στις μη κωδικοποιούσες αλληλουχίες
• Αναγνώριση γονιδίων βάσει της συχνότητας εμφάνισης
εξαμερών.
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 11
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 12
Τ. Θηραίου
2
5/12/2012
coding statistics
coding statistics
• FC(X) συχνότητα εμφάνισης του εξαμερούς X σε K
• FN(X) συχνότητα εμφάνισης του εξαμερούς X σε MK
• P(X) = log (FC(X)/FN(X))
• Αναγνώριση γονιδίων βάσει της συχνότητας εμφάνισης
εξαμερών.
 Για κάθε ORF
 P(X) = 0, X ίδια συχνότητα σε K και MK
Κυλιόμενο παράθυρο μήκους 60 βάσεων
 P(X) > 0, X μεγαλύτερη συχνότητα σε K
Υπολογισμός του score προτίμησης
 P(X) < 0, X μεγαλύτερη συχνότητα σε MK
Χρήση τιμής κατωφλίου για τον καθορισμό των γονιδίων
που έχει προκύψει από τη μελέτη γνωστών Κ και ΜΚ
• score προτίμησης S(X) = Σ (P0(X) + P1(X) + P2(X))
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 13
Τ. Θηραίου
signals
signals
• Οι μηχανισμοί της μεταγραφής και της μετάφρασης
• Θέσεις πρόσδεσης μεταγραφικών παραγόντων
δημιουργούν χαρακτηριστικά "αποτυπώματα" στην ακολουθία
του DNA.
 Κωδικόνια έναρξης (ATG) και λήξης (TAA, TAG, TGA) της
μετάφρασης
 μήκος 5-15 νουκλεοτίδια
 συνήθως στο 5’ άκρο των γονιδίων σε μεταβλητές
αποστάσεις
 ακολουθία: συντηρημένες και εκφυλισμένες θέσεις
 Θέσεις πρόσδεσης μεταγραφικών παραγόντων
 δυσκολίες στην ανίχνευσή τους
 Σημεία συρραφής δότη – δέκτη
 Σηµείο πολυαδενυλίωσης
 CpG islands
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 15
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
signals
Σελίδα 16
Τ. Θηραίου
signals
• Αναπαράσταση μοτίβων
• Σημεία συρραφής δότη – δέκτη
 PSSM
 Η αποκοπή των εσωνίων και το μάτισμα των εξωνίων
 HMM
πρέπει να γίνονται με απόλυτη ακριβεία, έτσι ώστε να
διαφυλάσσεται το σωστό πλαίσιο ανάγνωσης.
 Sequence Logo
 Υπάρχουν συντηρημένα μοτίβα στα σημεία συρραφής
• Εύρεση μοτίβων
δότη - δέκτη (donor - acceptor splice junction);
T A A T A T G T C C A C GGG T A T T G AG C A T T G T A C A C GGGG T A T T G A G C A T G T A A T G A A
εξώνιο 1
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 17
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
εξώνιο 2
Σελίδα 18
εξώνιο 3
Τ. Θηραίου
3
5/12/2012
signals
signals
• Σημεία συρραφής δότη – δέκτη
Σελίδα 19
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
• CpG islands
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
signals
Σελίδα 20
Τ. Θηραίου
signals
• CpG islands
 Το δινουκλεοτίδιο CG υποεκπροσωπείται σε πολλά
γονιδιώματα.
ΤΑCGTACTGATCTGATC
 Στις περιοχές κοντά στο 5’ άκρο των γονιδίων (upstream
regions) η συχνότητα εμφάνισης του δινουκλεοτιδίου CG
αυξάνεται.  CpG islands
p φωσφοδιεστερικός δεσμός μεταξύ C και G, δηλαδή τα C
και G βρίσκονται στην ίδια αλυσίδα
 Τα CpG islands αποτελούν ένδειξη για την ύπαρξη
γονιδίων, αλλά πάντα σε συνδυασμό με άλλα στοιχεία.
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 21
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Απαρχής μέθοδοι
Σελίδα 22
Τ. Θηραίου
Ομολογία
• geneid http://genome.crg.es/software/geneid/
• Genscan http://genes.mit.edu/GENSCAN.html
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 23
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 24
Τ. Θηραίου
4
5/12/2012
Ομολογία
Υβριδικές Τεχνικές
• GeneWise http://www.ebi.ac.uk/Tools/psa/genewise/
• Απαρχής πρόγνωση και στοίχιση ακολουθιών
 Στοίχιση γενομικού DNA με πρωτεϊνική ακολουθία
 AUGUSTUS http://bioinf.uni-greifswald.de/augustus/
 Χειρίζεται τα εσώνια και λάθη στο πλαίσιο ανάγνωσης
 N-SCAN / Twinscan http://mblab.wustl.edu/nscan
 Απαραίτητο υψηλό ποσοστό ομοιότητας
• BLAST http://blast.ncbi.nlm.nih.gov/
HMM
στοίχιση δύο ακολουθιών & χαρακτηρισμός κάθε βάσης ως
αλφάβητο 12 γραμμάτων
ταύτιση βάσεων ευνοείται σε εξώνια
κενά ευνοούνται σε εσώνια
– gap (-), mismatch (:), match (|)
 Γρήγορη αναζήτηση εξωνίων
 Μείωση του χώρου αναζήτησης για άλλα προγράμματα
Σελίδα 25
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Τ. Θηραίου
– Σ {A-, A:, A |, C-, C:, C |, G-, G:, G |, T-, T:, T|}
Εκτίμηση ακρίβειας πρόγνωσης
βάσεων ή εξωνίων) που προβλέπονται σωστά
 εκπαίδευση σε συγκεκριμένους οργανισμούς
• Ιδιαίτερη δυσκολία στα ευκαρυωτικά γονίδια
 εξώνια / εσώνια
γονιδίων (ή βάσεων ή εξωνίων) που αντιστοιχούν σε
πραγματικά γονίδια
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
 εναλλακτικό ματίσμα
• Μη τυπικά γονίδια
• Λάθη στην αλληλούχιση
• Ψευδώς θετικές / αρνητικές προβλέψεις
TruePositive
TruePositive
AllPositiv e TruePositive  FalsePosit ive
Σελίδα 27
• Χαμηλός λόγος σήμα/θόρυβο
• Εξειδικευμένα προγράμματα για συγκεκριμένους οργανισμούς
 διαφορετικά χαρακτηριστικά π.χ. προτίμηση κωδικονίων
TruePositive
TruePositive
AllTrue
TruePositive  FalseNegat ive
• Εξειδίκευση (Specificity, Sp) ποσοστό προβλεπόμενων
Sp 
Τ. Θηραίου
Πρόγνωση γονιδίων
• Ευαισθησία (Sensitivity, Sn) ποσοστό γνωστών γονιδίων (ή
Sn 
Σελίδα 26
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Τ. Θηραίου
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 28
Τ. Θηραίου
Πρόγνωση γονιδίων
• "Finally, we wish to again warn the users of gene prediction
software that the results produced should be taken with
caution: although such results are becoming increasingly
more reliable, they do only remain predictions. These are
very useful for speeding up gene discovery and knowledge
mining thereof, but biological expertise remains necessary in
order to confirm the existence of a virtual protein and to find
or prove its biological function and its condition of expression
in the organism."
Mathe, Nucleic Acids Research, 2002, 30 (19) 4103
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ
Σελίδα 29
Τ. Θηραίου
5
                
    
            
    
                © Copyright 2025 Paperzz