5/12/2012 Μελέτη του γονιδιώματος • Ποια είναι τα γονίδια και που βρίσκονται; • Ποιοι μηχανισμοί ρυθμίζουν την έκφραση κάθε γονιδίου; • Σε τι επίπεδα εκφράζονται τα γονίδια υπό διαφορετικές συνθήκες; • Ποια είναι η λειτουργία των γονιδίων; • Πως τα προϊόντα των διαφόρων γονιδίων αλληλεπιδρούν ΠΡΟΓΝΩΣΗ ΓΟΝΙΔΙΩΝ μεταξύ τους ή με άλλα μόρια στο κύτταρο; ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 1 Τ. Θηραίου ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Γονίδιο ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 3 Σελίδα 5 Τ. Θηραίου Γενετικός κώδικας Τ. Θηραίου ανοιχτό πλαίσιο ανάγνωσης (open reading frame, ORF) ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 2 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 4 Τ. Θηραίου Προκαρυωτικά vs. Ευκαρυωτικά Γονίδια Τ. Θηραίου 1 5/12/2012 Μέθοδοι πρόγνωσης Μέθοδοι πρόγνωσης • Απαρχής μέθοδοι coding statistics διαφορές στη νουκλεοτιδική σύσταση στις κωδικοποιούσες περιοχές signals μικρά μοτίβα DNA π.χ. εκκινητές Συνδυασμός χαρακτηριστικών αποτυπωμάτων και νουκλεοτιδικής σύστασης της ακολουθίας. • Ομολογία • Υβριδικές Σελίδα 7 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου Σελίδα 8 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ coding statistics Τ. Θηραίου coding statistics • διαφορές στη νουκλεοτιδική σύσταση των κωδικοποιουσών αλληλουχιών • Συχνότητα εμφάνισης ζευγών αμινοξέων σε πρωτεΐνες του οργανισμού shewanella μείωση των stop codons προτίμηση κωδικονίων συχνότητα χρήσης αμινοξέων συχνότητα χρήσης συνώνυμων κωδικονίων προτίμηση ζευγών κωδικονίων • διαφορές ανάλογα με το επίπεδο έκφρασης • διαφορές μεταξύ οργανισμών ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 9 Τ. Θηραίου Σελίδα 10 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ coding statistics Τ. Θηραίου coding statistics • Συχνότητα εμφάνισης ζευγών αμινοξέων σε πρωτεΐνες των οργανισμών shewanella και bovine • Κάποια αμινοξέα προτιμούν / δεν προτιμούν να βρίσκονται δίπλα σε κάποια άλλα. Διαφορά στη συχνότητα εμφάνισης εξαμερών (π.χ. AAA TTT) μεταξύ κωδικοποιουσών (K) / μη κωδικοποιουσών (MK) αλληλουχιών. Στον άνθρωπο, συχνότητα εμφάνισης εξαμερούς "AAA AAA" ~1% στις κωδικοποιούσες αλληλουχίες ~5% στις μη κωδικοποιούσες αλληλουχίες • Αναγνώριση γονιδίων βάσει της συχνότητας εμφάνισης εξαμερών. ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 11 Τ. Θηραίου ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 12 Τ. Θηραίου 2 5/12/2012 coding statistics coding statistics • FC(X) συχνότητα εμφάνισης του εξαμερούς X σε K • FN(X) συχνότητα εμφάνισης του εξαμερούς X σε MK • P(X) = log (FC(X)/FN(X)) • Αναγνώριση γονιδίων βάσει της συχνότητας εμφάνισης εξαμερών. Για κάθε ORF P(X) = 0, X ίδια συχνότητα σε K και MK Κυλιόμενο παράθυρο μήκους 60 βάσεων P(X) > 0, X μεγαλύτερη συχνότητα σε K Υπολογισμός του score προτίμησης P(X) < 0, X μεγαλύτερη συχνότητα σε MK Χρήση τιμής κατωφλίου για τον καθορισμό των γονιδίων που έχει προκύψει από τη μελέτη γνωστών Κ και ΜΚ • score προτίμησης S(X) = Σ (P0(X) + P1(X) + P2(X)) ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 13 Τ. Θηραίου signals signals • Οι μηχανισμοί της μεταγραφής και της μετάφρασης • Θέσεις πρόσδεσης μεταγραφικών παραγόντων δημιουργούν χαρακτηριστικά "αποτυπώματα" στην ακολουθία του DNA. Κωδικόνια έναρξης (ATG) και λήξης (TAA, TAG, TGA) της μετάφρασης μήκος 5-15 νουκλεοτίδια συνήθως στο 5’ άκρο των γονιδίων σε μεταβλητές αποστάσεις ακολουθία: συντηρημένες και εκφυλισμένες θέσεις Θέσεις πρόσδεσης μεταγραφικών παραγόντων δυσκολίες στην ανίχνευσή τους Σημεία συρραφής δότη – δέκτη Σηµείο πολυαδενυλίωσης CpG islands ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 15 Τ. Θηραίου ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ signals Σελίδα 16 Τ. Θηραίου signals • Αναπαράσταση μοτίβων • Σημεία συρραφής δότη – δέκτη PSSM Η αποκοπή των εσωνίων και το μάτισμα των εξωνίων HMM πρέπει να γίνονται με απόλυτη ακριβεία, έτσι ώστε να διαφυλάσσεται το σωστό πλαίσιο ανάγνωσης. Sequence Logo Υπάρχουν συντηρημένα μοτίβα στα σημεία συρραφής • Εύρεση μοτίβων δότη - δέκτη (donor - acceptor splice junction); T A A T A T G T C C A C GGG T A T T G AG C A T T G T A C A C GGGG T A T T G A G C A T G T A A T G A A εξώνιο 1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 17 Τ. Θηραίου ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ εξώνιο 2 Σελίδα 18 εξώνιο 3 Τ. Θηραίου 3 5/12/2012 signals signals • Σημεία συρραφής δότη – δέκτη Σελίδα 19 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ • CpG islands Τ. Θηραίου ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ signals Σελίδα 20 Τ. Θηραίου signals • CpG islands Το δινουκλεοτίδιο CG υποεκπροσωπείται σε πολλά γονιδιώματα. ΤΑCGTACTGATCTGATC Στις περιοχές κοντά στο 5’ άκρο των γονιδίων (upstream regions) η συχνότητα εμφάνισης του δινουκλεοτιδίου CG αυξάνεται. CpG islands p φωσφοδιεστερικός δεσμός μεταξύ C και G, δηλαδή τα C και G βρίσκονται στην ίδια αλυσίδα Τα CpG islands αποτελούν ένδειξη για την ύπαρξη γονιδίων, αλλά πάντα σε συνδυασμό με άλλα στοιχεία. ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 21 Τ. Θηραίου ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Απαρχής μέθοδοι Σελίδα 22 Τ. Θηραίου Ομολογία • geneid http://genome.crg.es/software/geneid/ • Genscan http://genes.mit.edu/GENSCAN.html ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 23 Τ. Θηραίου ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 24 Τ. Θηραίου 4 5/12/2012 Ομολογία Υβριδικές Τεχνικές • GeneWise http://www.ebi.ac.uk/Tools/psa/genewise/ • Απαρχής πρόγνωση και στοίχιση ακολουθιών Στοίχιση γενομικού DNA με πρωτεϊνική ακολουθία AUGUSTUS http://bioinf.uni-greifswald.de/augustus/ Χειρίζεται τα εσώνια και λάθη στο πλαίσιο ανάγνωσης N-SCAN / Twinscan http://mblab.wustl.edu/nscan Απαραίτητο υψηλό ποσοστό ομοιότητας • BLAST http://blast.ncbi.nlm.nih.gov/ HMM στοίχιση δύο ακολουθιών & χαρακτηρισμός κάθε βάσης ως αλφάβητο 12 γραμμάτων ταύτιση βάσεων ευνοείται σε εξώνια κενά ευνοούνται σε εσώνια – gap (-), mismatch (:), match (|) Γρήγορη αναζήτηση εξωνίων Μείωση του χώρου αναζήτησης για άλλα προγράμματα Σελίδα 25 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου – Σ {A-, A:, A |, C-, C:, C |, G-, G:, G |, T-, T:, T|} Εκτίμηση ακρίβειας πρόγνωσης βάσεων ή εξωνίων) που προβλέπονται σωστά εκπαίδευση σε συγκεκριμένους οργανισμούς • Ιδιαίτερη δυσκολία στα ευκαρυωτικά γονίδια εξώνια / εσώνια γονιδίων (ή βάσεων ή εξωνίων) που αντιστοιχούν σε πραγματικά γονίδια ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ εναλλακτικό ματίσμα • Μη τυπικά γονίδια • Λάθη στην αλληλούχιση • Ψευδώς θετικές / αρνητικές προβλέψεις TruePositive TruePositive AllPositiv e TruePositive FalsePosit ive Σελίδα 27 • Χαμηλός λόγος σήμα/θόρυβο • Εξειδικευμένα προγράμματα για συγκεκριμένους οργανισμούς διαφορετικά χαρακτηριστικά π.χ. προτίμηση κωδικονίων TruePositive TruePositive AllTrue TruePositive FalseNegat ive • Εξειδίκευση (Specificity, Sp) ποσοστό προβλεπόμενων Sp Τ. Θηραίου Πρόγνωση γονιδίων • Ευαισθησία (Sensitivity, Sn) ποσοστό γνωστών γονιδίων (ή Sn Σελίδα 26 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Τ. Θηραίου ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 28 Τ. Θηραίου Πρόγνωση γονιδίων • "Finally, we wish to again warn the users of gene prediction software that the results produced should be taken with caution: although such results are becoming increasingly more reliable, they do only remain predictions. These are very useful for speeding up gene discovery and knowledge mining thereof, but biological expertise remains necessary in order to confirm the existence of a virtual protein and to find or prove its biological function and its condition of expression in the organism." Mathe, Nucleic Acids Research, 2002, 30 (19) 4103 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ Σελίδα 29 Τ. Θηραίου 5
© Copyright 2024 Paperzz