Il vostro progetto Analisi di dati di sequenziamento del trascrittoma (RNA-Seq): 1. 2. 3. 4. 5. 6. Analisi di qualità Mappatura sul genoma Calcolo dell’espressione Test di espressione differenziale Visualizzazione e interpretazione Analisi funzionale Ricostruzione del trascrittoma Sequencing reads Il genoma di riferimento non è disponibile Il genoma di riferimento è disponibile Le annotazioni sono disponibili Assemblaggio de novo del trascrittoma Ricostruzione guidata del trascrittoma Le annotazioni non sono disponibili, oppure si vogliono cercare trascritti non noti Ricostruzione non guidata del trascrittoma Il vostro progetto Dati Passaggi Software Sequenza genomica (FASTA) Creazione dell’indice Bowtie2-build Sequencing reads (FASTQ) Allineamento delle reads Bowtie2 Annotazioni (GTF) Ricostruzione dei trascritti TopHat Il vostro progetto Ricostruzione dei trascritti TopHat Calcolo dell’espressione Cufflinks Analisi del trascrittoma Splicing alternativo 6 Splicing alternativo Date le isoforme codificate da un gene e le reads mappate su ogni esone: Stimare i valori di x che massimizzino la verosimiglianza delle osservazioni n Cufflinks http://cufflinks.cbcb.umd.edu/ Cufflinks Cufflinks Il numero di reads mappate su un gene è proporzionale al numero di RNA trascritti da quel gene nel campione Ma, a parità di espressione, cioè di numero di molecole di RNA prodotte, un gene che produce trascritti più corti darà luogo a meno reads rispetto a uno che produce trascritti più lunghi. Vicercersa, due geni che producono un uguale numero di reads possono avere diversa espressione se la loro dimensione è diversa Quindi, una stima più accurata dell’espressione deve tenere conto della lunghezza dei trascritti Cufflinks Unità di misura dell’espressione genica in esperimenti di sequenziamento: FPKM: Fragments Per Kilobase of exon model per Million mapped fragments C FPKM = 10 ! NL 9 C = numero di reads mappate sugli esoni di un gene N = numero totale di reads prodotte dall’esperimento L = Lunghezza totale degli esoni del gene Cufflinks Cufflinks è un pacchetto contenente diversi moduli: Cufflinks: Calcolo dell’espressione Assemblaggio de novo dei trascritti Cuffcompare: Confronto del trascrittoma (de novo/annotazione) Cuffdiff: Test di espressione differenziale Cuffmerge: Fusione di trascrittomi ottenuti da Cufflinks in diverse condizioni Genome Browsers Genome Browser: E’ un applicazione grafica che permette la visualizzazione di sequenze genomiche e delle loro annotazioni Permette tra l’altro di: - Scorrere lungo il genoma - Cambiare il livello di zoom, dall’intero cromosoma alle singole basi - Visualizzare annotazioni come geni, sequenze regolative, poliformismi, conservazione evolutiva, ed altro - Visualizzare i risultati di esperimenti di sequenziamento, fino alle singole reads mappate sulle sequenze genomiche, caricando un file in formato bam (ad es. l’output di TopHat ottenuto come visto la scorsa volta) Il genome browser IGV https://www.broadinstitute.org/igv/home Il genome browser IGV Il genome browser IGV Il genome browser IGV Il genome browser IGV Caricare il file accepted_hits.bam L’indice del file bam L’indice del file bam Il genome browser IGV Il genome browser IGV Il genome browser IGV Cufflinks Come si lancia: Cufflinks [opzioni] <file.bam> Opzioni di cufflinks: -p -o -G -u numero di threads cartella dell’output file in formato GTF con le annotazioni correzione per le reads multiple Cufflinks Cufflinks File genes.fpkm_tracking Cufflinks 0.10 0.05 0.00 Density 0.15 0.20 File genes.fpkm_tracking 0 50000 100000 150000 200000 FPKM 250000 300000 350000 Cufflinks 0.020 0.015 0.010 0.005 0.000 Density 0.025 0.030 0.035 File genes.fpkm_tracking -10 -5 0 5 log2(FPKM) 10 15 20 Cufflinks File isoforms.fpkm_tracking Cufflinks File isoforms.fpkm_tracking Nomenclatura di Ensembl: ENSG00000####### Codice identificativo del gene ENST00000####### Identificativo del trascritto ENSP00000###### Identificativo della proteina ENSE00000###### Identificativo dell’esone Cufflinks Gene AURKAIP1 (Aurora kinase A1) 800 6 isoforme di splicing alterna=vo 700 600 500 400 300 200 100 0 ENST00000338370 ENST00000338338 ENST00000321751 ENST00000378853 ENST00000489799 ENST00000496905 Lezione 4 Assemblaggio del genoma Assemblaggio de novo di genomi da NGS Gli algoritmi OLC per assemblaggio di sequenze WGS non sono adatti per reads corte: - L'overlap graph (un nodo per read) diventa estremamente grosso e pesante da calcolare; non è più possibile trovare un percorso Hamiltoniano in tempi ragionevoli; - La piccola dimensione delle reads produce molte connessioni ambigue nel grafo; - Molti algoritmi richiedono un overlap minimo che è comparabile se non superiore alla lunghezza di molte reads ottenute per NGS; - Il grande numero di reads + overlap corti + alta frequenza di errori di sequenza fanno si che l'approccio tradizionale overlap - layout – consensus diventi inappropriato; - Si usa un approccio basato sulla ricerca di un percorso euleriano (cioè che visiti tutti gli archi una volta), che è molto più semplice da calcolare. Quindi le reads non sono più assegnate ai nodi, ma agli archi. Grafo di de Bruijn L'approccio più comunemente usato per assemblatori de novo per NGS utilizza i grafi di de Bruijn, che sono normalmente utilizzati per rappresentazione di stringhe; - Il loro utilizzo è stato introdotto da Pevzner (2001) per l'assemblatore EULER; Grafo di de Bruijn Per costruire un grafo di de Bruijn: - tutte le reads sono divise in segmenti sovrapposti di lunghezza k (k-meri); - invece di assegnare un nodo ad ogni k-mero, ai k-meri sono assegnati archi creando un arco diretto fra due nodi a e b se a (tolta la prima base) è prefisso di b e b (tolta l'ultima base) è suffisso di a (ad es. a=acgtctgact e b=cgtctgactg. Grafo di de Bruijn K=4 GACC Nel grafo di de Bruijn graph si rappresentano tutti i prefissi e suffissi dei k-meri come nodi e si disegnano archi che rappresentano kmeri aventi particolari prefissi e suffissi. Ad esempio, l’arco (k-mero) ATG ha prefisso (nodo uscente) AT e suffisso (nodo entrante) TG. [Schatz et al., 2010] Grafo di de Bruijn [Compeau et al., 2011] Grafo di de Bruijn Un percorso in un grafo che passa per ogni arco esattamente una volta è detto percorso Euleriano. Il problema dei sette ponti di Königsberg è il primo problema di ricerca di un percorso euleriano in un grafo, risolto da Eulero nel 1735. Questa data segna la nascita della teoria dei grafi. A C D B [Schatz et al., 2010] Grafo di de Bruijn Vantaggi: - Non c'è bisgno di allineare ogni coppia di reads; - I percorsi Euleriani sono più semplici da trovare rispetto ai percorsi Hamiltoniani (anche se ci possono essere diversi percorsi Euleriani in un grafo altrettanto buoni); - Errori di sequenziamento e sequenze ripetute causano la formazione di ramificazioni o cicli nel grafo, permettendone il riconoscimento; - La scelta del valore di k è cruciale: k-meri corti → incrementa la connettività → aumenta le regioni ambigue k-meri lunghi → incrementa la specificità → diminuisce la connettività Grafo di de Bruijn La presenza di k-meri che si ripetono nella sequenza può portare a percorsi Euleriani più corti che non ricostruiscono bene la stringa (cioè il genoma) di partenza ATGCATGC -> ATG TGC GCA CAT ATG TGC TG GC AT CA ATGCAT [Compeau et al., 2011] Grafo di de Bruijn Spesso un percorso Euleriano non è possibile. Si cerca allora il percorso che visiti ogni arco almeno una volta (problema del postino cinese); archi attraversati più volte sono indizio di ripetizioni; [Schatz et al., 2010] Grafo di de Bruijn [Compeau et al., 2011] Grafo di de Bruijn Scomponendo le reads in kmeri è possibile che il percorso scelto per la costruzione del contig non sia coerente con la sequenza completa di un sottoinsieme di reads. Reads [Pop, 2009] Grafo di de Bruijn Rimozione degli errori: Si possono rimuovere potenziali errori basandosi su caratteristiche topologiche del grafo: [Zerbino, 2009] Grafo di de Bruijn 1. rimozione delle punte (tips) l Tip: catena di nodi disconnessa ad un'estremità l Si usano due criteri: l lunghezza (si rimuove la tip se < 2k bp) l ci sono altre catene più lunghe originanti dal nodo di partenza della tip [Zerbino, 2009] Grafo di de Bruijn 2. rimozione delle bolle (bubbles) l Bubble: due percorsi che iniziano e finiscono nello stesso nodo l Sono causate da errori o SNPs l Si rimuovono confrontando (allineando) le sequenze definite dai due percorsi e unendole (se sufficientemente simili) [Zerbino, 2009] Grafo di de Bruijn 3. rimozione delle connessioni spurie l connessioni a basso coverage sono rimosse l sono causate da erorori di sequenziamento che non generano bubbles o tips [Zerbino, 2009] Grafo di de Bruijn 1. Sequenziamento 4. Rimozione degli errori 2. Construzione del grafo di de Bruijn 3. Semplificazione del grafo [Flicek & Birney, 2009] Assemblaggio de novo di genomi da NGS E' possibile generare sequenze complete di genomi utilizzando solo reads corte da NGS, anche per organismi complessi; Si possono creare contigs di buona qualità ad alto coverage, ma rimangono molti gaps (principalmente perchè è più difficile generare paired reads); Diverse piattaforme hanno diversi limiti; approcci ibridi (ad esempio 454 per read lunghe e paired reads a basso coverage, più Illumina per alto coverage) hanno avuto successo (ad esempio il genoma di tacchino); Oppure si può combinare il sequenziamento di Sanger con il NGS (ad esempio il geoma della vite). Ri-sequenziamento • Le tecnologie NGS sono invece molto adatte per risequenziare genomi gia noti; • Importante per identificare differenze fra individui, popolazioni, ceppi, tipi cellulari, tessuti in condizioni patologiche, etc.; • Si usa la sequenza nota del genoma come riferimento per mappare le reads; Ri-sequenziamento La scarsa lunghezza delle reads non influisce negativamente sul risequenziamento % of Paired K-mers with Uniquely Assignable Location 100% 90% 80% 70% 60% E.COLI 50% HUMAN 40% 30% 20% 10% 0% 8 10 12 14 16 18 20 Length of K-mer Reads (bp) [Jay Shendure] Sequenziamento del genoma umano 2001: Human Genome Project" 3G$, 11 years! 2007: 454" 1M$, 3 months! Log10(price) 10! 8! 6! 2008: ABI SOLiD" 60K$, 2 weeks! 2001: Celera" 100M$, 3 years! 4! 2009: Illumina, Helicos" 40-50K$! 2! 2012: 5K$, a few days" 2013: 100$, <24 hrs?" 2000! 2005! Year 2010! Banche dati genomiche Ho sequenziato e assemblato un genoma. E ora? 1. Depositare le sequenze assemblate in GenBank Banche dati genomiche Ho sequenziato e assemblato un genoma. E ora? 1. Depositare le sequenze assemblate in GenBank 2. Depositare le reads utilizzate in SRA (Short read archive) Banche dati genomiche Ho sequenziato e assemblato un genoma. E ora? 1. Depositare le sequenze assemblate in GenBank 2. Depositare le reads utilizzate in SRA (Short Read Archive) 3. Annotare il genoma (ad es. richiedendo le pipelines di Ensembl) Entrez Genome Entrez Genome Entrez Genome Entrez Genome Entrez Genome Entrez Genome Entrez Genome Entrez Genome Entrez Genome The Genome Reference Consortium (GRC) http://genomereference.org The Genome Reference Consortium (GRC) The Genome Reference Consortium (GRC) 111 Fix PATCHES: Cambiamenti alla sequenza (>5 Mb di sequenze sostituite) 71 Novel PATCHES: Sequenze aggiuntive (>800K di nuova sequenza) The Genome Reference Consortium (GRC) Gaps The Genome Reference Consortium (GRC) GOLD (Genomes Online Database) Ad oggi 26268 genomi sono inclusi in GOLD GOLD (Genomes Online Database) 20138 Incompleti 2472 Finiti 4327 Completi 183 Eucarioti 3957 Batteri 187 Archea 1855 Draft Permanente GOLD (Genomes Online Database) JGI: Joint Genome Institute; JCVI: J. Craig Venter Institute; Broad: Broad Institute; Univ of Maryland–IGS: University of Maryland, Institute for Genome Sciences; WashU: Washington University; Sanger: the Wellcome Trust Sanger Institute; BCM-HGSC: Baylor College of Medicine, Human Genome Sequencing Center; WORLD, altri centri di sequenziamento genomico, laboratori indipendenti Genomics Session Annotazione del genoma Annotazione del genoma • Ottenere la sequenza di un genoma è solo il primo passo verso la comprensione di una ampia gamma di processi biologici • Ad esempio ci si può chiedere: – Cosa è trascritto? – Quali proteine si legano al DNA genomico, e dove? Come è regolato il genoma (ad es. cosa è metilato)? – • In altre parole, il genoma è un oggetto molto grande e complesso, come funziona? • L’annotazione del genoma consiste nell’assegnare ad ogni nucleotide del genoma un possibile ruolo. Principalmente (ma non solo) riguarda l'annotazione dei geni. Annotazione del genoma Figure 7.13 Genomes 3 (© Garland Science 2007)
© Copyright 2025 Paperzz