Lezione 4 - Centro di Bioinformatica Molecolare

Il vostro progetto
Analisi di dati di sequenziamento del
trascrittoma (RNA-Seq):
1. 
2. 
3. 
4. 
5. 
6. 
Analisi di qualità
Mappatura sul genoma
Calcolo dell’espressione
Test di espressione differenziale
Visualizzazione e interpretazione
Analisi funzionale
Ricostruzione del trascrittoma
Sequencing reads
Il genoma di riferimento
non è disponibile
Il genoma di riferimento
è disponibile
Le annotazioni sono
disponibili
Assemblaggio de
novo del
trascrittoma
Ricostruzione
guidata del
trascrittoma
Le annotazioni non
sono disponibili,
oppure si vogliono
cercare trascritti non
noti
Ricostruzione non
guidata del
trascrittoma
Il vostro progetto
Dati
Passaggi
Software
Sequenza genomica
(FASTA)
Creazione dell’indice
Bowtie2-build
Sequencing reads
(FASTQ)
Allineamento delle
reads
Bowtie2
Annotazioni
(GTF)
Ricostruzione dei
trascritti
TopHat
Il vostro progetto
Ricostruzione dei
trascritti
TopHat
Calcolo
dell’espressione
Cufflinks
Analisi del trascrittoma
Splicing alternativo
6
Splicing alternativo
Date le isoforme codificate da un gene e le reads
mappate su ogni esone:
Stimare i valori di x che massimizzino la
verosimiglianza delle osservazioni n
Cufflinks
http://cufflinks.cbcb.umd.edu/
Cufflinks
Cufflinks
Il numero di reads mappate su un gene è
proporzionale al numero di RNA trascritti
da quel gene nel campione
Ma, a parità di espressione, cioè di
numero di molecole di RNA prodotte, un
gene che produce trascritti più corti darà
luogo a meno reads rispetto a uno che
produce trascritti più lunghi.
Vicercersa, due geni che producono un
uguale numero di reads possono avere
diversa espressione se la loro dimensione
è diversa
Quindi, una stima più accurata
dell’espressione deve tenere conto della
lunghezza dei trascritti
Cufflinks
Unità di misura dell’espressione genica in
esperimenti di sequenziamento:
FPKM: Fragments Per Kilobase of exon
model per Million mapped fragments
C
FPKM = 10 !
NL
9
C = numero di reads mappate sugli esoni di un gene
N = numero totale di reads prodotte dall’esperimento
L = Lunghezza totale degli esoni del gene
Cufflinks
Cufflinks è un pacchetto contenente diversi moduli:
Cufflinks:
Calcolo dell’espressione
Assemblaggio de novo dei trascritti
Cuffcompare:
Confronto del trascrittoma (de novo/annotazione)
Cuffdiff:
Test di espressione differenziale
Cuffmerge:
Fusione di trascrittomi ottenuti da Cufflinks in diverse
condizioni
Genome Browsers
Genome Browser:
E’ un applicazione grafica che permette la visualizzazione di
sequenze genomiche e delle loro annotazioni
Permette tra l’altro di:
-  Scorrere lungo il genoma
-  Cambiare il livello di zoom, dall’intero cromosoma alle
singole basi
-  Visualizzare annotazioni come geni, sequenze regolative,
poliformismi, conservazione evolutiva, ed altro
-  Visualizzare i risultati di esperimenti di sequenziamento,
fino alle singole reads mappate sulle sequenze genomiche,
caricando un file in formato bam (ad es. l’output di TopHat
ottenuto come visto la scorsa volta)
Il genome browser IGV
https://www.broadinstitute.org/igv/home
Il genome browser IGV
Il genome browser IGV
Il genome browser IGV
Il genome browser IGV
Caricare il file accepted_hits.bam
L’indice del file bam
L’indice del file bam
Il genome browser IGV
Il genome browser IGV
Il genome browser IGV
Cufflinks
Come si lancia:
Cufflinks [opzioni] <file.bam>
Opzioni di cufflinks:
-p
-o
-G
-u
numero di threads
cartella dell’output
file in formato GTF con le annotazioni
correzione per le reads multiple
Cufflinks
Cufflinks
File genes.fpkm_tracking
Cufflinks
0.10
0.05
0.00
Density
0.15
0.20
File genes.fpkm_tracking
0
50000
100000
150000
200000
FPKM
250000
300000
350000
Cufflinks
0.020
0.015
0.010
0.005
0.000
Density
0.025
0.030
0.035
File genes.fpkm_tracking
-10
-5
0
5
log2(FPKM)
10
15
20
Cufflinks
File isoforms.fpkm_tracking
Cufflinks
File isoforms.fpkm_tracking
Nomenclatura di Ensembl:
ENSG00000#######
Codice identificativo del gene
ENST00000#######
Identificativo del trascritto
ENSP00000######
Identificativo della proteina
ENSE00000######
Identificativo dell’esone
Cufflinks
Gene AURKAIP1 (Aurora kinase A1) 800
6 isoforme di splicing alterna=vo
700
600
500
400
300
200
100
0
ENST00000338370
ENST00000338338
ENST00000321751
ENST00000378853
ENST00000489799
ENST00000496905
Lezione 4
Assemblaggio del
genoma
Assemblaggio de novo di genomi da NGS
Gli algoritmi OLC per assemblaggio di sequenze WGS non sono adatti per reads
corte:
- L'overlap graph (un nodo per read) diventa estremamente grosso e pesante da
calcolare; non è più possibile trovare un percorso Hamiltoniano in tempi
ragionevoli;
- La piccola dimensione delle reads produce molte connessioni ambigue nel
grafo;
- Molti algoritmi richiedono un overlap minimo che è comparabile se non
superiore alla lunghezza di molte reads ottenute per NGS;
- Il grande numero di reads + overlap corti + alta frequenza di errori di sequenza
fanno si che l'approccio tradizionale overlap - layout – consensus diventi
inappropriato;
- Si usa un approccio basato sulla ricerca di un percorso euleriano (cioè che visiti
tutti gli archi una volta), che è molto più semplice da calcolare. Quindi le reads
non sono più assegnate ai nodi, ma agli archi.
Grafo di de Bruijn
L'approccio più comunemente usato per assemblatori de novo per NGS utilizza
i grafi di de Bruijn, che sono normalmente utilizzati per rappresentazione di
stringhe;
- Il loro utilizzo è stato introdotto da Pevzner (2001) per l'assemblatore EULER;
Grafo di de Bruijn
Per costruire un grafo di de Bruijn:
- tutte le reads sono divise in segmenti sovrapposti di lunghezza k (k-meri);
- invece di assegnare un nodo ad ogni k-mero, ai k-meri sono assegnati
archi creando un arco diretto fra due nodi a e b se a (tolta la prima base) è
prefisso di b e b (tolta l'ultima base) è suffisso di a (ad es. a=acgtctgact e
b=cgtctgactg.
Grafo di de Bruijn
K=4
GACC
Nel grafo di de Bruijn graph si rappresentano tutti i prefissi e suffissi
dei k-meri come nodi e si disegnano archi che rappresentano kmeri aventi particolari prefissi e suffissi. Ad esempio, l’arco (k-mero)
ATG ha prefisso (nodo uscente) AT e suffisso (nodo entrante) TG.
[Schatz et al., 2010]
Grafo di de Bruijn
[Compeau et al., 2011]
Grafo di de Bruijn
Un percorso in un grafo che passa per ogni arco esattamente una volta è
detto percorso Euleriano. Il problema dei sette ponti di Königsberg è il
primo problema di ricerca di un percorso euleriano in un grafo, risolto da
Eulero nel 1735. Questa data segna la nascita della teoria dei grafi.
A
C
D
B
[Schatz et al., 2010]
Grafo di de Bruijn
Vantaggi:
- Non c'è bisgno di allineare ogni coppia di reads;
- I percorsi Euleriani sono più semplici da trovare rispetto ai percorsi
Hamiltoniani (anche se ci possono essere diversi percorsi Euleriani in un
grafo altrettanto buoni);
- Errori di sequenziamento e sequenze ripetute causano la formazione di
ramificazioni o cicli nel grafo, permettendone il riconoscimento;
- La scelta del valore di k è cruciale:
k-meri corti
→ incrementa la connettività
→ aumenta le regioni ambigue
k-meri lunghi
→ incrementa la specificità
→ diminuisce la connettività
Grafo di de Bruijn
La presenza di k-meri che si ripetono nella sequenza può portare a percorsi
Euleriani più corti che non ricostruiscono bene la stringa (cioè il genoma) di
partenza
ATGCATGC -> ATG
TGC
GCA
CAT
ATG
TGC
TG
GC
AT
CA
ATGCAT
[Compeau et al., 2011]
Grafo di de Bruijn
Spesso un percorso Euleriano non è possibile. Si cerca allora il percorso
che visiti ogni arco almeno una volta (problema del postino cinese); archi
attraversati più volte sono indizio di ripetizioni;
[Schatz et al., 2010]
Grafo di de Bruijn
[Compeau et al., 2011]
Grafo di de Bruijn
Scomponendo le reads in kmeri è possibile che il
percorso scelto per la
costruzione del contig non sia
coerente con la sequenza
completa di un sottoinsieme
di reads.
Reads
[Pop, 2009]
Grafo di de Bruijn
Rimozione degli errori:
Si possono rimuovere potenziali errori basandosi su caratteristiche topologiche del grafo:
[Zerbino, 2009]
Grafo di de Bruijn
1. rimozione delle punte (tips)
l 
Tip: catena di nodi disconnessa ad un'estremità
l 
Si usano due criteri:
l  lunghezza (si rimuove la tip se < 2k bp)
l  ci sono altre catene più lunghe originanti dal nodo di partenza
della tip
[Zerbino, 2009]
Grafo di de Bruijn
2. rimozione delle bolle (bubbles)
l 
Bubble: due percorsi che iniziano e finiscono nello stesso nodo
l 
Sono causate da errori o SNPs
l 
Si rimuovono confrontando (allineando) le sequenze definite dai
due percorsi e unendole (se sufficientemente simili)
[Zerbino, 2009]
Grafo di de Bruijn
3. rimozione delle connessioni spurie
l 
connessioni a basso coverage sono rimosse
l 
sono causate da erorori di sequenziamento che non generano
bubbles o tips
[Zerbino, 2009]
Grafo di de Bruijn
1. Sequenziamento
4. Rimozione degli errori
2. Construzione del
grafo di de Bruijn
3. Semplificazione
del grafo
[Flicek & Birney, 2009]
Assemblaggio de novo di genomi da NGS
E' possibile generare sequenze complete di genomi utilizzando solo reads
corte da NGS, anche per organismi complessi;
Si possono creare contigs di buona qualità ad alto coverage, ma rimangono
molti gaps (principalmente perchè è più difficile generare paired reads);
Diverse piattaforme hanno diversi limiti; approcci ibridi (ad esempio 454 per
read lunghe e paired reads a basso coverage, più Illumina per alto
coverage) hanno avuto successo (ad esempio il genoma di tacchino);
Oppure si può combinare il sequenziamento di Sanger con il NGS (ad
esempio il geoma della vite).
Ri-sequenziamento
•  Le tecnologie NGS sono invece molto adatte per risequenziare genomi gia
noti;
•  Importante per identificare differenze fra individui, popolazioni, ceppi, tipi
cellulari, tessuti in condizioni patologiche, etc.;
•  Si usa la sequenza nota del genoma come riferimento per mappare le reads;
Ri-sequenziamento
La scarsa lunghezza delle reads non influisce negativamente sul risequenziamento
% of Paired K-mers with Uniquely
Assignable Location
100%
90%
80%
70%
60%
E.COLI
50%
HUMAN
40%
30%
20%
10%
0%
8
10
12
14
16
18
20
Length of K-mer Reads (bp)
[Jay Shendure]
Sequenziamento del genoma umano
2001: Human Genome Project"
3G$, 11 years!
2007: 454"
1M$, 3 months!
Log10(price)
10!
8!
6!
2008: ABI SOLiD"
60K$, 2 weeks!
2001: Celera"
100M$, 3 years!
4!
2009: Illumina,
Helicos"
40-50K$!
2!
2012: 5K$, a few days"
2013: 100$,
<24 hrs?"
2000!
2005!
Year
2010!
Banche dati genomiche
Ho sequenziato e
assemblato un
genoma. E ora?
1.  Depositare le
sequenze
assemblate in
GenBank
Banche dati genomiche
Ho sequenziato e
assemblato un
genoma. E ora?
1.  Depositare le
sequenze
assemblate in
GenBank
2.  Depositare le reads
utilizzate in SRA
(Short read
archive)
Banche dati genomiche
Ho sequenziato e
assemblato un
genoma. E ora?
1.  Depositare le
sequenze
assemblate in
GenBank
2.  Depositare le reads
utilizzate in SRA
(Short Read
Archive)
3.  Annotare il genoma
(ad es. richiedendo
le pipelines di
Ensembl)
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
Entrez Genome
The Genome Reference Consortium (GRC)
http://genomereference.org
The Genome Reference Consortium (GRC)
The Genome Reference Consortium (GRC)
111 Fix PATCHES: Cambiamenti alla sequenza
(>5 Mb di sequenze sostituite)
71 Novel PATCHES: Sequenze aggiuntive
(>800K di nuova sequenza)
The Genome Reference Consortium (GRC)
Gaps
The Genome Reference Consortium (GRC)
GOLD (Genomes Online Database)
Ad oggi 26268 genomi sono inclusi in GOLD
GOLD (Genomes Online Database)
20138 Incompleti
2472 Finiti
4327 Completi
183 Eucarioti
3957 Batteri
187 Archea
1855 Draft Permanente
GOLD (Genomes Online Database)
JGI: Joint Genome Institute;
JCVI: J. Craig Venter Institute;
Broad: Broad Institute;
Univ of Maryland–IGS:
University of Maryland, Institute
for Genome Sciences;
WashU: Washington University;
Sanger: the Wellcome Trust
Sanger Institute;
BCM-HGSC: Baylor College of
Medicine, Human Genome
Sequencing Center;
WORLD, altri centri di
sequenziamento genomico,
laboratori indipendenti
Genomics Session
Annotazione del genoma
Annotazione del genoma
•  Ottenere la sequenza di un genoma è solo il
primo passo verso la comprensione di una
ampia gamma di processi biologici
•  Ad esempio ci si può chiedere:
– 
Cosa è trascritto?
– 
Quali proteine si legano al DNA genomico,
e dove?
Come è regolato il genoma (ad es. cosa è
metilato)?
– 
•  In altre parole, il genoma è un oggetto molto
grande e complesso, come funziona?
•  L’annotazione del genoma consiste
nell’assegnare ad ogni nucleotide del genoma
un possibile ruolo. Principalmente (ma non
solo) riguarda l'annotazione dei geni.
Annotazione del genoma
Figure 7.13 Genomes 3 (© Garland Science 2007)