Christine BOLE

Le séquençage de Nouvelle Génération
12 Mai 2014
Christine BOLE-FEYSOT
Plateforme Génomique Imagine
-Le principe et les technologies
-Les appareils et leurs évolutions
-Les contrôles qualité
-Méthodes pour le séquençage complet et
pour le reséquençage ciblé chez l’homme
Historique des Technologies de Séquençage
de l’ADN
1977
1990
1995
Séquençage par
mesure de la
Fluorescence
Séquençage
Sanger et Maxam
& Gilbert
(Prix Nobel 1980)
Microarrays
1999 2000
Séquençage par
Electrophorèse
Capillaire
2006-2007
2014
Next Next Generation
Sequencing
Séquençage
de nouvelle
génération
Caractéristiques des technologies de NGS
Sanger : 96 ADNs différents analysés en une fois
Saut technologique
NGS : millions d’ADN différents analysés en une fois
(séquençage à haut débit, Next Generation Sequencing
NextGen Sequencing, NGS,
Massively Parallel Sequencing
Historique du séquençage du génome humain
2003: Séquençage
du génome humain
2007: Séquençage
d’un individu
2008: Séquençage
d’un individu
(~3 milliards de $, 13 ans)
(JC Venter)
(J.D Watson)
Méthode Sanger
Méthode haut débit
(454 Roche)
(Levy et al. Plos Bio
2007)
(Wheeler et al. Nature 2008)
(1 million de $, 2 mois)
Evolution très rapide des instruments (upgrades), des débits et des coûts
Premier séquençage
sur 454
(Janvier 2008)
The following 'sequence coverage' values were used in calculating the cost per
genome:
Sanger-based sequencing (average read length=500-600 bases): 6-fold coverage
454 sequencing (average read length=300-400 bases): 10-fold coverage
Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold
coverage
10 ans  Prix divisé
par 100 000.
Trois principales étapes du NGS
1- Préparation
des banques
de NGS
2- Amplification
clonale
3- Séquençage
en temps réel
Trois principales étapes du NGS
1- Préparation
des banques
de NGS
2- Amplification
clonale
3- Séquençage
en temps réel
TGCTACGAT
1 point = 1 « read »
Etape 2 du NGS
1- Préparation
des banques de
NGS
2Amplification
clonale
Bridge PCR
3- Séquençage
en temps réel
TGCTACGAT
Comparaison des principes des 3 premières technologies de NGS
454 FLX/Roche
Préparation de
banques de
NGS
ADN
génomique
Solexa/Illumina
Fragmentation
Solid/Life Tech
Ligation
d’adaptateurs
But ajout d’adaptateurs :
Utiliser toujours la même amorce pour PCR et Séquençage quelque soit l’ADN à séquencer
Amplification
clonale
PCR en émulsion sur une
bille
« Bridge » PCR sur un
support plan (=Flow Cell)
PCR en émulsion sur
une bille
Système
miniature
d’amplification
Amplification
clonale dans des
microréacteurs
Amplification
clonale dans des
microréacteurs
Colonies d’ADN = polonies
Support pour
le séquençage
Billes insérées dans des
micropuits
Flow Cell ayant servi à
l’amplification
Billes fixées à une lame
de verre
Séquençage
en temps réel :
*Séquençage par synthèse
*Pyroséquençage
*Longs fragments
*Séquençage par synthèse
*dye-terminator reversible
*petits fragments
*Séquençage réversible
par ligation
*encodage de 2 bases
*petits fragments
1 bille ou 1
cluster-> 1 Read
454 - Roche
Principe de séquençage :
*Séquençage par synthèse
*Pyroséquençage
*Longs fragments
Solexa - Illumina
Principe de séquençage :
*Séquençage par synthèse
*dye-terminator reversible
*petits fragments
Agrandissement d’une image
->1 image / base ajoutée
Solid – Life Technologies (Applied Biosystems)
Principe de séquençage :
*Séquençage réversible par
ligation
*encodage de 2 bases
*petits fragments
Agrandissement d’une image
->1 image / cycle de ligation
Solid
(Suite)
SNP
Erreur de
séquençage
La technologie de séquençage Ion Torrent
Particularités :
-pas de système optique
-support de séquençage = surface semi-conducteur
-mesure du pH (ion H+ produit par l’ADN polymerase lors de
l’incorporation de chaque base)
Evolutions des appareils de séquençage à haut débit
• Amélioration de la chimie de séquençage
Réduction du taux d’erreurs de séquençage
Augmentation de la taille des reads :
de 25 bases lues en 2008 à qq centaines de bases
• Au départ, appareils de haut débit applications recherche
Débit de + en + important
• Apparition d’appareils + petits pour la recherche clinique
Junior, PGM, MiSeq
• Appareils à débit intermédiaire
Proton, NextSeq
• Appareils à très haut débit : séquençage du génome humain à 1000 $
HiSeq X Ten
Next Generation Sequencing Platforms
Jusqu’à
1,8Tb
HiSeqXTen
HiSeq
Jusqu’à
1000Gb
Jusqu’à
100 Gb
GSFlex
Recherche
Solid5500
Ion Proton
NextGen500
Jusqu’à
120 Gb
MiSeq
Jusqu’à
15 Gb
Jusqu’à
10 Gb
PGM
De 10 Mb à
1,5 Gb
Jusqu’à
700 Mb
Junior
Jusqu’à
35 Mb
Clinique,
Diagnostic
Ion Torrent
PGM & Proton
Evolution du débit du MiSeq
La gamme de séquenceurs Illumina
HiSeqXten
La 3e génération de séquenceurs arrive bientôt…
(NNGS = Next-NextGeneration Sequencing)
Principe : Nanotechnologies
Quantité très réduite de réactifs de séquençage ou pas de réactifs du tout
(mesure physique)
Sanger
NGS
NNGS
Principe du
séquençage
Méthode Sanger
classique
Systèmes
miniaturisés
Nanotechnologies
Nb de molécules
identiques
nécessaires pour
produire 1 Read
Millions de
molécules d’ADN
Milliers de
molécules d’ADN
Molécule unique
d’ADN
Volume réactionnel
Microlitre
Picolitre
Fentolitre
Coût pour un
génome humain
2,7 milliards $
1000 à 2500 $
<1 000 $
(Human Genome Project)
Temps nécessaire
13 années
1 à 2 semaines
Quelques jours
Next-Next Gen Platforms
-Séquençage sur molécule unique
-Pas d’amplification clonale
-Inconvénient actuel : taux élevé d’erreurs de séquences
Séquençage bidirectionnel
&
Mélange de plusieurs échantillons sur une seule FlowCell
*Paired-End
75 bases
->peut faciliter :
-le mapping au génome de référence
-la détection d’indel
-élimination d’artefacts (« duplicate
reads »)
75 bases
BC
*Multiplexage
code-barres (BC)
Index simple
Analyse simultanée d’un grand nombre
d’échantillons
->96 code-barre disponibles
BC
Index double
BC
BC
Illumina : dual index
->réduction des erreurs d’attribution
Analyse des données de NGS
Analyse des images (ou des données brutes)
Détermination de la séquence
(= Base Calling)
Alignement de la séquence au génome de référence
(=Mapping)
Comparaisons ADN(s) d’intérêt / ADN référence
*Polymorphismes
*Mutations
*Indels
(=Variant Calling)
Et/ou Comptage des Reads
Contrôles de la qualité du séquençage
Taux d’erreurs de séquençage
NGS : taux d’erreur de séquençage 10 fois plus élevé qu’avec le séquençage Sanger
Illumina technology
+ Erreurs de séquençage
récurrentes spécifiques à
chaque technologie
(Ion Torrent : erreurs dans les
homopolymers -> indels artefactuels)
Illumina : Densité en clusters, % reads PF, % reads >Q30
Applications du NGS
Nombre décroissant de lectures :
 Séquençage Whole Genome : homme, plantes, metagénome,
microorganismes….
 Recherches de remaniements chromosomiques
 Exomes -> Exome-Seq
 Transcriptome -> RNA-Seq
 IP de la chromatine -> ChIP-Seq
Etudes de méthylation -> Methylome-Seq
 Micro-ARN -> MicroRNA-Seq
 Reséquençage de produits de PCR ->Amplicon-Seq
Stratégies de séquençage en génétique
humaine et en cancérologie
Stratégies de sélection
des régions ciblées
Génome
3,2 Gb
Régions ciblées
du génome
Analyse globale
Exome
~50 Mb
Analyse de
régions ciblées
Analyse globale
Filtrage
informatique
Autres régions
ciblées
(quelques Mb)
Reséquençage de gènes
(applications diagnostiques+++)
Analyse de
régions ciblées
85% des mutations seraient dans les exons
ou les jonctions intron-exon
recherche de variations (SNS, indels, gene fusion, CNV)
Pour le diagnostic :
Différentes procédures de fabrication de banques de
NGS à partir de l’ADN génomique
- Banques « Whole Génome »
- Banques enrichies en régions d’intérêt
Extraction
ADNg patient
Enrichissement
des régions
d’intérêt
Préparation de
banques
(taille, BC)
Amplification
clonale
NGS
Analyse des
données
Validation
Sanger
Fabrication d’une banque « Whole Genome »
Méthode alternative de fabrication d’une banque « Whole
Genome », Nextera (Illumina)
Méthodes d’enrichissement pour le
réséquençage ciblé
ADN
génomique
du patient
Enrichissement
(+ traitement préNGS si
nécessaire)
NGS
Les différentes approches d’enrichissement :
A-Méthodes par hybridation (= capture par
hybridation)
B-Méthodes par PCR (Amplicon-Seq)
C-Méthode par hybridation à haute spécificité
(circularisation)
A-Capture par hybridation (en phase liquide)
Design des sondes de capture
Sondes de captures
biotynilées
~200 pb
Banque génomique
Inconvénients :
Long
+ de « off-target »
Avantages :
+ facile à « up-grader »
Couverture de la cible + homogène
Banque exome
Produits catalogue « Whole Exome »
(~40 à 70 Mb)
+
Produits Design Custom
Initialement capture par hybridation en phase solide
Design des sondes de capture
Oligos de capture sur microarrays
Design des sondes de captures biotinylées
-SeqCap (Roche-NimbleGen)
-SureSelect (Agilent)
-TruSeq (Illumina)
-TargetSeq (Thermo Fischer Scientific, ex LifeTechnologies)
-Lockdown probes (IDT, Integrated DNA Technologies)
LifeTech, IDT)
Ensemble du Workflow pour la fabrication de banques Exome SureSelect
(pour Illumina)
1-Cassage mécanique de l’ADN
(Covaris)
Préparation d’une
Banque génomique
2-Réparation des extrémités
3-Rajouts de «A» aux extrémités 3’
4-Ligation d’adaptateurs
5-Amplification par PCR
1-Hybridation des banques génomiques
avec les sondes de capture biotinylées
2-Capture des hybrides banque/sondes
biotinylées
Capture des
régions
exoniques
3-Lavages de stringence
4-Reamplification
Banque exome
B-Méthodes d’enrichissement par PCR
-> Amplicon-Seq = séquençage de produits de PCR par NGS
2 types en fonction de l’équipement nécessaire :
1-Utilisant un appareil PCR classique : PCR multiplex traditionnelle + PCR
multiplex commerciales
Multiplicom, AmpliSeq (Life Technologies), TruSeq Amplicons (Illumina)
2-Appareil de PCR microfluidique spécifique
Fluidigm, RainDance, WaferGen
Méthodes par PCR, sans appareil spécifique
Approche par ligation
à
1 à 10 PCR multiplex / ADN de patient
1 Pool de PCR multiplex
AmpliSeq (Life Tech)
PCR multiplex, amplicons de petite taille (150pb à 200 pb)
2 PCR multiplex / ADN de patient
Pool des 2 PCR multiplex
Méthodes par PCR, sans appareil spécifique
Approche avec 2 PCR successives
(pour Illumina)
PCR microfluidique
RainDance Technology
RDT1000 ou Thunderstorm
PCR en nanochambres alimentées en
réactifs par un réseau de capillaires et
de nanovalves
PCR en microgouttes
(Diamètre 37 µm)
ADN soniqué
Fluidigm
Access Array System
Amorces de PCR
Fusion de goutelettes
ADN + primers
Volume réactionnel : de 1 à 9 nanolitre
C-Méthode d’enrichissement par hybridation à
haute spécificité : HaloPlex (Agilent)
Overall HaloPlex target-enriched sequencing
sample preparation workflow.
8 digestions enzymatiques différentes par ADN
1 capture par ADN
A-BC
P1
Avantage :
pas d’optimisation pour design custom
Choix de la méthode d’enrichissement
RainDance
(100kb to 5Mb)
Fluidigm (Access Array)
HaloPlex (1 kb-2,5Mb)
Capture par hybridation
Multiplex PCR
(100kb to 70Mb)
(10 to 100 kb)
Produits PCR maison,
LongRange PCR
1-10
Nb de gènes à séquencer
Taille des régions à séquencer
1kb
10kb
10-100
100kb
+ autres critères
Nombre d’échantillons à séquencer par an
Existence de produits catalogue pour l’enrichissement
1000
1Mb
10000
10Mb
Choix de la méthode d’enrichissement
Capture par hybridation en phase liquide
+ de séquences non
ciblées (« off-target »),
pb séquences répétées
PCR microfluidique : Fluidigm (Access Array System)
RainDance Technology (RDT1000)
WaferGen
Équipement
coûteux
PCR multiplexe :
Circularisation :
•
Multiplicom
Ampliseq
Autres PCR multiplex
Haloplex
Bcp de
patients et
gde taille
cumulée
Pas d’équipement spécifique
Protocole rapide
+ de régions non
couvertes, copy
number exons pas
possible
Caractéristiques communes :
Toutes les approches fonctionnent mais de manière + ou - fine
Toutes ne sont pas faciles à mettre en place en routine
Profondeur de lecture et
taux de couverture
Evaluation de l’homogénéité de la
couverture
Définitions
Taux de couverture
S’exprime en %
Exemple : 90% à 20X
Signifie que 90% des bases ciblées sont au minimum couvertures par 20
lectures indépendantes
Profondeur de lecture moyenne (ou médiane)
Nombre moyen (ou médian) de lectures couvrant les régions ciblées
S’exprime en X
Exemple : 100X
Signifie qu’il y a en moyenne 100 reads différents couvrant chaque
base
NB : Si couverture hétérogène, prévoir une profondeur de lecture +
importante
Analyse des données de NGS
Analyse des images (ou des données brutes)
Détermination de la séquence
(= Base Calling)
Alignement de la séquence au génome de référence
(=Mapping)
Comparaisons ADN(s) d’intérêt / ADN référence
*Polymorphismes
*Mutations
*Indels
(=Variant Calling)
Et/ou Comptage des Reads
Pour la détection des
variations, importance de :
-la qualité des séquences
(« accuracy »)
-la profondeur de lecture
-le taux de couverture
Illustration IGV :
Données « Whole Genome »
IGV
Profondeur
de lecture
Bonne couverture
Profondeur
de lecture
Région non Couverte
Contig de séquences
Données d’exome
Profondeur de lecture
Profondeur de lecture
Données d’exome sequencing
Exemple couverture hétérogène (1/2)
Exon
non couvert
Exon
non couvert
non couvert
Exon
non couvert
Exemple couverture hétérogène (2/2)
Mauvaise Couverture de l’Exon 1 gène Notch1
dans données SureSelect All Exon 50 Mb V5
Variation Homozygote
Variation Hétérozygote
Délétion Homozygote
Profondeur de lecture minimale
15X minimum pour pouvoir détecter une variation
hétérozygote
100X minimum pour pouvoir détecter un variant à 10%
En génétique : souvent 100X visé
En cancéro : souvent 1000X visé voire +
(jusqu’à 10 000 X)
Homogénéité de la couverture
Régions dont la couverture pose problème
Régions riches en GC, riches en AT
Régions comportant des répétitions
Gènes entiers ou exons de certains gènes posant problèmes
Famille de gènes très conservés ou avec pseudogènes
Exons 1 souvent riche en GC et mal couverts
Distribution de la couverture
qq % de la cible pas couvert du tout
Couverture normalisée
Si prof moy 100X :
90% à 10X
95% à 5X
Si prof moy 100X :
90% à 10X
95% à 5X
90% à 20X
95% à 10X
90% à 10X
95% à 5X
80% à 20X
60% à 50X
90% à 10X
95% à 5X
90% à 20X
95% à 10X
Couverture normalisée par position, biais selon % GC
Facteurs influençant l’homogénéité de la
couverture
• Méthode d’enrichissement
• Qualité de l’ADN du départ
ADN les + altérés : issus de coupes en paraffine (FFPE : Formalin-Fixed
Paraffin-Embedded)
• Quantité d’ADN disponible
Quantité d’ADN optimale dépend de la méthode d’enrichissement (entre 3µg et
10 ng)
Merci pour votre attention !