Le séquençage de Nouvelle Génération 12 Mai 2014 Christine BOLE-FEYSOT Plateforme Génomique Imagine -Le principe et les technologies -Les appareils et leurs évolutions -Les contrôles qualité -Méthodes pour le séquençage complet et pour le reséquençage ciblé chez l’homme Historique des Technologies de Séquençage de l’ADN 1977 1990 1995 Séquençage par mesure de la Fluorescence Séquençage Sanger et Maxam & Gilbert (Prix Nobel 1980) Microarrays 1999 2000 Séquençage par Electrophorèse Capillaire 2006-2007 2014 Next Next Generation Sequencing Séquençage de nouvelle génération Caractéristiques des technologies de NGS Sanger : 96 ADNs différents analysés en une fois Saut technologique NGS : millions d’ADN différents analysés en une fois (séquençage à haut débit, Next Generation Sequencing NextGen Sequencing, NGS, Massively Parallel Sequencing Historique du séquençage du génome humain 2003: Séquençage du génome humain 2007: Séquençage d’un individu 2008: Séquençage d’un individu (~3 milliards de $, 13 ans) (JC Venter) (J.D Watson) Méthode Sanger Méthode haut débit (454 Roche) (Levy et al. Plos Bio 2007) (Wheeler et al. Nature 2008) (1 million de $, 2 mois) Evolution très rapide des instruments (upgrades), des débits et des coûts Premier séquençage sur 454 (Janvier 2008) The following 'sequence coverage' values were used in calculating the cost per genome: Sanger-based sequencing (average read length=500-600 bases): 6-fold coverage 454 sequencing (average read length=300-400 bases): 10-fold coverage Illumina and SOLiD sequencing (average read length=50-100 bases): 30-fold coverage 10 ans Prix divisé par 100 000. Trois principales étapes du NGS 1- Préparation des banques de NGS 2- Amplification clonale 3- Séquençage en temps réel Trois principales étapes du NGS 1- Préparation des banques de NGS 2- Amplification clonale 3- Séquençage en temps réel TGCTACGAT 1 point = 1 « read » Etape 2 du NGS 1- Préparation des banques de NGS 2Amplification clonale Bridge PCR 3- Séquençage en temps réel TGCTACGAT Comparaison des principes des 3 premières technologies de NGS 454 FLX/Roche Préparation de banques de NGS ADN génomique Solexa/Illumina Fragmentation Solid/Life Tech Ligation d’adaptateurs But ajout d’adaptateurs : Utiliser toujours la même amorce pour PCR et Séquençage quelque soit l’ADN à séquencer Amplification clonale PCR en émulsion sur une bille « Bridge » PCR sur un support plan (=Flow Cell) PCR en émulsion sur une bille Système miniature d’amplification Amplification clonale dans des microréacteurs Amplification clonale dans des microréacteurs Colonies d’ADN = polonies Support pour le séquençage Billes insérées dans des micropuits Flow Cell ayant servi à l’amplification Billes fixées à une lame de verre Séquençage en temps réel : *Séquençage par synthèse *Pyroséquençage *Longs fragments *Séquençage par synthèse *dye-terminator reversible *petits fragments *Séquençage réversible par ligation *encodage de 2 bases *petits fragments 1 bille ou 1 cluster-> 1 Read 454 - Roche Principe de séquençage : *Séquençage par synthèse *Pyroséquençage *Longs fragments Solexa - Illumina Principe de séquençage : *Séquençage par synthèse *dye-terminator reversible *petits fragments Agrandissement d’une image ->1 image / base ajoutée Solid – Life Technologies (Applied Biosystems) Principe de séquençage : *Séquençage réversible par ligation *encodage de 2 bases *petits fragments Agrandissement d’une image ->1 image / cycle de ligation Solid (Suite) SNP Erreur de séquençage La technologie de séquençage Ion Torrent Particularités : -pas de système optique -support de séquençage = surface semi-conducteur -mesure du pH (ion H+ produit par l’ADN polymerase lors de l’incorporation de chaque base) Evolutions des appareils de séquençage à haut débit • Amélioration de la chimie de séquençage Réduction du taux d’erreurs de séquençage Augmentation de la taille des reads : de 25 bases lues en 2008 à qq centaines de bases • Au départ, appareils de haut débit applications recherche Débit de + en + important • Apparition d’appareils + petits pour la recherche clinique Junior, PGM, MiSeq • Appareils à débit intermédiaire Proton, NextSeq • Appareils à très haut débit : séquençage du génome humain à 1000 $ HiSeq X Ten Next Generation Sequencing Platforms Jusqu’à 1,8Tb HiSeqXTen HiSeq Jusqu’à 1000Gb Jusqu’à 100 Gb GSFlex Recherche Solid5500 Ion Proton NextGen500 Jusqu’à 120 Gb MiSeq Jusqu’à 15 Gb Jusqu’à 10 Gb PGM De 10 Mb à 1,5 Gb Jusqu’à 700 Mb Junior Jusqu’à 35 Mb Clinique, Diagnostic Ion Torrent PGM & Proton Evolution du débit du MiSeq La gamme de séquenceurs Illumina HiSeqXten La 3e génération de séquenceurs arrive bientôt… (NNGS = Next-NextGeneration Sequencing) Principe : Nanotechnologies Quantité très réduite de réactifs de séquençage ou pas de réactifs du tout (mesure physique) Sanger NGS NNGS Principe du séquençage Méthode Sanger classique Systèmes miniaturisés Nanotechnologies Nb de molécules identiques nécessaires pour produire 1 Read Millions de molécules d’ADN Milliers de molécules d’ADN Molécule unique d’ADN Volume réactionnel Microlitre Picolitre Fentolitre Coût pour un génome humain 2,7 milliards $ 1000 à 2500 $ <1 000 $ (Human Genome Project) Temps nécessaire 13 années 1 à 2 semaines Quelques jours Next-Next Gen Platforms -Séquençage sur molécule unique -Pas d’amplification clonale -Inconvénient actuel : taux élevé d’erreurs de séquences Séquençage bidirectionnel & Mélange de plusieurs échantillons sur une seule FlowCell *Paired-End 75 bases ->peut faciliter : -le mapping au génome de référence -la détection d’indel -élimination d’artefacts (« duplicate reads ») 75 bases BC *Multiplexage code-barres (BC) Index simple Analyse simultanée d’un grand nombre d’échantillons ->96 code-barre disponibles BC Index double BC BC Illumina : dual index ->réduction des erreurs d’attribution Analyse des données de NGS Analyse des images (ou des données brutes) Détermination de la séquence (= Base Calling) Alignement de la séquence au génome de référence (=Mapping) Comparaisons ADN(s) d’intérêt / ADN référence *Polymorphismes *Mutations *Indels (=Variant Calling) Et/ou Comptage des Reads Contrôles de la qualité du séquençage Taux d’erreurs de séquençage NGS : taux d’erreur de séquençage 10 fois plus élevé qu’avec le séquençage Sanger Illumina technology + Erreurs de séquençage récurrentes spécifiques à chaque technologie (Ion Torrent : erreurs dans les homopolymers -> indels artefactuels) Illumina : Densité en clusters, % reads PF, % reads >Q30 Applications du NGS Nombre décroissant de lectures : Séquençage Whole Genome : homme, plantes, metagénome, microorganismes…. Recherches de remaniements chromosomiques Exomes -> Exome-Seq Transcriptome -> RNA-Seq IP de la chromatine -> ChIP-Seq Etudes de méthylation -> Methylome-Seq Micro-ARN -> MicroRNA-Seq Reséquençage de produits de PCR ->Amplicon-Seq Stratégies de séquençage en génétique humaine et en cancérologie Stratégies de sélection des régions ciblées Génome 3,2 Gb Régions ciblées du génome Analyse globale Exome ~50 Mb Analyse de régions ciblées Analyse globale Filtrage informatique Autres régions ciblées (quelques Mb) Reséquençage de gènes (applications diagnostiques+++) Analyse de régions ciblées 85% des mutations seraient dans les exons ou les jonctions intron-exon recherche de variations (SNS, indels, gene fusion, CNV) Pour le diagnostic : Différentes procédures de fabrication de banques de NGS à partir de l’ADN génomique - Banques « Whole Génome » - Banques enrichies en régions d’intérêt Extraction ADNg patient Enrichissement des régions d’intérêt Préparation de banques (taille, BC) Amplification clonale NGS Analyse des données Validation Sanger Fabrication d’une banque « Whole Genome » Méthode alternative de fabrication d’une banque « Whole Genome », Nextera (Illumina) Méthodes d’enrichissement pour le réséquençage ciblé ADN génomique du patient Enrichissement (+ traitement préNGS si nécessaire) NGS Les différentes approches d’enrichissement : A-Méthodes par hybridation (= capture par hybridation) B-Méthodes par PCR (Amplicon-Seq) C-Méthode par hybridation à haute spécificité (circularisation) A-Capture par hybridation (en phase liquide) Design des sondes de capture Sondes de captures biotynilées ~200 pb Banque génomique Inconvénients : Long + de « off-target » Avantages : + facile à « up-grader » Couverture de la cible + homogène Banque exome Produits catalogue « Whole Exome » (~40 à 70 Mb) + Produits Design Custom Initialement capture par hybridation en phase solide Design des sondes de capture Oligos de capture sur microarrays Design des sondes de captures biotinylées -SeqCap (Roche-NimbleGen) -SureSelect (Agilent) -TruSeq (Illumina) -TargetSeq (Thermo Fischer Scientific, ex LifeTechnologies) -Lockdown probes (IDT, Integrated DNA Technologies) LifeTech, IDT) Ensemble du Workflow pour la fabrication de banques Exome SureSelect (pour Illumina) 1-Cassage mécanique de l’ADN (Covaris) Préparation d’une Banque génomique 2-Réparation des extrémités 3-Rajouts de «A» aux extrémités 3’ 4-Ligation d’adaptateurs 5-Amplification par PCR 1-Hybridation des banques génomiques avec les sondes de capture biotinylées 2-Capture des hybrides banque/sondes biotinylées Capture des régions exoniques 3-Lavages de stringence 4-Reamplification Banque exome B-Méthodes d’enrichissement par PCR -> Amplicon-Seq = séquençage de produits de PCR par NGS 2 types en fonction de l’équipement nécessaire : 1-Utilisant un appareil PCR classique : PCR multiplex traditionnelle + PCR multiplex commerciales Multiplicom, AmpliSeq (Life Technologies), TruSeq Amplicons (Illumina) 2-Appareil de PCR microfluidique spécifique Fluidigm, RainDance, WaferGen Méthodes par PCR, sans appareil spécifique Approche par ligation à 1 à 10 PCR multiplex / ADN de patient 1 Pool de PCR multiplex AmpliSeq (Life Tech) PCR multiplex, amplicons de petite taille (150pb à 200 pb) 2 PCR multiplex / ADN de patient Pool des 2 PCR multiplex Méthodes par PCR, sans appareil spécifique Approche avec 2 PCR successives (pour Illumina) PCR microfluidique RainDance Technology RDT1000 ou Thunderstorm PCR en nanochambres alimentées en réactifs par un réseau de capillaires et de nanovalves PCR en microgouttes (Diamètre 37 µm) ADN soniqué Fluidigm Access Array System Amorces de PCR Fusion de goutelettes ADN + primers Volume réactionnel : de 1 à 9 nanolitre C-Méthode d’enrichissement par hybridation à haute spécificité : HaloPlex (Agilent) Overall HaloPlex target-enriched sequencing sample preparation workflow. 8 digestions enzymatiques différentes par ADN 1 capture par ADN A-BC P1 Avantage : pas d’optimisation pour design custom Choix de la méthode d’enrichissement RainDance (100kb to 5Mb) Fluidigm (Access Array) HaloPlex (1 kb-2,5Mb) Capture par hybridation Multiplex PCR (100kb to 70Mb) (10 to 100 kb) Produits PCR maison, LongRange PCR 1-10 Nb de gènes à séquencer Taille des régions à séquencer 1kb 10kb 10-100 100kb + autres critères Nombre d’échantillons à séquencer par an Existence de produits catalogue pour l’enrichissement 1000 1Mb 10000 10Mb Choix de la méthode d’enrichissement Capture par hybridation en phase liquide + de séquences non ciblées (« off-target »), pb séquences répétées PCR microfluidique : Fluidigm (Access Array System) RainDance Technology (RDT1000) WaferGen Équipement coûteux PCR multiplexe : Circularisation : • Multiplicom Ampliseq Autres PCR multiplex Haloplex Bcp de patients et gde taille cumulée Pas d’équipement spécifique Protocole rapide + de régions non couvertes, copy number exons pas possible Caractéristiques communes : Toutes les approches fonctionnent mais de manière + ou - fine Toutes ne sont pas faciles à mettre en place en routine Profondeur de lecture et taux de couverture Evaluation de l’homogénéité de la couverture Définitions Taux de couverture S’exprime en % Exemple : 90% à 20X Signifie que 90% des bases ciblées sont au minimum couvertures par 20 lectures indépendantes Profondeur de lecture moyenne (ou médiane) Nombre moyen (ou médian) de lectures couvrant les régions ciblées S’exprime en X Exemple : 100X Signifie qu’il y a en moyenne 100 reads différents couvrant chaque base NB : Si couverture hétérogène, prévoir une profondeur de lecture + importante Analyse des données de NGS Analyse des images (ou des données brutes) Détermination de la séquence (= Base Calling) Alignement de la séquence au génome de référence (=Mapping) Comparaisons ADN(s) d’intérêt / ADN référence *Polymorphismes *Mutations *Indels (=Variant Calling) Et/ou Comptage des Reads Pour la détection des variations, importance de : -la qualité des séquences (« accuracy ») -la profondeur de lecture -le taux de couverture Illustration IGV : Données « Whole Genome » IGV Profondeur de lecture Bonne couverture Profondeur de lecture Région non Couverte Contig de séquences Données d’exome Profondeur de lecture Profondeur de lecture Données d’exome sequencing Exemple couverture hétérogène (1/2) Exon non couvert Exon non couvert non couvert Exon non couvert Exemple couverture hétérogène (2/2) Mauvaise Couverture de l’Exon 1 gène Notch1 dans données SureSelect All Exon 50 Mb V5 Variation Homozygote Variation Hétérozygote Délétion Homozygote Profondeur de lecture minimale 15X minimum pour pouvoir détecter une variation hétérozygote 100X minimum pour pouvoir détecter un variant à 10% En génétique : souvent 100X visé En cancéro : souvent 1000X visé voire + (jusqu’à 10 000 X) Homogénéité de la couverture Régions dont la couverture pose problème Régions riches en GC, riches en AT Régions comportant des répétitions Gènes entiers ou exons de certains gènes posant problèmes Famille de gènes très conservés ou avec pseudogènes Exons 1 souvent riche en GC et mal couverts Distribution de la couverture qq % de la cible pas couvert du tout Couverture normalisée Si prof moy 100X : 90% à 10X 95% à 5X Si prof moy 100X : 90% à 10X 95% à 5X 90% à 20X 95% à 10X 90% à 10X 95% à 5X 80% à 20X 60% à 50X 90% à 10X 95% à 5X 90% à 20X 95% à 10X Couverture normalisée par position, biais selon % GC Facteurs influençant l’homogénéité de la couverture • Méthode d’enrichissement • Qualité de l’ADN du départ ADN les + altérés : issus de coupes en paraffine (FFPE : Formalin-Fixed Paraffin-Embedded) • Quantité d’ADN disponible Quantité d’ADN optimale dépend de la méthode d’enrichissement (entre 3µg et 10 ng) Merci pour votre attention !
© Copyright 2024 Paperzz