1 Reconstruction phylogénétique Yves Desdevises Université Pierre et Marie Curie Observatoire Océanologique de Banyuls 04 68 88 73 13 [email protected] http://desdevises.free.fr/Adaphyl Références 2 • Darlu P. et Tassy P. 1993. Reconstruction phylogénétique : concepts et méthodes. Masson. Gratuit en pdf ! • Perrière G. et Brochier C. 2010. Concepts et méthodes en phylogénie moléculaire. Springer. • Felsenstein J. 2004. Inferring phylogenies. Sinauer. • Baum D. et Smith S. 2013. Tree thinking: an introduction to phylogenetic biology. Roberts & Company Publishers 3 • Hall B. 2011. Phylogenetic trees made easy. Fourth Edition. Sinauer. ! • Lemey P., Salemi M. et Vandamme A.-M. 2009. The phylogenetic handbook. Second Edition. Cambridge University Press. ! • Page R. et Holmes E. 1998. Molecular evolution: a phylogenetic approach. Blackwell. 4 • But : proposer une hypothèse des liens de parenté entre plusieurs taxons • Phylogénie = arbre évolutif (≠ échelle) • Spéciation : binaire • Basé sur l’homologie : similarité héritée d’un ancêtre commun • Indication de l’existence d’un ancêtre commun • Identifiable à l’aide d’un arbre phylogénétique, peut également servir à le construire Symphodus mediterraneus Symphodus melanocercus Ctenolabrus rupestris An am pse s Labrus viridis Cheilinus trilobatus Cheilinus chlorourus Epibulus incidiator Stetojulis albovittata Halichoeres margaritaceu s albovittata Stetojulis bandanensis Stetojulis s orouru nus chl Cheili Ch eili nu s trilo ba Labrus merula viridis tus Halichoeres hortulanus Halichoeres margaritaceus Labropsis australis Halichoeres marginatus Symphodus roissali Coris julis r to ia cid in Hemigymnus melapterus Hemigymnus fasciatus Thalassoma bifasciatum Thalassoma lunare Thalassoma lutescens Pictilabrus laticlavius Notolabrus tetricus Bodianus rufus Clepticus parrae Pagrus major Symphodus roissali Symphodus roissali Symphodus cinereus Symphodus cinereus Symphodus tinca Symphodus tinca Symphodus ocellatus Symphodus ocellatus Symphodus mediterraneus Symphodus mediterraneus Symphodus melanocercus Sympho dus cin ereus S ymph odus Sy mp tinca Sy ho m du ph so ce od lla us tus m ed ite rra ne us s rcu ce no ela sm du stris ho rupe mp brus Sy nola Cte a s merul Labru Labrus viridis stris rupe s tinca Symphodu lis Labropsis austra ceus rgarita s ma us lan hoere Halic is ortu ns sh re e ne o da lich an Ha sb juli to Ste Labroides dimidiatus Labrichthys unilineatus brus nola Cte Sym ph od us oce lla tus us tric te s bru fus la to s ru No ianu d rrae Bo us pa ptic Cle major Pagrus Anampses geographicus Anampses caeruleopunctatus s ulu ib Ep Pa gru sm ajo r La bro ide sd im cae idia rule opu tus Anam nct atu pses s geog raph icus Halichoeres margin atus Labrus merula Ste to juli sa Ep lbo ibu vit lus ta inc Chei idia ta linus tor chlo rour us Cheilinus trilobatus La Symphodus ocellatus Thalassoma bifasciatum br An am oide s di pse HLab mid alic ropsis aus s ca iatu tralis ho eru s ere leo sm pu nct arg atu ina s tus Symphodus cinereus Symphodus tinca Stetojulis bandanensis SSyy mmp phh oodd uuss cro inis ere sa ulis nus fasciatus Hemigym rus apte mel julis ris s Co tu ea ilin un ys th ch bri La Symphodus roissali s s nu icu ula ph ort gra eo sh sg ere pse ho am lic An Ha fus s ru ianu Bod s rcueus ocean ditnerr s meela hodu s m Symp odu ph Sym nus igym Hem unilineatus Labrichthys Th TH Coris ala haem julis ss lasig om soym nu a b ma s fa ifa lute sciatu s Hemigymnusscmelapterus iatuscen m s Pict ilabr us are la maticlun lavi sso us Thala Cle ptic tetricus Notolabrus us pa rra e Thala ssoma lunare Tha lass Pic om a lu tila tesc bru ens s la tic lav ius Arbres phylogénétiques 5 Symphodus melanocercus Ctenolabrus rupestris Ctenolabrus rupestris Labrus merula Labrus merula Labrus viridis Labrus viridis Cheilinus trilobatus Cheilinus trilobatus Cheilinus chlorourus Cheilinus chlorourus Epibulus incidiator Epibulus incidiator Stetojulis albovittata Stetojulis albovittata Stetojulis bandanensis Stetojulis bandanensis Halichoeres hortulanus Halichoeres hortulanus Halichoeres margaritaceus Halichoeres margaritaceus Labropsis australis Labropsis australis Halichoeres marginatus Halichoeres marginatus Anampses geographicus Anampses geographicus Anampses caeruleopunctatus Anampses caeruleopunctatus Labroides dimidiatus Labroides dimidiatus Labrichthys unilineatus Labrichthys unilineatus Coris julis Coris julis Hemigymnus melapterus Hemigymnus melapterus Hemigymnus fasciatus Hemigymnus fasciatus Thalassoma bifasciatum Thalassoma bifasciatum Thalassoma lunare Thalassoma lunare Thalassoma lutescens Thalassoma lutescens Pictilabrus laticlavius Pictilabrus laticlavius Notolabrus tetricus Notolabrus tetricus Bodianus rufus Bodianus rufus Clepticus parrae Clepticus parrae Pagrus major Pagrus major 6 • Cladogrammes • Pas de longueurs de branches • Clades • Phylogrammes • Longueurs de branches Arbre ultramétrique Arbre additif 7 Feuilles = taxons terminaux Branches terminales A B C D E F Noeud G H I J Polytomie Branches intérieures Racine • Spéciation 8 9 Hypothèse A B C • Sinon c'est un réseau phylogénétique 10 Enracinement 11 • Pour orienter l’arbre • Utilisation d’un extra-groupe (hors-groupe = groupe extérieur = outgroup) • Reste = groupe intérieur (ingroup) Arbre enraciné extra-groupe Arbre non enraciné ajout d’un extra-groupe 12 • Extra-groupe : taxon frère hors de l’ingroup • Caractères partagés entre outgroup et ingroup = caractères ancestraux • Parfois pas d’extra-groupe : enracinement au point équidistant des extrémités de l’arbre (suppose longueurs de branches) = midpoint rooting B B C E A D F A C D F E • Groupes • Monophylétique (= clade) : groupe 13 naturel • Mammifères ! • Paraphylétique • Reptiles ! • Polyphylétique • Algues, protozoaires Caractères 14 • Organismes composés de différentes caractéristiques • Ces caractéristiques prennent des formes différentes selon les taxons : états de caractères • L’ensemble des états d’un caractère constituent un caractère • Ces états sont produits par des changements héritables • L’inférence phylogénétique se fait à partir des différences entre états de caractères • 15 On cherche à établir le lien entre ancêtre et descendant par la présence/absence d’un état de caractère • On cherche l’apparition de nouveaux états de caractères dans les descendants • Les différents états de caractères sont par définition des homologies • Les taxons qui partagent ce nouvel état de caractère (dérivé) forment des clades • Exemple : les poils chez les mammifères, noyau chez les Eucaryotes, ... • Homologie 16 17 • Homoplasie 18 19 • Caractères ancestraux : plésiomorphies • Caractères ancestraux partagés : symplésiomorphies • Caractères dérivés : apomorphies • Caractères dérivés partagés : synapomorphies • Caractérisent idéalement les clades • Caractères dérivés non partagés = propres à un taxon : autapomorphies 20 21 Homologies • Les homologies sont supposées montrer des similarités en : • position • structure • développement • Un critère reconnu pour supporter les homologies est la congruence avec d’autres caractères 22 • On définit a priori les homologies primaires : pour faire l'arbre (on fait le "pari" qu'elles sont le produit d'un état de caractère ancestral : hypothèse) • et a posteriori les homologies secondaires : à partir de l'arbre (on confirme l'homologie) 23 Chien Lézard Grenouille Humain Changement POILS Absents Présents Homoplasies • Ce sont les similarités non homologues • Résultat d’une évolution indépendante • Convergence • Parallélisme • Réversion • Brouillent le signal phylogénétique : peuvent conduire à l’établissement de fausses relations de parenté 24 25 Parallélisme Convergence Réversion Lézard Grenouille Humain Grenouille Humain QUEUE Absente Présente Chien 26 Chien QUEUE Absente Présente Lézard 27 • Sans homoplasies, l’inférence phylogénétique serait facile • Problème fondamental de la reconstruction phylogénétique : distinguer les homoplasies (= bruit) du signal • Corollaire : la qualité des données (un “bon” signal phylogénétique) est plus importante que la méthode utilisée • Si il y a un seul arbre correct, quand des caractères supportent des arbres différents, l’un au moins est forcément homoplasique Chien Lézard POILS Absents Présents Grenouille Humain Humain Grenouille Chien QUEUE Absente Présente Lézard 28 • Pour résumer : 29 Congruence 30 • L’arbre choisi est celui qui maximise le nombre de caractères congruents MAMMIFERES Chien POILS LACTATION ... Humain Lézard Grenouille Changements Cas des données moléculaires 31 • L’homoplasie est généralement plus commune avec des données moléculaires que morphologiques • Peu d’états (4 pour l’ADN : A G C T) • Chimiquement proches • Taux d’évolution parfois élevé • Pas d’identification de l’homoplasie par structure ou développement Données • Fossiles : rares • Caractères morphologiques • Caractères moléculaires : ADN, protéines, ... • De loin les plus utilisés : modèles, nombreux caractères, moins subjectifs, ... • Phylogénie du fragment d’ADN (≠ espèce) • Génomes ➙ phylogénomique • Autres (comportements, hôtes, habitat, ...) 32 Caractères morphologiques 33 • Pas facile : homologie • Souvent peu nombreux : difficile pour grand nombre de taxons, surtout s’ils sont a priori proches • Décisions parfois subjectives • Processus évolutifs en général mal connus : limite le choix des méthodes • Nécessitent un codage • Parfois difficile • Hypothèse sur l’évolution des caractères Codage 34 • Binaire : Présence/absence = 0/1 • États multiples (ordonnés ou non) : définition du nombre de pas entre les états • Codage additif binaire : e.g. 00, 01, 10, 11 • Codage linéaire : e.g. 0, 1, 2 • Combinaison des deux 35 Y)($0)/(&")/- I"J0)/- +"0 X/0/'&("-",8 HL 1KLLL4 GLdd]GLee QQQ7$-'$>&$07)-N-"*/($N&[./0/ !"#$%&'($)*$ "+ )&)$ ,&-- $*("./0/'&($' 1!"#$%&'(%)*+2 3")",$)$/4 ./0/'&(&'&), (5$ 0"/*5 1,*$-&*+ )*$-&*+ 6742 5&'("08 /)9 .0$'$)( $*"-",8 :)90$/ ;&<=">/? /@A@B@ C>$' D$'9$>&'$' *@9@ 3&-/) E$-)/0 A@ ;$0,$ 3"0/)9 * / ."#*&$% '/ 0"$*)"& 1#-23#2+4 5'623-*+ 73-82)+-$%4 9&%3+:"; <'&-3" =>?4 @AB?C =)"$-+&"8"4 1&'8": ,2D*E&-# A ."#*&$% '/ 1#-23#24 9"+")%: 73-82)+-$%4 F'$&";)+:"; B4 G??HI =)3'4 5J2#K ,2D*E&-# 523$)2 <2 =-'&'(-2 2$ <LM#'&'(-2 N)'D-#"&2 2$ 92<-$2))"32;23324 79, CCCC 50,14 73-82)+-$2; <2 O2)D-(3"34 P823*2 <2 Q-&&232*824 GG@GR O2)D-(3"3 52<2S4 .)"3#2 9 !2;D")$2623$ <2 1#-23#2+ =-'&'(-T*2+4 73-82)+-$2; <2 9'3$)2;"&4 5UOU G?B@4 +*##*)+"&2 523$)2>8-&&24 9'3$)2;"& VW*2;E2#X4 YH5 HZI4 5"3"<" * F$*$&>$9 GH IJ)$ KLLLM 0$*$&>$9 &) 0$>&'$9 +"0< H :J,J'( KLLLM /**$.($9 H :J,J'( KLLL !"#$%&'$ !"#$%&'($)*$ /<"), ."($)(&/--8 *"<.$(&), '.$*&$' */) A$ +/>"J0$9 A8 )&*5$ '.$*&/-&'/(&") /)9N"0 A8 0$9J*&), (5$ ">$0/-- &)($)'&(8 "+ *"<.$(&(&") >&/ /,,0$,/($9 J(&-&'/(&") "+ +0/,<$)($9 0$'"J0*$'7 O$ &)>$'(&,/($9 (5$ 0$'.$*(&>$ 0"-$' "+ )&*5$ '.$*&/-&'/(&") /)9 /,,0$,/(&") &) (5$ */'$ "+ )&)$ *"),$)$0&* <")",$)$/) ./0/'&($' ") (5$ ,&--' "+ F"/*5 1,*$-&*+ )*$-&*+ 674 A$-"),&), (" (5$ ,$)J' !"#$%&'(%)*+7 P5$ ."'&(&") "+ $/*5 &)9&>&9J/- ./0/'&($ "+ (5$ )&)$ !"#$%&'(%)*+ '.$*&$' Q/' 0$*"09$97 R&*5$ A0$/9(5 /)9 )&*5$ ">$0-/. "+ ./0/'&($ '.$*&$' Q$0$ $'(&</($97 !"<./0/(&>$ <$(5"9'@ Q5&*5 (/=$ &)(" /**"J)( .58-",$)$(&* &)+"0</(&") "+ (5$ /)/-8'$9 '.$*&$'@ Q$0$ J'$97 O$ 0$*")'(0J*($9 / .58-",$)8 "+ (5$ )&)$ !"#$%&'(%)*+ '.$*&$' A/'$9 ") <"0.5"-",&*/- *5/0/*($0'7 O$ J'$9 (5$ S/,,0$,/(&") <"9$- "+ *"#$%&'($)*$T &) (5$ <"9$- (" ($'( &+ '.$*&$' *"#$%&'($)*$ &' +/*&-&(/($9 Q5$) &)(0/'.$*&U* /,,0$,/(&") $%*$$9' &)($0'.$*&U* /,,0$,/(&")7 O$ "A'$0>$9 / -/*= "+ )$,/(&>$ *"00$-/(&") &) /AJ)9/)*$ A$(Q$$) ./&0' "+ ./0/'&($'@ /)9 / )$,/(&>$ *"00$-/(&") A$(Q$$) )&*5$ '&V$ /)9 ./0/'&($ /,,0$,/(&")@ +"0 A"(5 &)(0/'.$*&U* /)9 &)($0'.$*&U* /,,0$,/(&")7 WJ0 *"<./0/(&>$ /)/-8'&' '5"Q$9 (5/( ./0/'&($ /AJ)9/)*$ &' ."'&(&>$-8 *"00$-/($9 Q&(5 )&*5$ A0$/9(57 P5$) ./0/'&($ /AJ)9/)*$@ /)9 )"( &)($0/*(&")' A$(Q$$) !"#$%&'(%)*+ '.$*&$'@ '$$<' (" A$ (5$ <"'( &<."0(/)( +/*("0 9$($0<&)&), )&*5$ '&V$ P5&' 0$'J-( ,&>$' '"<$ 'J.."0( (" )&*5$ '$,0$,/(&") A8 '.$*&/-&'/(&")7 R&*5$ '&V$ Q/' )$,/(&>$-8 *"00$-/($9 Q&(5 A"(5 &)(0/'.$*&U* /)9 &)($0'.$*&U* /,,0$,/(&")7 R" 0$-/(&")'5&. Q/' +"J)9 A$(Q$$) /) &)*0$/'$ "+ &)($0'.$*&U* /,,0$,/(&") Q&(5 /) &)*0$/'$ "+ )&*5$ ">$0# -/..&),@ Q5&*5 'J,,$'(' (5/( *"<.$(&(&") </8 .-/8 -&((-$ 0"-$7 : -/*= "+ *"<.$(&(&") *"J-9 A$ /-'" *")U0<$9 A8 (5$ -/*= "+ )$,/(&>$ *"00$-/(&") &) /AJ)9/)*$ A$(Q$$) '.$*&$' ./&0'7 : ./0'&<")8 /)/-8'&' "+ (5$ $>"-J(&") "+ ,&-- 9&'(0&AJ(&") &)9&*/($' / *5/),$ &) ")$ ./0/<$($0 "+ (5$ )&*5$ 1/0*5@ '$,<$)( /)9N"0 /0$/4 /( $/*5 A0/)*5&), $>$)(7 ! KLLL :J'(0/-&/) ;"*&$(8 +"0 X/0/'&("-",8 Y)*7 XJA-&'5$9 A8 Z-'$>&$0 ;*&$)*$ 6(97 :-- 0&,5(' 0$'$0>$97 Caractères moléculaires F2%[')<+2 !"#$%&'(%)*+M 3")",$)$/)M ;.$*&$' *"#$%&'($)*$M :,,0$,/(&") <"9$-M !"<./0/(&>$ /)/-8'&' () *+$%,-.'$/,+ !"#$%&'($)*$ "+ ."($)(&/--8 *"<.$(&), '.$*&$' &' (5$ 'JA[$*( "+ </)8 $*"-",&*/- *"<<J)&(&$' '(J9&$' /)9 '$>$0/<"9$-' \G]H^ 5/>$ A$$) J'$9 (" $%.-/&) (5&' .0"*$''7 !"0)$-/)9 6/Q(") \H^ .0"."'$9 (5/( / 0$/- *"<<J)&(8 &' / *")(&# )JJ< +0"< &)($0/*(&>$ (" )")#&)($0/*(&>$@ 9$.$)9&), ") />/&-/A-$ )&*5$ './*$7 R&*5$ 5$($0",$)$&(8 <"9$-' "+ *"# $%&'($)*$ /)9 './(&"#($<."0/- 5$($0",$)$&(8 <"9$-' "+ *"# $%&'($)*$ 5/>$ A$$) $-/A"0/($9@ /)9 (50$$ (8.$' "+ *-/''&U# */(&") "+ *"<<J)&(8 <"9$-' Q$0$ 9$U)$92 )&*5$ 5$($0",$# )$&(8@ './(&/- 5$($0",$)$&(8 /)9 )&*5$ '/(J0/(&") \H^7 !J00$)( (5$"0&$' 9&'(&),J&'5 (Q" (8.$' "+ ./0/'&($ *"<<J# )&(&$'2 )")#&)($0/*(&>$@ &7$7 &'"-/(&")&'( *"<<J)&(&$'@ &) Q5&*5 &)($0/*(&")' A$(Q$$) '.$*&$' /0$ J)&<."0(/)(@ /)9 &)($0/*(&>$ *"<<J)&(&$' &) Q5&*5 &)($0/*(&")' /<"), '.$*&$' (/=$ .-/*$7 _"0 )")#&)($0/*(&>$ *"<<J)&(&$'@ (5$ /A'$)*$ "+ '/(J0/(&") &' .0$9&*($9 /)9 /-- '.$*&$' */) *"$%&'( &) (5$ *"<<J)&(8 A$*/J'$ )&*5$ './*$ &' )"( -&<&($9 A8 (5$ )J<A$0 "+ &)9&>&9J/-' \`^7 a"Q$>$0@ </)8 '(J9&$' ") *"<<J)&(&$' 5/>$ .0$'$)($9 ./0/'&($ *"<<J)&(&$' &) (5&' >&$Q "+ *")(&)JJ< \b]GK^7 a"-<$' \b^ $<.5/'&'$9 (5/( '.$*&$' Q&(5 *-"'$ '&<&-/0&(8 &) (5$&0 0$cJ&0$<$)(' */))"( *"$%&'( &) (5$ '/<$ './*$7 Y) (5&' Q/8@ &)($0/*(&>$ )&*5$ 5$($0",$)$&(8 .0"<"($' '.$*&$' *"#$%&'($)*$7 a$)*$@ ./0/'&($ '.$*&$' *"#$%&'($)*$ 5/' A$$) '(J9&$9 &) (5$ *")($%( "+ '&($ '$,0$,/(&") /)9 )&*5$ 0$'(0&*# (&") \b@d@e^7 a"-<$' \f^@ &) (5$ */'$ "+ $)9"./0/'&($'@ • Nucléotides ou acides aminés (pour divergences plus anciennes) B !"00$'.")9&), /J(5"07 P$-72 !`KL#b#`GGK#gKGgM +/%2 !`KL#b#`GKG# GKG`7 M>6"-& "<<)2++\ '&<=">/i'*&7<J)&7*V 1:7 ;&<=">/?47 LLKL#dbGgNLLNhKL7LL ! KLLL :J'(0/-&/) ;"*&$(8 +"0 X/0/'&("-",8 Y)*7 XJA-&'5$9 A8 Z-'$>&$0 ;*&$)*$ 6(97 :-- 0&,5(' 0$'$0>$97 XYY2 ; LLKL#dbG g1LL4LLLge#g • Caractères = positions des bases (ou AA) • Etats de caractères = nature des bases ou AA • Etape primordiale : alignement • Parfois manuel • Méthodes automatiques : retouchage manuel • Pas de test : pas d’hypothèse nulle intéressante 36 • Nucléotides : 4 états seulement (2 types) • Modélisable • Homoplasie “facile” 37 • Acides aminés • 20 états • 5 catégories • Modélisation 38 beaucoup plus difficile • Codons • 61 états ! 39 • Arbre des gènes ≠ arbre des espèces • Gènes orthologues ou paralogues Paralogues Orthologues a b* c Orthologues C* B A* b* C* A* Duplication Arbre Gène ancestral • • Brouillage du signal phylogénétique Possibilité de transfert de gène 40 Alignement 41 • Hypothèse d’homologies positionnelles entre nucléotides ou AA • Méthodes • Manuelle (Seaview, BioEdit, Se-Al, ...) • Automatique (ClustalX, MAFFT, POY, MUSCLE, T-Coffee, ...) • Combinaison des deux (ce qu’on fait en général) • Alignement plus ou moins facile • Séquence codante ou pas • Utiliser les AA (codons) pour alignement • Considérer les types d’AA (taille, polarité, 42 hydrophobicité) • On peut parfois utiliser la structure secondaire • Séquences plus ou moins divergentes • Homologie variable selon région • Alignement atteint par ajout d’événements d’insertion-délétion (indels) à l’aide de gaps : limités par pénalités (sauf aux extrémités) • Petite sous-unité de l’ARNr • But de l’alignement automatique : maximiser le score de l’alignement • Exemple GATTC! GAATTC On définit : Match = +1 Mismatch = 0 Indel = -1 Dot Plot 43 44 45 1 1 1 GA-TTC! GAATTC Score = 4 -1 1 1 0 1 1 1 0 -1 GATTC-! GAATTC Score = 2 1 -1 2 alignements optimaux G-ATTC! GAATTC Score = 4 1 1 1 1 46 • En plus de la pénalité d’introduction des gaps (gap opening penalty), on définit une pénalité pour l’extension des gaps (gap extension penalty), moins élevée (encourage extension, pas des trous partout) • GOP et GEP peuvent varier le long des séquences, en fonction de la présence de gaps et de caractéristiques biochimiques (e.g. AA hydrophiles) • On peut aussi pondérer différemment les substitutions (certaines sont plus faciles que d’autres ; e.g. pour AA : matrice BLOSUM 62) 47 • Problème complexe analytiquement : on ne peut garantir le “meilleur” alignement quand le nombre de séquences augmente (alignement multiple) • Alignement progressif (e.g. Clustal) • Calcul d’un arbre-guide (NJ) pour alignement des paires de séquences • Aligne d’abord les séquences les plus proches et ainsi de suite • Rapide mais pas de critère d’optimalité 48 • Alignement global ou local • Global : considère toute la longueur des séquences. Bien si divergence faible et taille similaire • Local : par région. Mieux si régions variables • Hybride (semiglobal ou glocal) 49 • Après alignement, possibilité de sélection automatique des régions informatives, en éliminant les régions mal alignées • GBlocks • Choix de différents critères modifiant la stringence de la sélection • Alignement de 2 séquences : très facile et rapide • Utilisé pour la recherche de séquences similaires 50 (≠ homologues !) dans des bases de données à des fins d’identification • BLAST = Basic Local Alignment Search Tool (1990) • blastn : nucléotides vs base nucléotides • blastx : protéines vs base protéines • blastp : protéines vs base nucléotides traduits • tblastn : nucléotides traduits vs base protéines • tblastx : nucléotides traduits vs base nucléotides traduits • 51 e-value = expected value : “probabilité” que la similarité obtenue soit due au hasard • Fonction du score, de la longueur de la séquence et de la taille de la base • On cherche des e-values très faibles (e.g. 10 ) • Recherche dans une base de données, un génome, -30 … • Inférence de la fonction par rapport aux séquences similaires, taxonomie, … Saturation • Multiple hits • Substitutions multiples au même site • Affecte les sites qui évoluent rapidement • Conduit à une sous-estimation de la distance évolutive entre 2 séquences 52 53 • 3 changements visibles • 12 changements réels 54 • Détection • Graphe des transitions (Ti) vs transversions (Tv) • Graphe des % différences entre séquences vs temps (si il est disponible) • Graphe des distances non corrigées vs corrigées (distances génétiques ou patristiques) 55 Saturation Pas de saturation 56 • Selon position dans le codon Total& 0,16" 0,14" 0,12" 0,1" 0,08" 0,06" 0,04" 0,02" 0" 0" 0,02" 0,04" Posi%on'1' 0,06" 0,08" 0,1" 0,12" 0,14" Posi%on'2' 0,12" 0,03" 0,1" 0,025" 0,08" 0,02" 0,06" 0,015" 0,04" 0,01" 0,02" 0,005" 0" Posi%on'3' 0,4" 0,35" 0,3" 0,25" 0,2" 0,15" 0,1" 0,05" 0" 0" 0,01" 0,02" 0,03" 0,04" 0,05" 0,06" 0,07" 0,08" 0,09" 0,1" 0" 0" 0,005" 0,01" 0,015" 0,02" 0,025" 0,03" 0,035" 0" 0,05" 0,1" 0,15" 0,2" 0,25" 0,3" 0,35" 57 58 Distance non corrigées (% différences entre séquences) (Jukes-Cantor) Pente = 1 : pas de saturation Distance patristiques (mesurées sur l'arbre) 59 • Correction • Utiliser un modèle évolutif pour corriger la divergence entre séquences • Eliminer les sites à évolution rapide (e.g. troisième position des codons) • Pondérer différemment Ti et Tv • Utiliser seulement Tv • Utiliser des séquences à évolution plus lente Biais 60 • Attraction des longues branches • Si la méthode suppose que tous les sites changent au même taux A B p A D p q q q C D Vrai arbre C B Arbre inféré • Exemples 61 • Exemple 62 mtDNA évoluant rapidement chez Bilateria : attiré vers outgroup Cténophora évolue rapidement : attiré vers outgroup Vrai arbre [?] 63 • Biais d’usage des codons : certains codons davantage utilisés pour les mêmes AA 64 • Attention à prendre en compte les différences de composition des bases dans les lignées (LogDet, ML hétérogène) • Exemple : % GC pour les thermophiles Aquifex Thermus Bacillus Deinococcus Vrai arbre Aquifex (73%) Thermus (72%) Bacillus (50%) Deinococcus (52% G+C) Arbre inféré Critère d’optimalité 65 • Pour choisir le “meilleur arbre” • Hypothèse sur le fonctionnement de l’évolution • Différent selon les méthodes • Nombre de pas • Somme des longueurs de branches • Vraisemblance Plusieurs méthodes 66 La meilleure méthode ?? • Parcimonie • Distance • Maximum de vraisemblance • Inférence Bayesienne • Important : critère d'optimalité. S'il y en a un, il faut comparer les topologies pour trouver la meilleure Topologies : nombre 67 • Nombre d’arbres non enracinés (pour n taxons) i= n ∏ (2i-5) = (2n-5)(2n-7)...(3)(1) i= 3 • Nombre d’arbres enracinés i= t ∏ (2i-3) = (2n-3)(2n-5)...(3)(1) i= 2 • Exemples • 5 taxons : 105 arbres enracinés • 8 taxons : 135 135 • 10 taxons : 34 459 425 • 50 taxons : 3 1074 (> atomes dans l’univers !!) 68 • Algorithmes d'exploration du Treespace • Recherche exhaustive si peu de taxons (10-12 en parcimonie) : examine toutes les topologies • Branch-and-Bound : explore une partie de l’espace des arbres (environ 20 taxons en parcimonie), efficace • Algorithme heuristique, moins efficace, plus rapide : trouver un “bon” arbre par une agglomération judicieuse des taxons, puis réarranger cette topologie pour en trouver éventuellement une meilleure 69 Treespace Global optimum Suboptimal island of trees Starting trees “Treespace” • Réarrangements : • NNI = Nearest-Neighbor Interchange • Plus rapide, moins rigoureux que les autres 70 techniques • SPR = Subtree Pruning and Regrafting • TBR = Tree Bisection Reconnection • Plus rigoureux, plus lent ! ! ! ! ! ! • Avec un algorithme heuristique, il est bon de lancer plusieurs recherches indépendantes (e.g. 10) 71 72 73 Parcimonie 74 Cladistique • Deux lignées sont plus proches entre elles que d’une autre si elles partagent un ancêtre commun plus récent • Hypothèses phylogénétiques = hypothèse d’un ancêtre commun • Associée à reconstruction par parcimonie • MP = Maximum de Parcimonie Principe de parcimonie 75 • “Rasoir d’Ockham” Pluralitas non est ponenda sine necessitate • Favoriser la solution la plus simple • Permet de choisir entre plusieurs hypothèses phylogénétiques • Maximiser les congruences et minimiser les homoplasies • Mesure de l’ajustement des caractères aux arbres • Méthode basée sur les caractères individuels Ajustement (fit) des caractères • Nombre minimum de pas (passage d’un état à l’autre) requis pour expliquer la distribution observée des états de caractères • Cela est déterminé par l’optimisation de caractères par parcimonie (mapping) • Cette optimisation est différente sur différents arbres • Position des changements parfois non unique pour un même arbre et un même nombre de pas : longueurs de branches pas toujours définies 76 77 1 pas Poils Oiseau Chauve-souris Humain Crocodile Grenouille Kangourou Humain Chauve-souris Kangourou Oiseau Grenouille Crocodile Exemple 2 pas Absents Présents Analyse par parcimonie 78 • Pour un ensemble de caractères, détermination de l’ajustement (nombre de pas) de chaque caractère à l’arbre • La somme pour tous les caractères (X pondération éventuelle) est appelée la longueur de l’arbre • Les arbres les plus parcimonieux (MPT = most parsimonious trees) sont ceux qui ont la longueur la plus petite • Caractère informatif : au moins 2 états dans 2 taxons • Critère d’optimalité (= fonction objective) : nombre de pas = longueur de l’arbre • • Plusieurs arbres : consensus • Les arbres donnent en même temps des 79 On peut obtenir un ou plusieurs MPT séquences (hypothèses) évolutives des caractères • Longueurs de branches : nombre de changements. Généralement sous-estimées. Pas un but de ce type de méthode (longueurs souvent non considérées) • Plusieurs mesures pour les arbres et les caractères estiment l’ajustement entre arbre et données : degré d’homoplasie (CI, RI, ...) Consensus • Strict • Semi-strict • Majoritaire 80 81 Types de caractères • Différences des coûts pour les changements d’états • Wagner (ordonné, additif) : morphologie 0 → 1 → 2 • Fitch (non ordonné, non additif, coûts égaux) : ADN, protéines, morphologie A ⎯ G T ⎯ C 82 • Sankoff (généralisée) A ⎯ G 1 pas T ⎯ C 5 pas • Exemple typique : poids différent des transitions et des transversions • Coûts symétriques ou asymétriques 83 Transversions (Tv) Py Pu Stepmatrices de Purines (Pu) G A à C T Pyrimidines (Py) A C G T A 0 5 1 5 C 5 0 5 1 G 1 5 0 5 T 5 1 5 0 Transitions (Ti) Py Py Pu Pu Transitions plus faciles Transversions plus nombreuses Parcimonie généralisée • = Parcimonie pondérée • Fait intervenir des coûts différents pour les changements • Minimise la somme des coûts = coût total 84 85 • Problème de la définition des coûts • On connaît certains éléments de l’évolution moléculaire permettant de jouer sur les coûts • Transitions/transversions (Ti/Tv, nombres ou taux) • Hétérogénéité du taux de substitution, notamment en fonction de la position dans les codons Algorithmes 86 1. Calculer les topologies 2. Optimiser tous les caractères et calculer les longueurs • Long si beaucoup de taxons • Algorithmes • Recherche exhaustive si peu de taxons (10-12) : examine toutes les topologies • Branch-and-Bound : explore une partie de l’espace des arbres, pour environ 20 taxons, efficace • Algorithme heuristique, moins efficace, plus rapide Parcimonie - Avantages 87 • Simple • Pas de modèle explicite d’évolution • Arbre et évolution des caractères • Bien si homoplasie rare • Bien pour caractères morphologiques Parcimonie - Inconvénients • Problème si beaucoup d’homoplasies, ou concentrées dans certaines régions • Attraction des longues branches (Felsenstein Zone) • Sous-estime la longueur des branches • Modèle d’évolution implicite : comportement pas toujours clair • Justifié sur bases plus philosophiques que numériques 88 89 Maximum de vraisemblance 90 • Maximum Likelihood = ML • Méthode basée sur les caractères individuels • Utilise un modèle d’évolution explicite • MP est parfois considéré comme un cas particulier du ML • Méthode la plus complexe au niveau des calculs • Très grande importance du modèle : uniquement pour données moléculaires Principe 91 • Répond à la question : Quelle est la probabilité d’observer les données considérant un modèle particulier d’évolution des séquences (processus et arbre) ? • Pr(D|T) • Estimation de la valeur des paramètres du modèle pour maximiser cette probabilité : vraisemblance • Dans la pratique, on cherche bien sûr l’arbre (topologie et longueurs) • Calcul de la vraisemblance pour toutes les topologies : algorithme heuristique obligatoire Nucléotides A Probabilité de A : AACG B : ACCG C : AACA D : AATG 92 Sachant D A " A $a $b P = C $# c G $ T %d C G T b C B c a e e a c f π = [A, C, G, T] d& $ f$ ' g$ $ a( Paramètres 93 • Fréquences des bases : π π = [A, C, G, T] • Somme = 1 • Taux de substitution : matrice P • Somme des lignes = 1 • Fonction des bases et du temps (branches) • Hétérogénéité : Γ • Arbre • Topologie • Longueurs de branches A C G T P= " b %d a e e a c f A $a C $b G $# c T $ d& $ f$ ' g$ $ a( c A D C B Hétérogénéité du taux de substitution 94 € Paramètre : α - élevé : taux = 1 partout - faible (0,5) : la plupart des sites changent peu - 0 : taux tous différents ! En pratique, une distribution discrète avec 4 classes donne de bons résultats 50 37,5 25 12,5 0 Cl 1 Cl 2 Cl 3 Cl 4 • La probabilité d’observer une séquence donnée est 95 le produit des fréquences (composition) par les taux de substitution (tenant compte de la longueur des branches) Exemple "0.976 0.01 0.007 0.007 & $ $ $0.002 0.983 0.005 0.01 $ ' P =# $ 0.003 0.01 0.979 0.007$ $ $ 0.002 0.013 0.005 0.979 % ( (pour une longueur de branche donnée b) CCAT CCGT b π = [0.1, 0.4, 0.2, 0.3] Vraisemblance = πCPC→CπCPC→CπAPA→GπTPT→T = 0.4X0.983X0.4X0.983X0.1X0.007X0.3X0.979 = 0.00003 • La vraisemblance L change en fonction des longueurs de branches 0.0002 0.00018 0.00016 0.00014 L 0.00012 0.0001 0.00008 0.00006 0.00004 0.00002 0 0 0.1 0.2 0.3 0.4 0.5 0.6 Longueur de la branche b ML pour une longueur de 0.330614 96 97 • Modèle/processus Markovien : la probabilité d'un évènement est indépendante de l'évènement précédent • Modèle généralement réversible (e.g. A -> T = T -> A) pour simplification • Nombre généralement très petit : on prend le log 98 de la vraisemblance (L) • Additivité : log(AT) = log(A) + log(T) • Nombre négatif (0<L<1) • Il faut faire la même chose pour tout l’arbre • Pour toutes les topologies et longueurs possibles • Pour toutes les séquences de longueur donnée, dont les séquences aux noeuds internes • Tout en estimant les meilleurs paramètres • C’est très long... 99 • Sans compter que les changements ne se produisent généralement pas de la même façon à différents endroits de la séquence • Contraintes de structure • Position dans le codon • Site actif • etc... • Et ce taux de changement varie en fonction du temps pour une position donnée : hétérotachie 100 • Incorporation d’une fraction de sites invariables (estimation par ML possible, encore un paramètre) • Calcul de α pour les sites variables et/ou estimation du modèle différente selon leur position • Position dans le codon • Hélice alpha, ... Modèles de base 101 Jukes-Cantor (JC) πA= πC = πG = πT α=β Kimura 2 paramètres (K2P) πA= πC = πG = πT Felsenstein 81 (F81) πA≠ πC ≠ πG ≠ πT α≠β α=β Kimura 3 paramètres (K3P) πA= πC = πG = πT Hasegawa-Kishino -Yano 85 (HKY 85) πA≠ πC ≠ πG ≠ πT α ≠ β1 ≠ β2 α≠β Symétrique (SYM) πA= πC = πG = πT Tamura-Nei (TrN) πA≠ πC ≠ πG ≠ πT 6 taux différents General Time Reversible (GTR) πA≠ πC ≠ πG ≠ πT α : transitions β : transversions α ≠ β1 ≠ β2 6 taux différents Séquences codantes 102 • Différentes contraintes sur différentes positions sur le codon • Partitionner la séquence par rapport à la position dans le codon et attribuer à chaque partition un modèle et ses paramètres. Différentes possibilités • SRD06 (Shapiro et al. 2006) • Lier les positions 1 et 2 • La position 3 peut avoir un taux, Ti/Tv, Γ différents • Utiliser un codon model 103 • Utilisation de l’information sur le code génétique : codon model • Intense en calculs • GY94 (Goldman & Yang 1994, Muse & Gaunt 1994) (MrBayes, HyPhy, PAML, MetaPIGA) • Nouveau paramètre ω = ratio substitutions non synonymes/synonymes Protéines (acides aminés) • Modèle : probabilité de changement d’un AA en un autre (PhyML, Mega, SeaView, Puzzle, Phylip) • 20 AA : beaucoup plus de possibilités que les nucléotides, estimation difficile • Beaucoup de modèles empiriques (Dayhoff, JTT, WAG, Blosum, ...), issus de grands jeux de séquences, comparées par paires ou basés sur des arbres (par MP ou ML) • Certains modèles basés sur les codons (REV), éventuellement sur différents codes génétiques • Prise en compte des caractéristiques des AA 104 Choix du modèle 105 • Plus un modèle comporte de paramètres • Plus il s’ajuste aux données • Plus le problème est long à calculer • Plus l’estimation est incertaine (= augmentation de la variance = baisse du nombre de degrés de liberté) • Besoin d’un compromis • A un moment, passer au modèle plus complexe ne 106 produit pas une amélioration significative • Une solution : hLRT ou AIC (jModelTest, ModelTest, MrModelTest, ProtTest) • hLRT (hierarchical likelihood ratio test) : compare les modèles entre eux (doivent être emboîtés) • AIC (Akaike information criterion) : estime l’ajustement du modèle aux données • AIC = 2k - 2logL, où k est le nombre de paramètres • Choisir un modèle avec AIC le plus bas 107 • Très long d’estimer les paramètres en même temps que la topologie • Si l’arbre est “en gros” correct, l’estimation des paramètres est stable • Estimation à partir d’un arbre construit rapidement (MP, NJ) • Utilisation de ces paramètres pour recherche de la topologie Likelihood Ratio Test • Nombreuses hypothèses testables de cette façon • Comparaison de deux hypothèses emboîtées : l’une (H0) est une simplification de l’autre (H1) • Statistique Δ = logL1 - logL0 • Si pas de différence, 2Δ suit une loi du Χ2 dont le nombre de degrés de libertés est le nombre de paramètres différents entre les deux hypothèses • Comparaison de modèles, topologies (KH- et SHtests), longueurs (horloge moléculaire), ... 108 ML - Avantages 109 • Prend en compte la saturation • Bonnes longueurs de branches • Consistant : si le modèle est bon, convergence vers le bon arbre quand le nombre de données augmente • Non sujet à l’attraction des longues branches si bon modèle • Utilise toutes les données (pas de “sites informatifs”) • Processus d’évolution et séquences ancestrales • Assez robuste ML - Inconvénients 110 • Inconsistant si le modèle n’est pas le bon • Même le modèle le plus complexe est une simplification de la réalité • Encore très lourd en calculs : besoin d’heuristiques donc de compromis Inférence Bayesienne 111 • Technique la plus récente, de plus en plus utilisée (MrBayes, PhyloBayes, BayesPhylogenies) • Mêmes modèles qu’en ML (MrModelTest) • Basée sur la notion de probabilité postérieure, qui se base sur la connaissance des données à l’avance : probabilité a priori (prior) (sujet controversé) 112 • Quelle est la probabilité du modèle/arbre considérant les données ? • Pr(T|D) = (Pr(T)Pr(D|T))/Pr(D) probabilité posterieure prior vraisemblance probabilité des données • La formule de Bayes combine la probabilité a priori et 113 la vraisemblance pour générer une probabilité postérieure : prior choisi comme non informatif (e.g. plat), ainsi la probabilité postérieure (pp) dépend essentiellement de la vraisemblance • Ne cherche pas “le” meilleur arbre (idem pour tous 114 les paramètres), mais explore l’espace des possibilités à l’aide d’une chaîne de Markov Monte Carlo (MCMC) et échantillonne les topologies obtenues dans le plateau des choix optimaux (e.g. hautes vraisemblances pour arbres) : intervalles de confiance, quantification du support des clades (pp) • Pas d’étape de validation nécessaire : un très grand nombre d’arbres est généré, le consensus de l’échantillon donne les probabilités d’apparition des clades (si le modèle est le bon !) : plus rapide que le ML • Le randonneur masqué (= robot) 100 pas 1000 pas 115 10000 pas Plat Accidenté 116 117 118 • Problème : utiliser des chaînes de calculs assez longues. Utilisation de plusieurs chaînes afin de mieux explorer le treespace (MCMCMC = Metropolis coupled MCMC) et éviter de rester bloqué sur des pics suboptimaux • Couplage des chaînes 119 Chaîne froide Chaîne chauffée 1 Chaîne chauffée 2 Chaîne chauffée 3 1 chaîne froide + 3 chaînes chauffées 120 bonne convergence 121 • Attention à la convergence des chaînes Pas de convergence Convergence trop lente • On ne garde que les arbres optimaux et on "brûle" 122 les autres : burnin ! ! ! ! ! ! ! • Typiquement prédéfini à 10-25% des arbres conservés (ngen/fréquence) • Exemple : sortie de MrBayes ! 123 Rough plot of parameter LnL ! +------------------------------------------------------------+ -47216.46! | *******************************************************|! | * |! | * |! | * |! | |! | * |! | |! | |! | |! |* |! | |! | |! | |! | |! | |! +------+-----+-----+-----+-----+-----+-----+-----+-----+-----+ -72924.41! ^ ^! 1 100000! • 100000 itérations (générations) • Échantillonnage d’un arbre/100 gen : 1000 arbres • Élimination de 200 arbres (plateau) puis consensus 124 125 Approche traditionnelle (ML, MP) Inférence Bayesienne Tendance à accepter les arbres avec une meilleure probabilité postérieure Long ! MC Après un délai : échantillon d’arbres de hautes probabilités postérieures 126 • L’analyse Bayesienne estime une probabilité marginale (Arbre B) plutôt que jointe (Arbre A) • ML choisi l’arbre A (pic plus haut) • BI choisi l’arbre B (pic plus volumineux) 127 • Applications très nombreuses : reconstruction de caractères ancestraux, estimation de temps de divergence... et pas seulement en reconstruction phylogénétique • Les probabilités postérieures des clades ont tendance à être supérieures aux valeurs de bootstrap : surestimation de la précision ? • Probablement pas, interprétation différente des pp et proportions de bootstrap 128 Distances 129 • Estimation du nombre moyen de changements entre paires de taxons • Basée sur distances et non caractères individuels • Données parfois uniquement sous forme de distances (hybridation ADN/ADN, sérologie, morphométrie, ...) • Sinon transformation des données en matrice de distance • Surtout pour données moléculaires • Le simple pourcentage de différences entre 130 séquences (p-distance) sous-estime généralement la vraie distance à cause de la saturation • D’autant plus vrai que les séquences sont éloignées • Utilisation d’un modèle corrigeant les distances : les paramètres reflètent la façon dont on pense que se fait l’évolution moléculaire (mêmes modèles qu’en ML : JC, K2P, GTR, ...) • Ces modèles peuvent également presque tous inclure l’hétérogénéité du taux de substitution (Γ) • La distance LogDet permet des fréquences de bases différentes dans les séquences comparées • ADN codant : substitutions synonymes (ne 131 changent pas AA) et non synonymes • Vitesse d’évolution plus rapide pour synonymes • Ka = distance non synonyme = substitutions non synonymes/sites non synonymes • Ks = distance synonyme = substitutions synonymes/sites synonymes • Distances tiennent compte de Ti et Tv (K2P) • Séquences proches : seul Ks est informatif • Séquences distantes : Ks est saturé, Ka est informatif Algorithmes • Principal : Neighbor-Joining (NJ) • Arbres additifs • Dérivés : BioNJ, weighbor... • Parfois (avant) : UPGMA • Arbres ultramétriques (horloge moléculaire) 132 133 • NJ : part d'un arbre en étoile et forme séquentiellement les paires qui minimisent la longueur de l'arbre (somme des longueurs de branches) 8 ! 8 7 1 1 7 ! 6 2 6 ! 4 3 5 5 4 ! 3 2 • Tend à donner l'arbre le plus court mais pas d'optimisation pendant la procédure, qui est une simple agglomération (donc très rapide) 134 Paramètres du modèle • Le modèle doit s’ajuster aux données, il faut trouver les bons paramètres • Nombre de sites invariables • Taux de substitution variable le long de la séquence • Taux de substitution différents pour chaque type de changement • Distances de départ ≠ distances patristiques 135 (calculées à partir de l’arbre) • Distances de départ (pairwise distances, éventuellement avec correction par un modèle) ! ! ! ! • Distances patristiques • p ≠d ij ij • Différence entre p et dij (sinon les distances seraient parfaitement additives) ij • Saturation • Erreurs aléatoires même si modèle parfait (et il ne l'est pas !) • Il faut un critère pour l’ajustement des données d’origine à l’arbre (topologie et longueurs), donc minimiser la différence dij - pij • Fitch-Margoliash, Cavalli-Sforza-Edwards : moindres carrés • Minimum evolution (ME) : minimise la longueur de l’arbre 136 137 • Quantité à minimiser = somme des carrés ! ! ! • k = 2 : Fitch-Margoliash (1967) • k = 0 : Cavalli-Sforza & Edwards (1967) 138 • Mauvais ajustement (d ij : distances JC) • Bon ajustement (longueur des branches = 139 estimation par moindres carrés) • Minimum evolution 140 141 • L’algorithme ne garantit pas lui-même d’atteindre un tel critère d’optimalité, mais le NJ s’en approche • Mieux d’ajouter une étape d’optimisation, mais plus long Distances - Avantages 142 • Rapide : seule méthode si nombre de taxons très élevé • Beaucoup de modèles, testables par ML • LogDet très utile quand la composition en base varie (uniquement en analyse de distances), mais ne prend pas en compte l’hétérogénéité du taux de substitutions (éliminer les sites invariables) Distances - Inconvénients 143 • Perte d’information : impossible de revenir aux séquences avec les distances • Pas de scénarios évolutifs des caractères • Souvent moins bien que ML (simulations) 144 Validation • Avec n’importe quelles données, on obtient un 145 arbre, même s’il n’y a pas de signal phylogénétique dans ces données • Pas moyen de tester si l’arbre est “le bon” (pas d’hypothèse nulle intéressante) • On peut néanmoins estimer la confiance qu’on peut avoir dans un arbre • Beaucoup de méthodes basées sur la randomisation (destruction ou altération du signal phylogénétique) • La plupart de ces méthodes sont indépendantes de la méthode de reconstruction choisie Bootstrap (non paramétrique) 146 • Technique de ré-échantillonnage • Création de nouveaux jeux de données (100, 1000,...) à partir de l’original : sélection aléatoire des caractères (colonnes) avec remise (sans remise : jacknife) • Bruit dans la structure phylogénétique = estimation de la variance de l’échantillonnage • Inférence de l’arbre à partir de chaque jeu • Consensus majoritaire de tous arbres obtenus • Pourcentage d’apparition des clades = support 147 • Très utilisé (parfois obligatoire pour publier) • Suppose l’indépendance des caractères • Suppose qu’ils sont “identiquement distribués” • Pas un test statistique • Souvent trop conservateur (proportions trop faibles) • Besoin de beaucoup de caractères : généralement pas idéal pour morphologie Bootstrap paramétrique • Sélection d’un modèle à partir des données (ModelTest) • Estimation de la topologie • Utilisation de cette topologie et du modèle pour générer des données par simulation (SeqGen) • Analyse de la variation de ces jeux de données simulés : topologie, intervalles de confiances (datation, ...), tests de comparaison de topologies (SOWH, ...) 148 149 Permutation Tail Probability • Test statistique. H0 : pas de structure phylogénétique • Mesure d’une statistique sur l’arbre (ex : longueur) • Destruction de la structure des données originales par permutations aléatoires répétées (randomisation) • Génération d’une distribution de la statistique sous H0 • PTP : proportion de données ≥ à la statistique observée 150 Randomisation • Garde le nombre de taxons, de caractères et d’états de caractères ‘TAXA’ R-P A-E N-R D-M O-U M-T L-E Y-D 1 R A N D O M L Y 2 P E R M U T E D 3 R A N D O M L Y ‘CHARACTERS’ 4 5 6 P R P E A E R N R M D M U O U T M T E L E D Y D 7 R A N D O M L Y 8 P E R M U T E D 1 N R M L D O Y A 2 U E R T E M D P 3 D A M R Y O N L ‘CHARACTERS’ 4 5 6 E R T P L E M A D E Y M U D E T O U D M P R N R 7 O A N D Y L M R 8 U D P R M T E E ‘TAXA’ R-P A-E N-R D-M O-U M-T L-E Y-D 151 Frequency FAIL TEST 95% cutoff PASS TEST reject null hypothesis Measure of data quality (e.g. tree length, ML, pairwise incompatibilities) GOOD BAD 152 • Signal phylogénétique Number of Number of Tree length replicates Tree length replicates ------------------------- ------------------------1222* 1 1686 8 1669 1 1687 7 1671 1 1688 6 1672 1 1689 8 1673 1 1690 6 1674 1 1691 3 1675 2 1692 2 1676 2 1693 3 1678 1 1694 3 1679 2 1695 3 1680 4 1696 3 1681 5 1697 2 1682 8 1699 2 1683 4 1702 1 1684 4 1704 2 1685 2 1705 1 • Pas de signal 153 Number of Number of Tree length replicates Tree length replicates ------------------------- ------------------------1924 3 1940 6 1926 1 1941 7 1927 4 1942 4 1928 1 1943 2 1929 2 1944 1 1930 8 1945 1 1931 6 1946 1 1932 5 1947 1 1933 4 1950 3 1934 4 1952 1 1935 5 1953 1 1936 1 1955 1 1937 8 1958 1 1938* 11 1939 7 154 • Rejette facilement H0 : identification seulement de données vraiment “mauvaises” • N’indique pas où se situe la structure dans les données Indice de Bremer 155 • IB = Decay index (TreeRot) • Seulement pour la parcimonie • Un clade solide devrait apparaître dans des arbres légèrement plus longs que le MPT • IB = nombre de pas nécessaire pour “casser” un clade • Pour un arbre = somme des IB pour chaque clade 156 • IB d’autant plus important que groupe bien soutenu • IB > 0 que pour les clades apparaissant dans les MPT • IB non standardisé (≠ bootstrap) : interprétation pas toujours simple • En général en accord avec bootstrap 157 Combinaison de données • Plusieurs jeux de données (gènes, morphologie, ...) : plusieurs arbres 158 • Problème important actuellement à cause de l’utilisation croissante de génomes (beaucoup de gènes !) en phylogénie • Que faire si les arbres issus de ceux-ci ne sont pas congruents ? • Comparer les arbres séparés et/ou les combiner (consensus) • Combiner les données (total evidence) et reconstruire un arbre • Combinaison conditionnelle : test préalable d’homogénéité des données • 159 Consensus • Combinaison (total evidence) 160 Partition homogeneity test 161 • Test ILD (Incongruence Length Difference) • Principe • Pour les mêmes données, comparer la longueur (ou ML) de l’arbre avec les partitions observées et avec des partitions aléatoires • Si elles ne sont pas significativement différentes, il y a homogénéité des données : combiner • Sinon : garder les arbres séparés ou éliminer les taxons créant le conflit sp1 sp2 sp3 sp4 sp5 sp6 sp7 sp8 TACATAAACAAGCCTAAAATGCGACACTACGTTCACTGTTACGCTCTCCACTGCCTAGACGAAGAAGCTTCA TACATAAACAAGCCCAAAATGCGACACTACGTCCACTGTTATGCTCTCCACTGCCTAGACGAAGACGCTTCA TACATAAACAAGCCCAAAATGCGACACTACGTCCACTGTTACGCTCTTCACTGCCTAGACGAGGATGCCTCG TACATAAATAAGCCAAAAATGCGACACTACGTTCATTGTTACGCACTCCATTGCCTCGACGAAGAAGCTTCA TACATAAACAAACCCAAAATGCGACACTACGTCCACTGTTATGCTCTCCACTGTCTAGACGAAGACGCTTCG TACATAAACAAGCCCAAGATGCGTCACTACGTCCACTGCTACGCCCTCCACTGTCTCGACGAGGAGGCCTCG TACATAAACAAACCAAAAATGCGACACTACGTCCATTGTTACGCCCTACACTGCCTAGACGAAGACGCTTCA TACATAAACAAACCAAAAATGCGACACTACGTCCATTGTTACGCCCTACACTGCCTAGACGAAGACGCTTCA Partition 1 : L = 12 sp1 sp2 sp3 sp4 sp5 sp6 sp7 sp8 L = 21 162 Partition 2 : L = 9 TACATAAACAAGCCTAAAATGCGACACTACGTTCACTGTTACGCTCTCCACTGCCTAGACGAAGAAGCTTCA TACATAAACAAGCCCAAAATGCGACACTACGTCCACTGTTATGCTCTCCACTGCCTAGACGAAGACGCTTCA TACATAAACAAGCCCAAAATGCGACACTACGTCCACTGTTACGCTCTTCACTGCCTAGACGAGGATGCCTCG TACATAAATAAGCCAAAAATGCGACACTACGTTCATTGTTACGCACTCCATTGCCTCGACGAAGAAGCTTCA TACATAAACAAACCCAAAATGCGACACTACGTCCACTGTTATGCTCTCCACTGTCTAGACGAAGACGCTTCG TACATAAACAAGCCCAAGATGCGTCACTACGTCCACTGCTACGCCCTCCACTGTCTCGACGAGGAGGCCTCG TACATAAACAAACCAAAAATGCGACACTACGTCCATTGTTACGCCCTACACTGCCTAGACGAAGACGCTTCA TACATAAACAAACCAAAAATGCGACACTACGTCCATTGTTACGCCCTACACTGCCTAGACGAAGACGCTTCA Partition 1 : L = 14 L = 25 Partition 2 : L = 11 163 Sum of Number of Sum of Number of tree lengths replicates tree lengths replicates ------------------------------------------------------------1661 1 1672 10 1662 2 1673 7 1663 1 1674 4 1665* 9 1675 4 1666 8 1676 1 1667 9 1677 4 1668 5 1678 2 1669 11 1679 1 1670 10 1680 1 1671 9 1683 1 * = sum of lengths for original partition P value = 1 - (87/100) = 0.130000 Estimation de la différence entre arbres • Test de Templeton • Une des approches les plus anciennes (Templeton 1983) • Comparaison de topologies de longueurs différentes : cette différence est-elle significativement différente de 0 ? • Lister les caractères dont les longueurs sont différentes • Faire un test de Wilcoxon (rangs signés, non paramétrique) 164 165 • Différence symétrique (PAUP) • Statistique : nombre de partitions différentes entre arbres (topologies seulement) • Comparer la statistique observée contre une distribution sous l’hypothèse nulle générée par des topologies aléatoires • Tests de vraisemblance • Test Kishino-Hasegawa (1989) (PAUP) • Statistique : différence en lnL (likelihood 166 ratio) ou longueurs (pas) entre arbres (proche de 0 si pas de différence significative) • Les arbres doivent être choisis a priori (PAS le meilleur arbre en ML contre un arbre suboptimal) • La distribution sous l’hypothèse nulle est générée à partir des différences entre sites ou de pseudoréplicats (bootstrap) si la distribution n’est pas normale • Test de la différence observée contre la distribution 167 sous l’hypothèse nulle Sites favouring tree A Mean Expected Sites favouring tree B 0 Distribution of Step/Likelihood differences at each site • Test de Shimodaira-Hasegawa (1999) (PAUP) général, les arbres sont choisis a posteriori, à • En partir d’une analyse phylogénétique : KH pas adapté ce cas, le test SH corrige le biais dans le • Dans rejet H par le test KH, mais même principe 0 • Comparaison de topologies multiples Approximately Unbiased (Shimodeira, 2002) • Test (Consel) les tests KH et SH, c’est un winning sites • Comme test conservatif que le test SH, car meilleur • Moins processus de génération des pseudoréplicats 168 • Test Swofford Waddell Olsen Hillis (SWOH) • Utilise le bootstrap paramétrique : la topologie A (hypothétique) n’est pas • Hdifférente de la B (observée, e.g. arbre ML inféré 169 0 sur les données) ? qui estime la différence entre A and B • Statistique : likelihood ratio, nombre de pas, ... du meilleur modèle avec A et simuler les • Calcul données sur cette topologie (SeqGen) partir du jeu de données simulé, trouver la • Avraisemblance pour la topologie A et calculer l’arbre ML • Calculer Δ (si LRT) pour chaque paire d’arbre 170 • Répéter l’opération : distribution de la statistique Δ pour estimer la significativité de la valeur observée • Si Δ observé > 95 % des valeurs simulées de Δ, rejet de H0 • Plus puissant que tests KH, SH, et AU, mais dépend du modèle, qui doit être correct • Méthode Bayesienne : très lourd en calcul (pratiquement infaisable) Superarbres (Supertrees) • Combinaison d’arbres ayant seulement une partie des taxons en commun • Permet d’obtenir un arbre plus grand • Plusieurs méthodes (une vingtaine actuellement) • Indirectes : construction d’une matrice à partir des arbres, puis analyse de cette matrice avec un critère d’optimalité (e.g. MRP, MRD, MRC, MRF) • Directes : combinaison des topologies d’une façon analogue à un consensus (e.g. MinCut, Modified MinCut) 171 172 173 Matrix Representation with Parsimony (MRP) 174 • Technique de loin la plus utilisée • Reconstruction d’une matrice à partir des arbres (Clann, Rainbow) puis analyse par parcimonie (PAUP) : ça peut être très long • Codage des clades (noeuds) pouvant éventuellement être pondérés (e.g. bootstrap dans arbres sources) • Permet d’utiliser les indices de validation classique 175 176 MinCut • Analyse directe : pas de critère d’optimalité • Rapide • Pas de validation du superarbre • Bien si arbres sources compatibles 177 • Utilisations des superarbres • Combinaison d’arbres issus de données/études différentes • Phylogénomique : gènes souvent inégalement présents dans les taxons étudiés • Métagénomique : taxons partiellement et inégalement représentés dans les séquences ➡Nombreux “trous” dans la matrice : • Supermatrice (telle quelle) • Découpage en sous-matrices complètes puis superarbre • Exemple : séquences environnementales dans la mer 178 9E uk 22 Alv 26 Alv 13Din h 3 Sp 39 31 CC 3R Ant 33 g 35Eu is selm Tetra l 19Ch 79 88 96 lla Mantonie 1RCC143 82 85 refPFRRDB 93 81 Ostreococcus Bathycoccus 87 97 Haplosp oridium 52 57 54 67 56 79 59 ULABN14TF 6 refDSU2133 2Hyd 4Hyd 14Euk 16Cr u 24Eu k 28 Cru 25 Cru 21 G ym Ci 30 m 34Gy 20 Eu k 32 Co l 18 Eu Euk kO LI11 261 ULAK X75T F Alveol ateGII 66 93 81 7Pla k Eu 10 ru 8C Cru 27 k Eu 15 k Eu 29 17Euk ystis Phaeoc nesio Prym F 943T 3 ULAC 02 99 r H77 Bu B 11 GB ... 98 99 5Emb Emiliania 96 85 refTH ER R18S refBBO RR18S C refPVLRRD A Bolidomonas 70 Nannochloropsis roides Nyctothe ymena Tetrah 6Sph ean thar ia Acan us Han e ch pty 3 no 02 86 Cya F2 fA re Ka Gy re ro na din Ale ium xa nd refS riu YM m 18 SR RN ULAG 91 E01T F ULADY7 4TF ULAE 395T F 12Eu k 23 Euk des Sargasses 179 • Parfois trop de taxons/données pour pouvoir les analyser • Découpage en sous-jeux bien choisis, analyse individuelle, combinaison : divide-and-conquer • Supermatrice (en plus du problème ci-dessus) : beaucoup de données manquantes augmentant le temps de calcul • Conflits possibles entre superarbre et supermatrice 180 181 Phylogénomique 182 12/04/2014 : 41895 génomes 183 • Génomes : phylogénies plus précises ? Pas si simple... • Données très nombreuses : calculs difficiles • Génomes plastiques : duplications (totales, partielles), fusions et fissions de chromosomes, LGT, ... • Pas de (bons) modèles d’évolution génomique • Encore délicat : besoin de beaucoup de précautions pour contrôler les biais (voir Delsuc et al. 2006) 184 • Diminution de l’erreur stochastique (aléatoire), simplement par augmentation du nombre de caractères • Il reste toujours la possibilité d’erreur systématique, causée par exemple par l’inadéquation de la méthode et/ou du modèle choisi aux données • 3 biais principaux • Biais de composition : des séquences de même 185 composition nucléotidique ont tendance à se grouper • A vérifier à partir des séquences • Attraction des longues branches • Bonne densité de taxons (taxon sampling) • Hétérotachie : changement de variation du taux de substitution à une position donnée au cours du temps • Difficile à détecter et à corriger Génomes 186 • Davantage de caractères • Nouveaux types de caractères : ordre des gènes, contenu en gènes, signature nucléotidique (DNA strings), changement génomiques rares • 2 approches principales • Classique : séquences (concaténation des gènes) puis phylogénie (supermatrice ou superarbre) • Caractéristiques des génomes entiers : ordre des gènes, contenu en gènes, DNA strings (signatures) • + 1 : changements génomiques rares 187 Méthodes classiques 188 • Résolution de problèmes phylogénétiques difficiles (e.g. Tree of Life, Eucaryotes, Bilateria) • Evolution de groupes de gènes : mutations, pressions sélectives • Identification des transferts latéraux de gènes • Exemple : vue (autrefois) classique de l’évolution 189 • Données génomiques (Nature, 2006) 190 des deutérostomiens - 146 gènes - Méthodes classiques : séquences - contrôle des biais • Exemple : phylogénie des Eucaryotes (2009, 2010) 191 192 • Exemple : Tree of Life - Pourpre : identifié par la génomique - Jaune : confirmé par la génomique REVIEW • Exemple : Tree of Life (Science, 2006) doi:10.1038/nature12779 193 An archaeal origin of eukaryotes supports only two primary domains of life Tom A. Williams1, Peter G. Foster2, Cymon J. Cox3 & T. Martin Embley1 The discovery of the Archaea and the proposal of the three-domains ‘universal’ tree, based on ribosomal RNA and core genes mainly involved in protein translation, catalysed new ideas for cellular evolution and eukaryotic origins. However, accumulating evidence suggests that the three-domains tree may be incorrect: evolutionary trees made using newer methods place eukaryotic core genes within the Archaea, supporting hypotheses in which an archaeon participated in eukaryotic origins by founding the host lineage for the mitochondrial endosymbiont. These results provide support for only two primary domains of life—Archaea and Bacteria—because eukaryotes arose through partnership between them. S ince their discovery by Carl Woese and his co-workers in 1977, the Archaea have figured prominently in hypotheses for eukaryotic origins1,2. Although similar to Bacteria in terms of cell structure, molecular phylogenies for ribosomal RNA and a small core of genes, that mainly have essential roles in protein translation3, suggested that the Archaea were more closely related to the eukaryotic nuclear lineage; that is, to the host cell that acquired the mitochondrion4. The idea that Archaea and eukaryotes are more closely related to each other than either is to Bacteria depends on analyses suggesting that the root of the tree should be placed on the bacterial stem, or within the Bacteria5–12, implying that the prokaryotes—cells that lack a nucleus—are a paraphyletic group13. The main question now debated is whether core components of the eukaryotic nuclear lineage descend from a common ancestor shared with Archaea, as in the three-domains tree14 (Fig. 1), which is also often called the ‘universal tree’ or ‘tree of life’15–17, or from within the Archaea, as proposed by archaeal-host hypotheses for eukaryotic origins2. The archaeal-host scenario with the greatest phylogenetic support is the eocyte hypothesis18, which proposes a sister-group relationship between eukaryotes and the eocytes (or Crenarchaeota14), one of the major archaeal divisions (Fig. 1). However, the three-domains–eocyte debate remains controversial because different phylogenetic methods have delivered different results, often from the same data19. This disagreement is due, at least in part, to the difficulties associated with resolving ancient divergences in phylogenetic trees. Challenges of reconstructing ancient relationships A major issue in reconstructing ancient relationships is the strength and quality of historical signal remaining after the millions of years since the divergence of Archaea and eukaryotes. The earliest fossils identified as eukaryotic appeared by about 1.8 billion years ago20; over this enormous span of time, the accumulation of multiple substitutions in DNA and protein sequences might have erased any signal that would allow the relationship between archaeal and eukaryotic core genes to be established21. However, more recent simulations and empirical studies suggest that there are reasons to be cautiously optimistic that this is not the case: functional constraints vary across real DNA and protein sequences so that sites evolve at different rates22–25. Fast-evolving sites are indeed 194 • Exemple : Tree of Life - 2 ou 3 domaines ? a b Monophyletic Archaea Paraphyletic Archaea Eukaryota Euryarchaeota Euryarchaeota Eukaryota Eocytes/Crenarchaeota Eocytes/Crenarchaeota Thaumarchaeota Thaumarchaeota Aigarchaeota Korarchaeota Aigarchaeota Korarchaeota TACK Bacteria TACK Bacteria Eocyte hypothesis Three-domains hypothesis Figure 1 | Competing hypotheses for the origin of the eukaryotic host cell. a, The rooted three-domains tree14 depicts cellular life divided into three major monophyletic groups or domains: the Bacteria, Archaea and Eukaryota—the latter representing the host lineage, sometimes also called the nuclear or nucleo-cytoplasmic lineage5, that acquired the mitochondrial endosymbiont. In this tree the Archaea and Eukaryota are most closely related to each other because they share a common ancestor that is not shared with Bacteria. b, The rooted eocyte tree recovers the host-cell lineage nested within the Archaea as a sister group to the eocytes (which Woese et al.14 called the Crenarchaeota); this implies that, on the basis of the small set of core genes, there are only two primary domains of life—the Bacteria and the Archaea. In its modern formulation shown here the eocyte hypothesis implies that the closest relative of the eukaryotic nuclear lineage is one, or all, of the TACK Archaea, which include newly discovered relatives of the eocytes/Crenarchaeota. Both trees have been traditionally rooted on the bacterial stem, consistent with some published analyses5–8. 1 Institute for Cell and Molecular Biosciences, University of Newcastle, Newcastle upon Tyne NE2 4HH, UK. 2Department of Life Sciences, Natural History Museum, London SW7 5BD, UK. 3Centro de Cieˆncias do Mar, Universidade do Algarve, Campus de Gambelas, 8005-139 Faro, Portugal. 1 2 D E C E M B E R 2 0 1 3 | VO L 5 0 4 | N AT U R E | 2 3 1 ©2013 Macmillan Publishers Limited. All rights reserved Pour résumer 195 Données ADN, AA, morphologie, ... Alignement Logiciel + yeux Caractères Distances Qualité des données Saturation, homogénéité, ... Distances Méthode Modèle ? Type de données, nombre de taxons BI ML Modèle ? MP Critère d’optimalité Pondérations ? (sites, changements) Oui Arbre(s) ME... Non NJ... Validation Bootstrap, PTP, Bremer, ... Logiciels • Pleins !!... et souvent gratuits ! presque tous pour des données moléculaires, • ...et mais implémentant des méthodes variées (MEGA, SeaView, DAMBE, FastDNAml, PhyML, MrBayes, Phylobayes, Tree-Puzzle, MetaPIGA, ...). les données morphologiques (et moléculaires) : • Pour Phylip (gratuit mais pas simple), PAUP (le meilleur, mais payant) qui contient le plus de méthodes et tests en tous genres logiciels pour dessiner et modifier les • Nombreux arbres (FigTree, TreeView, TreeEdit, TreeDyn...) pour consensus (PAUP, Component, ...), • Aussi superarbres (Rainbow, Clann, SuperTree, ...) 196
© Copyright 2024 Paperzz