Notes - desdevises

1
Reconstruction
phylogénétique
Yves Desdevises
Université Pierre et Marie Curie
Observatoire Océanologique de Banyuls
04 68 88 73 13
[email protected]
http://desdevises.free.fr/Adaphyl
Références
2
• Darlu P. et Tassy P. 1993. Reconstruction
phylogénétique : concepts et méthodes. Masson.
Gratuit en pdf !
• Perrière G. et Brochier C. 2010. Concepts et
méthodes en phylogénie moléculaire. Springer.
• Felsenstein J. 2004. Inferring phylogenies.
Sinauer.
• Baum D. et Smith S. 2013. Tree thinking: an
introduction to phylogenetic biology. Roberts &
Company Publishers
3
• Hall B. 2011. Phylogenetic trees made easy.
Fourth Edition. Sinauer.
!
• Lemey P., Salemi M. et Vandamme A.-M. 2009.
The phylogenetic handbook. Second Edition.
Cambridge University Press.
!
• Page R. et Holmes E. 1998. Molecular evolution:
a phylogenetic approach. Blackwell.
4
• But : proposer une hypothèse des liens de parenté
entre plusieurs taxons
• Phylogénie = arbre évolutif (≠ échelle)
• Spéciation : binaire
• Basé sur l’homologie : similarité héritée d’un
ancêtre commun
• Indication de l’existence d’un ancêtre commun
• Identifiable à l’aide d’un arbre phylogénétique,
peut également servir à le construire
Symphodus mediterraneus
Symphodus melanocercus
Ctenolabrus rupestris
An
am
pse
s
Labrus viridis
Cheilinus trilobatus
Cheilinus chlorourus
Epibulus incidiator
Stetojulis albovittata
Halichoeres
margaritaceu
s
albovittata
Stetojulis bandanensis
Stetojulis
s
orouru
nus chl
Cheili
Ch
eili
nu
s
trilo
ba
Labrus merula
viridis tus
Halichoeres hortulanus
Halichoeres margaritaceus
Labropsis australis
Halichoeres marginatus
Symphodus roissali
Coris julis
r
to
ia
cid
in
Hemigymnus melapterus
Hemigymnus fasciatus
Thalassoma bifasciatum
Thalassoma lunare
Thalassoma lutescens
Pictilabrus laticlavius
Notolabrus tetricus
Bodianus rufus
Clepticus parrae
Pagrus major
Symphodus roissali
Symphodus roissali
Symphodus cinereus
Symphodus cinereus
Symphodus tinca
Symphodus tinca
Symphodus ocellatus
Symphodus ocellatus
Symphodus mediterraneus
Symphodus mediterraneus
Symphodus melanocercus
Sympho
dus cin
ereus
S
ymph
odus
Sy
mp
tinca
Sy
ho
m
du
ph
so
ce
od
lla
us
tus
m
ed
ite
rra
ne
us
s
rcu
ce
no
ela
sm
du
stris
ho
rupe
mp
brus
Sy
nola
Cte
a
s merul
Labru
Labrus viridis
stris
rupe
s tinca
Symphodu
lis
Labropsis austra
ceus
rgarita
s ma
us
lan
hoere
Halic
is
ortu
ns
sh
re
e
ne
o
da
lich
an
Ha
sb
juli
to
Ste
Labroides dimidiatus
Labrichthys unilineatus
brus
nola
Cte
Sym
ph
od
us
oce
lla
tus
us
tric
te
s
bru
fus
la
to
s ru
No ianu
d
rrae
Bo
us pa
ptic
Cle
major
Pagrus
Anampses geographicus
Anampses caeruleopunctatus
s
ulu
ib
Ep
Pa
gru
sm
ajo
r
La
bro
ide
sd
im
cae
idia
rule
opu
tus
Anam
nct
atu
pses
s
geog
raph
icus
Halichoeres margin
atus
Labrus merula
Ste
to
juli
sa
Ep
lbo
ibu
vit
lus
ta
inc
Chei
idia ta
linus
tor
chlo
rour
us
Cheilinus
trilobatus
La
Symphodus ocellatus
Thalassoma bifasciatum
br
An
am oide
s di
pse
HLab
mid
alic ropsis aus
s ca
iatu
tralis
ho
eru
s
ere
leo
sm
pu
nct
arg
atu
ina
s
tus
Symphodus cinereus
Symphodus tinca
Stetojulis bandanensis
SSyy
mmp
phh
oodd
uuss
cro
inis
ere
sa
ulis
nus fasciatus
Hemigym
rus
apte
mel
julis
ris
s
Co
tu
ea
ilin
un
ys
th
ch
bri
La
Symphodus roissali
s
s
nu
icu
ula
ph
ort
gra
eo
sh
sg
ere
pse
ho
am
lic
An
Ha
fus
s ru
ianu
Bod
s
rcueus
ocean
ditnerr
s meela
hodu s m
Symp odu
ph
Sym
nus
igym
Hem
unilineatus
Labrichthys
Th TH
Coris
ala haem
julis
ss lasig
om soym
nu
a b ma s fa
ifa lute sciatu
s
Hemigymnusscmelapterus
iatuscen
m s
Pict
ilabr
us
are
la
maticlun
lavi
sso
us
Thala
Cle
ptic
tetricus
Notolabrus
us
pa
rra
e
Thala
ssoma
lunare
Tha
lass
Pic
om
a lu
tila
tesc
bru
ens
s la
tic
lav
ius
Arbres phylogénétiques
5
Symphodus melanocercus
Ctenolabrus rupestris
Ctenolabrus rupestris
Labrus merula
Labrus merula
Labrus viridis
Labrus viridis
Cheilinus trilobatus
Cheilinus trilobatus
Cheilinus chlorourus
Cheilinus chlorourus
Epibulus incidiator
Epibulus incidiator
Stetojulis albovittata
Stetojulis albovittata
Stetojulis bandanensis
Stetojulis bandanensis
Halichoeres hortulanus
Halichoeres hortulanus
Halichoeres margaritaceus
Halichoeres margaritaceus
Labropsis australis
Labropsis australis
Halichoeres marginatus
Halichoeres marginatus
Anampses geographicus
Anampses geographicus
Anampses caeruleopunctatus
Anampses caeruleopunctatus
Labroides dimidiatus
Labroides dimidiatus
Labrichthys unilineatus
Labrichthys unilineatus
Coris julis
Coris julis
Hemigymnus melapterus
Hemigymnus melapterus
Hemigymnus fasciatus
Hemigymnus fasciatus
Thalassoma bifasciatum
Thalassoma bifasciatum
Thalassoma lunare
Thalassoma lunare
Thalassoma lutescens
Thalassoma lutescens
Pictilabrus laticlavius
Pictilabrus laticlavius
Notolabrus tetricus
Notolabrus tetricus
Bodianus rufus
Bodianus rufus
Clepticus parrae
Clepticus parrae
Pagrus major
Pagrus major
6
• Cladogrammes
• Pas de longueurs de branches
• Clades
• Phylogrammes
• Longueurs de branches
Arbre ultramétrique
Arbre additif
7
Feuilles = taxons
terminaux
Branches terminales
A
B
C D
E
F
Noeud
G
H
I
J
Polytomie
Branches intérieures
Racine
• Spéciation
8
9
Hypothèse
A
B
C
• Sinon c'est un réseau phylogénétique
10
Enracinement
11
• Pour orienter l’arbre
• Utilisation d’un extra-groupe (hors-groupe =
groupe extérieur = outgroup)
• Reste = groupe intérieur (ingroup)
Arbre enraciné
extra-groupe
Arbre non enraciné
ajout d’un extra-groupe
12
• Extra-groupe : taxon frère hors de l’ingroup
• Caractères partagés entre outgroup et ingroup =
caractères ancestraux
• Parfois pas d’extra-groupe : enracinement au
point équidistant des extrémités de l’arbre
(suppose longueurs de branches) = midpoint
rooting
B
B
C
E
A
D
F
A
C
D
F
E
• Groupes
• Monophylétique (= clade) : groupe
13
naturel
• Mammifères
!
• Paraphylétique
• Reptiles
!
• Polyphylétique
• Algues, protozoaires
Caractères
14
• Organismes composés de différentes
caractéristiques
• Ces caractéristiques prennent des formes différentes
selon les taxons : états de caractères
• L’ensemble des états d’un caractère constituent un
caractère
• Ces états sont produits par des changements
héritables
• L’inférence phylogénétique se fait à partir des
différences entre états de caractères
•
15
On cherche à établir le lien entre ancêtre et
descendant par la présence/absence d’un état de
caractère
• On cherche l’apparition de nouveaux états de
caractères dans les descendants
• Les différents états de caractères sont par
définition des homologies
• Les taxons qui partagent ce nouvel état de
caractère (dérivé) forment des clades
• Exemple : les poils chez les mammifères, noyau
chez les Eucaryotes, ...
• Homologie
16
17
• Homoplasie
18
19
• Caractères ancestraux : plésiomorphies
• Caractères ancestraux partagés :
symplésiomorphies
• Caractères dérivés : apomorphies
• Caractères dérivés partagés : synapomorphies
• Caractérisent idéalement les clades
• Caractères dérivés non partagés = propres à un
taxon : autapomorphies
20
21
Homologies
• Les homologies sont supposées montrer des
similarités en :
• position
• structure
• développement
• Un critère reconnu pour supporter les homologies
est la congruence avec d’autres caractères
22
• On définit a priori les homologies primaires : pour
faire l'arbre (on fait le "pari" qu'elles sont le produit
d'un état de caractère ancestral : hypothèse) • et a posteriori les homologies secondaires : à partir de
l'arbre (on confirme l'homologie)
23
Chien
Lézard
Grenouille
Humain
Changement
POILS
Absents
Présents
Homoplasies
• Ce sont les similarités non homologues
• Résultat d’une évolution indépendante
• Convergence
• Parallélisme
• Réversion
• Brouillent le signal phylogénétique : peuvent
conduire à l’établissement de fausses relations de
parenté
24
25
Parallélisme
Convergence
Réversion
Lézard
Grenouille
Humain
Grenouille
Humain
QUEUE
Absente
Présente
Chien
26
Chien
QUEUE
Absente
Présente
Lézard
27
• Sans homoplasies, l’inférence phylogénétique
serait facile
• Problème fondamental de la reconstruction
phylogénétique : distinguer les homoplasies
(= bruit) du signal
• Corollaire : la qualité des données (un “bon”
signal phylogénétique) est plus importante
que la méthode utilisée
• Si il y a un seul arbre correct, quand des caractères
supportent des arbres différents, l’un au moins est
forcément homoplasique
Chien
Lézard
POILS
Absents
Présents
Grenouille
Humain
Humain
Grenouille
Chien
QUEUE
Absente
Présente
Lézard
28
• Pour résumer :
29
Congruence
30
• L’arbre choisi est celui qui maximise le nombre de
caractères congruents
MAMMIFERES
Chien
POILS
LACTATION
...
Humain
Lézard
Grenouille
Changements
Cas des données moléculaires
31
• L’homoplasie est généralement plus commune avec
des données moléculaires que morphologiques
• Peu d’états (4 pour l’ADN : A G C T)
• Chimiquement proches
• Taux d’évolution parfois élevé
• Pas d’identification de l’homoplasie par structure
ou développement
Données
• Fossiles : rares
• Caractères morphologiques
• Caractères moléculaires : ADN, protéines, ...
• De loin les plus utilisés : modèles, nombreux
caractères, moins subjectifs, ...
• Phylogénie du fragment d’ADN (≠ espèce)
• Génomes ➙ phylogénomique
• Autres (comportements, hôtes, habitat, ...)
32
Caractères morphologiques
33
• Pas facile : homologie
• Souvent peu nombreux : difficile pour grand nombre
de taxons, surtout s’ils sont a priori proches
• Décisions parfois subjectives
• Processus évolutifs en général mal connus : limite le
choix des méthodes
• Nécessitent un codage
• Parfois difficile
• Hypothèse sur l’évolution des caractères
Codage
34
• Binaire : Présence/absence = 0/1
• États multiples (ordonnés ou non) : définition du
nombre de pas entre les états
• Codage additif binaire : e.g. 00, 01, 10, 11
• Codage linéaire : e.g. 0, 1, 2
• Combinaison des deux
35
Y)($0)/(&")/- I"J0)/- +"0 X/0/'&("-",8 HL 1KLLL4 GLdd]GLee
QQQ7$-'$>&$07)-N-"*/($N&[./0/
!"#$%&'($)*$ "+ )&)$ ,&-- $*("./0/'&($' 1!"#$%&'(%)*+2 3")",$)$/4
./0/'&(&'&), (5$ 0"/*5 1,*$-&*+ )*$-&*+ 6742 5&'("08 /)9 .0$'$)( $*"-",8
:)90$/ ;&<=">/? /@A@B@ C>$' D$'9$>&'$' *@9@ 3&-/) E$-)/0 A@ ;$0,$ 3"0/)9 *
/
."#*&$% '/ 0"$*)"& 1#-23#2+4 5'623-*+ 73-82)+-$%4 9&%3+:"; <'&-3" =>?4 @AB?C =)"$-+&"8"4 1&'8": ,2D*E&-#
A
."#*&$% '/ 1#-23#24 9"+")%: 73-82)+-$%4 F'$&";)+:"; B4 G??HI =)3'4 5J2#K ,2D*E&-#
523$)2 <2 =-'&'(-2 2$ <LM#'&'(-2 N)'D-#"&2 2$ 92<-$2))"32;23324 79, CCCC 50,14 73-82)+-$2; <2 O2)D-(3"34 P823*2 <2 Q-&&232*824 GG@GR O2)D-(3"3
52<2S4 .)"3#2
9
!2;D")$2623$ <2 1#-23#2+ =-'&'(-T*2+4 73-82)+-$2; <2 9'3$)2;"&4 5UOU G?B@4 +*##*)+"&2 523$)2>8-&&24 9'3$)2;"& VW*2;E2#X4 YH5 HZI4 5"3"<"
*
F$*$&>$9 GH IJ)$ KLLLM 0$*$&>$9 &) 0$>&'$9 +"0< H :J,J'( KLLLM /**$.($9 H :J,J'( KLLL
!"#$%&'$
!"#$%&'($)*$ /<"), ."($)(&/--8 *"<.$(&), '.$*&$' */) A$ +/>"J0$9 A8 )&*5$ '.$*&/-&'/(&") /)9N"0 A8 0$9J*&), (5$ ">$0/-- &)($)'&(8 "+
*"<.$(&(&") >&/ /,,0$,/($9 J(&-&'/(&") "+ +0/,<$)($9 0$'"J0*$'7 O$ &)>$'(&,/($9 (5$ 0$'.$*(&>$ 0"-$' "+ )&*5$ '.$*&/-&'/(&") /)9 /,,0$,/(&")
&) (5$ */'$ "+ )&)$ *"),$)$0&* <")",$)$/) ./0/'&($' ") (5$ ,&--' "+ F"/*5 1,*$-&*+ )*$-&*+ 674 A$-"),&), (" (5$ ,$)J' !"#$%&'(%)*+7 P5$
."'&(&") "+ $/*5 &)9&>&9J/- ./0/'&($ "+ (5$ )&)$ !"#$%&'(%)*+ '.$*&$' Q/' 0$*"09$97 R&*5$ A0$/9(5 /)9 )&*5$ ">$0-/. "+ ./0/'&($ '.$*&$' Q$0$
$'(&</($97 !"<./0/(&>$ <$(5"9'@ Q5&*5 (/=$ &)(" /**"J)( .58-",$)$(&* &)+"0</(&") "+ (5$ /)/-8'$9 '.$*&$'@ Q$0$ J'$97 O$ 0$*")'(0J*($9 /
.58-",$)8 "+ (5$ )&)$ !"#$%&'(%)*+ '.$*&$' A/'$9 ") <"0.5"-",&*/- *5/0/*($0'7 O$ J'$9 (5$ S/,,0$,/(&") <"9$- "+ *"#$%&'($)*$T &) (5$
<"9$- (" ($'( &+ '.$*&$' *"#$%&'($)*$ &' +/*&-&(/($9 Q5$) &)(0/'.$*&U* /,,0$,/(&") $%*$$9' &)($0'.$*&U* /,,0$,/(&")7 O$ "A'$0>$9 / -/*= "+
)$,/(&>$ *"00$-/(&") &) /AJ)9/)*$ A$(Q$$) ./&0' "+ ./0/'&($'@ /)9 / )$,/(&>$ *"00$-/(&") A$(Q$$) )&*5$ '&V$ /)9 ./0/'&($ /,,0$,/(&")@ +"0 A"(5
&)(0/'.$*&U* /)9 &)($0'.$*&U* /,,0$,/(&")7 WJ0 *"<./0/(&>$ /)/-8'&' '5"Q$9 (5/( ./0/'&($ /AJ)9/)*$ &' ."'&(&>$-8 *"00$-/($9 Q&(5 )&*5$
A0$/9(57 P5$) ./0/'&($ /AJ)9/)*$@ /)9 )"( &)($0/*(&")' A$(Q$$) !"#$%&'(%)*+ '.$*&$'@ '$$<' (" A$ (5$ <"'( &<."0(/)( +/*("0 9$($0<&)&),
)&*5$ '&V$ P5&' 0$'J-( ,&>$' '"<$ 'J.."0( (" )&*5$ '$,0$,/(&") A8 '.$*&/-&'/(&")7 R&*5$ '&V$ Q/' )$,/(&>$-8 *"00$-/($9 Q&(5 A"(5 &)(0/'.$*&U*
/)9 &)($0'.$*&U* /,,0$,/(&")7 R" 0$-/(&")'5&. Q/' +"J)9 A$(Q$$) /) &)*0$/'$ "+ &)($0'.$*&U* /,,0$,/(&") Q&(5 /) &)*0$/'$ "+ )&*5$ ">$0#
-/..&),@ Q5&*5 'J,,$'(' (5/( *"<.$(&(&") </8 .-/8 -&((-$ 0"-$7 : -/*= "+ *"<.$(&(&") *"J-9 A$ /-'" *")U0<$9 A8 (5$ -/*= "+ )$,/(&>$
*"00$-/(&") &) /AJ)9/)*$ A$(Q$$) '.$*&$' ./&0'7 : ./0'&<")8 /)/-8'&' "+ (5$ $>"-J(&") "+ ,&-- 9&'(0&AJ(&") &)9&*/($' / *5/),$ &) ")$ ./0/<$($0
"+ (5$ )&*5$ 1/0*5@ '$,<$)( /)9N"0 /0$/4 /( $/*5 A0/)*5&), $>$)(7 ! KLLL :J'(0/-&/) ;"*&$(8 +"0 X/0/'&("-",8 Y)*7 XJA-&'5$9 A8 Z-'$>&$0
;*&$)*$ 6(97 :-- 0&,5(' 0$'$0>$97
Caractères moléculaires
F2%[')<+2 !"#$%&'(%)*+M 3")",$)$/)M ;.$*&$' *"#$%&'($)*$M :,,0$,/(&") <"9$-M !"<./0/(&>$ /)/-8'&'
() *+$%,-.'$/,+
!"#$%&'($)*$ "+ ."($)(&/--8 *"<.$(&), '.$*&$' &' (5$
'JA[$*( "+ </)8 $*"-",&*/- *"<<J)&(&$' '(J9&$' /)9 '$>$0/<"9$-' \G]H^ 5/>$ A$$) J'$9 (" $%.-/&) (5&' .0"*$''7 !"0)$-/)9 6/Q(") \H^ .0"."'$9 (5/( / 0$/- *"<<J)&(8 &' / *")(&#
)JJ< +0"< &)($0/*(&>$ (" )")#&)($0/*(&>$@ 9$.$)9&), ")
/>/&-/A-$ )&*5$ './*$7 R&*5$ 5$($0",$)$&(8 <"9$-' "+ *"#
$%&'($)*$ /)9 './(&"#($<."0/- 5$($0",$)$&(8 <"9$-' "+ *"#
$%&'($)*$ 5/>$ A$$) $-/A"0/($9@ /)9 (50$$ (8.$' "+ *-/''&U#
*/(&") "+ *"<<J)&(8 <"9$-' Q$0$ 9$U)$92 )&*5$ 5$($0",$#
)$&(8@ './(&/- 5$($0",$)$&(8 /)9 )&*5$ '/(J0/(&") \H^7
!J00$)( (5$"0&$' 9&'(&),J&'5 (Q" (8.$' "+ ./0/'&($ *"<<J#
)&(&$'2 )")#&)($0/*(&>$@ &7$7 &'"-/(&")&'( *"<<J)&(&$'@ &)
Q5&*5 &)($0/*(&")' A$(Q$$) '.$*&$' /0$ J)&<."0(/)(@ /)9
&)($0/*(&>$ *"<<J)&(&$' &) Q5&*5 &)($0/*(&")' /<"),
'.$*&$' (/=$ .-/*$7 _"0 )")#&)($0/*(&>$ *"<<J)&(&$'@ (5$
/A'$)*$ "+ '/(J0/(&") &' .0$9&*($9 /)9 /-- '.$*&$' */) *"$%&'(
&) (5$ *"<<J)&(8 A$*/J'$ )&*5$ './*$ &' )"( -&<&($9 A8 (5$
)J<A$0 "+ &)9&>&9J/-' \`^7 a"Q$>$0@ </)8 '(J9&$' ")
*"<<J)&(&$' 5/>$ .0$'$)($9 ./0/'&($ *"<<J)&(&$' &) (5&'
>&$Q "+ *")(&)JJ< \b]GK^7
a"-<$' \b^ $<.5/'&'$9 (5/( '.$*&$' Q&(5 *-"'$ '&<&-/0&(8
&) (5$&0 0$cJ&0$<$)(' */))"( *"$%&'( &) (5$ '/<$ './*$7 Y)
(5&' Q/8@ &)($0/*(&>$ )&*5$ 5$($0",$)$&(8 .0"<"($' '.$*&$'
*"#$%&'($)*$7 a$)*$@ ./0/'&($ '.$*&$' *"#$%&'($)*$ 5/' A$$)
'(J9&$9 &) (5$ *")($%( "+ '&($ '$,0$,/(&") /)9 )&*5$ 0$'(0&*#
(&") \b@d@e^7 a"-<$' \f^@ &) (5$ */'$ "+ $)9"./0/'&($'@
• Nucléotides ou acides aminés (pour divergences plus
anciennes)
B !"00$'.")9&), /J(5"07 P$-72 !`KL#b#`GGK#gKGgM +/%2 !`KL#b#`GKG#
GKG`7
M>6"-& "<<)2++\ '&<=">/i'*&7<J)&7*V 1:7 ;&<=">/?47
LLKL#dbGgNLLNhKL7LL ! KLLL :J'(0/-&/) ;"*&$(8 +"0 X/0/'&("-",8 Y)*7 XJA-&'5$9 A8 Z-'$>&$0 ;*&$)*$ 6(97 :-- 0&,5(' 0$'$0>$97
XYY2 ; LLKL#dbG g1LL4LLLge#g
• Caractères = positions des bases (ou AA)
• Etats de caractères = nature des bases ou AA
• Etape primordiale : alignement
• Parfois manuel
• Méthodes automatiques : retouchage manuel
• Pas de test : pas d’hypothèse nulle intéressante
36
• Nucléotides : 4 états seulement (2 types)
• Modélisable
• Homoplasie “facile”
37
• Acides aminés
• 20 états
• 5 catégories
• Modélisation
38
beaucoup plus
difficile
• Codons
• 61 états !
39
• Arbre des gènes ≠ arbre des espèces
• Gènes orthologues ou paralogues
Paralogues
Orthologues
a
b* c
Orthologues
C* B
A*
b* C*
A*
Duplication
Arbre
Gène ancestral
•
• Brouillage du signal phylogénétique
Possibilité de transfert de gène
40
Alignement
41
• Hypothèse d’homologies positionnelles entre nucléotides
ou AA
• Méthodes
• Manuelle (Seaview, BioEdit, Se-Al, ...)
• Automatique (ClustalX, MAFFT, POY, MUSCLE,
T-Coffee, ...)
• Combinaison des deux (ce qu’on fait en général)
• Alignement plus ou moins facile
• Séquence codante ou pas
• Utiliser les AA (codons) pour alignement
• Considérer les types d’AA (taille, polarité,
42
hydrophobicité)
• On peut parfois utiliser la structure secondaire
• Séquences plus ou moins divergentes
• Homologie variable selon région
• Alignement atteint par ajout d’événements
d’insertion-délétion (indels) à l’aide de gaps : limités
par pénalités (sauf aux extrémités)
• Petite sous-unité de l’ARNr
• But de l’alignement automatique : maximiser le
score de l’alignement
• Exemple
GATTC!
GAATTC
On définit :
Match
= +1
Mismatch = 0
Indel
= -1
Dot Plot
43
44
45
1
1
1
GA-TTC!
GAATTC
Score = 4
-1
1
1
0
1
1
1
0
-1
GATTC-!
GAATTC
Score = 2
1
-1
2 alignements optimaux
G-ATTC!
GAATTC
Score = 4
1
1
1
1
46
• En plus de la pénalité d’introduction des gaps (gap
opening penalty), on définit une pénalité pour
l’extension des gaps (gap extension penalty), moins
élevée (encourage extension, pas des trous partout)
• GOP et GEP peuvent varier le long des séquences,
en fonction de la présence de gaps et de
caractéristiques biochimiques (e.g. AA hydrophiles)
• On peut aussi pondérer différemment les
substitutions (certaines sont plus faciles que
d’autres ; e.g. pour AA : matrice BLOSUM 62)
47
• Problème complexe analytiquement : on ne peut
garantir le “meilleur” alignement quand le nombre
de séquences augmente (alignement multiple)
• Alignement progressif (e.g. Clustal)
• Calcul d’un arbre-guide (NJ) pour alignement
des paires de séquences
• Aligne d’abord les séquences les plus proches et
ainsi de suite
• Rapide mais pas de critère d’optimalité
48
• Alignement global ou local
• Global : considère toute la longueur des
séquences. Bien si divergence faible et taille
similaire
• Local : par région. Mieux si régions variables
• Hybride (semiglobal ou glocal)
49
• Après alignement, possibilité de sélection
automatique des régions informatives, en
éliminant les régions mal alignées
• GBlocks
• Choix de différents critères modifiant la
stringence de la sélection
• Alignement de 2 séquences : très facile et rapide
• Utilisé pour la recherche de séquences similaires
50
(≠ homologues !) dans des bases de données à des
fins d’identification
• BLAST = Basic Local Alignment Search Tool (1990)
• blastn : nucléotides vs base nucléotides
• blastx : protéines vs base protéines
• blastp : protéines vs base nucléotides traduits
• tblastn : nucléotides traduits vs base protéines
• tblastx : nucléotides traduits vs base nucléotides
traduits
•
51
e-value = expected value : “probabilité” que la
similarité obtenue soit due au hasard
• Fonction du score, de la longueur de la séquence
et de la taille de la base
• On cherche des e-values très faibles (e.g. 10 )
• Recherche dans une base de données, un génome,
-30
…
• Inférence de la fonction par rapport aux
séquences similaires, taxonomie, …
Saturation
• Multiple hits
• Substitutions multiples au même site
• Affecte les sites qui évoluent rapidement
• Conduit à une sous-estimation de la distance
évolutive entre 2 séquences
52
53
• 3 changements visibles
• 12 changements réels
54
• Détection
• Graphe des transitions (Ti) vs transversions (Tv)
• Graphe des % différences entre séquences vs
temps (si il est disponible)
• Graphe des distances non corrigées vs corrigées
(distances génétiques ou patristiques)
55
Saturation
Pas de
saturation
56
• Selon position dans le codon
Total&
0,16"
0,14"
0,12"
0,1"
0,08"
0,06"
0,04"
0,02"
0"
0"
0,02"
0,04"
Posi%on'1'
0,06"
0,08"
0,1"
0,12"
0,14"
Posi%on'2'
0,12"
0,03"
0,1"
0,025"
0,08"
0,02"
0,06"
0,015"
0,04"
0,01"
0,02"
0,005"
0"
Posi%on'3'
0,4"
0,35"
0,3"
0,25"
0,2"
0,15"
0,1"
0,05"
0"
0"
0,01"
0,02"
0,03"
0,04"
0,05"
0,06"
0,07"
0,08"
0,09"
0,1"
0"
0"
0,005"
0,01"
0,015"
0,02"
0,025"
0,03"
0,035"
0"
0,05"
0,1"
0,15"
0,2"
0,25"
0,3"
0,35"
57
58
Distance non corrigées (% différences entre séquences)
(Jukes-Cantor)
Pente = 1 : pas de saturation
Distance patristiques (mesurées sur l'arbre)
59
• Correction
• Utiliser un modèle évolutif pour corriger la
divergence entre séquences
• Eliminer les sites à évolution rapide (e.g.
troisième position des codons)
• Pondérer différemment Ti et Tv
• Utiliser seulement Tv
• Utiliser des séquences à évolution plus lente
Biais
60
• Attraction des longues branches
• Si la méthode suppose que tous les sites
changent au même taux
A
B
p
A
D
p
q
q
q
C
D
Vrai arbre
C
B
Arbre inféré
• Exemples
61
• Exemple
62
mtDNA évoluant rapidement
chez Bilateria : attiré vers
outgroup
Cténophora évolue
rapidement : attiré vers
outgroup
Vrai arbre [?]
63
• Biais d’usage des codons : certains codons
davantage utilisés pour les mêmes AA
64
• Attention à prendre en compte les différences de
composition des bases dans les lignées (LogDet, ML
hétérogène)
• Exemple : % GC pour les thermophiles
Aquifex
Thermus
Bacillus
Deinococcus
Vrai arbre
Aquifex (73%)
Thermus
(72%)
Bacillus (50%)
Deinococcus
(52% G+C)
Arbre inféré
Critère d’optimalité
65
• Pour choisir le “meilleur arbre”
• Hypothèse sur le fonctionnement de l’évolution
• Différent selon les méthodes
• Nombre de pas
• Somme des longueurs de branches
• Vraisemblance
Plusieurs méthodes
66
La meilleure méthode ??
• Parcimonie
• Distance
• Maximum de vraisemblance
• Inférence Bayesienne
• Important : critère d'optimalité. S'il y en a un, il
faut comparer les topologies pour trouver la
meilleure
Topologies : nombre
67
• Nombre d’arbres non enracinés (pour n taxons)
i= n
∏ (2i-5) = (2n-5)(2n-7)...(3)(1)
i= 3
• Nombre d’arbres enracinés
i= t
∏ (2i-3) = (2n-3)(2n-5)...(3)(1)
i= 2
• Exemples
• 5 taxons : 105 arbres enracinés
• 8 taxons : 135 135
• 10 taxons : 34 459 425
• 50 taxons : 3 1074 (> atomes dans l’univers !!)
68
• Algorithmes d'exploration du Treespace
• Recherche exhaustive si peu de taxons (10-12 en
parcimonie) : examine toutes les topologies
• Branch-and-Bound : explore une partie de l’espace
des arbres (environ 20 taxons en parcimonie),
efficace
• Algorithme heuristique, moins efficace, plus
rapide : trouver un “bon” arbre par une
agglomération judicieuse des taxons, puis
réarranger cette topologie pour en trouver
éventuellement une meilleure
69
Treespace
Global optimum
Suboptimal island of
trees
Starting trees
“Treespace”
• Réarrangements :
• NNI = Nearest-Neighbor Interchange
• Plus rapide, moins rigoureux que les autres
70
techniques
• SPR = Subtree Pruning and Regrafting
• TBR = Tree Bisection Reconnection
• Plus rigoureux, plus lent
!
!
!
!
!
!
• Avec un algorithme heuristique, il est bon de lancer
plusieurs recherches indépendantes (e.g. 10)
71
72
73
Parcimonie
74
Cladistique
• Deux lignées sont plus proches entre elles
que d’une autre si elles partagent un
ancêtre commun plus récent
• Hypothèses phylogénétiques = hypothèse
d’un ancêtre commun
• Associée à reconstruction par parcimonie
• MP = Maximum de Parcimonie
Principe de parcimonie
75
• “Rasoir d’Ockham”
Pluralitas non est ponenda sine necessitate
• Favoriser la solution la plus simple
• Permet de choisir entre plusieurs hypothèses
phylogénétiques
• Maximiser les congruences et minimiser les
homoplasies
• Mesure de l’ajustement des caractères aux arbres
• Méthode basée sur les caractères individuels
Ajustement (fit) des
caractères
• Nombre minimum de pas (passage d’un état à
l’autre) requis pour expliquer la distribution
observée des états de caractères
• Cela est déterminé par l’optimisation de caractères par
parcimonie (mapping)
• Cette optimisation est différente sur différents arbres
• Position des changements parfois non unique pour
un même arbre et un même nombre de pas :
longueurs de branches pas toujours définies
76
77
1 pas
Poils
Oiseau
Chauve-souris
Humain
Crocodile
Grenouille
Kangourou
Humain
Chauve-souris
Kangourou
Oiseau
Grenouille
Crocodile
Exemple
2 pas
Absents
Présents
Analyse par parcimonie
78
• Pour un ensemble de caractères, détermination de
l’ajustement (nombre de pas) de chaque caractère à
l’arbre
• La somme pour tous les caractères (X pondération
éventuelle) est appelée la longueur de l’arbre
• Les arbres les plus parcimonieux (MPT = most
parsimonious trees) sont ceux qui ont la longueur la
plus petite
• Caractère informatif : au moins 2 états dans 2 taxons
• Critère d’optimalité (= fonction objective) : nombre
de pas = longueur de l’arbre
•
• Plusieurs arbres : consensus
• Les arbres donnent en même temps des
79
On peut obtenir un ou plusieurs MPT
séquences (hypothèses) évolutives des caractères
• Longueurs de branches : nombre de
changements. Généralement sous-estimées. Pas
un but de ce type de méthode (longueurs souvent
non considérées)
• Plusieurs mesures pour les arbres et les
caractères estiment l’ajustement entre arbre et
données : degré d’homoplasie (CI, RI, ...)
Consensus
• Strict
• Semi-strict
• Majoritaire
80
81
Types de caractères
• Différences des coûts pour les changements d’états
• Wagner (ordonné, additif) : morphologie
0 → 1 → 2
• Fitch (non ordonné, non additif, coûts égaux) :
ADN, protéines, morphologie
A ⎯ G
T ⎯ C
82
• Sankoff (généralisée)
A ⎯ G 1 pas
T ⎯ C 5 pas
• Exemple typique : poids différent des transitions
et des transversions
• Coûts symétriques ou asymétriques
83
Transversions (Tv)
Py
Pu
Stepmatrices
de
Purines (Pu)
G
A
à
C
T
Pyrimidines (Py)
A
C
G
T
A
0
5
1
5
C
5
0
5
1
G
1
5
0
5
T
5
1
5
0
Transitions (Ti)
Py
Py
Pu
Pu Transitions plus faciles
Transversions plus nombreuses
Parcimonie généralisée
• = Parcimonie pondérée
• Fait intervenir des coûts différents pour les
changements
• Minimise la somme des coûts = coût total
84
85
• Problème de la définition des coûts
• On connaît certains éléments de l’évolution
moléculaire permettant de jouer sur les coûts
• Transitions/transversions (Ti/Tv, nombres ou
taux)
• Hétérogénéité du taux de substitution,
notamment en fonction de la position dans les
codons
Algorithmes
86
1. Calculer les topologies
2. Optimiser tous les caractères et calculer les longueurs
• Long si beaucoup de taxons
• Algorithmes
• Recherche exhaustive si peu de taxons (10-12) :
examine toutes les topologies
• Branch-and-Bound : explore une partie de l’espace des
arbres, pour environ 20 taxons, efficace
• Algorithme heuristique, moins efficace, plus rapide
Parcimonie - Avantages
87
• Simple
• Pas de modèle explicite d’évolution
• Arbre et évolution des caractères
• Bien si homoplasie rare
• Bien pour caractères morphologiques
Parcimonie - Inconvénients
• Problème si beaucoup d’homoplasies, ou
concentrées dans certaines régions
• Attraction des longues branches (Felsenstein Zone)
• Sous-estime la longueur des branches
• Modèle d’évolution implicite : comportement pas
toujours clair
• Justifié sur bases plus philosophiques que
numériques
88
89
Maximum de
vraisemblance
90
• Maximum Likelihood = ML
• Méthode basée sur les caractères individuels
• Utilise un modèle d’évolution explicite
• MP est parfois considéré comme un cas particulier
du ML
• Méthode la plus complexe au niveau des calculs
• Très grande importance du modèle : uniquement
pour données moléculaires
Principe
91
• Répond à la question :
Quelle est la probabilité d’observer les données considérant un
modèle particulier d’évolution des séquences (processus et
arbre) ?
• Pr(D|T)
• Estimation de la valeur des paramètres du modèle
pour maximiser cette probabilité : vraisemblance
• Dans la pratique, on cherche bien sûr l’arbre
(topologie et longueurs)
• Calcul de la vraisemblance pour toutes les
topologies : algorithme heuristique obligatoire
Nucléotides
A
Probabilité de
A : AACG
B : ACCG
C : AACA
D : AATG
92
Sachant
D
A
"
A
$a
$b
P = C
$# c
G
$
T %d
C G T
b
C
B
c
a e
e a
c f
π = [A, C, G, T]
d&
$
f$
'
g$
$
a(
Paramètres
93
• Fréquences des bases : π
π = [A, C, G, T]
• Somme = 1
• Taux de substitution : matrice P
• Somme des lignes = 1
• Fonction des bases et du temps (branches)
• Hétérogénéité : Γ
• Arbre
• Topologie
• Longueurs de branches
A C G T
P=
"
b
%d
a e
e a
c f
A
$a
C
$b
G
$# c
T $
d&
$
f$
'
g$
$
a(
c
A
D
C
B
Hétérogénéité du taux de
substitution
94
€
Paramètre : α
- élevé : taux = 1 partout
- faible (0,5) : la plupart
des sites changent peu
- 0 : taux tous différents
!
En pratique, une
distribution discrète
avec 4 classes donne de
bons résultats
50
37,5
25
12,5
0
Cl 1 Cl 2 Cl 3 Cl 4
• La probabilité d’observer une séquence donnée est
95
le produit des fréquences (composition) par les
taux de substitution (tenant compte de la longueur
des branches)
Exemple
"0.976 0.01 0.007 0.007 &
$
$
$0.002 0.983 0.005 0.01 $
'
P =#
$ 0.003 0.01 0.979 0.007$
$
$
0.002
0.013
0.005
0.979
%
(
(pour une longueur
de branche donnée b)
CCAT
CCGT
b
π = [0.1, 0.4, 0.2, 0.3]
Vraisemblance = πCPC→CπCPC→CπAPA→GπTPT→T
= 0.4X0.983X0.4X0.983X0.1X0.007X0.3X0.979
= 0.00003
• La vraisemblance L change en fonction des
longueurs de branches
0.0002
0.00018
0.00016
0.00014
L
0.00012
0.0001
0.00008
0.00006
0.00004
0.00002
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Longueur de la branche b
ML pour une longueur de 0.330614
96
97
• Modèle/processus Markovien : la probabilité
d'un évènement est indépendante de
l'évènement précédent
• Modèle généralement réversible (e.g. A -> T =
T -> A) pour simplification
• Nombre généralement très petit : on prend le log
98
de la vraisemblance (L)
• Additivité : log(AT) = log(A) + log(T)
• Nombre négatif (0<L<1)
• Il faut faire la même chose pour tout l’arbre
• Pour toutes les topologies et longueurs possibles
• Pour toutes les séquences de longueur donnée,
dont les séquences aux noeuds internes
• Tout en estimant les meilleurs paramètres
• C’est très long...
99
• Sans compter que les changements ne se
produisent généralement pas de la même façon à
différents endroits de la séquence
• Contraintes de structure
• Position dans le codon
• Site actif
• etc...
• Et ce taux de changement varie en fonction du
temps pour une position donnée : hétérotachie
100
• Incorporation d’une fraction de sites invariables
(estimation par ML possible, encore un
paramètre)
• Calcul de α pour les sites variables et/ou
estimation du modèle différente selon leur position
• Position dans le codon
• Hélice alpha, ...
Modèles de base
101
Jukes-Cantor (JC)
πA= πC = πG = πT
α=β
Kimura 2 paramètres (K2P)
πA= πC = πG = πT
Felsenstein 81 (F81)
πA≠ πC ≠ πG ≠ πT
α≠β
α=β
Kimura 3 paramètres (K3P)
πA= πC = πG = πT
Hasegawa-Kishino
-Yano 85 (HKY 85)
πA≠ πC ≠ πG ≠ πT
α ≠ β1 ≠ β2
α≠β
Symétrique (SYM)
πA= πC = πG = πT
Tamura-Nei (TrN)
πA≠ πC ≠ πG ≠ πT
6 taux différents
General Time Reversible (GTR)
πA≠ πC ≠ πG ≠ πT
α : transitions
β : transversions
α ≠ β1 ≠ β2
6 taux différents
Séquences codantes
102
• Différentes contraintes sur différentes positions sur
le codon
• Partitionner la séquence par rapport à la position
dans le codon et attribuer à chaque partition un
modèle et ses paramètres. Différentes possibilités
• SRD06 (Shapiro et al. 2006)
• Lier les positions 1 et 2
• La position 3 peut avoir un taux, Ti/Tv, Γ
différents
• Utiliser un codon model
103
• Utilisation de l’information sur le code génétique :
codon model
• Intense en calculs
• GY94 (Goldman & Yang 1994, Muse & Gaunt
1994) (MrBayes, HyPhy, PAML, MetaPIGA)
• Nouveau paramètre ω = ratio substitutions
non synonymes/synonymes
Protéines (acides aminés)
• Modèle : probabilité de changement d’un AA en un
autre (PhyML, Mega, SeaView, Puzzle, Phylip)
• 20 AA : beaucoup plus de possibilités que les
nucléotides, estimation difficile
• Beaucoup de modèles empiriques (Dayhoff, JTT,
WAG, Blosum, ...), issus de grands jeux de
séquences, comparées par paires ou basés sur des
arbres (par MP ou ML)
• Certains modèles basés sur les codons (REV),
éventuellement sur différents codes génétiques
• Prise en compte des caractéristiques des AA
104
Choix du modèle
105
• Plus un modèle comporte de paramètres
• Plus il s’ajuste aux données
• Plus le problème est long à calculer
• Plus l’estimation est incertaine (= augmentation de
la variance = baisse du nombre de degrés de liberté)
• Besoin d’un compromis
• A un moment, passer au modèle plus complexe ne
106
produit pas une amélioration significative
• Une solution : hLRT ou AIC (jModelTest, ModelTest,
MrModelTest, ProtTest)
• hLRT (hierarchical likelihood ratio test) : compare les
modèles entre eux (doivent être emboîtés)
• AIC (Akaike information criterion) : estime
l’ajustement du modèle aux données
• AIC = 2k - 2logL, où k est le nombre de
paramètres
• Choisir un modèle avec AIC le plus bas
107
• Très long d’estimer les paramètres en même
temps que la topologie
• Si l’arbre est “en gros” correct, l’estimation des
paramètres est stable
• Estimation à partir d’un arbre construit
rapidement (MP, NJ)
• Utilisation de ces paramètres pour recherche
de la topologie
Likelihood Ratio Test
• Nombreuses hypothèses testables de cette façon
• Comparaison de deux hypothèses emboîtées : l’une
(H0) est une simplification de l’autre (H1)
• Statistique Δ = logL1 - logL0
• Si pas de différence, 2Δ suit une loi du Χ2 dont le
nombre de degrés de libertés est le nombre de
paramètres différents entre les deux hypothèses
• Comparaison de modèles, topologies (KH- et SHtests), longueurs (horloge moléculaire), ...
108
ML - Avantages
109
• Prend en compte la saturation
• Bonnes longueurs de branches
• Consistant : si le modèle est bon, convergence vers le
bon arbre quand le nombre de données augmente
• Non sujet à l’attraction des longues branches si bon
modèle
• Utilise toutes les données (pas de “sites informatifs”)
• Processus d’évolution et séquences ancestrales
• Assez robuste
ML - Inconvénients
110
• Inconsistant si le modèle n’est pas le bon
• Même le modèle le plus complexe est une
simplification de la réalité
• Encore très lourd en calculs : besoin d’heuristiques
donc de compromis
Inférence Bayesienne
111
• Technique la plus récente, de plus en plus utilisée
(MrBayes, PhyloBayes, BayesPhylogenies)
• Mêmes modèles qu’en ML (MrModelTest)
• Basée sur la notion de probabilité postérieure, qui se
base sur la connaissance des données à l’avance :
probabilité a priori (prior) (sujet controversé)
112
• Quelle est la probabilité du modèle/arbre
considérant les données ?
• Pr(T|D) = (Pr(T)Pr(D|T))/Pr(D)
probabilité
posterieure
prior vraisemblance probabilité des données
• La formule de Bayes combine la probabilité a priori et
113
la vraisemblance pour générer une probabilité
postérieure : prior choisi comme non informatif (e.g.
plat), ainsi la probabilité postérieure (pp) dépend
essentiellement de la vraisemblance
• Ne cherche pas “le” meilleur arbre (idem pour tous
114
les paramètres), mais explore l’espace des
possibilités à l’aide d’une chaîne de Markov Monte
Carlo (MCMC) et échantillonne les topologies
obtenues dans le plateau des choix optimaux (e.g.
hautes vraisemblances pour arbres) : intervalles de
confiance, quantification du support des clades (pp)
• Pas d’étape de validation nécessaire : un très grand
nombre d’arbres est généré, le consensus de
l’échantillon donne les probabilités d’apparition des
clades (si le modèle est le bon !) : plus rapide que le
ML
• Le randonneur masqué (= robot)
100 pas
1000 pas
115
10000 pas
Plat
Accidenté
116
117
118
• Problème : utiliser des chaînes de calculs
assez longues. Utilisation de plusieurs
chaînes afin de mieux explorer le treespace
(MCMCMC = Metropolis coupled
MCMC) et éviter de rester bloqué sur des
pics suboptimaux
• Couplage des chaînes
119
Chaîne froide
Chaîne chauffée 1
Chaîne chauffée 2
Chaîne chauffée 3
1 chaîne froide
+ 3 chaînes chauffées
120
bonne
convergence
121
• Attention à la convergence des chaînes
Pas de
convergence
Convergence
trop lente
• On ne garde que les arbres optimaux et on "brûle"
122
les autres : burnin
!
!
!
!
!
!
!
• Typiquement prédéfini à 10-25% des arbres
conservés (ngen/fréquence)
• Exemple : sortie de MrBayes
!
123
Rough plot of parameter LnL !
+------------------------------------------------------------+ -47216.46!
|
*******************************************************|!
|
*
|!
|
*
|!
| *
|!
|
|!
| *
|!
|
|!
|
|!
|
|!
|*
|!
|
|!
|
|!
|
|!
|
|!
|
|!
+------+-----+-----+-----+-----+-----+-----+-----+-----+-----+ -72924.41!
^
^!
1
100000!
• 100000 itérations (générations)
• Échantillonnage d’un arbre/100 gen : 1000 arbres
• Élimination de 200 arbres (plateau) puis consensus
124
125
Approche traditionnelle
(ML, MP)
Inférence Bayesienne
Tendance à accepter les
arbres avec une meilleure
probabilité postérieure
Long !
MC
Après un délai :
échantillon d’arbres
de hautes probabilités
postérieures
126
• L’analyse
Bayesienne estime
une probabilité
marginale (Arbre
B) plutôt que
jointe (Arbre A)
• ML choisi l’arbre
A (pic plus haut) • BI choisi l’arbre
B (pic plus
volumineux)
127
• Applications très nombreuses : reconstruction de
caractères ancestraux, estimation de temps de
divergence... et pas seulement en reconstruction
phylogénétique
• Les probabilités postérieures des clades ont
tendance à être supérieures aux valeurs de
bootstrap : surestimation de la précision ?
• Probablement pas, interprétation différente des
pp et proportions de bootstrap
128
Distances
129
• Estimation du nombre moyen de changements
entre paires de taxons
• Basée sur distances et non caractères individuels
• Données parfois uniquement sous forme de
distances (hybridation ADN/ADN, sérologie,
morphométrie, ...)
• Sinon transformation des données en matrice de
distance
• Surtout pour données moléculaires
• Le simple pourcentage de différences entre
130
séquences (p-distance) sous-estime généralement la
vraie distance à cause de la saturation
• D’autant plus vrai que les séquences sont éloignées
• Utilisation d’un modèle corrigeant les distances : les
paramètres reflètent la façon dont on pense que se
fait l’évolution moléculaire (mêmes modèles qu’en
ML : JC, K2P, GTR, ...)
• Ces modèles peuvent également presque tous inclure
l’hétérogénéité du taux de substitution (Γ)
• La distance LogDet permet des fréquences de bases
différentes dans les séquences comparées
• ADN codant : substitutions synonymes (ne
131
changent pas AA) et non synonymes
• Vitesse d’évolution plus rapide pour synonymes
• Ka = distance non synonyme = substitutions non
synonymes/sites non synonymes
• Ks = distance synonyme = substitutions
synonymes/sites synonymes
• Distances tiennent compte de Ti et Tv (K2P)
• Séquences proches : seul Ks est informatif
• Séquences distantes : Ks est saturé, Ka est
informatif
Algorithmes
• Principal : Neighbor-Joining (NJ)
• Arbres additifs
• Dérivés : BioNJ, weighbor...
• Parfois (avant) : UPGMA
• Arbres ultramétriques (horloge moléculaire)
132
133
• NJ : part d'un arbre en étoile et forme
séquentiellement les paires qui minimisent la
longueur de l'arbre (somme des longueurs de
branches)
8
!
8
7
1
1
7
!
6
2
6
!
4
3
5
5
4
!
3
2
• Tend à donner l'arbre le plus court mais pas
d'optimisation pendant la procédure, qui est une
simple agglomération (donc très rapide)
134
Paramètres du modèle
• Le modèle doit s’ajuster aux données, il
faut trouver les bons paramètres
• Nombre de sites invariables
• Taux de substitution variable le long de
la séquence
• Taux de substitution différents pour
chaque type de changement
• Distances de départ ≠ distances patristiques
135
(calculées à partir de l’arbre)
• Distances de départ (pairwise distances,
éventuellement avec correction par un modèle)
!
!
!
!
• Distances patristiques
• p ≠d
ij
ij
• Différence entre p
et dij (sinon les distances seraient
parfaitement additives)
ij
• Saturation
• Erreurs aléatoires même si modèle parfait (et il ne
l'est pas !)
• Il faut un critère pour l’ajustement des données
d’origine à l’arbre (topologie et longueurs), donc
minimiser la différence dij - pij
• Fitch-Margoliash, Cavalli-Sforza-Edwards : moindres
carrés
• Minimum evolution (ME) : minimise la longueur de
l’arbre
136
137
• Quantité à minimiser = somme des carrés
!
!
!
• k = 2 : Fitch-Margoliash (1967)
• k = 0 : Cavalli-Sforza & Edwards (1967)
138
• Mauvais ajustement (d
ij
: distances JC)
• Bon ajustement (longueur des branches =
139
estimation par moindres carrés)
• Minimum evolution
140
141
• L’algorithme ne garantit pas lui-même
d’atteindre un tel critère d’optimalité, mais le NJ
s’en approche
• Mieux d’ajouter une étape d’optimisation, mais
plus long
Distances - Avantages
142
• Rapide : seule méthode si nombre de taxons très
élevé
• Beaucoup de modèles, testables par ML
• LogDet très utile quand la composition en base
varie (uniquement en analyse de distances), mais
ne prend pas en compte l’hétérogénéité du taux
de substitutions (éliminer les sites invariables)
Distances - Inconvénients
143
• Perte d’information : impossible de revenir aux
séquences avec les distances
• Pas de scénarios évolutifs des caractères
• Souvent moins bien que ML (simulations)
144
Validation
• Avec n’importe quelles données, on obtient un
145
arbre, même s’il n’y a pas de signal phylogénétique
dans ces données
• Pas moyen de tester si l’arbre est “le bon” (pas
d’hypothèse nulle intéressante)
• On peut néanmoins estimer la confiance qu’on peut
avoir dans un arbre
• Beaucoup de méthodes basées sur la randomisation
(destruction ou altération du signal
phylogénétique)
• La plupart de ces méthodes sont indépendantes de
la méthode de reconstruction choisie
Bootstrap (non paramétrique)
146
• Technique de ré-échantillonnage
• Création de nouveaux jeux de données (100,
1000,...) à partir de l’original : sélection aléatoire des
caractères (colonnes) avec remise (sans remise :
jacknife)
• Bruit dans la structure phylogénétique =
estimation de la variance de l’échantillonnage
• Inférence de l’arbre à partir de chaque jeu
• Consensus majoritaire de tous arbres obtenus
• Pourcentage d’apparition des clades = support
147
• Très utilisé (parfois obligatoire pour publier)
• Suppose l’indépendance des caractères
• Suppose qu’ils sont “identiquement distribués”
• Pas un test statistique
• Souvent trop conservateur (proportions trop
faibles)
• Besoin de beaucoup de caractères :
généralement pas idéal pour morphologie
Bootstrap paramétrique
• Sélection d’un modèle à partir des données
(ModelTest)
• Estimation de la topologie
• Utilisation de cette topologie et du modèle pour
générer des données par simulation (SeqGen)
• Analyse de la variation de ces jeux de données
simulés : topologie, intervalles de confiances
(datation, ...), tests de comparaison de topologies
(SOWH, ...)
148
149
Permutation Tail
Probability
• Test statistique. H0 : pas de structure phylogénétique
• Mesure d’une statistique sur l’arbre (ex : longueur)
• Destruction de la structure des données originales
par permutations aléatoires répétées (randomisation)
• Génération d’une distribution de la statistique sous
H0
• PTP : proportion de données ≥ à la statistique
observée
150
Randomisation
• Garde le nombre de taxons, de caractères et d’états
de caractères
‘TAXA’
R-P
A-E
N-R
D-M
O-U
M-T
L-E
Y-D
1
R
A
N
D
O
M
L
Y
2
P
E
R
M
U
T
E
D
3
R
A
N
D
O
M
L
Y
‘CHARACTERS’
4
5
6
P
R
P
E
A
E
R
N
R
M
D
M
U
O
U
T
M
T
E
L
E
D
Y
D
7
R
A
N
D
O
M
L
Y
8
P
E
R
M
U
T
E
D
1
N
R
M
L
D
O
Y
A
2
U
E
R
T
E
M
D
P
3
D
A
M
R
Y
O
N
L
‘CHARACTERS’
4
5
6
E
R
T
P
L
E
M
A
D
E
Y
M
U
D
E
T
O
U
D
M
P
R
N
R
7
O
A
N
D
Y
L
M
R
8
U
D
P
R
M
T
E
E
‘TAXA’
R-P
A-E
N-R
D-M
O-U
M-T
L-E
Y-D
151
Frequency
FAIL
TEST
95% cutoff
PASS
TEST
reject null hypothesis
Measure of data quality (e.g. tree length, ML, pairwise incompatibilities)
GOOD
BAD
152
• Signal phylogénétique
Number of
Number of
Tree length
replicates Tree length
replicates
------------------------- ------------------------1222*
1
1686
8
1669
1
1687
7
1671
1
1688
6
1672
1
1689
8
1673
1
1690
6
1674
1
1691
3
1675
2
1692
2
1676
2
1693
3
1678
1
1694
3
1679
2
1695
3
1680
4
1696
3
1681
5
1697
2
1682
8
1699
2
1683
4
1702
1
1684
4
1704
2
1685
2
1705
1
• Pas de signal
153
Number of
Number of
Tree length
replicates Tree length
replicates
------------------------- ------------------------1924
3
1940
6
1926
1
1941
7
1927
4
1942
4
1928
1
1943
2
1929
2
1944
1
1930
8
1945
1
1931
6
1946
1
1932
5
1947
1
1933
4
1950
3
1934
4
1952
1
1935
5
1953
1
1936
1
1955
1
1937
8
1958
1
1938*
11
1939
7
154
• Rejette facilement H0 : identification seulement
de données vraiment “mauvaises”
• N’indique pas où se situe la structure dans les
données
Indice de Bremer
155
• IB = Decay index (TreeRot)
• Seulement pour la parcimonie
• Un clade solide devrait apparaître dans des arbres
légèrement plus longs que le MPT
• IB = nombre de pas nécessaire pour “casser” un
clade
• Pour un arbre = somme des IB pour chaque clade
156
• IB d’autant plus important que groupe bien soutenu
• IB > 0 que pour les clades apparaissant dans les
MPT
• IB non standardisé (≠ bootstrap) : interprétation pas
toujours simple
• En général en accord avec bootstrap
157
Combinaison de
données
• Plusieurs jeux de données (gènes, morphologie, ...) :
plusieurs arbres
158
• Problème important actuellement à cause de
l’utilisation croissante de génomes (beaucoup de
gènes !) en phylogénie
• Que faire si les arbres issus de ceux-ci ne sont pas
congruents ?
• Comparer les arbres séparés et/ou les combiner
(consensus)
• Combiner les données (total evidence) et reconstruire
un arbre
• Combinaison conditionnelle : test préalable
d’homogénéité des données
•
159
Consensus
• Combinaison (total evidence)
160
Partition homogeneity test
161
• Test ILD (Incongruence Length Difference)
• Principe
• Pour les mêmes données, comparer la longueur
(ou ML) de l’arbre avec les partitions observées
et avec des partitions aléatoires
• Si elles ne sont pas significativement différentes,
il y a homogénéité des données : combiner
• Sinon : garder les arbres séparés ou éliminer les
taxons créant le conflit
sp1
sp2
sp3
sp4
sp5
sp6
sp7
sp8
TACATAAACAAGCCTAAAATGCGACACTACGTTCACTGTTACGCTCTCCACTGCCTAGACGAAGAAGCTTCA
TACATAAACAAGCCCAAAATGCGACACTACGTCCACTGTTATGCTCTCCACTGCCTAGACGAAGACGCTTCA
TACATAAACAAGCCCAAAATGCGACACTACGTCCACTGTTACGCTCTTCACTGCCTAGACGAGGATGCCTCG
TACATAAATAAGCCAAAAATGCGACACTACGTTCATTGTTACGCACTCCATTGCCTCGACGAAGAAGCTTCA
TACATAAACAAACCCAAAATGCGACACTACGTCCACTGTTATGCTCTCCACTGTCTAGACGAAGACGCTTCG
TACATAAACAAGCCCAAGATGCGTCACTACGTCCACTGCTACGCCCTCCACTGTCTCGACGAGGAGGCCTCG
TACATAAACAAACCAAAAATGCGACACTACGTCCATTGTTACGCCCTACACTGCCTAGACGAAGACGCTTCA
TACATAAACAAACCAAAAATGCGACACTACGTCCATTGTTACGCCCTACACTGCCTAGACGAAGACGCTTCA
Partition 1 : L = 12
sp1
sp2
sp3
sp4
sp5
sp6
sp7
sp8
L = 21
162
Partition 2 : L = 9
TACATAAACAAGCCTAAAATGCGACACTACGTTCACTGTTACGCTCTCCACTGCCTAGACGAAGAAGCTTCA
TACATAAACAAGCCCAAAATGCGACACTACGTCCACTGTTATGCTCTCCACTGCCTAGACGAAGACGCTTCA
TACATAAACAAGCCCAAAATGCGACACTACGTCCACTGTTACGCTCTTCACTGCCTAGACGAGGATGCCTCG
TACATAAATAAGCCAAAAATGCGACACTACGTTCATTGTTACGCACTCCATTGCCTCGACGAAGAAGCTTCA
TACATAAACAAACCCAAAATGCGACACTACGTCCACTGTTATGCTCTCCACTGTCTAGACGAAGACGCTTCG
TACATAAACAAGCCCAAGATGCGTCACTACGTCCACTGCTACGCCCTCCACTGTCTCGACGAGGAGGCCTCG
TACATAAACAAACCAAAAATGCGACACTACGTCCATTGTTACGCCCTACACTGCCTAGACGAAGACGCTTCA
TACATAAACAAACCAAAAATGCGACACTACGTCCATTGTTACGCCCTACACTGCCTAGACGAAGACGCTTCA
Partition 1 : L = 14
L = 25
Partition 2 : L = 11
163
Sum of
Number of
Sum of
Number of
tree lengths
replicates tree lengths
replicates
------------------------------------------------------------1661
1
1672
10
1662
2
1673
7
1663
1
1674
4
1665*
9
1675
4
1666
8
1676
1
1667
9
1677
4
1668
5
1678
2
1669
11
1679
1
1670
10
1680
1
1671
9
1683
1
* = sum of lengths for original partition
P value = 1 - (87/100) = 0.130000
Estimation de la différence
entre arbres
• Test de Templeton
• Une des approches les plus anciennes (Templeton
1983)
• Comparaison de topologies de longueurs différentes :
cette différence est-elle significativement différente
de 0 ?
• Lister les caractères dont les longueurs sont
différentes
• Faire un test de Wilcoxon (rangs signés, non
paramétrique)
164
165
• Différence symétrique (PAUP)
• Statistique : nombre de partitions différentes entre
arbres (topologies seulement)
• Comparer la statistique observée contre une
distribution sous l’hypothèse nulle générée par des
topologies aléatoires
• Tests de vraisemblance
• Test Kishino-Hasegawa (1989) (PAUP)
• Statistique : différence en lnL (likelihood
166
ratio) ou longueurs (pas) entre arbres (proche
de 0 si pas de différence significative)
• Les arbres doivent être choisis a priori (PAS le
meilleur arbre en ML contre un arbre
suboptimal)
• La distribution sous l’hypothèse nulle est
générée à partir des différences entre sites ou
de pseudoréplicats (bootstrap) si la
distribution n’est pas normale
• Test de la différence observée contre la distribution
167
sous l’hypothèse nulle
Sites favouring tree A
Mean
Expected
Sites favouring tree B
0
Distribution of Step/Likelihood differences at each site
• Test de Shimodaira-Hasegawa (1999) (PAUP)
général, les arbres sont choisis a posteriori, à
• En
partir d’une analyse phylogénétique : KH pas
adapté
ce cas, le test SH corrige le biais dans le
• Dans
rejet H par le test KH, mais même principe
0
• Comparaison de topologies multiples
Approximately Unbiased (Shimodeira, 2002)
• Test
(Consel)
les tests KH et SH, c’est un winning sites
• Comme
test
conservatif que le test SH, car meilleur
• Moins
processus de génération des pseudoréplicats
168
• Test Swofford Waddell Olsen Hillis (SWOH)
• Utilise le bootstrap paramétrique
: la topologie A (hypothétique) n’est pas
• Hdifférente
de la B (observée, e.g. arbre ML inféré
169
0
sur les données) ?
qui estime la différence entre A and B
• Statistique
: likelihood ratio, nombre de pas, ...
du meilleur modèle avec A et simuler les
• Calcul
données sur cette topologie (SeqGen)
partir du jeu de données simulé, trouver la
• Avraisemblance
pour la topologie A et calculer
l’arbre ML
• Calculer Δ (si LRT) pour chaque paire d’arbre
170
• Répéter l’opération : distribution de la
statistique Δ pour estimer la significativité de la
valeur observée
• Si Δ observé > 95 % des valeurs simulées de Δ,
rejet de H0
• Plus puissant que tests KH, SH, et AU, mais
dépend du modèle, qui doit être correct
• Méthode Bayesienne : très lourd en calcul
(pratiquement infaisable)
Superarbres
(Supertrees)
• Combinaison d’arbres ayant seulement une partie
des taxons en commun
• Permet d’obtenir un arbre plus grand
• Plusieurs méthodes (une vingtaine actuellement)
• Indirectes : construction d’une matrice à partir
des arbres, puis analyse de cette matrice avec un
critère d’optimalité (e.g. MRP, MRD, MRC,
MRF)
• Directes : combinaison des topologies d’une façon
analogue à un consensus (e.g. MinCut, Modified
MinCut)
171
172
173
Matrix Representation
with Parsimony (MRP)
174
• Technique de loin la plus utilisée
• Reconstruction d’une matrice à partir des arbres
(Clann, Rainbow) puis analyse par parcimonie
(PAUP) : ça peut être très long
• Codage des clades (noeuds) pouvant
éventuellement être pondérés (e.g. bootstrap dans
arbres sources)
• Permet d’utiliser les indices de validation classique
175
176
MinCut
• Analyse directe : pas de critère d’optimalité
• Rapide
• Pas de validation du superarbre
• Bien si arbres sources compatibles
177
• Utilisations des superarbres
• Combinaison d’arbres issus de données/études
différentes
• Phylogénomique : gènes souvent inégalement
présents dans les taxons étudiés
• Métagénomique : taxons partiellement et
inégalement représentés dans les séquences
➡Nombreux “trous” dans la matrice :
• Supermatrice (telle quelle)
• Découpage en sous-matrices complètes puis
superarbre
• Exemple : séquences environnementales dans la mer
178
9E
uk
22
Alv
26
Alv
13Din
h
3
Sp
39
31
CC
3R
Ant
33
g
35Eu
is
selm
Tetra
l
19Ch
79
88
96
lla
Mantonie
1RCC143
82
85
refPFRRDB
93
81
Ostreococcus
Bathycoccus
87
97
Haplosp
oridium
52
57
54
67
56
79
59
ULABN14TF
6
refDSU2133
2Hyd
4Hyd
14Euk
16Cr
u
24Eu
k
28
Cru
25
Cru
21
G
ym
Ci
30
m
34Gy
20
Eu
k
32
Co
l
18
Eu
Euk
kO
LI11
261
ULAK
X75T
F
Alveol
ateGII
66
93
81
7Pla
k
Eu
10
ru
8C
Cru
27
k
Eu
15
k
Eu
29
17Euk
ystis
Phaeoc
nesio
Prym
F
943T
3
ULAC
02
99
r
H77
Bu
B
11
GB
...
98
99
5Emb
Emiliania
96
85
refTH
ER
R18S
refBBO
RR18S
C
refPVLRRD
A
Bolidomonas
70
Nannochloropsis
roides
Nyctothe
ymena
Tetrah
6Sph
ean
thar
ia
Acan
us
Han
e
ch
pty
3
no
02
86
Cya
F2
fA
re
Ka
Gy
re
ro
na
din
Ale
ium
xa
nd
refS
riu
YM
m
18
SR
RN
ULAG
91
E01T
F
ULADY7
4TF
ULAE
395T
F
12Eu
k
23
Euk
des Sargasses
179
• Parfois trop de taxons/données pour pouvoir les
analyser
• Découpage en sous-jeux bien choisis, analyse
individuelle, combinaison : divide-and-conquer
• Supermatrice (en plus du problème ci-dessus) :
beaucoup de données manquantes augmentant le
temps de calcul
• Conflits possibles entre superarbre et supermatrice
180
181
Phylogénomique
182
12/04/2014 :
41895 génomes
183
• Génomes : phylogénies plus précises ?
Pas si simple...
• Données très nombreuses : calculs difficiles
• Génomes plastiques : duplications (totales,
partielles), fusions et fissions de chromosomes,
LGT, ...
• Pas de (bons) modèles d’évolution génomique
• Encore délicat : besoin de beaucoup de précautions
pour contrôler les biais (voir Delsuc et al. 2006)
184
• Diminution de l’erreur stochastique (aléatoire),
simplement par augmentation du nombre de
caractères
• Il reste toujours la possibilité d’erreur systématique,
causée par exemple par l’inadéquation de la
méthode et/ou du modèle choisi aux données
• 3 biais principaux
• Biais de composition : des séquences de même
185
composition nucléotidique ont tendance à se
grouper
• A vérifier à partir des séquences
• Attraction des longues branches
• Bonne densité de taxons (taxon sampling)
• Hétérotachie : changement de variation du taux
de substitution à une position donnée au cours du
temps
• Difficile à détecter et à corriger
Génomes
186
• Davantage de caractères
• Nouveaux types de caractères : ordre des gènes,
contenu en gènes, signature nucléotidique (DNA
strings), changement génomiques rares
• 2 approches principales
• Classique : séquences (concaténation des gènes)
puis phylogénie (supermatrice ou superarbre)
• Caractéristiques des génomes entiers : ordre des
gènes, contenu en gènes, DNA strings (signatures)
• + 1 : changements génomiques rares
187
Méthodes
classiques
188
• Résolution de problèmes phylogénétiques
difficiles (e.g. Tree of Life, Eucaryotes,
Bilateria)
• Evolution de groupes de gènes : mutations,
pressions sélectives
• Identification des transferts latéraux de gènes
• Exemple : vue (autrefois) classique de l’évolution
189
• Données génomiques (Nature, 2006)
190
des deutérostomiens
- 146 gènes
- Méthodes classiques :
séquences
- contrôle des biais
• Exemple : phylogénie des Eucaryotes (2009, 2010)
191
192
• Exemple : Tree of Life
- Pourpre : identifié
par la génomique
- Jaune : confirmé
par la génomique
REVIEW
• Exemple : Tree of Life (Science, 2006)
doi:10.1038/nature12779
193
An archaeal origin of eukaryotes supports
only two primary domains of life
Tom A. Williams1, Peter G. Foster2, Cymon J. Cox3 & T. Martin Embley1
The discovery of the Archaea and the proposal of the three-domains ‘universal’ tree, based on ribosomal RNA and core
genes mainly involved in protein translation, catalysed new ideas for cellular evolution and eukaryotic origins. However,
accumulating evidence suggests that the three-domains tree may be incorrect: evolutionary trees made using newer
methods place eukaryotic core genes within the Archaea, supporting hypotheses in which an archaeon participated in
eukaryotic origins by founding the host lineage for the mitochondrial endosymbiont. These results provide support for
only two primary domains of life—Archaea and Bacteria—because eukaryotes arose through partnership between them.
S
ince their discovery by Carl Woese and his co-workers in 1977, the
Archaea have figured prominently in hypotheses for eukaryotic
origins1,2. Although similar to Bacteria in terms of cell structure,
molecular phylogenies for ribosomal RNA and a small core of genes, that
mainly have essential roles in protein translation3, suggested that the Archaea
were more closely related to the eukaryotic nuclear lineage; that is, to the
host cell that acquired the mitochondrion4. The idea that Archaea and
eukaryotes are more closely related to each other than either is to Bacteria depends on analyses suggesting that the root of the tree should be
placed on the bacterial stem, or within the Bacteria5–12, implying that the
prokaryotes—cells that lack a nucleus—are a paraphyletic group13. The
main question now debated is whether core components of the eukaryotic
nuclear lineage descend from a common ancestor shared with Archaea,
as in the three-domains tree14 (Fig. 1), which is also often called the ‘universal tree’ or ‘tree of life’15–17, or from within the Archaea, as proposed by
archaeal-host hypotheses for eukaryotic origins2. The archaeal-host scenario with the greatest phylogenetic support is the eocyte hypothesis18,
which proposes a sister-group relationship between eukaryotes and the
eocytes (or Crenarchaeota14), one of the major archaeal divisions (Fig. 1).
However, the three-domains–eocyte debate remains controversial because
different phylogenetic methods have delivered different results, often from
the same data19. This disagreement is due, at least in part, to the difficulties associated with resolving ancient divergences in phylogenetic trees.
Challenges of reconstructing ancient relationships
A major issue in reconstructing ancient relationships is the strength and
quality of historical signal remaining after the millions of years since the
divergence of Archaea and eukaryotes. The earliest fossils identified as
eukaryotic appeared by about 1.8 billion years ago20; over this enormous
span of time, the accumulation of multiple substitutions in DNA and
protein sequences might have erased any signal that would allow the
relationship between archaeal and eukaryotic core genes to be established21. However, more recent simulations and empirical studies suggest that there are reasons to be cautiously optimistic that this is not the
case: functional constraints vary across real DNA and protein sequences
so that sites evolve at different rates22–25. Fast-evolving sites are indeed
194
• Exemple : Tree of Life - 2 ou 3 domaines ?
a
b
Monophyletic Archaea
Paraphyletic Archaea
Eukaryota
Euryarchaeota
Euryarchaeota
Eukaryota
Eocytes/Crenarchaeota
Eocytes/Crenarchaeota
Thaumarchaeota
Thaumarchaeota
Aigarchaeota
Korarchaeota
Aigarchaeota
Korarchaeota
TACK
Bacteria
TACK
Bacteria
Eocyte hypothesis
Three-domains hypothesis
Figure 1 | Competing hypotheses for the origin of the eukaryotic host cell.
a, The rooted three-domains tree14 depicts cellular life divided into three major
monophyletic groups or domains: the Bacteria, Archaea and Eukaryota—the
latter representing the host lineage, sometimes also called the nuclear or
nucleo-cytoplasmic lineage5, that acquired the mitochondrial endosymbiont.
In this tree the Archaea and Eukaryota are most closely related to each other
because they share a common ancestor that is not shared with Bacteria.
b, The rooted eocyte tree recovers the host-cell lineage nested within the
Archaea as a sister group to the eocytes (which Woese et al.14 called the
Crenarchaeota); this implies that, on the basis of the small set of core genes,
there are only two primary domains of life—the Bacteria and the Archaea. In its
modern formulation shown here the eocyte hypothesis implies that the closest
relative of the eukaryotic nuclear lineage is one, or all, of the TACK Archaea,
which include newly discovered relatives of the eocytes/Crenarchaeota.
Both trees have been traditionally rooted on the bacterial stem, consistent with
some published analyses5–8.
1
Institute for Cell and Molecular Biosciences, University of Newcastle, Newcastle upon Tyne NE2 4HH, UK. 2Department of Life Sciences, Natural History Museum, London SW7 5BD, UK. 3Centro de Cieˆncias
do Mar, Universidade do Algarve, Campus de Gambelas, 8005-139 Faro, Portugal.
1 2 D E C E M B E R 2 0 1 3 | VO L 5 0 4 | N AT U R E | 2 3 1
©2013 Macmillan Publishers Limited. All rights reserved
Pour résumer
195
Données
ADN, AA, morphologie, ...
Alignement
Logiciel + yeux
Caractères
Distances
Qualité des données
Saturation, homogénéité, ...
Distances
Méthode
Modèle ?
Type de données, nombre de taxons
BI ML
Modèle ?
MP
Critère d’optimalité
Pondérations ?
(sites, changements)
Oui
Arbre(s)
ME...
Non
NJ...
Validation
Bootstrap, PTP, Bremer, ...
Logiciels
• Pleins !!... et souvent gratuits !
presque tous pour des données moléculaires,
• ...et mais
implémentant des méthodes variées (MEGA,
SeaView, DAMBE, FastDNAml, PhyML, MrBayes,
Phylobayes, Tree-Puzzle, MetaPIGA, ...).
les données morphologiques (et moléculaires) :
• Pour
Phylip (gratuit mais pas simple), PAUP (le meilleur,
mais payant) qui contient le plus de méthodes et tests
en tous genres
logiciels pour dessiner et modifier les
• Nombreux
arbres (FigTree, TreeView, TreeEdit, TreeDyn...)
pour consensus (PAUP, Component, ...),
• Aussi
superarbres (Rainbow, Clann, SuperTree, ...)
196