Phylogénie

Sommaire

Principe

La phylogénie ou reconstruction phylogénétique peut être définie comme la reconstruction de l'histoire évolutionnaire d'un ensemble d'espèces. L'évolution entre les espèces est représentée sous forme d'un arbre (phylogénétique) dont les branches indiquent le degré de proximité entre les espèces

Il existe deux façons de caractériser les espèces :

Le premier genre d'approche basé sur les phénotypes est utilisée lorsqu'on ne dispose d'aucune information sur les génomes des espèces. Depuis le lancement des différents programmes de séquençage des génomes on a de plus en plus tendance à utilisé le second type d'approche.

Ici nous ne nous focaliserons que sur le second type de caractérisation. Nous utiliserons des séquences nucléotidiques (ou d'acides aminés) pour distinguer les espèces entre elles.

Il existe 3 types d'approches pour s'attaquer au problème de reconstruction phylogénétique :

Chacune de ces méthodes possède des avantages et des inconvénients. Faisant partie d'une équipe de recherche travaillant en optimisation combinatoire, nous avons choisi de nous intéresser à la recherche du Maximum de Parcimonie.

Méthodes

Dans le cadre de nos recherches au laboratoire LERIA, nous nous intéressons aux méthodes de caractères basées sur le critère de Maximum de Parcimonie avec modèle d'évaluation de Fitch, pour lequel les changements sont équivalents, i.e. possèdent le même coût.

Hydra (2006)

Nous avons mis au point un premier logiciel baptisé Hydra qui est une implantation d'un algorithme mémétique (algorithme génétique + recherche locale). Hydra introduit plusieurs nouveaux concepts (cf [2]) :

SAMPARS (2012)

Un deuxième logiciel nommé SAMPARS (Simulated Annealing for Maximum PARSimony [1]) a été créé. Il se base sur un recuit simulé avec une amélioration de la fonction de sélection du prochain voisin et intègre des résultats du travail de Karla Vazquez-Ortiz étudiante de Master sous la direction d'Eduardo Rodriguez-Tello [5]. Ce logiciel offre des résultats bien meilleurs que LVB écrit par Daniel Barker (fondé également sur un recuit simulé) et a permis d'améliorer les résultats d'Hydra pour 10 problèmes du jeux de tests de C. C. Ribeiro.

Jeux de données

Les jeux de données sont les suivants :

Résultats

Les expériences ont été conduites sur des jeux de test aléatoires de [4]. Nous avons pris la valeur minimum pour 30 exécutions de SAMPARS. Pour de plus amples renseignements concernant les conditions expérimentales et le paramètrage de SAMPARS, lire [1]. La description des colonnes de la table ci-après est la suivante :

problem   n     k   LVB Hydra SAMPARS diff.
tst01 45 61 549 545 545 0
tst02 47 151 1365 1354 1354 0
tst03 49 111 840 833 833 0
tst04 50 97 594 588 587 -1
tst05 52 75 793 789 789 0
tst06 54 65 605 596 596 0
tst07 56 143 1280 1269 1269 0
tst08 57 119 867 852 852 0
tst09 59 93 1153 1144 1141 -3
tst10 60 71 727 721 720 -1
tst11 62 63 549 542 540 -2
tst12 64 147 1240 1211 1208 -3
tst13 65 113 1532 1515 1515 0
tst14 67 99 1175 1160 1160 0
tst15 69 77 770 752 752 0
tst16 70 69 547 529 527 -2
tst17 71 159 2463 2453 2450 -3
tst18 73 117 1552 1522 1521 -1
tst19 74 95 1031 1013 1012 -1
tst20 75 79 688 661 659 -2
sum n/a n/a 20320 20049 20030 -19

SAMPARS permet d'améliorer 10 des meilleurs résultats de [3].

Outils

Arbalet

Arbalet est un outil dédié à l'affichage et la gestion des arbres phylogénétiques avec Maximum de Parcimonie.

Bibliographie