Sommaire
Bioinformatique
Le terme bioinformatique regroupe un ensemble de techniques et outils liées aux mathématiques et à l'informatique dont le but est l'interprétation des données biologiques. Ces données biologiques concernent essentiellement deux types de macromolécules : les acides nucléiques et les protéines.
La bioinformatique est devenue une discipline à part entière qui ne se cantonne pas aux deux disciplines qui la définissent terminologiquement mais englobe l'ensemble des sciences exactes et naturelles. Si nous voulons progresser dans notre connaissance des phénomènes du Vivant, il nous faut donc allier les compétences des chercheurs en biologie, chimie, physique, mathématiques et informatique.
Les récents progrès des programmes de séquençage des génomes (comme le projet Génome Humain achevé en 2003) ont ouvert de nouvelles perspectives dans les domaines de la biologie, de la santé et de l'agronomie :
- La génomique s'intéresse à l'étude exhaustive des génomes : elle en analyse la structure afin d'identifier les gènes et les régions qui régulent l'expression de ces gènes. Cette régulation résulte de la fixation de facteurs de transcription sur des régions particulières des gènes. Il en résulte un très grand nombre d'interactions protéine/ADN et protéine/protéine.
- La protéomique étudie l'ensemble des protéines contenues dans une cellule (le protéome). Elle s'articule autour de trois thèmes majeurs : la prédiction de structures, la relation structure-fonction et la phylogénie.
- D'autres voies sont en pleine expansion :
- l'étude des réseaux d'interactions entre molécules (protéine/ADN, protéine/protéine, protéines/substrats, protéines/effecteurs). Le but est de décrire le fonctionnement global d'une cellule dans un environnement donné.
- la modélisation moléculaire pour la conception de médicaments et l'étude de l'interaction entre macromolécules.
Les énormes volumes de données biologiques ne sont plus susceptibles d'être traités manuellement. Ils nécessitent de faire appel au meilleur ami de l'homme dans le traitement automatique de l'information : l'ordinateur.
La bioinformatique permet au biologiste d'exploiter le formidable potentiel de connaissances contenues dans les banques de données et de les analyser. Elle permet à l'informaticien de mettre en oeuvre ses compétences en algorithmique et en programmation, en développement d'interface et de bases de données.
Alignement
Mon travail de recherche en bioinformatique a débuté dès 2001 sous la tutelle du Pr. Jin-Kao Hao qui a pris part à la création de la Ouest Génopôle.
J'ai commencé par m'intéresser aux problèmes de l'Alignment par Paires de Séquences (Pairwise Sequence Alignment) et l'Alignement Multiple de Séquences (Multiple Sequence Alignment).
En 2002, Vincent Derrien, étudiant en DEA a implanté une première version de PLaSMA un nouvel algorithme d'alignement multiple basé sur une méthode dérivée de l'alignement progressif (utilisé par Clustal W) utilisant des blocs de séquences au lieu de séquences consensus. L'objectif de cet algorithme était d'améliorer la qualité de l'alignement final car l'emploi de séquences consensus tend à biaiser le résultat de l'alignement. Vincent Derrien effectue actuellement sa thèse au LERIA.
Pour en savoir plus sur l'alignement >>>
Phylogénie
En 2003, je me suis intéressé au problème de Reconstruction de Phylogénie. Adrien Goeffon, étudiant de DEA a créé un logiciel implantant plusieurs méthodes de recherche locale (Descente, Tabou, Recuit Simulé) afin de trouver un arbre phylogénétique optimal en utilisant le critère de Maximum de Parcimonie (Maximum Parsimony Criterion).
Nous avons conçu un algorithme génétique utilisant un opérateur de croisement DiBIP basé sur une distance topologique entre feuille, un algorithme mémétique (logiciel Hydra) ainsi qu'un recuit simulé (logiciel SA-MP) qui nous a permis d'améliorer 10 des résultats obtenus par l'algorithme mémétique.
Pour en savoir plus sur la phylogénie >>>
Recherche de motifs
Un motif (ou Pattern) au sens bioinformatique du terme représente une expression qui permet de caractériser un ensemble de séquences d'ADN, d'ARN ou de protéines. Le motif peut concerner les structures primaires, secondaires et tertiaires. Le motif trouve notamment son intérêt dans la caractérisation des fonctions des protéines : si on était capable d'exhiber un motif pour chaque fonction alors on serait en mesure de prédire automatiquement la fonction associée à une protéine.
On distingue deux étapes dans la recherche de motif :
- la découverte qui, étant donné un ensemble de séquences, tente d'exhiber un motif commun à ces séquences. Il s'agit d'un problème complexe car on ne sait pas ce qui doit être trouver. Dans le cas de séquences similaires, on peut utiliser un alignement multiple des séquences afin de trouver un motif simple.
- la recherche à proprement parler, qui concerne la détection d'un motif donné sur un ensemble de séquences. Ce problème est bien plus simple que le premier.
Les deux problèmes rencontrés dans la recherche de motif concernent la définition du motif. Un motif est généralement défini à partir d'un ensemble référence de séquences qui possèdent la même fonction :
- si le motif n'est pas assez fin, on risque de le découvrir sur des séquences qui n'ont pas la fonction liée au groupe de séquences référence, ces séquences seront appelées faux positifs,
- par contre, s'il est trop fin, certaines séquences qui possèdent la fonction liée au motif ne seront pas découvertes, on les qualifiera de vrai négatifs.
Stages Master 2
Ces stages sont effectués dans le cadre du Master 2 Bioinformatique de Rennes 1.
- 2009 (stage à pourvoir) : conception d'un algorithme pour la conception d'arbre parcimonieux à partir d'une méthode de distance
- 2006 (en attente) : prédiction de structure secondaire (sujet)
- 2006 (en attente) : poursuite du travail sur les motifs, amélioration du logiciel, création d'une interface pour l'édition des motifs, mise en place dur le web (sujet)
- 2005 : Utilisation des propriétés des acides aminés dans le cadre de la caractérisation et la détection de motifs dans les protéines, Thomas Sierocinski (rapport.pdf)
- 2005 : Implantation d'une méthode de construction d'arbre phylogénétique dans le cadre de la parcimonie, Didier Empis
Thèses encadrées
- 2002-2008 : Heuristiques pour la résolution du problème d'alignement multiple de séquences, Vincent Derrien
- 2003-2006 : Reconstruction de Phylogénie par la méthode du Maximum de parcimonie par utilisation de techniques heuristiques et de recherche locale, Adrien Goeffon
Publications
lien >>
News
- L'ornithorynque: à la fois oiseau, reptile et mammifère, confirme son génome, Mercredi 7 mai 2008 - L'ornithorynque, étrange animal à fourrure, bec de canard, pattes palmées et queue plate vivant en Australie et en Tasmanie, est bien en partie reptile, oiseau et mammifère, confirme son génome, publié par une équipe internationale dans la revue Nature à paraître jeudi.
Parmi ses autres particularités, cet animal long de 40 cm fait partie de l'ordre des monotrèmes : il pond des oeufs et allaite ses petits. Sa fourrure est par ailleurs adaptée à une vie dans l'eau et le mâle sécrète un venin comparable à celui des serpents.
"Le génome de l'ornithorynque (Ornithorhyncus anatinus), comme l'animal, présente un amalgame de caractéristiques appartenant à un reptilien ancestral et dérivées de mammifères", notent les chercheurs. Certains de ses 52 chromosomes, concernant les caractères sexuels, correspondent même à celui des oiseaux connus sous le nom de "Z".
Au cours de leur analyse, les chercheurs ont comparé ce génome avec ceux de l'homme, du chien, de la souris, de l'opossum et de la poule : l'ornithorynque partage 82% de leurs gènes, ont-ils décelé. Il compte environ 18.500 gènes, soit environ les deux tiers de celui de l'homme.
Parmi ses originalités, l'ornithorynque nage les yeux, les oreilles et les narines fermés, se fiant à des récepteurs électrosensoriels de son bec pour détecter les faibles champs électriques émis par ses proies sous l'eau. Par ailleurs, il ne possède pas de tétons, et ses petits sucent le lait qui exsude de sa peau, comme chez les marsupiaux.
- Séquencage du génome de 1000 personnes, Mardi 22 janvier 2008 - Un consortium international d'institutions de recherche (Wellcome Trust Sanger Institute de Grande-Bretagne, les instituts nationaux de santé américains et l'Institut Shenzhen d'étude sur le génome humain de Pékin) annonce le lancement de "The 1000 Genome Project". Ce projet a pour but de séquencer le génome de 1000 personnes, soit "un échantillon représentatif de la population mondiale". Les chercheurs espèrent ainsi établir, notamment à des fins médicales, une "cartographie vaste et précise du génome de l'espèce humaine" qui permettrait de progresser dans l'analyse des variations génétiques inter-individuelles. En effet, des études récentes ont montré que les hommes ne partageraient que 99,9% de leur patrimoine génétique : le séquençage du 0,1% restant pourrait expliquer pourquoi certaines personnes développent certaines maladies et d'autres pas.
Source : Le Monde, Jean-Yves Nau, 25 Janvier 2008, "Le génome de mille personnes sera séquencé - NHGRI
- Un génome bactérien produit par synthèse chimique, 24 janvier 2008 - Le site de la revue Science a mis en ligne la description par le généticien américain et son équipe de l'assemblage chimique et du clonage du génome entier d'une bactérie, Mycoplasma genitalium. Avec 528 gènes et près de 583 000 paires de bases de long, c'est la plus longue molécule d'ADN jamais produite en laboratoire par synthèse chimique. Cette prouesse scientifique rapproche l'équipe de Craig Venter de son but ultime : fabriquer le premier organisme vivant synthétique. Pour y arriver, les chercheurs doivent encore réussir à introduire le génome artificiel à l'intérieur d'une cellule, puis à déclencher l'expression du programme génétique dont il est porteur. L'équipe ayant déjà réussi à transférer le génome naturel d'une bactérie dans une autre cellule bactérienne, tout laisse à penser que la première bactérie artificielle sera obtenue dans les mois à venir. Craig Venter espère que ces travaux déboucheront rapidement sur la possibilité de fabriquer des organismes entièrement artificiels capables de produire des molécules pharmaceutiques ou des biocarburants. Conscient que la biologie synthétique soulève des questions éthiques et de sécurité, Craig Venter a pris l'initiative de constituer un groupe de réflexion, qui a abouti en octobre 2007 à la publication d'un rapport sur la "gouvernance de la génomique synthétique", document qui propose des stratégies de contrôle des activités des laboratoires.
Sources : Le Monde, Hervé Morin, 25 janvier 2008, "Une équipe américaine synthétise le premier génome entier d'une bactérie" ; Quotimed.com (le site du Quotidien du Médecin), 25 janvier 2008