Recherche en Bioinformatique - Alignement


Similarité et homologie

La ressemblance ou similarité de deux séquences d'ADN peut être expliquée en prenant comme postulat de départ que toutes les espèces sont issues d'un même ancêtre originel. Selon cette théorie, des mutations ont eu lieu au cours de l'évolution générant des séquences qui ont donné naissance à des espèces de natures différentes. La plupart des changements sont dus à des mutations locales sur les brins d'ADN qui sont soient : Deux séquences peuvent donc être proches ou éloignées. Il existe plusieurs degrés de ressemblance (ou de similarité) entre séquences :

Matrice de score

L'opération d'alignement consiste à faire apparaître le possible cheminement d'une évolution d'une séquence par rapport à une autre ou des deux séquences par rapport à un hypothétique ancêtre commun.

L'opération d'alignement consistera donc à mettre en regard les caractères de deux séquences S1 et S2 de manière à ce que les séquences se correspondent le mieux possible. Les séquences n'étant de manière générale pas strictement identiques on autorise le décalage des caractères en insérant des espaces (ou gap) dans les séquences.

Un alignement peut être construit grâce à quatre opérations de base :

Remarque : l'insertion dans une séquence peut également être considérée comme une suppression (ou deletion en anglais) dans la séquence en regard. On parle alors d'opérateurs d'indel (INsertion-DELetion).


Exemple
Soient les séquences S1 = {
CATTGC} et S2 = {ACAGTC}. Un exemple d'alignement est :

-CATTGC
ACAGT-C

La construction de cet alignement correspond à la suite d'opérations suivantes :

(-,A) insertion d'un gap dans S1  
(C,C) appariement
(A,A) appariement
(T,G) substitution
(T,T) appariement
(G,-) insertion d'un gap dans S2
(C,C) appariement

Cependant, d'autres alignements semblent tout aussi valables :

-CAT-TGC
ACA-GT-C
 
-CA-TTGC
ACAGT--C


Afin de déterminer le ou les meilleur(s) alignment(s), on attribue un coût à chaque opération d'alignement suivant une matrice de score (notée w) et on tente d'optimiser le coût de l'ensemble de ces opérations. Un exemple simple de matrice de score est la matrice identité :

w(x,y) - A C G T
- ? 0 0 0 0
A 0 1 0 0 0
C 0 0 1 0 0
G 0 0 0 1 0
T 0 0 0 0 1
 
  appariement
  substitution
  insertion d'un gap
Exemple de matrice de score :
la matrice identité
   

Le score w(-,-) n'est pas défini puisque ce cas de figure n'est pas autorisé pour l'alignement par paires. On peut également modifier les coefficients afin de favoriser l'une des opérations d'édition. Par exemple si on utilise la matrice identité on cherche à favoriser les appariements et à minimiser les insertions de gaps.

On peut distinguer 2 types de matrices de score :

Dans le cas des protéines il existe des matrices spécifiques :

 Définition - Somme des paires
Le score d'un alignement par paires A(S1,S2) est donné par une formule comme par exemple la fonction de somme des paires (Sum of Pairs) :

Exemple
L'alignement précédent a pour côut selon la Somme des paires :

- C A T T G C
A C A G T - C
0 +1 +1 +0 +1 +0 +1   = 4


Sommaire


Jean-Michel Richer, 2004