Maître de Conférences en Informatique à l'Université d'Angers
Ce site est en cours de reconstruction certains liens peuvent ne pas fonctionner ou certaines images peuvent ne pas s'afficher.
Cette page est un bref aperçu des notions de base en rapport avec l'alignement de séquences en bioinformatique.
L'alignment de séquences d'ADN ou d'acides aminés est une opération de base en bioinformatique qui a pour but d'identifier des zones conservées entre séquences. L'alignement sert notamment à :
Dans la compréhension du fonctionnement de la vie, les protéines jouent un rôle essentiel. On part donc de l'hypothèse que des protéines comportant des séquences similaires risquent fort de posséder des propriétés physico-chimiques identiques :
A partir de l'identification de similarités entre une première séquence dont on connait le mécanisme d'action et une deuxième séquence dont on ne connait pas le mécanisme de fonctionnement, on peut inférer des similarités structurelles ou fonctionnelles sur la séquence non connue et proposer de vérifier de manière expérimentale le comportement d'action supposé.
On distingue 2 types d'alignements qui diffèrent suivant leur complexité :
Exemple :
soit les séquences $S_1 = { \text"ACATT" }$ et $S_2 = { \text"AAGTT" }$, un alignement de $S_1$ et $S_2$ est par exemple :
| S1 : | A |
C |
A |
- |
T |
T |
| S2 : | A |
- |
A |
G |
T |
T |
| Consensus : | A |
. |
A |
. |
T |
T |
Un alphabet Σ est un ensemble fini de symboles disctincts. Dans le cas de séquences d'ADN ou d'acides aminés on définit le symbole vide ou gap par -.
L'alphabet de l'ADN est composé par les symboles :
-, A, C, G, T
L'alphabet des acides aminés est composé des symboles :
-, A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y
On appelle séquence $S$ une suite ordonnée de caractères pris dans un alphabet $Σ$ :
$$ S = \{ x_1, x_2, ... , x_n \} $$
On note $|S| = n$ la longueur de la séquence.
Soit $S = \{ S_1, S_2, ..., S_k \}$ un ensemble de $k$ séquences.
Un alignement de S, noté A(S1, S2, ..., Sk) est une matrice :
telle que
$$ (a_u^v) ∈ Σ ∪ \{ \text"-" \} $$avec
$$ max^{u=k}_{u=1}(|S_u|) ≤ q ≤ ∑_{u=1}^{u=k} (|S_u|) $$telle que $∀u, 1 < u < k$ la séquence $\{ a_1^u, a_2^u, ... , a_q^u \}$ dans laquelle on a supprimé tous les gaps correspond à la séquence $S_u$.