L’apprentissage supervisé de concepts et les algorithmes génétiques

Télécharger le fichier original (Mémoire de fin d’études)

La structure tertiaire

La structure tertiaire d´écrit le repliement dans l’espace des éléments de structure secondaire d’une chaîne polypeptidique unique. Dans les conditions physiologiques, ce repliement est unique, spontané ou aidé dans sa maturation par d’autres protéines : les chaperonnes.
Les interactions servant a` stabiliser la structure secondaire sont plus variées que celles qui sta-bilisent la structure secondaire :
– Interactions covalentes par l’intermédiaire de ponts disulfures.
– Interactions non covalentes entre les résidus constitutifs du cœur de la protéine par l’in-term´ediaire de liaisons hydrog`ene, ´électrostatiques ou de Van der Walls.
– Interactions avec des mol´ecules de solvant [121], ou avec d’autres ions ou cofacteurs (h`eme, flavine, FAD, . . .), notamment `a la surface.
Si les petites prot´eines (moins de 200 acides amin´es) se replient g´en´eralement autour d’un seul cœur, les prot´eines de plus grande taille peuvent constituer plusieurs ensembles, que l’on appel-lera alors domaines structuraux, reli´es par des espaceurs qui peuvent ou non ˆetre flexibles.
Deux m´ethodes ont et´ particuli`erement exploit´ees pour d´eterminer la structure tridimension-nelle des prot´eines : la spectroscopie par R´esonance Magn´etique Nucl´eaire (RMN) et la diﬀrac-
1CASP : Critical Assessment of Methods of Protein Structure Prediction.

LA STRUCTURE DES PROTEINES

Historiquement, la première structure r´esolue fut celle de la myoglobine par Max Perutz and J.C Kendrew [70]. Depuis, de nombreuses structures ont pu ˆetre d´etermin´ees et sont d´epos´ees dans la Protein Data Bank [4, 5]. Cette banque contenait, au 22 septembre 2009, plus de 51 000 structures r´ef´erenc´ees, dont 46 100 ont et´ d´etermin´ees par cristallographie, et 5 000 par RMN.
D’autres m´ethodes a` basse r´esolution, comme la microscopie ´electronique ou le SAXS2, peuvent ´egalement ˆetre utilis´ees, mais restent, a` l’heure actuelle, moins eﬃcaces.
Ces m´ethodes, bien que leurs performances aient et´ grandement am´elior´ees par l’essor des pro-jets de g´enomique structurale, restent sous la contrainte de conditions exp´erimentales restrictives. De l’expression a` la purification des prot´eines, de leur concentration a` l’obtention d’un cristal a` la r´esolution et au phasage de ces structures, ce sont autant d’´etapes synonymes de condi-tions d’arrˆet pour un cristallographe. Les statistiques r´ealis´ees dans les projets de g´enomique structurale montrent que le taux de succ`es dans un temps raisonnable est d’environ 10%.
Quant a` la spectroscopie RMN, mˆeme si la contrainte du cristal est supprim´ee, elle ne peut ˆetre appliqu´ee que pour la d´etermination de structures de prot´eines de petite taille, g´en´eralement inf´erieure a` 300 r´esidus, et pour un ´echantillon prot´eique a` analyser pur a` plus de 95%.
De nombreuses m´ethodes automatiques de pr´ediction de la structure tertiaire des prot´eines ont et´ d´evelopp´ees.
Mod´elisation par homologie :
La mod´elisation par homologie exploite les structures pr´ec´edemment r´esolues. Elle repose sur l’id´ee que deux s´equences prot´eiques pr´esentant une similitude au niveau de leurs s´equences (id´ealement un taux d’identit´ de s´equence sup´erieur a` 30%) adoptent des repliement similaires [23, 124].
Bien que le mod`ele ainsi obtenu ne soit pas exact, il rend compte des r´egions cl´es impliqu´ees dans la reconnaissance et l’interaction avec d’autres partenaires ou des r´esidus pr´esents dans le site actif, et permet une connaissance relativement pr´ecise du cœur de la prot´eine.
Mod´elisation par reconnaissance des repliements ou m´ethodes d’enfilage (threa-ding) :
Cette m´ethode repose sur le fait que le repliement est mieux conserv´ par l’´evolution que la s´equence. De ce fait, mˆeme lorsque la comparaison des s´equences ne permet pas de d´etecter une homologie, l’information tridimensionnelle, disponible pour l’une des prot´eine, peut permettre de retrouver les liens ´evolutifs. La m´ethode consiste a` “enfiler” la s´equence a` mod´eliser sur une structure connue, puis a` estimer la compatibilit´e entre la s´equence et la structure. Cette m´ethode, relativement robuste, permet l’identification d’homologues distants au sein de familles de prot´eines, voire l’identification d’une fonction mˆeme lorsque le taux d’identit´ de s´equence est relativement faible.
Mod´elisation AB INITIO
La mod´elisation ab initio vise a` pr´edire la structure d’une prot´eine sur la seule connaissance de sa s´equence. De nombreux mod`eles de calculs ont et´ d´evelopp´es, g´en´eralement bas´es sur l’optimisation et la minimisation d’une fonction d’´energie rendant compte de l’´etat de la prot´eine. La pr´ediction de ces structures est extrˆemement gourmande en temps de calcul, mais les r´esultats
sont en constante am´elioration comme l’atteste l’exp´erience CASP [25, 73, 105]. Initi´e en 1994, ce test en aveugle permet d’´evaluer la performance des m´ethodes de pr´ediction. Un des r´esultats d’une des sessions CASP est pr´esent´ sur la Figure 1.6.
FIG. 1.6 – Predictions´ de structures obtenues a` l’aire du logiciel Rosetta [16] lors de la session CASP6 Image originale en couverture du journal PROTEINS : Structure, Function and Bioinformatics, volume 61 du 26 septembre 2005.

La structure quaternaire

Alors que certaines protéines sont constituées d’une chaˆıne polypeptidique unique, d’autres sont fonctionnelles uniquement sous forme d’oligom`eres, c’est-a`-dire l’assemblage de plusieurs chaˆınes polypeptidiques, ´egalement appel´ees sous-unit´es. On parlera d’h´et´eromultim`eres ou d’homomul-tim`eres lorsque ces sous-unit´es sont respectivement diﬀ´erentes ou identiques entre elles. La stabi-lit´e de l’assemblage repose, comme celle de la structure tertiaire, sur un ensemble d’interactions a` courte distance g´en´eralement non covalentes.
La structure quaternaire peut ˆetre obligatoire, c’est-a`-dire que les sous-unit´es constitutives ne sont jamais trouv´ees isol´ees, cette structure quaternaire est alors appel´ee multim`ere biologique, puisqu’elle repr´esente la forme active de la prot´eine. Certains assemblages sont, au contraire transitoires, et les partenaires peuvent ˆetre trouv´es isol´es. La plupart des prot´eines ´etablissent de telles interactions transitoires avec d’autre prot´eines ou avec des acides nucl´eiques.
Plusieurs m´ethodes pour d´etecter la pr´esence et la composition de ces assemblages ont et´ mises au point, notamment le double hybride dans la levure [58], ou le TAP-tag [46] et la spectroscopie de masse [55]. Ces m´ethodes permettent de connaˆıtre les diﬀ´erents partenaires d’une prot´eine avec un d´ebit elev´e, et d’obtenir ainsi une vue de l’interactome. Elles souﬀrent cependant d’un manque de pr´ecision relativement elev´.
L’agencement spatial des sous-unit´es peut ˆetre abord´e par des m´ethodes a` basse r´esolution, telles que la diﬀusion des rayons X ou des neutrons, ou encore la microscopie ´electronique. Ces m´ethodes permettent de connaˆıtre la forme de l’enveloppe de l’assemblage, et, a` condition de connaˆıtre la structure tridimensionnelle des partenaires isol´es, il est possible de reconstruire le complexe a` l’int´erieur de cette enveloppe.
Dans le cas o`u les structures des partenaires isol´es sont connues, on peut ´egalement acc´eder a` la structure de l’assemblage en d´eterminant, en particulier par mutag´en`ese dirig´ee, les acides amin´es de chacun des partenaires qui participent a` l’interaction.
Enfin, de mˆeme que les structures de prot´eines monom´eriques, les structures tridimensionnelles de complexes peuvent ˆetre d´etermin´ees exp´erimentalement par cristallographie ou par RMN. L’utilisation de la cristallographie implique cependant une stabilit´e suﬃsante de l’assemblage, ce qui exclut la majorit´e des complexes transitoires.
Historiquement, c’est en 1972 qu’a et´ r´ealis´ le premier mod`ele de complexe prot´eine-prot´eine (trypsine, inhibiteur polypeptidique [9]). En 1978, le premier algorithme d’amarrage prot´eine-prot´eine a et´ publi´e par Wodak et Janin [146]. Depuis, ce domaine de recherche a pris un essor important, et diﬀ´erentes pistes on et´ explor´ees.
Les diﬀ´erentes m´ethodes d’amarrage traitent g´en´eralement le probl`eme en deux ´etapes :
– une premi`ere phase de g´en´eration de conformations (appl´ees pauses ou pr´edicats) entre les deux partenaires ;
– puis une seconde phase d’´evaluation via une fonction de score, qui permet d’extraire des conformations proches de la structure biologique.
Ces m´ethodes s’appliquent a` des prot´eines de rˆole et de localisation cellulaires extrˆemement vari´es. Les diﬀ´erentes m´ethodes d’amarrage seront pr´esent´ees dans la section suivante.

Table des matières

Liste des figures
Liste des tableaux
Liste des algorithmes
I Introduction et etat de l’art
1 Introduction
1.1 La structure des protéines
1.1.1 Introduction
1.1.2 La structure primaire
1.1.3 La structure secondaire
1.1.4 La structure tertiaire
1.1.5 La structure quaternaire
1.2 Les complexes proteine-proteine
1.2.1 Nature de l’interaction proteine-proteine
1.2.2 Detection experimentale
1.3 L’amarrage prot´eine-prot´eine
1.3.1 Principe et partitionnement du probleme
1.3.2 Les algorithmes
1.3.3 CAPRI : une expérience a ne pas manquer
1.4 Le diagramme de Vorono¨ı et les constructions dérivées
1.4.1 Un peu de geometrie
1.4.2 Analyse de la structure des proteines
1.4.3 Assemblages
1.5 L’apprentissage supervise de concepts et les algorithmes genetiques
1.5.1 Principe des algorithmes evolutionnistes
1.5.2 Application a la resolution de problemes
1.5.3 Operateurs genetiques
1.5.4 Avantages et inconvenients des algorithmes evolutionnistes
II Materiel et Methodes
2 M´ethode et logiciel
2.1 Le diagramme de Vorono¨ı et ses constructions derivees
2.1.1 Definitions et notations
2.1.2 Triangulation reguliere et triangulation de Delaunay
2.1.3 Applications aux proteines
2.1.4 Parametres pour l’apprentissage
2.1.5 Evaluation de la qualite des modeles
2.2 ´Echantillon d’apprentissage
2.3 Algorithme d’amarrage
2.3.1 Choix des points d’amarrage
2.3.2 Générations des conformations candidates
2.4 Algorithme génétique et courbe de ROC
2.4.1 Principe de la m´méthode
2.4.2 Individus, algorithme et operateurs d’évolution
2.4.3 Fonctions d’adaptation
2.4.4 Fonction de score
2.4.5 Operateurs mutation et croisement
2.5 Partitionnement des données d’apprentissage
2.5.1 Meta-attributs
2.5.2 Algorithme de partitionnement
2.5.3 Validation sur les cibles CAPRI
III Résultats
3 R´esultats et discussion
3.1 Comparaison des tessellations de Vorono¨ı et Laguerre dans le contexte de l’amarrage
proteine-proteine
3.1.1 Construction du diagramme de Laguerre
3.1.2 Fonctions de score
3.1.3 ´Etude comparee des tesselations de Vorono¨ı et Laguerre pour la modelisation
de complexe proteine-proteine
3.1.4 Resultats et perspectives
3.2 Affinement de la m´ethode d’evaluation des conformations candidates par algorithme
genetique
3.2.1 Le coeur et la couronne
3.2.2 Partitionnement des donnees d’apprentissage
3.2.3 Resultats complementaires
3.2.4 Conclusions et perspectives
IV Conclusion Generale
Bibliographie