Complétion combinatoire de réseau métabolique

Complétion combinatoire de réseau métabolique

Durant ce chapitre nous allons étudier plus précisément le problème de complétion d’ébauches de réseaux métaboliques tel que déﬁni par Schaub and Thiele [ST09]. Après avoir décrit le problème d’optimisation auquel nous faisons face dans la partie 2.1, nous étudierons différentes extensions de ce problème pour en améliorer les performances : nou- velle modélisation de la réversibilité (partie 2.4), impact des heuristiques de résolution (par- tie 2.3), impact de la sémantique de productibilité (partie 2.5). Dans une dernière section (partie 2.5.4), nous étudierons l’efﬁcacité de l’approche de complétion combinatoire revisi- tée en terme de fonctionnalité quantitative.Un réseau métabolique est représenté par un graphe dirigé bipartite G = (R ∪ M , E ) où R et M sont des nœuds représentant respectivement les réactions et les métabolites. 12] et cherche à introduire les ef- fets des cycles dans la production des cibles. Il s’agit de déﬁnir l’ensemble des précurseurs d’une manière plus élaborée. Au lieu de commencer la propagation depuis un ensemble de sources, les auteurs autorisent l’inclusion de métabolites internes, sous la condition que ces métabolites internes soient produits par une réaction dans une étape ultérieure de la propagation. On déﬁnit ainsi F wdEnﬁn, lorsque la stœchiométrie du réseau est disponible, on peut aussi considérer que l’ensemble des métabolites atteignables à partir d’un ensemble de sources correspond à l’ensemble des produits de réactions non bloquées, c’est-à-dire pouvant posséder un ﬂux non-nul en FVA. L’ensemble scope , cette dernière nécessitant la présence de e dans le scope. Or la molécule e pourra être produite directement à partie de deux sources, b et c. La cible t sera donc productible et ce malgré le fait que g et f ne fassent pas partie du scope des sources.

Lors de la complétion, nous allons minimiser le nombre de réactions ajoutées aux ré- seau métabolique initial. Pour cela nous déﬁnissons un score S correspondant au nombre de réactions de R Une fois la taille de l’ensemble minimal de réactions à ajouter déterminée, nous allons chercher exhaustivement l’intégralité des ensembles de réactions de cette taille permettant de compléter le réseau. Les différents problèmes de complétion que nous allons étudier consistent donc à calculer :. Ce programme ASP est décrit en annexe. Dans [ST09], les auteurs ont montré que ce programme permettait de répondre à la ques- tion de la complétion de réseaux métaboliques. Leurs expériences ont été réalisés sur des réseaux bactériens (E. coli ) ayant été dégradés et dont la complétion est réalisée à partir de sous ensembles de taille croissante de la base de données de réactions métaboliques, Meta- Cyc. Ce programme montrait alors des performances acceptables pour une petite taille de base de données mais ces performances se dégradaient dès que la taille de celle-ci appro- chait la taille réelle. Aﬁn de mesurer l’impact de la taille de la base de complétion, nous avons créé un jeu de test se rapprochant le plus possible de la réalité. Une des applications étant la complétion de réseaux métaboliques de nouvelles espèces d’intérêt, nous avons décidé de faire ce bench- mark en se basant sur un réseau « brut » d’Ectocarpus siliculosus. Ce réseau (à l’inverse de celui présenté dans le chapitre 3) a été créé à partir de la fusion entre un réseau créé depuis d’anciennes annotations du génome d’Ectocarpus siliculosus et une toute première ver- sion de l’ébauche créée à partir de données d’orthologie. La méthodologie de création de ce réseau sera plus détaillée dans le chapitre 3, le but ici étant de démontrer la faisabilité de la complétion d’un point de vue informatique et non la pertinence biologique de la création de l’ébauche métabolique.

L’ébauche métabolique d’Ectocarpus siliculosus, non complétée, contenait à l’époque 1210 réactions et 1454 métabolites. D’après les informations biologiques que nous possé- dons, nous pouvons recenser 44 métabolites graine, qui correspondent aux constituants du milieu de croissance de l’algue, et 48 métabolites cibles, qui correspondent à des molécules identiﬁées comme étant productibles par l’algue. En utilisant la sémantique topologique simple ou avec recyclage interne, nous pouvons constater que le réseau initial n’était pas capable de produire 25 des cibles.La taille de la base de donnée étant le facteur majeur de la complexité, nous avons décidé de jouer principalement sur celle-ci pour la construction du jeu de test. Nous avons donc créé des sous-ensembles de la base de données MetaCyc (version 17.0) de taille comprise entre 10000 et 5000 réactions, en enlevant 1000 réactions à chaque fois. Pour chaque taille de base de données, 10 réplicats ont été réalisés. Nous avons veillé à ce que chaque sous- ensemble contienne à peu près la même proportion de réactions réversibles que la base de données initiale, c’est à dire 42%.