Modèle virtuel pour la prédiction de propriétés chimiques

Modèle virtuel pour la prédiction de propriétés chimiques

La modélisation par apprentissage statistique consiste à construire, à partir d’un échantillon d’individus, des modelés mathématiques qui reproduisent le comportement d’un système, afin de pouvoir prédire-pour un ensemble plus grand d’individus-une ou plusieurs réponses du système à partir de ses variables d’entrée [66]. Dans de nombreux domaines, comme les sciences sociales, la chimie moléculaire ou le traitement de données textuelles, il arrive que les entrées du système se présentent sous forme de structures (réseaux sociaux, arrangements d’atomes, constructions grammaticales des phrases,…). Il serait alors avantageux d’utiliser ces structures pour la modélisation des réponses étudiées. Ceci est souvent le cas dans le domaine de la chimie où, dans de nombreuses applications, les entités en entrée d’un procédé peuvent être des molécules dont on cherche à prédire les propriétés physico-chimiques (réponses du procédé), pour des réactions particulières, à l’aide de modèles construits à partir de données expérimentales. Il existe un certain nombre de méthodes, dans le domaine de la chimiométrie, qui s’appuient sur le principe que les propriétés physico-chimiques des molécules dépendent fortement de leur structure. Regroupées sous l’acronyme QSAR (pour Quantitative Structure-Activity Relationship), ce sont principalement des méthodes de régression linéaire ou non linéaires qui ont pour objectif de modéliser les propriétés (ou activités) physico-chimique à partir de caractéristiques décrivant la structure des molécules (vue dans le chapitre 2). Ces caractéristiques, appelées descripteurs moléculaires, sont générées par des techniques de modélisation moléculaire. On pourrait reprocher aux modèles obtenus par ces méthodes de ne pas être directement construit à partir de la structure des molécules, mais de s’appuyer sur des nouvelles variables, que sont les descripteurs moléculaires, qui sont en fait des représentations vectorielles de cette structure. Dans ce chapitre nous proposons une méthodologie de modélisation à l’aide des graph machines basée sur un codage qui tient compte directement de la structure des molécules que nous désignons par QSAR-GM (GM pour graph machines). Dans ce codage, chaque molécule est représentée par un graphe acyclique orienté dont les nœuds sont associes aux atomes et les arêtes aux liaisons (détaillé dans le chapitre 3). Pour distinguer QSAR-GM de la méthode QSAR classique, nous désignons cette dernière par QSAR-DM (DM pour descripteurs moléculaires).

Méthodologie de la modélisation à base des graph machines

La prédiction de propriétés et d’activités physico-chimiques de molécules présente un enjeu industriel important, car elle permet de réduire les délais et les coûts de développement. Deux disciplines de la chimiométrie se sont développées en réponse à ce besoin : la modélisation des relations structures-activité désignées par QSAR (pour Quantitative Structure-Activity Relationships), et la modélisation des relations structure-propriété désignées par QSPR (pour Quantitative Structure Property Relationships). Elles consistent essentiellement en la recherche de similitudes entre molécules dans de grandes bases de données de molécules existantes dont les propriétés sont connues. La découverte de telles relations permettent de prédire les propriétés physiques et chimiques et l’activité biologique de composés, de développer de nouvelles théories ou d’expliquer les phénomènes observés. Elle permet également de guider la synthèse de nouvelles molécules, sans avoir à les réaliser, ou à analyser des familles entières de composés. Nous proposons, de façon distincte mais complémentaire à l’approche QSAR-DM, une méthode que nous désignons par QSAR-GM qui permet de modéliser la propriété étudier directement à partir de la structure des molécules codées par des graphes qui s’appelle graph machines (détaillé dans le chapitre 3). Les molécules sont représentées par des graphes acycliques qui tiennent compte des liaisons chimiques, de la nature des atomes ou encore de la stéréochimie du composé initial : à chaque atome non-hydrogènes est associé un nœud, et à chaque liaison entre deux atomes une arête entre les deux nœuds correspondants. Les nœuds peuvent de plus être caractérisés par des étiquettes, qui fournissent des informations sur la nature, le degré ou l’isomérie de l’atome en question. Il est également possible d’utiliser des descripteurs au sein même des graph machines par l’intermédiaire des étiquettes. Enfin, le graphe est orienté, par le choix d’un nœud central. Un exemple de représentation de molécule par un graphe est donné à la figure 4.1. Le nœud central est l’atome de carbone de degré 3.  Fig.4.1 : Représentation d’une molécule par un graphe étiqueté. Les étiquettes du graphe (police rouge), indiquent la nature de l’atome (C ou O) ainsi que son degré (1,2 ou 3) i.e. le nombre de liaisons avec les atomes voisins. Les numéros en gras italique sont les indices de chacun des nœuds. La méthode QSAR-GM consiste alors à faire correspondre à chaque graphe de la base de données une fonction de même structure mathématique que le graphe associé, de la façon suivante : -A chaque nœud du graphe est associée une fonction paramétrée , appelée pour cette raison fonction de nœud, où est le vecteur des paramètres, identique pour tous les nœuds. Les fonctions paramétrées sont, par exemple, des réseaux de neurones. – Pour chaque graphe Gi , on construit une fonction par composition des fonctions , de façon à refléter la structure du graphe : si et sont deux sommets du graphes, tels que a est parent de b (i .e. un arc part de et arrive en ), alors le résultat de la fonction associée au nœud est argument de celle associée au nœud . La fonction de nœud paramétrée associée au nœud z est donc de la forme : (34) Où : – u est un vecteur dont les composantes sont égales aux arguments de sorties des fonctions associées aux nœuds parents du nœud z en question. – v est un vecteur optionnel dont les composantes fournissent l’information localisée au nœud : ce sont les étiquettes du nœud pouvant être une valeur qualitative (comme la nature du nœud, exemple le type d’atome associé au nœud, codée en disjonctif complet) ou quantitative (comme le nombre total d’arêtes qui sont reliées au nœud). Chapitre 4 Modèle virtuel pour la prédiction de propriétés chimiques 80 Ainsi, la fonction graph machines associée à la molécule représentée sur la figure 4.1 est : (35) Sorties des fonctions des nœuds Atome : C Degré : 3 2,3 et 4 parents du nœud 1 A N molécules correspondent ainsi N fonction composées, appelées graph machines, partageant le même jeu de paramètres. La modélisation d’une propriété consiste à estimer ces paramètres par apprentissage statistiques (section 3.4 du chapitre 3). Cet apprentissage diffère de l’apprentissage traditionnel, pour lequel le modèle est unique, et la base d’apprentissage constituée de N couples entrées /sorties. Lors de l’apprentissage des graph machines, la base d’apprentissage est constituée de N couples structures/sorties, et le modèle n’est plus unique. Cependant, puisque ces modèles partagent le même jeu de paramètres, il est possible d’utiliser les techniques traditionnelles d’apprentissage pour estimer ces paramètres. La modélisation par apprentissage statistique consiste à estimer les paramètres qui conduisent à la meilleure approximation de la fonction de régression, à partir des couples entrées/sortie constituant l’ensemble d’apprentissage. Dans le cadre des méthodes classiques d’apprentissage, les paramètres d’un modèle sont estimés à l’aide d’un ensemble de N couples {(x i ,y i ), i=1,…,N} où les vecteurs x i sont les entrées du modèle, et y i les valeurs mesurées de la réponse à modéliser. Le modèle est le même pour toutes les observations, et la fonction de coût minimisée peut se mettre sous la forme : (36) Lors de l’apprentissage des graph machines, l’ensemble d’apprentissage est constitué de N couples structures/sorties ({ },i=1,…,N) , où est la fonction mathématique paramétrée associée au graphe i, et la valeur de la réponse modélisée pour ce même graphe. Il n’y a plus un modèle unique pour toutes les observations : à chaque exemple i correspond une fonction particulière , composée de la fonction paramétrée , associée la structure de l’individu i. Une fonction de coût similaire à la fonction de coût des moindres Chapitre 4 Modèle virtuel pour la prédiction de propriétés chimiques 81 carrés traditionnelle peut être définie. Cette fonction mesure les écarts entre les observations et les valeurs prédites par le modèle : (37) La minimisation de cette fonction de coût s’effectue de la même manière que lors d’un apprentissage classique, en modifiant les paramètres de façon itérative en fonction de son gradient. Lorsque la fonction est un réseau de neurones, ce gradient peut être calculé par rétropropagation, de la manière usuelle. Les techniques habituelles de sélection de modèle, par validation croisée par exemple, peuvent également être appliquées aux graph machines (section 2.2.2.2.1 du chapitre 2). En effet, la modélisation vise à fournir un modèle qui soit non seulement ajusté aux données d’apprentissage, mais aussi capable de prédire la valeur de la sortie sue des molécules n’appartenant pas à l’ensemble d’apprentissage, c’est-à-dire généraliser. 

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *