Perspective : détection de CF par modèle logique de co-évolution

Télécharger le fichier original (Mémoire de fin d’études)

Méthodes d’optimisation du dimensionnement

Ce paragraphe s’intéresse aux méthodes d’optimisation pour résoudre les problèmes de dimensionnement optimal. Ces problèmes d’optimisation cherchent à définir le choix des variables optimales au niveau composant. Les méthodes permettant de résoudre ce type de problème sont multiples et peuvent être séparées entre deux catégories, représentées sur la Figure 15.
Figure 15 : Méthodes d’optimisation pour problèmes de dimensionnement optimal
• Méthodes déterministes : ces méthodes utilisent des informations relatives aux modèles (par exemple les dérivées des fonctions objectifs et/ou les contraintes) pour orienter sa recherche vers la ou les solution(s) optimale(s). Elles ont l’avantage d’être relativement plus rapides que les méthodes dites stochastiques, cependant une attention particulière doit être apportée au choix du point de départ. Les méthodes déterministes peuvent être globale ou locale.
o Méthodes déterministes locales : ces méthodes recherchent des optimas locaux, c’est-à-dire que la fonction objective est optimale dans un voisinage proche de ces points. Ces méthodes peuvent aboutir à un optimum global, mais sont fortement sensibles au point de départ de la recherche de solution. Un exemple de ce type de méthode est l’optimisation quadratique successive (SQP ; Sequential Quadratic Programming), cette méthode itérative utilise les dérivées pour s’orienter
[41]. A chaque itération une direction de recherche de solution dans l’espace de recherche est déterminée en résolvant un sous-problème de type programme quadratique (QP ; Quadratic Programming, est caractérisé par une fonction objectif quadratique et des contraintes linéaires). La solution obtenue est alors utilisée comme point de départ pour une nouvelle itération.
o Méthodes déterministes globale : contrairement aux méthodes dites d’optimisation locale, ces méthodes permettent d’identifier un optimum global dans l’espace de recherche. Parmi ces méthodes on peut citer l’algorithme par séparation et évaluation progressive (IBBA ; Interval Branch & Bound Algorithm). Cette méthode est basée sur le calcul par intervalles, le domaine de recherche est successivement décomposé en intervalles [42]. Les intervalles ne contenant pas la solution optimale globale est éliminé au fur et à mesure du processus d’optimisation. La fonction objectif ainsi que les contraintes doivent être exprimées analytiquement afin d’être réécrites en arithmétique d’intervalle. Cette méthode nécessite de reformuler les équations pour prendre en compte les intervalles.
• Méthodes stochastiques : ces méthodes d’optimisation n’utilisent pas d’informations provenant des modèles. Elles sont adaptées aux problèmes d’optimisation pour lesquels les méthodes d’optimisation classiques déterministes ne fonctionnent pas. Elles sont très souvent inspirées des lois de la nature et s’appuient sur des mécanismes aléatoires qui peuvent fournir des résultats différents d’une simulation à une autre (contrairement aux méthodes déterministes). Ces méthodes ont l’avantage de pouvoir être utilisées sur des modèles de simulation numérique de type boites noires (l’expression mathématique de la fonction objectif en fonction des variables d’optimisation n’est pas connue). Cependant il est nécessaire de définir un certain nombre de paramètre ainsi qu’un critère d’arrêt. Les méthodes stochastiques peuvent être également locales ou globales.
o Méthodes stochastiques locales : un exemple de ce type de méthode est l’algorithme COBYLA [43]. A chaque itération, cet algorithme construit une approximation linéaire de la fonction objectif et des contraintes sur la base d’un simplex. Le candidat est ensuite évalué et le processus d’optimisation cherche à améliorer l’approximation linéaire de la fonction objectif. L’algorithme prend fin quand la solution ne peut plus être améliorée.
o Méthodes stochastiques globales : les algorithmes DIRECT (Dividing RECTangles) et évolutionnaires sont des exemples de ce type de méthode [43]. Le principe de base de ces algorithmes évolutionnaires repose sur la modélisation de la sélection naturelle. Son fonctionnement se fait en quatre étapes : génération (création d’une population aléatoire), évaluation (comparaison des individus), sélection (uniquement les meilleurs individus sont conservés) et croisement/mutation (on fait évoluer les meilleurs individus en les reproduisant). Les algorithmes génétiques et les stratégies d’évolution font partie de cette famille d’algorithmes évolutionnaires. La principale différence entre ces deux derniers algorithmes réside dans la définition et représentation des populations d’individus. Dans les stratégies d’évolution les individus sont représentés par une chaine de nombres (traditionnellement des 0 et 1). Mais à la différence des algorithmes génétiques, la population d’individus contient également un paramètre (par exemple le taux de mutation). A chaque génération une valeur aléatoire est ajoutée à la mutation des individus. Cette valeur aléatoire suit généralement une gaussienne dont la déviation standard diminue au fur et a mesure que l’on s’approche de solutions intéressantes. L’algorithme DIRECT subdivise en rectangles l’espace des variables d’optimisation. La fonction objectif est évaluée au centre de chaque rectangle. A chaque itération l’algorithme détermine les potentiels rectangles où peut se situer la solution optimale, ces rectangles sont à nouveau subdivisés. Le processus prend fin lorsque la limite d’itération a été atteinte.
Les méthodes énumératives font également partie de cette famille de méthode d’optimisation. Elles sont adaptées aux problèmes d’optimisation pour lesquels l’espace des variables d’optimisation est discrétisé. Elles permettent une résolution généralement exacte, qui se paie par un temps de calcul souvent conséquent. La méthode dite de force brute est la plus connue, elle consiste à évaluer de manière exhaustive toutes les solutions possibles du problème [44]. Pour des espaces de décision larges, il est souhaitable de pouvoir identifier les solutions possédant une forte probabilité d’être candidate, afin d’éviter d’évaluer l’ensemble.
Les méthodes d’optimisation appliquées à la recherche de dimensionnement optimale au niveau composant d’un système HEV sont largement utilisées dans la littérature. Assanis et al dans [45] utilisent l’algorithme SQP pour rechercher les tailles optimales pour les composants batterie, moteur électrique et moteur à combustion interne afin d’optimiser la consommation du système HEV et le temps d’accélération de 0 à 100

Table des matières

Introduction
I Etat de l’art
1 Les protéines : séquence, structure, fonction
1.1 Diérentes échelles de description
1.2 Séquence-structure-fonction et évolution
2 Mesures de similarité entre protéines
2.1 Comparaison de séquence
2.2 Comparaison structurale
3 Caractérisation d’un ensemble de protéines
3.1 Caractérisation via la séquence
3.1.1 La conservation
3.1.2 Corrélations séquentiellement distantes
3.2 Caractérisation structurale
3.2.1 Signature caractéristique d’une famille
3.2.2 Caractérisation locale
3.2.3 Motifs structuraux non-contigus
II Contributions
4 Vers une formalisation du lien séquence-structure
4.1 Cadre général pour le lien séquence-structure
4.2 Cadre pour les modèles de détection de structure depuis la séquence . .
4.3 Perspective : prédiction de structure par des structures locales
5 ASD : comparaison de la divergence globale de fragments de structures
5.1 Dénition
5.2 Propriétés
5.2.1 Propriétés essentielles pour la comparaison de structures
5.2.2 Propriétés spéciques de l’ASD
5.3 Variantes de l’ASD
5.3.1 Variante 0-complétée
5.3.2 ASD normalisée
5.3.3 ASD tronquée
5.4 Distribution de l’ASD
5.4.1 Signicativité de l’ASD
5.4.2 Distribution de l’ASD face aux autres scores
5.5 Expérimentations
5.5.1 ZF
5.5.2 L1-CDR
5.5.3 Domain linkers
5.6 Perspectives
6 Les fragments en contact : un lieu séquence-structure privilégié
6.1 Dénition
6.2 Inuence du paramètre
6.2.1 Distributions avec xé
6.2.2 Représentation hiérarchique
6.3 Comparaison structurale de CF
6.3.1 ASD pour les CF : ASDCF
6.3.2 Adaptation de Yakusa pour les CF
6.4 Prédictibilité des CF
6.5 Perspective : détection de CF par modèle logique de co-évolution
6.6 Conclusion
7 Applications à la caractérisation de protéines structurales de virus
7.1 Identication structurale de capsides à l’aide des CF
7.2 Détection des CF à partir de la séquence
7.3 L’utilisation de la prédiction de CF dans VIRALpro
7.4 Conclusion et perspectives
Conclusion
III Annexes
8 Dénitions
9 Jeux de données
Bibliographie