Analyses et préconisations pour les centres de données virtualisés

LE Cloud Computing (l’informatique « dans les nuages ») est un paradigme de l’informatique qui vise à mettre à disposition des services ou des infrastructures disposant de très grandes capacités de calculs et de stockages, facturés en fonction de la demande (modèle pay-as-you-go). Les différentes offres de Cloud Computing reposent principalement sur 3 niveaux : Infrastructure as a Service (IaaS), Plateform as a Service (PaaS) et Software as a Service (SaaS). Ainsi, les services offerts par le Cloud Computing peuvent aller de la mise à disposition d’applications en ligne (SaaS) jusqu’à la mise à disposition de ressources matérielles (IaaS). Au niveau Iaas, les fournisseurs de Cloud mettent à disposition ces ressources sous forme de machines virtuelles (VM). Pour l’utilisateur, les machines virtuelles sont en tout point identiques à des machines physiques, appelées « serveurs ». La mise en place des machines virtuelles est possible grâce aux techniques de virtualisation permettant ainsi d’utiliser efficacement les ressources des serveurs (processeur, mémoire, E/S réseau, etc).

Aujourd’hui, les systèmes d’IaaS (VMware® VCenter, CloudStack, OpenStack, etc.) sont des produits matures et largement diffusés au sein des centres de données des entreprises. Pour le fournisseur de service IaaS, l’intérêt de proposer des machines virtuelles (VM) est double. Premièrement, il peut déployer des machines virtuelles dans des temps très courts, par rapport au déploiement d’un serveur physique. Deuxièmement, d’héberger sur un même serveur physique, plusieurs machines virtuelles et ainsi optimiser ses coût de fonctionnement et d’investissement. La conséquence de ce déploiement rapide et facile est que le nombre de machines virtuelles au sein de l’IaaS n’a cessé de croître, pour arriver, d’après une étude interne, à des taux de consolidation d’environ 3 machines virtuelles par cœur logique, soit environ 50 machines virtuelles pour un serveur de 16 cœurs logiques. Cette explosion du nombre de machines virtuelles incite les administrateurs à s’équiper d’outils d’analyses pour la gestion de leurs centaines à milliers de machines virtuelles.

Des outils, tels que VCOps de VMware® DCScope d’EasyVirt ou VM Turbo, analysent l’activité des machines virtuelles (principalement les ressources processeur et mémoire) dans l’objectif de déterminer leur comportement. L’analyse comportementale permet de détecter d’éventuels problèmes de performances, des problèmes de dimensionnement ou au contraire détecter des machines virtuelles probablement non inutilisées. Les solutions précédemment citées réalisent les mêmes analyses, faites à partir de comportements que nous définissons comme « pré-déterminés ». En effet, ils sont « pré-déterminés » dans la mesure où il est difficile voir impossible de changer les paramètres de ces comportements. Par exemple, dans VCOps, une machine virtuelle est classée idle si son activité processeur et mémoire n’excède jamais 10% de ses capacités. Définir un pourcentage fixe pour un centre de données dans lequel coexiste des serveurs physiques hétérogènes n’a pas de sens. Ces solutions ont également un deuxième inconvénient. Elles ne permettent pas de filtrer le bruit. Une machine virtuelle dispose toujours d’une activité (pics d’activités) même si elle n’est plus utilisée. Cette activité peut provenir du système d’exploitation (vérification/installation des mises à jour) ou d’une application ayant une activité temporaire (exécutions d’anti-virus). Il est important pour un administrateur de pouvoir paramétrer les comportements « pré-déterminés » en fonction de son centre et gérer la notion de bruits dans le but d’affiner la détection de comportements des machines virtuelles analysées. Il est nécessaire que l’outil d’analyses puisse déterminer également les machines virtuelles à comportement atypique, afin d’identifier facilement, dans un parc de plusieurs centaines de machines virtuelles, les machines virtuelles à surveiller. En effet, nous savons que globalement les machines virtuelles d’un même centre de données font principalement toutes plus ou moins la même chose. Une machine virtuelle est dite atypique si son profil (consommation ressources systèmes) s’éloigne des autres. Potentiellement, une machine virtuelle atypique peut s’expliquer par un fonctionnement normal mais unique de l’application qu’elle encapsule (analyseur de spams) mais peut également être provoqué par une application vérolée ou tombée en panne. Identifier de manière dynamique, rapide et automatique les machines virtuelles atypiques, permet des gains très important en terme de sûreté de fonctionnement d’un centre.

La surveillance des ressources systèmes consommées par les machines virtuelles sur un serveur physique est également un élément clé pour garantir le bon fonctionnement d’une plate-forme IaaS. Les métriques classiques sont le taux d’occupation processeur ou mémoire, les accès disques et réseaux ou la latence. Il existe de nombreux outils permettant de collecter ces métriques. Ils peuvent être classifiés suivant trois approches différentes et complémentaires. Les premiers utilisent des sondes systèmes au niveau de l’hyperviseur. Ces sondes, orientées serveur, permettent de collecter des données gros grain sur la consommation des ressources d’une ou de plusieurs machines virtuelles. Si ces sondes sont assez simples à mettre en œuvre, elles ne permettent pas de collecter la consommation ressource des processus s’exécutant dans la machine virtuelle. Ainsi, la seconde approche consiste à installer des sondes à l’intérieur des machines virtuelles. Ces sondes orientées processus accèdent, de la même manière que les sondes serveur, au métrique du système d’exploitation. Pour affiner l’analyse, la troisième approche consiste à instrumenter une application au sein d’une machine virtuelle en vue de récolter des métriques dans le but de s’assurer du bon fonctionnement de l’application (temps de réponse, latence applicative etc). Par rapport à un client d’une solution Cloud, l’installation de sonde peut être plus ou moins intrusive. Les sondes systèmes peuvent être déployées sans intrusion. Les sondes processus imposent l’installation dans la machine virtuelle du client d’un composant logiciel système. Les sondes applicatives peuvent nécessiter une réécriture de l’application du client. Dans de très nombreux contextes, essentiellement pour des raisons de sécurité et de maintenance, les clients ne souhaitent pas installer au sein de leurs machines virtuelles des composants logiciels non maîtrisés. De ce fait, les fournisseurs de Cloud ne peuvent installer que des sondes systèmes, perdant ainsi la finesse d’analyse que pourrait apporter des sondes processus ou applicatives.

L’objectif de cette thèse est de développer un système d’analyse avancée et d’optimisation d’infrastructures Cloud, allant de l’introspection à l’analyse comportementale des machines virtuelles. Dans ce but, cette thèse met en avant quatre sous-objectifs :

• Métriques de performances avancées : Mesurer et analyser l’activité des machines virtuelles et des serveurs est une préoccupation majeure des fournisseurs de Cloud, en vue de garantir les contrats de service négociés avec leurs clients. Malheureusement les métriques disponibles au niveau d’un IaaS sont d’assez gros grains et ne permettent pas une analyse fine des consommations ressources d’une machine virtuelle. L’analyse fine de l’activité des machines virtuelles repose alors sur une étude approfondie des métriques de performances. Pour une même ressource, le nombre de compteurs est important. Il faut alors bien comprendre la sémantique de chacun des compteurs dans le but de bien choisir ceux représentant l’activité réelle de la machine virtuelle.

• Introspection non intrusive : Déployée au niveau de l’hyperviseur, les sondes systèmes non intrusives permettent de suivre l’activité des serveurs et des machines virtuelles. Ces sondes nous permettent ainsi de collecter les métriques de performances, principalement pour les ressources processeur et mémoire. La non intrusivité de ces sondes permet un déploiement sans contraintes chez les fournisseurs de Cloud dans le mesure où elles ne nécessitent aucun agent dans les machines virtuelles, respectant ainsi la sécurité et le bon fonctionnement des machines virtuelles des clients de solutions Cloud.

• Analyses comportementales : L’analyse fine des ressources systèmes peut être utilisée dans plusieurs contextes tels que la sécurité, la tolérance aux pannes, les fuites mémoires ou encore l’optimisation de l’infrastructure et sa consommation énergétique. Nous distinguons deux types d’analyses. La première recherche les machines virtuelles ayant des comportements pré-déterminés. Il s’agit de machines dont l’activité répond à des critères identifiés. Ce type d’analyse permet par exemple, de connaître rapidement les machines virtuelles « à risque », celles dont les consommations en ressources sont importantes. La seconde analyse recherche les machines virtuelles ayant des comportements atypiques. Il s’agit de rechercher automatiquement les machines virtuelles ayant un profil d’activités différent des autres.

• Préconisations / Optimisations : L’analyse des comportements pré-déterminés et atypiques permet à l’administrateur d’identifier des machines virtuelles sans activités (comportements idle,lazy), qui peuvent potentiellement être arrêtées. En arrêtant voir supprimant ces dernières, l’administrateur peut de ce fait libérer des ressources au sein du centre de données et donc éviter le rachat de nouveaux équipements. Cette analyse lui permet également d’identifier les machines virtuelles dont les capacités des ressources doivent être augmentées (buzy, undersized) ou au contraire diminuées (oversized). En redimensionnant les machines virtuelles, les gains en ressources peuvent être importants. En effet, le redimensionnement peut se faire sur 2 ressources : la ressource processeur, via l’affectation de vPCU (virtual CPU) et la ressource mémoire.

Table des matières

1 Introduction
1.1 Contexte
1.2 Objectifs
1.3 Contributions
1.4 Organisation du document
1.5 Diffusion scientifique
I Contexte
2 Le Cloud Computing et la Virtualisation
2.1 Le Cloud Computing ou l’informatique dans les nuages
2.1.1 Définition
2.1.2 Les niveaux de services
2.1.2.1 IaaS – Infrastructure-as-a-Service
2.1.2.2 PaaS – Platform-as-a-Service
2.1.2.3 SaaS – Software-as-a-Service
2.1.3 Les systèmes IaaS
2.1.3.1 Les caractéristiques
2.1.3.2 Le monitoring
2.1.4 La virtualisation, la technologie du Cloud Computing
2.2 La Virtualisation
2.2.1 Définition
2.2.2 Les différents types d’hyperviseurs
2.2.2.1 Les Hyperviseurs de type 1
2.2.2.2 Les Hyperviseurs de type 2
2.2.3 La mise à disposition des ressources
2.2.3.1 Les ressources matérielles
2.2.3.2 Les ressources virtuelles
2.2.4 Le cycle de vie des machines virtuelles
2.3 Conclusion
II Contributions
3 Supervision des ressources systèmes dans les centres de données
3.1 Études des compteurs de performances
3.1.1 Les compteurs processeur
3.1.1.1 Run
3.1.1.2 Ready
3.1.1.3 Wait
3.1.1.4 Costop
3.1.2 Les compteurs mémoire
3.1.2.1 Terminologie
3.1.2.2 Partage de pages mémoires
3.1.2.3 NUMA
3.1.2.4 Ballooning
3.1.2.5 Compression mémoire
3.1.2.6 Swapping
3.1.3 Les compteurs disque
3.1.3.1 Architecture stockage
3.1.3.2 IOPS
3.1.3.3 Latence disque
3.1.4 Les compteurs réseau
3.1.4.1 Architecture réseau
3.1.5 Disponibilités des métriques de performances au sein des hyperviseurs
3.2 L’Introspection
3.2.1 Définition
3.2.2 Contexte
3.2.3 Les principaux frameworks basés sur l’introspection
3.2.4 Le fossé sémantique
3.3 Contribution
3.3.1 Etude de la gestion de la mémoire sous Linux
3.3.2 Etude des structures de données pour la gestion des processus dans Linux
3.3.2.1 Structure task_struct
3.3.2.2 Structure mm_struct
3.3.3 Une extension à LibVMI
3.4 Conclusion
4 Analyses des ressources systèmes
4.1 Analyse avancées des compteurs de performance des serveurs physiques et virtuels
4.1.1 Analyse d’anomalies liées au processeur
4.1.1.1 Détection d’une surcharge au sein de la machine virtuelle
4.1.1.2 Détection d’une surcharge vCPU au niveau de l’hyperviseur
4.1.1.3 Détection d’une surcharge vCPU au niveau de la machine virtuelle
4.1.2 Analyse d’anomalies liées à la mémoire
4.1.2.1 Etude fine de la mémoire active
4.1.2.2 Détection de sur-provisionnement mémoire au niveau de l’hyperviseur
4.1.2.3 Détection de contention mémoire au niveau de l’hyperviseur
4.1.3 Analyse d’anomalies liées au disque
4.1.3.1 Détection de latence au niveau de la machine virtuelle
4.1.3.2 Détection de commandes échouées au niveau de la machine virtuelle
4.1.4 Analyse d’anomalies liées au réseau
4.1.4.1 Détection de paquets perdus / erronés au niveau de la machine virtuelle
4.1.4.2 Reconfiguration de la carte virtuelle de la machine virtuelle
4.2 Analyse comportementale des centres de données
4.2.1 Etat de l’Art
4.2.2 Contributions
4.2.2.1 Traces récoltées
4.2.2.2 Comportements pré-déterminés
4.2.2.3 Comportements atypiques
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *