Connaissances requises

Connaissances requises

Ce chapitre présente les connaissances requises pour la bonne compré- hension des contributions détaillées dans cette thèse. L’intégralité des outils présentés est liée à ces connaissances, en les réutilisant, les améliorant, ou même en s’en servant comme base pour l’implémentation. La première sec- tion traite des technologies du web sémantique, qui sont au cœur du projet puisqu’il s’agit de raisonner sur des ﬂux de données. La partie suivante dé- taille le Linked Open Data, un vaste ensemble de bases de connaissances libres d’accès en ligne, qui est utilisé pour évaluer la pertinence des origines potentielles d’anomalies dans Waves ; d’autres sources de données de nature cartographiques sont listées dans la section suivante, et sont utilisées dans le même but. Dans les sections suivantes se trouve la liste des sources de données événementielles, qui doivent être analysées et traitées aﬁn d’identi- ﬁer les origines potentielles des anomalies détectées par le projet. Enﬁn vient la présentation de LiteMat, un système d’encodage pour les composants des graphes de connaissances qui a été développé au sein du LIGM. J’ai utilisé ce projet dans le développement de la sérialisation PatBin ainsi que le requêtage sur PatBinQL. J’ai également étendu PatBin pour le support de la propriété owl:sameAs, qui permet d’idetiﬁer des concepts diﬀérents faisant référence à un même élément, comme expliqué par la suite (section 5).

A l’origine, le web était constitué de pages simples, avec pour seul objec- tif d’aﬃcher de l’information ; ce n’était que les débuts d’internet, avec des débits faibles et des machines peu performantes. Après plusieurs années, on a commencé à parler de web 2.0, la première évolution majeure du web, avec pour caractéristique principale l’interaction avec les utilisateurs. Cela corres- pond à l’essor des réseaux sociaux, des wikis et du « crowdsourcing « . Cette transformation d’un web où l’internaute passait essentiellement son temps à lire du contenu à un web où il fournit directement (ou indirectement) du contenu est à l’origine du mouvement Big Data, où d’importantes quantités de données doivent être gérées.Le web sémantique, tel que déﬁni par Tim Berners Lee [1], est l’évolution du web 1.0. Son innovation principale est de permettre la réutilisation de données, en en facilitant la recherche, la combinaison et l’utilisation. Pour cela, les données disponibles sont organisées en un réseau sémantique, une structure sémantique organisée par le biais de métadonnées. Les métadonnées sont des données décrivant d’autres données : ainsi, on peut obtenir des informations sur chaque donnée annotée, ce qui facilite sa recherche (par exemple, on peut spéciﬁer que la donnée Steven Spielberg, associée à un ﬁlm, correspond à un nom de réalisateur). La sémantisation des données facilite leur utilisation à la fois pour l’utilisateur et pour la machine.

Une ontologie est constituée d’un ensemble de termes structurés permet- tant de représenter des connaissances ; elle peut être modélisée sous forme de graphes et réemployée librement par les utilisateurs [2]. Pour des projets importants, il est possible d’étendre une ontologie en la combinant avec des concepts issus d’autres ontologies, aﬁn de créer un modèle de données qui convient au cas d’utilisation. Des règles peuvent être déﬁnies aﬁn d’établir les liens pouvant être eﬀectués, aﬁn de conserver une structure logique et cor- recte. De plus, il est possible d’extraire des informations d’une ontologie de manière ciblée en fonction de certains critères. La ﬁgure 2 montre un exemple d’ontologie simple, permettant de représenter les ressources humaines au sein d’une université. Il ne s’agit que d’une hiérarchie, mais elle peut être réem- ployée ou étendue de diverses façons. Par exemple, on pourrait s’en servir comme base pour représenter des cours, en précisant que des cours ont un responsable et un professeur en charge, et s’applique à des étudiants.Abox (assertions). Une base de connaissances est donc formée d’une Abox et d’une Tbox : elle contient des graphes de connaissances, ainsi que les règles permettant de les exploiter. Si l’on reprend l’exemple ﬁgure 2, la Tbox regrou- pera les informations représentées, indiquant par exemple qu’un professeur fait partie du personnel, et que personnel est disjoint d’étudiants. Avec la Abox, on pourra préciser que Alice est une professeur. En utilisant les règles de la Tbox, on pourra raisonner pour déduire qu’Alice fait donc partie du personnel, mais qu’elle n’est pas une élève.