Algorithmes de population automatique d’une ontologie d’accident

Télécharger le fichier original (Mémoire de fin d’études)

Le concept d’ontologie

L’ontologie, qui est le sujet principal de ce chapitre, articule les problématiques que nous avons soulevées à propos des données, de la caractérisation des objets d’étude et des moyens de représenter les connaissances à leur sujet. Nous partirons de l’origine philosophique de ce concept et nous verrons ce que la science en a fait.

D’une ontologie à l’autre

Nous abordons ici succinctement le passage d’une conception philosophique de l’« ontologie » à une conception scientifique. Cette question a d’autant plus d’importance que beaucoup d’auteurs de la littérature dans le domaine de l’ingénierie des connaissances et plus généralement en science de l’information assument peu ou pas la provenance philosophique du concept.

L’ontologie au sens premier

Le CNRTL définit l’ontologie comme suit : « Partie de la philosophie qui a pour objet l’étude des propriétés les plus générales de l’être, telles que l’existence, la possibilité, la durée, le devenir »44. « Son étymologie vient du grec « to on » à partir du participe présent substantivé du verbe être « einai » et des mots « logia » (théorie) et logos » (discours), l’ontologie est la « science de l’être en tant qu’être » » (Roche, 2005, chap. 4.2).
La référence première à l’ontologie est philosophique et particulièrement aristotélicienne. C’est l’étude de l’être dans ce qu’il est et dans son évolution avec une recherche de généralités à son propos. Depuis la métaphysique aristotélicienne, l’ontologie traverse les époques et, même confrontée à l’idée de Dieu, les théologiens sont obligés de reconnaître que Dieu aussi a une existence propre et qu’on ne peut donc passer à côté de la compréhension de « la raison intrinsèque de l’existence de l’être » (2007). Deux approches de l’ontologie se dégagent. D’une part, la recherche de la raison intrinsèque qui permet de donner un nom à des objets existants par le biais de l’observation et de la réflexion sur le monde ; d’autre part, la recherche de l’essence, vue par le prisme de la classification et de la hiérarchie des concepts et des propriétés qui permettent la description du monde dans le but de trouver ce qui fait cette essence. La deuxième approche influencera considérablement les champs disciplinaires qui ont fait appel à l’ontologie notamment pour la représentation des connaissances. A ce propos, Robert (2006, p. 59) précise qu’il faut rechercher par essence d’un objet les caractères « eidétiques » comme étant « les primitives participant à la définition d’un concept ».
Dans le dictionnaire de philosophie de l’université de Stanford (Hofweber, 2014), l’ontologie est proposée comme une série de propositions relatives en premier lieu à affirmer ce qui est et proposer une constitution de ce qui est dans une réalité ; puis à chercher à décrire les caractéristiques et relations les plus générales qui existent dans ce que l’on considère comme être. Sauf qu’apporter des réponses à ces
44 (Définition A. − PHILOSOPHIE 1. [L’ontologie] a) [Au xviies. et p. réf. à la philos. aristotélicienne]).
questionnements pose un premier problème qui concerne l’engagement ontologique et un second qui est du ressort de la définition même de ces problèmes, la méta-ontologie.
Hofweber propose une vision de l’ontologie que nous qualifierons d’approche des quatre piliers :
« (O1) l’étude de l’engagement ontologique, c’est-à-dire ce à quoi nous ou les autres sommes engagés ;
(O2) l’étude de ce qui est ;
(O3) l’étude des caractéristiques les plus générales de ce qui est, et comment ces choses sont en relation les unes avec les autres de la manière métaphysique la plus générale ;
(O4) l’étude de la méta-ontologie, c’est-à-dire dire quelle tâche la discipline de l’ontologie doit viser à accomplir, le cas échéant, comment les questions auxquelles elle vise à répondre doivent être comprises et avec quelle méthodologie on peut y répondre. » (Notre traduction, Hofweber, 2014, chap. 3.1. Different conceptions of ontology)
Ces quatre piliers, les « quatre O », structurent l’ontologie comme une discipline : O4
est le « méta-descripteur » : il explicite la manière dont les trois autres doivent être compris. O1 est le « rassembleur », la ligne de conduite, celle qui nous pousse à converger autour d’une question qui trouverait son sens dans O2, qui est le « questionneur », orienté donc par O1. Si jamais la question proposée par O2 n’est pas satisfaisante, alors il faut revoir comment O1 a été établi. Enfin O3 est le
descripteur » : il ne tient que si O2 est établi. O3 sans O2 (et a fortiori O1) ne serait que spéculatif.
Ces quatre piliers constituent notre référentiel de compréhension de la nature, de la structure et de l’existence des ontologies ; nous articulerons notre réflexion par la suite autour de ces piliers. Nous allons voir maintenant comment cette partie de la philosophie est arrivée dans la science et comment elle a été appréhendée.

Ingénierie des connaissances et ontologie

Poli (1999, p. 20) résume toute la difficulté de la coopération entre disciplines et est très critique sur la position des philosophes actuels à propos de leur rapport à la science où il considère qu’ils se sont égarés dans une impasse.
Le court article de Bénel (2011) nous apprend que l’apparition de « l’ontologie », hors considération philosophique, date de la disparation du cercle de Vienne (Chapuis-Schmitz, 2004) en 1936 et que, Wüster, chef d’entreprise de son état, cherche à supprimer les problèmes de communication entre ingénieurs de langues différentes. En 1979 est publiée à titre posthume « La théorie générale de Terminologie » qui y est présentée comme une « ontologie ». Bénel fait remarquer qu’il semble que la communauté scientifique, et particulièrement celle du Web sémantique (nous allons y venir) rechigne à assumer la paternité en philosophie. Pourtant, si l’on se penche maintenant sur les travaux menés dans le domaine de l’ingénierie des connaissances, plutôt dans le domaine de l’intelligence artificielle et des systèmes experts, on trouve un papier de McCarthy (1980, p. 31), l’un des fondateurs du concept d’intelligence artificielle, qui utilise une fois le terme « ontology » en précisant entre parenthèses sa signification comme « les choses qui existent » Ici, la définition est très succincte, mais il y a un rapport évident avec la définition philosophique. Il y a également l’article intitulé « Enabling technology for knowledge sharing », dans lequel un groupe de chercheurs (dont Gruber) utilisent le terme « ontology » et le définissent comme « les termes de base et les relations qui composent le vocabulaire d’un domaine d’intérêt particulier ainsi que les règles pour combiner les termes et les relations afin de définir les extensions de ce vocabulaire. » (Notre traduction Neches et al., 1991, p. 40).
Dans ce dernier cas, la définition est centrée sur l’utilisation qui en sera faite et sur une potentielle structure (notamment la notion d’extension que nous allons aborder par la suite). Deux ans après, le papier séminal de Gruber (1993a) intitulé « A translation approach to portable ontology specifications » propose ce qui sera considéré comme fondateur par la communauté scientifique pour la conception d’ontologies45. Selon Genesereth and Nilsson (1987) que l’auteur cite, à la base de toute connaissance, il y a un processus de conceptualisation décrit comme une vue simplifiée, abstraite du monde que l’on souhaite représenter dans un but précis. En rappelant que le terme est emprunté à la philosophie, Gruber (1993a, p. 1) affirme qu’une : « ontologie est un recensement systématique de l’existence », et amène l’ontologie comme « une spécification explicite d’une conceptualisation. »
Cette définition, très partagée, mais aussi critiquée et enrichie, fera entrer l’ontologie dans la communauté scientifique.
Poli (1999) fait le point sur la situation des ontologies dans la communauté scientifique et propose un état de l’art et des questionnements sur l’utilité, les définitions et les controverses liées à l’ontologie. Il propose non pas une définition commune ou unique, mais un faisceau de définitions pour l’ontologie et la sienne comme théorie des objets quel que soit leur « type ». Par la suite, Borst, dans sa thèse, propose l’ontologie comme une conceptualisation partagée (1997, p. 12). Il est intéressant de noter que Borst amène très tôt l’idée de partage, d’échange. Ce que reprend plus récemment Smith qui compare l’ontologie à un réseau téléphonique où l’on retrouve l’échange d’information, mais aussi et surtout l’idée d’accord, de consensus entre les utilisateurs dans la structure et l’utilisation du réseau (2006, p. 1).
Cependant, Noy et McGuinness (2000, p. 3) constatent qu’il y a de nombreuses et contradictoires définitions des ontologies dans la littérature d’intelligence artificielle et elles proposent l’ontologie comme « une description formelle explicite des concepts dans un domaine du discours […], des propriétés de chaque concept décrivant des caractéristiques et attributs du concept et des restrictions sur les attributs […] ». Une définition synthétique de l’ontologie telle qu’elle s’inscrit dans le champ de l’ingénierie des connaissances est celle de Roche et al., soit « une représentation d’une modélisation d’un domaine partagée par une communauté d’acteurs » (2005, p. 57).

Table des matières

Remerciements
In Memoriam
Table des matières
Introduction générale de la thèse
Chapitre 1 L’« accident » et la problématique du forage des données
1.1 Le concept d’accident : analyse sémantique
1.1.1 Analyse qualitative de l’espace sémantique..
1.1.2 Analyse synonymique de l’accident : aspect théorique.
1.1.3 Représentations de l’espace sémantique de l’unité lexicale « accident »
1.2 Des données de l’accident de Deepwater Horizon
1.2.1 Stratégie de collecte
1.2.2 Les données accessibles par l’Internet
1.2.3 Les rapports d’enquêtes
1.3 Du forage des données relatives à Deepwater Horizon
1.3.1 Le traitement de Deepwater Horizon par la science
1.3.2 L’attribut oil budget
1.3.3 De la nécessité d’organiser les données aux fins d’une connaissance scientifique
Chapitre 2 Connaissances, ingénierie, ontologies
2.1 Le concept d’ontologie
2.1.1 D’une ontologie à l’autre
2.1.2 Les critères de conception des ontologies
2.1.3 Intérêts des ontologies en ingénierie des connaissances
2.2 Ingénierie des ontologies
2.2.1 Structure logique
2.2.2 Les opérations sur l’ontologie
2.2.3 Le modèle de description de ressources dit standard RDF
2.3 Choix d’une ontologie
2.3.1 Tour d’horizon de quelques réalisations
2.3.2 La recherche de l’ontologie « idéale »
2.3.3 DOLCE DnS UL
Chapitre 3 Algorithmes de population automatique d’une ontologie d’accident
3.1 Un algorithme de population automatique des ontologies d’accident
3.1.1 Structure morphosyntaxique et fonctionnelle
3.1.2 Sémantique : lemme, lexique et lemmatisation
3.1.3 Un algorithme NER (Named Entity Recognizer)
3.2 Traitement automatique de la causalité
3.2.1 De la causalité
3.2.2 Traitement automatique du langage naturel et causalité
3.2.3 Une méthode bayésienne de détection des expressions causalité
3.3 Notre proposition : une machine qui répond à la question pourquoi
3.3.1 Aborder le cheminement causal
3.3.2 La preuve de concept de la machine
3.3.3 Vers un outil opérationnel
Chapitre 4 Application au cas Deepwater Horizon
4.1 Une ontologie de l’accident de Deepwater Horizon
4.1.1 La présentation du cas Deepwater Horizon
4.1.2 Notre ontologie de l’accident de Deepwater Horizon
4.1.3 Cas concrets d’utilisation de l’ontologie
4.2 L’ontologie pour orienter la recherche
4.2.1 Résolution graphique d’un incident d’explication dans
connaissance
4.2.2 A la recherche de l’explication manquante
4.2.3 Causalité contrefactuelle et expression dans DOLCE
4.3 Discussion et limitation des résultats
4.3.1 Les limites de notre étude de l’accident Deepwater Horizon
4.3.2 Les limites des ontologies pour la formalisation des connaissances et le traitement de la causalité
4.3.3 Les limites d’une machine dans la détermination de la causalité exprimée dans un document
Conclusion
Bibliographie
Accidents, événementialité et causalité
Algorithmie et apprentissage automatique
Données, ingénierie des connaissances et ontologies
Le cas Deepwater Horizon
Sémantique, syntaxe et annotation textuelle
Glossaire
Table des figures
Table des tableaux
Table des équations
Table des annexes
Annexes