Documents pour tous

Détection et élimination des anomalies

Nous avons repéré trois configurations, que nous considérons anormales, qui sont relatives à des relations de type équivalence et association. Une configuration dite anormale est détectée en raisonnant sur la structure des deux ontologies alignées. Une configuration anormale est une configuration qui regroupe des correspondances qui génèrent des incohérences (ou inconsistances) dans l’une ou l’autre des ontologies.

Configurations anormales

Trois configurations anormales sont détectées. Ces configurations ne couvrent évidemment pas tous les problèmes possibles. Elles permettent, néanmoins, de caractériser les cas des problèmes avec : une inversion de hiérarchie ;une entité ambiguë ; une ambiguïté de relations. Configuration avec inversion de hiérarchie (Chi) Définition 1 Une configuration avec inversion de hiérarchie est une anomalie où les entités, qui font partie des deux relations de correspondance de type équivalence, sont structurées d’une manière hiérarchique inversée dans l’une et l’autre des ontologies (voir gure 4.1). On parle d’une incompatibilité des liens d’équivalence. On note une telle configuration par Chi(eqij , equv) où eqij < idEx, e1 i , e2 j , score, equiv >, equv < idEy, e1 u , e2 v , score, equiv > sont deux relations de correspondance de type équivalence incompatibles, idE : l’identifiant de la correspondance de type équivalence et x 6= y. On dit que eqij et equv sont incompatibles si et seulement si [(e 1 u ❁ e 1 i ) ∧ (e 2 j ❁ e 2 v )] ∨ [(e 1 i ❁ e 1 u ) ∧ (e 2 v ❁ e 2 j )]. Ce cas peut provenir de (i) une erreur de calcul dans les correspondances, (ii) une erreur d’identification des entités sémantiques, et (iii) d’une erreur de typage de la correspondance. Même si une telle inversion de hiérarchie peut refléter un choix de modélisation différent, nous considérons que c’est une configuration anormale parce qu’elle reflète des choix de modélisation incompatibles.

Méthodes de détection de l’anomalie

Nous proposons deux méthodes pour détecter l’anomalie de la hiérarchie inversée. La première est algorithmique et consiste à tester si les correspondances de type équivalence sont incompatibles. Cette méthode prend en entrée un ensemble de liens d’équivalence E12 = {< idE, e1 x , e2 y , score, equiv > e 1 x ∈ R1 et r2 y ∈ R2}, et donne en sortie une liste de couples de correspondances de type équivalence incompatibles.

Configuration avec une entité ambigüe (CAmEq) Édition 2

Une configuration avec une entité ambigüe est une anomalie où une même entité est associée à deux entités distinctes avec deux relations de correspondance de type équivalence (voir gure 4.3). On parle d’une ambiguïté des deux liens d’équivalence. On note une telle configuration par CAmEq(eqij , equv) où eqij < idEx, e1 i , e2 j , score, equiv > et equv < idEy, e1 u , e2 v , score, equiv >, sont deux relations de correspondance de type équivalence ambigües, idE : identifiant de la correspondance de type équivalence et x 6= y. On dit que eqij et equv sont ambigües si et seulement si il existe une même entité (e 1 i = e 1 u ) qui est concernée par ces deux correspondances. Ce cas peut provenir d’une erreur d’identification des entités sémantiques aussi si ce type de configuration reflète un choix de modélisations.

Élimination des anomalies

L’élimination des anomalies consiste à éliminer des correspondances qui sont : (i) incompatibles, et (ii) ambigües. Cette étape peut être interactive si l’ingénieur de la connaissance veut avoir la main et s’assurer qu’on ne supprime pas des correspondances qui ont été jugées anormales alors qu’elles proviennent de choix de modélisation différents. En eet, notre calcul d’incohérence repose sur une vision unifiée des deux ontologies et suppose un raisonnement uniforme. Pour cela, nous pouvons d’abord proposer d’acheter ces configurations à l’instar des configurations remarquables (cf. section 4.3) pour ensuite activer ou non l’élimination automatique. Notre intuition, dans cette étape, est qu’une correspondance peut poser à la fois des problèmes d’incompatibilité et d’ambiguïté. Le fait de supprimer cette correspondance diminue plusieurs problèmes simultanément. A titre d’exemple, une relation de correspondance de type équivalence peut faire partie de la configuration avec inversion de hiérarchie et de la configuration avec une entité ambigüe. Quand on élimine cette relation, on résout deux anomalies en même temps au lieu d’agir deux fois pour les résoudre. Nous proposons donc de raisonner globalement sur le nombre d’incompatibilités et d’ambiguïtés par relation. Si le nombre d’incompatibilités et d’ambiguïtés entre deux relations de correspondance ayant le même type de relation (équivalence ou association) est le même, nous raisonnons localement et par ordre de fiabilité des relations. Autrement dit, nous retenons la correspondance ayant le score le plus élevé. Dans le cas où le nombre d’incompatibilités et d’ambiguïtés est le même pour deux types différents (équivalence et association) de relations de correspondance, nous retenons la relation de correspondance de type équivalence. Le choix peut également être donné à l’ingénieur de la connaissance. L’objectif du raisonnement global est de supprimer les liens, fournis par l’alignement guidé par le texte, qui posent des problèmes. Nous prenons pour cela tous les liens d’équivalence et d’association et nous supprimons le(s) lien(s) qui posent le plus de problèmes. Nous avons trois listes de couples de liens qui correspondent aux différentes configurations : Lincomp = {(eqij , eqi 0j 0)} : liste de couples de correspondances de type équivalence incompatible ; Lamb = {(eqij , eqi 0j 0)} : liste de couples de correspondances de type équivalence ambiguë ; LambEqAss = {(eqij , assi 0j 0)} : liste de couples de correspondances de type équivalence et association ambiguës . Dans le but de résoudre ces anomalies, nous procédons globalement comme suit : 1) calculer le nombre d’incompatibilités et d’ambiguïtés par type de relation (équivalence et association) ; Nous répétons le traitement ci-dessous jusqu’à ce que Lincomp = ∅, Lamb = ∅ et LambEqAss = ∅ 2) détecter le lien qui génère le plus d’incompatibilités et d’ambiguïtés (extraction du maximum) ; si les relations ayant le même type (équivalence ou association) possèdent le même nombre élevé d’incompatibilités et d’ambiguïtés alors on retient la relation de correspondance ayant le score le plus élevé et on rejette l’autre. Si les relations ayant deux types différents (équivalence et association) possèdent le même nombre élevé d’incompatibilités et d’ambiguïtés alors nous retenons la relation d’équivalence ou nous proposons à l’ingénieur de la connaissance d’intervenir pour choisir l’une des deux. 3) mise à jour de Lincomp, Lamb et LambEqAss (suppression des couples de relations qui sont dépendants de la relation supprimée) ; 4) mise à jour du nombre d’incompatibilités et d’ambiguïtés des liens qui sont dépendants de la relation supprimée. L’exemple 4.7 montre l’application de notre algorithme. Dans cet exemple, nous disposons de 4 entités dans O1 (e1, e2, e3 et e4) et 4 entités dans O2 (e 0 1 , e 0 2 , e 0 3 et e 0 4 ). L’alignement de ces ontologies a permis d’obtenir 6 relations qui posent problème (eq1, eq2, eq3, eq4, eq5 et ass1). Dans l’itération 1, nous obtenons quatre relations de même type ayant le même nombre d’incompatibilités et d’ambiguïtés (3). Nous avons supposé que eq1 a un score le plus faible pour supprimer toutes les correspondances qui sont dépendantes à cette eq1. Le même raisonnement dans les autres itérations (ex. dans l’itération 2, eq2 est supprimée car nous avons supposé qu’elle possède un score faible).