Gestion de l’incertitude

Gestion de l’incertitude

Qualification de l’incertitude

L’information contenue dans les documents sur le Web peut présenter différentes imperfections, elle peut être par exemple incomplète, incertaine ou encore ambiguë. Ceci peut remettre en question la nature de l’information véhiculée. Il devient alors nécessaire de qualifier et éventuellement de quantifier ces imperfections afin de présenter à l’utilisateur

Qualification de l’incertitude une extraction de connaissances de bonne qualité

En effet, la quantification et la qualification de l’information incertaine demeurent un enjeu important dans le domaine du traitement automatique de l’information. Durant cette thèse, nous nous sommes intéressés à l’aspect incertain de l’information ainsi que la confiance accordée à une information donnée. Il s’agit de savoir si l’information est fiable ou non. De ce fait, nous avons accordé une attention particulière aux sources d’incertitudes ainsi qu’à d’autres paramètres pouvant intervenir pour modifier la confiance accordée à la connaissance extraite. Nous avons par la suite intégré la gestion de l’incertitude à notre extraction de connaissances présentée dans le chapitre précédent. La gestion de l’incertitude implique les processus suivants : — détection de l’incertitude durant le processus d’extraction de connaissances ; — représentation de l’incertitude dans notre graphe RDF ; — quantification de l’incertitude et de la fiabilité de l’information ; — fusion des sources d’incertitudes. Dans ce qui suit, nous allons présenter une catégorisation de l’incertitude caractérisée par les éléments qui peuvent remettre en question la fiabilité de la connaissance extraite. Nous avons regroupé ces éléments dans trois catégories distinctes. La première catégorie concerne les informations liées au texte, à savoir quelle confiance accordons-nous à la source de l’information, quelle est la conviction exprimée par l’auteur quant aux informations qu’il fournies. Enfin, le discours rapporté, étant lui aussi sujet à incertitude, sera traité à part. La deuxième catégorie se réfère aux incertitudes intervenant lors du processus d’extraction de connaissances. Nous distinguons les ambigüités de la langue naturelle pouvant rendre la sélection de règles d’extraction incertaines ou encore lors de la mise en cohérence lors du regroupement de coréférences par exemple. La troisième catégorie se rapporte à la qualité du jeu de données utilisé lors de l’enrichissement à partir du LOD.

Incertitude liée au texte

L’incertitude est utilisée pour faire référence à des doutes sur la validité d’une information. De ce fait, la connaissance liée à l’information en question doit prendre en compte cet aspect. La première catégorie à considérer concerne la source de données, à savoir le texte. Celui-ci représente le point d’entrée de notre analyse. Il est alors nécessaire d’effectuer quelques vérifications avant de présenter l’extraction finale à l’utilisateur. Les sources d’incertitudes liées au texte que nous avons identifiées sont présentées cidessous : Incertitude liée à la confiance accordée à la source Ici, nous considérons les modalités d’acquisition de l’information et les métadonnées associées à un texte. La fiabilité d’une information dépend également de sa source. En effet, la provenance d’un texte indique la pertinence de l’information délivrée. La provenance d’une ressource (que ce soit un texte ou une simple information) décrit les entités et les procédures impliquées dans la production de la ressource. Elle représente à la fois l’auteur, le journal et l’organisme de publication ou l’éditeur. En effet, chacun peut être source d’incertitude remettant en cause la fiabilité de l’information. Le Web, forte source d’influence, contient une multitude d’informations provenant des quatre coins du monde. Mais cela en fait-il une source fiable ? Il est alors nécessaire d’évaluer la pertinence et la fiabilité des sources de données afin de qualifier la source considérée. L’enjeu de cette évaluation est d’apporter une méta-information permettant de pondérer l’importance à accorder à une information avant que cette dernière ne soit prise en compte dans une décision. Dans [Bla+13], les auteurs considèrent que pour évaluer la qualité d’une information, il faut prendre en considération la fiabilité de la source et la crédibilité de l’information. La fiabilité d’une source est désignée par une lettre entre A et F exprimant différents degrés de confiance : — A : la source est totalement fiable, elle réfère à un organisme de référence dont les informations ne sont jamais remises en cause. — B : la source est habituellement fiable, cependant, quelques éléments encore dans le doute, restent à vérifier. — C : la source est évaluée comme peu fiable, la source n’est pas très utilisée. — D : la source n’est habituellement pas fiable, quelques faits déclarés dans le passé se sont révélés faux. — E : la source n’est pas fiable, il a été prouvé que la source ne peut être sûre. — F : la source est inconnue, elle n’a jamais été utilisée, et ne peut donc pas être jugée. Dans nos travaux, nous avons adopté cette évaluation mais nous avons transformé les lettres en poids numériques pour pouvoir intégrer cette confiance au reste de nos traitements. Ainsi, il sera possible de quantifier la fiabilité de l’information. La provenance regroupe les informations relatives à l’auteur, l’agence de presse 3 et le journal de publication. Pour calculer le degré final (trustsource) accordé à la source d’information, nous combinons et calculons la moyenne des degrés telle que l’indique la formule suivante : trustsource = (trustauteur + trustjournal + trustagence)/3 Les degrés de confiances dépendent de l’utilisateur. En effet, deux utilisateurs différents peuvent accorder un degré de confiance différent l’un de l’autre. C’est pour cela que nous avons créé une base de données, afin de stocker les informations relatives aux sources.Une agence de presse est une organisation qui vend aux médias de l’information (textes, photos, vidéos, etc.)

Qualification de l’incertitude

Figure 3.1 – Schéma de la base de données pour la gestion des utilisateurs. La figure 3.1 illustre le schéma de cette base. La table User contient les informations relatives aux utilisateurs : son nom et prénom, sa date de naissance, l’organisme auquel il est rattaché et sa page personnelle. La table Source contient les informations relatives aux sources d’informations, il peut s’agir d’un auteur, d’un journal, d’un éditeur ou encore d’une agence de presse. Nous ajoutons à ces tables la table Trustworthiness reliant les utilisateurs aux sources.

Incertitude exprimée par l’auteur

Une information peut être objective ou subjective. Une information objective est le plus souvent relative à des mesures prises automatiquement, par des capteurs par exemple, alors qu’une information subjective désigne une déclaration d’un individu. L’auteur peut indiquer une observation, une opinion, un jugement, une supposition ou encore un avis personnel. Ce type d’information peut alors contenir un grand nombre d’imperfections, dont l’incertitude, affectant ainsi la fiabilité de l’information véhiculée. Il est donc nécessaire de prendre en considération cette fiabilité et l’incorporer dans nos traitements. Pour ce faire, nous avons accordé une importance particulière aux modalités exprimées par l’auteur dans le texte. En effet, le texte fournit des informations quant à l’état épistémologique de l’auteur par rapport au sujet traité. D’autre part, le langage naturel offre une multitude de moyens pour exprimer une incertitude telle qu’une intention, une volonté, une supposition, une éventualité, un doute, une hésitation, une indécision, une croyance, une préférence, une émotion… Pour détecter l’incertitude exprimée par l’auteur, nous nous basons, comme lors de l’extraction de connaissances, sur la notion de déclencheurs. Les déclencheurs sont des mots ou des expressions qui permettent de marquer une information. Il est alors nécessaire de lister les marqueurs identifiant l’incertitude. Selon notre étude bibliographique [AR08 ; LQ04 ; Mar08 ; Dru89], nous avons pu classer ces marqueurs d’incertitude par catégories : — Les verbes d’opinion : croire, penser, douter… 79 Chapitre 3 – Gestion de l’incertitude — Les verbes impersonnels : il parait que, il semble que… — Les adjectifs : douteux, incertain, possible… — Les adverbes : peut-être, apparemment, probablement… — Les locutions adverbiales : éventuellement, hypothétiquement.. — Les expressions : selon lui, à mon avis, il se peut, à ma connaissance… La portée des déclencheurs d’incertitude est définie grâce aux dépendances identifiées lors de l’analyse linguistique. Une fois les déclencheurs identifiés, il est nécessaire de leur associer un degré de confiance. Aussi, pour chaque déclencheur, nous lui attribuons un poids ce qui permettra de quantifier la fiabilité de l’information. Chaque marqueur exprime une certaine intensité quant à la connaissance de l’auteur. Ceci permet d’évaluer le degré de confiance associé à l’information prise en compte. Par exemple, « probablement » exprime plus de certitude que « possiblement ». De plus, il est nécessaire de prendre en considération les modificateurs tels que moins, plus, très. Suivant la polarité du modificateur, nous ajouterons ou soustrairons 1/10 (le dixième) de la valeur du degré de confiance à celle déjà définie par le marqueur d’incertitude. Exemple : probablement = 0.70, très probablement = 0.77. Ceci afin de nous permettre d’augmenter la valeur du déclencheur en question, sans jamais atteindre la totale certitude qui est égale à 1. Pour définir nos degrés de confiance, nous nous sommes basés sur les travaux de [Cla90] et de [Kes08], qui eux-mêmes citent les travaux de [Dru89] et de [Ken64]. En effet, ces études se focalisent sur problèmes de la correspondance entre les expressions d’incertitude et les valeurs numériques pour décrire la croyance d’une personne. Ce degré est compris dans un intervalle d’incertitude entre 0 et 1. La valeur 0 indique une impossibilité, qui sera par la suite transformée en négation. La valeur 1 quant à elle indique que l’information est sûre. Pour ne pas encombrer notre extraction et notre graphe de connaissances, nous avons décidé de ne pas représenter le degré de fiabilité des informations certaines et de représenter ces affirmations comme les autres déclarations du texte. Par ailleurs, nous avons décidé de réduire nos valeurs d’incertitude en définissant des paliers tel que décrit dans le modèle de Rubin [RLK06]. Les niveaux de certitude pris en compte sont les suivants : — très forte certitude : nous sommes quasiment sûrs que l’information est correcte, le degré de confiance est égal à 0.90 ; — forte certitude : nous sommes presque sûrs que l’information est correcte, le degré de confiance sera alors égal à 0.70 ; — certitude modérée : il nous est impossible de décider si l’information est vraie ou fausse ou encore que l’événement aura bien lieu par exemple. La degré de confiance accordé sera égal à 0.50 ; — basse certitude : de gros doutes subsistent concernant l’information en question, le 80 3.1. Qualification de l’incertitude degré de confiance associé sera égal à 0.25. Cependant, les marqueurs d’incertitude ne sont pas l’unique façon d’exprimer un doute. En effet, l’emploi du conditionnel ou encore du futur permet à l’auteur d’exprimer une certaine réticence quant aux informations fournies. Ainsi, nous avons décidé de pondérer l’information à 0.75 lorsque l’auteur emploie le futur ou le conditionnel dans ces propos.

Incertitude issue du discours rapporté

La dernière incertitude prise en compte dans la catégorie des incertitudes liées au texte concerne le discours rapporté. En effet, dans des articles de presses par exemple, il est fréquent de trouver des déclarations de tierces personnes rapportées par l’auteur. La confiance accordée à ces déclarations peut être remise en cause en fonction des paramètres suivants : — l’auteur de la déclaration. — la nature de la déclaration. L’auteur de la déclaration a un rôle primordial à jouer dans la confiance que nous accorderons à ses propos. Une déclaration faite par un témoin anonyme sera moins sûre que celle effectuée par un témoin nommé. De même, ce dernier sera moins sûre qu’une déclaration faite par un Procureur de la République par exemple. Aussi, pour évaluer la fiabilité du discours rapporté, nous prenons en compte le rôle de son auteur (police, président, source officielle…), si son nom est renseigné ou non. Plus il y aura de précisions concernant l’auteur de la déclaration initiale, plus nous aurons tendance à croire ses propos. D’un autre côté, il faut également considérer la nature de la déclaration. La confiance varie selon le type de déclaration. Par ordre décroissant de fiabilité, nous considérons : annonce ou déclaration officielle, proclamation, point de vue, jugement, opinion, sentiment, pensée, rumeur…

Télécharger le document complet