Réplication de données

Réplication de données

Choix de conception : utilisation d’informations sémantiques

Dans le contexte des MANets, nous proposons un système de partage d’information de données dont la granularité est de l’ordre du fichier et où les données sont compréhensibles par l’humain. On veut utiliser ce sens pour prédire les accès des utilisateurs. Trois problèmes se présentent alors à nous : 1. extraire des informations pertinentes du contenu, 2. caractériser l’utilisateur, en extrayant des informations de ses accès passés, 3. à partir de ces informations, prédire ce qui intéressera l’utilisateur par la suite.

Indexation et recherche sur le contenu

L’utilisation la plus standard des informations sémantiques dans le partage de données est la recherche. Pour ce faire, les données sont tout d’abord indexées. Cela peut être fait de différentes manières : – Indexation automatique par le contenu des données (extraction de mots-clés) ; ex. : les moteurs de recherche web modernes. – Tag par des utilisateurs (mots-clés) et la machine (geotag et timetag) ; ex. : youtube, flickr. Dès lors une recherche associe un jeu de données triées par ordre de pertinence de la requête à une liste de mots-clés. Dans ces systèmes, il n’y a pas de caractérisation de l’utilisateur, et on ne peut donc pas répondre pro-activement à ses besoins. 6.1.2 Recommandation, filtre collaboratif L’extraction de contenu est une technique maîtrisée pour les documents de type texte, comme l’atteste le succès de Google, mais pour le contenu multimédia, l’indexation par le contenu est plus ardue. L’indexation de contenu multimédia est un sujet de recherche actuel, mais les résultats obtenus ne sont pas aussi satisfaisants que pour les documents textes. Une solution est de laisser le soin aux utilisateurs humains d’annoter les données : c’est le but, par exemple, du jeu Google Image Labeler, qui a permis d’améliorer la pertinence des résultats de Google Image .Une autre classe de solution est le filtrage collaboratif [15]. Cette technique consiste à regrouper non pas les données similaires, mais les utilisateurs susceptibles de s’intéresser aux mêmes sujets. Dans des réseaux sociaux, comme Facebook, ceci est fait simplement en recommandant ce que les noeuds proches dans le réseau ont aimé. Pour des systèmes sans notion de réseau, on applique les techniques de regroupement de données (data clustering) sur les utilisateurs [101]. Les filtres collaboratifs sont utilisés avec succès pour faire de la recommandation dans de nombreux systèmes commerciaux, comme par exemple amazon ou iTunes. On peut aussi les utiliser pour répliquer des pages web par anticipation, comme dans [47] On n’a alors pas besoin d’information sur le contenu des données, mais il faut, par contre, maintenir un historique de tous les accès de tous les utilisateurs. Une telle solution est, par nature, centralisée, et peut poser des problèmes de vie privée, car elle nécessite de conserver des informations sur les utilisateurs.

Assistants personnels

Les deux premières techniques proposées ci-dessus, malgré leur efficacité, ont le défaut, pour un MANet, d’être centralisées. Des solutions ont été proposées pour la navigation internet assistée sur un poste, comme par exemple dans [63]. Ces solutions reposent sur les techniques suivantes : – Parcours des liens depuis une page, – Construction à l’aide d’une ontologie des concepts intéressant l’utilisateur, et des concepts de chaque page. Le parcours des liens crée une charge réseau que nous voulons éviter. De même, nous ne voulons pas embarquer un moteur d’inférence et une ontologie sur chaque terminal léger. Les techniques actuelles permettant de prédire quelles données vont intéresser un utilisateur se basent soit sur la connaissance de l’ensemble des données pour les trier par intérêt croissant, soit sur la connaissance de l’ensemble des accès de tous les utilisateurs, afin de ranger ceux-ci par similarité d’accès. Ces techniques sont très efficaces, mais elles ne sont cependant pas aisées à mettre en œuvre dans un MANet, car elles nécessitent un serveur. Nous allons donc utiliser un algorithme de prédiction d’intérêt plus simple, mais qui ne sera sûrement pas aussi pertinent.