URBANISATION DE SYSTÈMES D’INFORMATIONS

Valorisation des métadonnées hétérogènes

L’architecture du Web a été initialement conçue pour s’appuyer sur l’emploi de langages de balisage (HTML) et de métadonnées. Cette tendance s’est confirmée avec les langages XML et xHTML. Le modèle de structure de données RDF (Resource Description Framework), défini par le W3C en 1999, fournit un cadre de description des ressources qui fonde l’interopérabilité entre les ressources disponibles sur internet, mais également avec d’autres ressources informatiques.
Dans cette section nous allons étudier les méthodes de valorisation de l’information au sein des systèmes d’informations. Nous pensons particulièrement aux chaînes de pro-duction de données automatisées, Workflow en anglais. Nous pensons particulièrement aux portails dédiés à la connaissance et à la recherche scientifique. En eﬀet, comment modéliser un système de recherche d’informations (SRI) tout en ignorant le contexte d’usage ? Placer l’humain au centre du processus de modélisation permet de proposer un outil au plus près des besoins et attentes des usagers. Des études publiées précédem-ment synthétisent la littérature sur la méthodologie de recherche d’informations sous des aspects psycho cognitifs (Chaudiron et Ihadjadene, 2002, Kembellec, 2011). Carol Kuhlthau met en évidence les étapes du processus de recherche d’informations tout en y associant les sentiments, les pensées de l’usager. Selon elle, si l’utilisateur du SRI ne trouve pas rapidement l’information qu’il cherche lors des diﬀérentes étapes du processus de recherche, il va rapidement se décourager et être plongé dans un état d’insatisfaction et renoncer (Kuhlthau, 2005). Nous pensons que cet état de satisfaction peut être en corrélation, bien entendu avec la qualité des métadonnées recueillies, mais aussi avec la compatibilité entre le SRI et les outils que l’usager s’est choisis. L’usager incapable de charger de manière simple et intuitive le résultat de sa recherche – à savoir une ou plusieurs notices bibliographiques – se retrouverait dans un état d’insatisfaction qui le pousserait à changer de SRI. Ainsi, les aspects simplement quantitatifs et qualitatifs en terme de données fournies par le SRI, s’ils sont indispensables pour créer un système de recherche d’informations, ne sont pas suﬃsants pour le rendre acceptable par les usagers. Des normes ont été établies par les instances internationales pour encadrer le phénomène dans le cadre documentaire. La NISO 1 a par exemple émis les normes ISO 2789 1 (Statistiques internationales des bibliothèques) et ISO 11620 2 (Indicateurs de performance des bibliothèques). Une fois les métadonnées normalisées, il reste également normaliser les échanges entre la source d’information et le logiciel destinataire. Selon Mkadmi et Saleh (2008), face aux dernières évolutions technologiques du web et à ses nouvelles applications (web 2.0 et web sémantique), les bibliothèques numériques doivent désormais s’adapter et redéfinir leur rôle dans les trois dimensions technique, architecturale et sociale.
1. Les ressources doivent être décrites avec une sémantique commune.
2. L’implémentation des fiches électroniques doit être standardisée dans un format interprétable par une machine.
3. Un (ou plusieurs) protocole(s) informatique(s) d’échanges pour ces données doit être structurellement établi.
Dans le champ de la bibliothéconomie, l’exposition hétérogène de données (Library mashup) est surtout utilisée pour les sites Web et les catalogues. Le site de la bibliothèque joue un rôle important dans sa valorisation au sein l’environnement numérique et la construction du pont entre les bibliothécaires qui transfèrent les connaissances et les usagers qui les reçoivent (Bach, 2010). Pour ce qui est des sites Web des bibliothèques universitaires et leurs catalogues en ligne (OPAC), une partie est spécialisée à l’usage des universitaires qui sont les utilisateurs dont la qualification documentaire est la plus élevée. Cette clientèle avec des besoins spécifiques nécessite des services dédiés de qualité plus élevée (Bach, 2010). Fichter définit le mashup (application composite) comme une application web qui utilise le contenu de plusieurs sources afin de créer un nouveau service aﬃché dans une interface graphique unique (Fichter, 2009). C’est cette notion de library mashup que nous appelons urbanisation de système d’information. Bryson (2010) reprenant Singer (2009) propose de classer les méthodes d’urbanisation de SI documentaire selon une organisation dichotomique basée sur le critère technique du langage utilisé pour mettre en œuvre l’exposition des métadonnées. De leur point de vue, la distinction des systèmes d’urbanisation se fait ainsi : d’une part les nouvelles méthodes sémantiques embarquées telles le RDF lié à du xHTML et d’autre part les méthodes dites POSH (plain old semantic html), c’est à dire celles plus anciennes uniquement constituées de HTML traditionnel. Nous prenons toute la mesure de la justesse de cette diﬀérenciation, mais de notre point de vue il est plus judicieux d’eﬀectuer le distinguo plutôt sur les méthodes d’usage des populations cibles. Ainsi, nous allons distinguer les méthodes contextuelles des méthodes systématiques d’acquisition d’informations documentaires. Voyons les diﬀérentes méthodes technologiques associées à ce concept d’urbanisation de SI ou de library mashup.

Méthodes orientées glanage

Le glanage d’information, opposé au moissonnage qui récolte toute l’information, est une méthode logiciellement assistée de détection et d’import sélectif de notice(s) bibliographique(s) au sein d’un document hypertexte. Pour l’illustration technique des protocoles suivants, nous avons mis en forme dans les diﬀérents formats présentés la référence bibliographique suivante : Kembellec, G. (2009). Ontologie franco/anglaise du domaine informatique comme accès à un corpus de textes scientifiques. In I. Porphyre, ed., Actes de la deuxième conférence Toth, 213–231, Annecy, France.

Dublin Core intégré dans les métadonnées HTML

En 1999, à peine un an après la sortie de la première Request For Comment (RFC 1 ) relative au Dublin Core, l’IETF 2 proposait une utilisation sur Internet du Dublin Core. Dans la RFC 2731, Kunze (1999) explique comment les descripteurs peuvent être exprimés en utilisant les balises <meta> et <link> du langage HTML. La balise <meta> est conçue pour en-capsuler des éléments de métadonnées dont le vocabulaire de typage est accessible en ligne au travers des Uniform Resource Locators (URL 3 ) déclarées au sein des balises <link>. En utilisant tout, ou partie, des 15 attributs classiques préconisés par le DCMI (voir chapitre 6 page 145), et en les préfixant « dc »,
un document hypertexte devient une ressource en ligne exposant ses métadonnées. Cette séquence de métadonnées est une auto-description pour la ressource hypertexte. Il s’agit d’une des méthodes dites POSH évoquées plus haut, c’est à dire du HTML sémantique traditionnel. Examinons son fonctionnement au travers du code source proposé en figure 9.1. Deux vocabulaires de description de métadonnées sont utilisés pour rendre cette page entièrement compatibles avec les logiciels de glanage. Dans le cadre de la figure 9.1, les autorités présentées au sein des balises <link> pour les vocabulaires de description sont :
1. Le DCMI Metadata Terms du dublin core classique 1
2. Le MARC Code List for Relators de la librairie du congrès 2 .
Cette technologie d’exposition de données est implémentée dans un cadre documentaire scientifique à une vaste échelle par revue.org et par HAL (voir chapitre 2, pages 51 et 49). Même si cette technique est vieillissante, elle reste encore très largement utilisée. De plus, elle oﬀre l’avantage d’exposer les mots clés associés au document dans un format compréhensible par Zotero (Voir chapitre 7 page 178). Avec un logiciel comme Zotero, l’usager peut obtenir une notice bibliographique complète avec résumé et mots clés. L’usage des métadonnées intégrées au HTML présente tout de même un défaut majeur : il n’est en eﬀet pas possible d’exposer les notices de plusieurs documents sur une même page, comme par exemple sur la page des réponses de Google Scholar. Cela s’explique par le fait que les métadonnées sont incluses dans l’entête du document HTML et qu’il ne peut y avoir qu’une seule entête par page. Ce défaut est corrigé en xHTML avec la possibilité, en utilisant RDF, de décrire plusieurs blocs de données au sein d’une même page.

Les méthodes basées sur le RDF « embarqué »

Avec l’avènement du xHTML, le DCMI a entamé une réflexion sur l’opportunité d’adapter l’usage du Dublin Core à cette évolution du HTML. En 2008, dans le docu-ment Expressing Dublin Core metadata using HTML/XHTML meta and link elements, Johnston et Powell (2010) ont décrit les possibilités d’intégration du Dublin Core dans le XHTML, notamment grâce aux triplets RDF. Cette idée était directement issue de la technologie baptisée GRIDDL (Gleaning Resource Descriptions from Dialects of Lan-guages) normalisée par Dan Connolly (2007) pour le W3C en Septembre 2007 1 . Kunze et Reschke (2010) de l’IETF ont donc révisé la RFC 2371 en 2010 pour tenir compte de cette évolution. Cependant, l’usage courant conserve largement les spécifications précé-dentes. Ces technologies sont particulièrement eﬃcaces pour une indexation optimisée avec Google Panda. D’après nos tests, elles ne sont pour l’instant pas détectables par les outils comme Zotero ou Mendeley (Voir chapitre 7 pages 178 et 171). L’objectif était, et reste, de trouver une convention permettant une interopérabilité avec les logiciels d’indexation, d’aﬃchage, de glanage et de moissonnage d’information documentaires dans les hypertextes. Comme ces technologies ne sont pas encore compatibles avec les outils dédiés, nous n’examinerons pas leur fonctionnement technique en détail. Gageons cependant que les communautés de développeurs autour des outils libres ouvriront sous peu la voie de la détection de ces technologies RDF que sont GRIDDL, le RDFa et les microformats. Nous reviendrons plus en détail plus loin sur les méthodes de description de données documentaires au format RDF (même chapitre, page 244).