Messages postés sur les médias sociaux, une nouvelle mine d’informations

Modéliser l’image de marque et présenter la manière dont elle est perçue à un analyste afin de l’assister

Au travers de ces problématiques, notre objectif réside dans le développement d’applicatifs permettant l’annotation automatique des collections de données. Cela consiste à identifier des opinions et à en extraire les différentes caractéristiques conformément aux modèles de connaissances représentant l’image de marque d’une entité. Ces contributions, que nous positionnons dans la littérature et que nous décrivons brièvement dans la suite de cette section, sont formulées de manière générique par rapport aux médias sociaux, et évaluées par rapport à un média social en particulier, à savoir Twitter 5. Même si ces notions sont maintenant relativement communes, avant d’aller plus loin nous proposons de rappeler quelques concepts propres à Twitter. Plus de détails ainsi que des informations complémentaires sur d’autres services de médias sociaux sont disponibles dans les travaux de (Ellison et al., 2007). Twittere est un service de «micro-blogging» en ligne qui permet à ses utilisateurs d’échanger en temps réel autour de n’importe quel sujet à partir de messages appelés «tweets» (des messages dont la taille ne dépasse pas 140 caractères). Chaque tweet publié apparaît sur la page de profil de son auteur. Pour voir l’ensemble des messages d’un utilisateur il suffit donc de se rendre sur la page de profil de ce denier.

De même, afin de faciliter l’accès aux messages des autres utilisateurs, les utilisateurs ont la possibilité de s’abonner les uns aux autres (on devient alors un «follower », c’est l’action de suivre un utilisateur, l’utilisateur suivi devient alors le «followee »). Dans ce cas, chaque message publié par un utilisateur et est instantanément transmis à ses abonnés, ces derniers peuvent avoir une vue des l’activité de leurs «abonnements» dans leur « timeline ». Celle-ci consiste en l’empilement en ordre chronologique inverse des tweets publiés par les utilisateurs auxquels nous sommes abonnés. Autre particularité intéressante, il est possible de re-diffuser le message d’un autre utilisateur via l’action de «retweet» dans le but de le partager avec ses abonnés pour mentionner son accord (ou son désaccord si l’on rajoute un commentaire) avec le message. Dernière caractéristique, les contenus peuvent comporter deux symboles particuliers en préfixe de certains mots. Pour mentionner spécifiquement un utilisateur, on utilise « @NomUtilisateur» 6. Il est possible de lancer des discussions autour d’un mot (ou d’une expression) qui devient alors un « motdièse » (ou «hashtag »). Ces hashtags qui sont une chaîne de caractères commençant par le caractère dièse «#motouexpression» ont fait l’objet de nombreuses études (Brun et Roux, 2014).

Analyser les contenus

Problématiques Etant donné le volume de publications quotidiennes sur les médias sociaux, l’analyse des messages est devenu une tâche de Fouille de Données (FD) (données que l’on peut considérer comme massive). Afin d’être en mesure de réagir rapidement à des publications dangereuse pour notre réputation il st nécessaire de faire appel à des méthodes automatiques issues de plusieurs domaines de recherche comme la Recherche d’Information (RI), l’Extraction et la Gestion de Connaissances (EGC), le Traitement de la Langue Naturelle (TALN), et l’Apprentissage Automatique (AA). Dans le cadre de l’analyse de données issues des médias sociaux, ces différents domaines de recherche partagent entre autres un objectif commun : automatiser au maximum la détection et l’analyse des sujets (ou thématiques généralement appelés « topics» sur les médias sociaux (Makkonen et al., 2004)). L’objectif de cette automatisation est de permettre à l’analyse de réputation de se focaliser sur la prise de décision (faut-il réagir suite à cette publication ?).

Chaque domaine de recherche définit des méthodes qui, de part des analyses statistiques et sémantiques, permettent d’apprendre à traiter des contenus textuels. Ces traitements sont effectués à partir de corpus de données textuelles en se basant sur la présence (pondérée ou non) et les (co-)occurrences de certains mots voire d’expressions (suites de mots que l’on appelle communément n-grams) ou plus spécifiquement d’« Entités Nommées». Il existe bien sûr un grand nombre d’applications à ces analyses de contenus (Kontostathis et al., 2010). Nous pouvons trouver dans la littérature plusieurs types d’approches, celles qui se basent d’une part sur des méthodes d’apprentissage automatique, visant à détecter une caractéristique spécifique, celles dont l’objectif est d’apprendre et reproduire un jugement d’expert, et enfin celles qui reposent sur l’utilisation de connaissances comme les dictionnaires (Miller, 1995) et autres répertoires d’« Entités Nommées» (Derczynski et al., 2015). Les performances de ces méthodes sont par contre sensibles quant à la disponibilité et l’évolution des ressources utilisées.

Contributions

Nous proposons plusieurs méthodes statistiques de traitement de la langue par apprentissage automatique à partir d’un jeu réduit de connaissances fournies par des experts pour détecter automatiquement l’opinion (polarité et thématique), ou la priorité de l’information, véhiculée dans les messages à partir du contenu textuel de ces derniers. Ces méthodes relativement simples nous permettent également de pouvoir facilement extraire l’information qui a contribué à la prise d’une décision afin de permette à l’utilisateur de notre système de pouvoir d’une part comprendre la décision et si besoin est d’effectuer des modifications qui enrichiront le modèle. Les expérimentations menées montrent la pertinence des méthodes proposées via l’évaluation et la comparaison des performances de ces méthodes avec celles qui sont qualifiées « état de l’art ». Cette évaluation nous place le plus souvent au niveau de ces dernières malgré la complexité bien moindre de nos méthodes.

Quels usages ? Les médias sociaux permettent aux utilisateurs de partager, quelque soit la plate-forme, divers types de contenus notamment ceux inclus dans les messages textuels. Les aspects les plus étudiés sont ceux qui concernent les aspects sociaux entre les individus et tout ce qui est rattaché à ces contenus publiés. Dans le premier cas, c’est principalement sur l’utilisateur, son profil et ses relations, que l’on se concentre. Dans le deuxième cas, l’objectif est de chercher à comprendre le sens de ces contenus et trouver des applications auxquelles ils seraient utiles. C’est ce second cas qui nous intéresse ici. Notre cadre applicatif, l’analyse des images de marque sur le Web 2.0 nécessite d’être en mesure de prendre en compte le contenu textuel des messages, avis, et autres commentaires déposés par les entités étudiées ou par les internautes. On trouve dans la littérature beaucoup de publications centrées sur l’analyse des contenus de messages issus de réseaux sociaux et particulièrement Twitter. Les messages publiés sur les médias sociaux étant régis par leurs propres règles et styles, il a d’abord fallu de nombreuses études pour proposer des systèmes de normalisation et correction de texte. Citons, par exemple, l’Atelier d’Analyses des Contenus duWeb 2.0 (CAW2.0) 1 dont l’objectif est entre autres de produire des versions corrigées des messages.

Par la suite, beaucoup d’autres ateliers du même genre ont émergé et abouti à la création de nombreuses collections de données permettant à tout un chacun de construire et évaluer son propre système sur de nombreuses tâches. Cependant, il n’existe toujours pas de ressources permettant d’évaluer des problèmes plus spécifiques posés par ces messages comme l’analyse d’image de marque. Là, un travail plus conséquent d’annotation est nécessaire pour réellement comprendre les intentions des auteurs de ces messages. Les travaux de (Jansen et al., 2009) marquent peut-être un tournant lorsque ces derniers affirment que l’on peut considérer le média (ou réseau) social Twitter comme l’équivalent d’un bouche-à-oreille numérique où 19% des messages seraient directement adressés à des services clients avec une forte tendance positive (50% contre 33% de messages négatifs). Jansen et al. ont également proposé un système automatique qui permet de suivre les évolutions dans le temps d’opinions au sujet d’une marque sans toutefois en proposer d’analyse fine. Ces travaux font alors de Twitter, mais aussi des autres médias sociaux, une nouvelle mine d’information qui attire particulièrement les chargés de veille relationnelle de grands groupes commerciaux.

Dans le même temps, des études comme celles de (Mascaro et al., 2012) ou encore (Park et al., 2011) proposent de suivre l’expérience du discours politique en ligne en analysant les réactions d’utilisateurs, l’orientation des nouvelles et réactions des utilisateurs à ces dernières comme le proposent également (Sobkowicz et Sobkowicz, 2012). Dans une période électorale, c’est plus spécifiquement à la majorité silencieuse que l’on s’intéresse au travers des éléments qui sont absents de ces discours numériques. D’ailleurs, les élections allemandes de 2009 (Tumasjan et al., 2010) et américaine de 2010 (Livne et al., 2011) ont été marquées par de forts progrès des méthodes automatiques, ces résultats étant remis en question plus tard par (Jungherr et al., 2012) et (Metaxas et al., 2011). Le « blogging » est depuis devenu un outil fiable pour prédire les résultats du box office (Sadikov et al., 2009) ou les tendances de la bourse (Bollen et al., 2011). Dans un tout autre registre, (Sadilek et al., 2012) proposent de modéliser la propagation d’une épidémie, (Sakaki et al., 2010) souhaitent eux affiner la détection de phénomènes naturels comme les tremblements de terre, le tout, à partir des réactions observées à ce sujet sur Twitter. Les débouchés de ce genre d’études permettent d’aider les services de secours lors de catastrophes naturelles, chacun étant en mesure de communiquer publiquement la situation dans sa ville, son quartier. Cependant, certaines personnes mal-intentionnées profitent de cette situation en usurpant des comptes officiels dans le but d’annoncer de fausses nouvelles afin de créer des réactions en chaîne 2.

Table des matières

1 Introduction
1.1 Problématiques et contributions
1.1.1 Analyser les contenus
1.1.2 Détecter les différentes populations d’utilisateurs
1.1.3 Organisation et présentation de l’information pertinente
1.2 Organisation de la thèse
2 Messages postés sur les médias sociaux, une nouvelle mine d’informations
2.1 Quels usages ?
2.2 Quelles méthodes pour analyser les contenus ?
2.2.1 Représentation des contenus
2.2.2 Méthodes d’analyses
2.2.3 Méthodes d’apprentissage automatique
2.2.4 Enrichir les tweets, une solution ?
2.2.5 Caractéristiques des documents et marqueurs intrinsèques
2.3 Modélisation et prédictions automatiques
2.3.1 Représentation des documents
2.3.2 Représentation des termes
2.3.3 Apprentissage et optimisation par tirage aléatoire
2.4 Prédictions multiples et prise de décision
2.4.1 Combinaison linéaire
2.4.2 Optimisation multicritères
3 Méthodologie expérimentale
3.1 Introduction
3.2 Evaluation
3.3 Données et évaluations
3.3.1 Collections Imagiweb Blogs et Twitter
3.3.2 Collection RepLab’2013-14 Twitter
3.3.3 Collection RepLab’2014 Profils d’utilisateurs Twitter
3.4 Sources d’informations additionnelles et contextualisation
3.4.1 Contextualisation de Micro-Blogs le cas INEX Tweet Contextualization 2014
3.4.2 Contextualisation de Micro-Blogs la généralisation lexicale
4 Catégorisation de Micro-Blogs, un problème de messages ?
4.1 Evaluation
4.1.1 Performances de catégorisation thématique
4.1.2 Performances de détection d’opinions
4.1.3 Performances de filtrage et détection d’alerte (ou priorité)
4.2 Message ou discussion quelle granularité pour la détection de priorité ?
4.2.1 Méthodes automatiques de regroupement de messages
4.2.2 Tâche de détection d’alertes
4.2.3 Regroupement de messages
4.2.4 Évaluation des méthodes de regroupement de messages
4.2.5 Évaluation la détection du niveau de priorité de groupes des messages
4.2.6 Conclusion
4.3 Vers l’enrichissement des contenus
4.3.1 Enrichissement des contenus à partir des systèmes de contextualisation automatique
4.3.2 Enrichissement des contenus à partir du système de généralisation lexicale
4.3.3 Comparaison de systèmes de contextualisation automatique
4.3.4 Évaluation cas de la catégorisation thématique
4.3.5 Évaluation cas de la généralisation thématique appliquée à la détection de priorité
4.4 Conclusion et perspectives
5 Profilage d’utilisateur
5.1 Introduction
5.1.1 Le profilage, mais pour quoi faire ?
5.1.2 Notion d’influence
5.2 Définition d’un profil
5.2.1 Profil Public
5.2.2 Activité de publication
5.2.3 Réseau de relations
5.2.4 Interactions avec le réseau de relations
5.2.5 Champ lexical et thèmes abordés
5.2.6 Style éditorial
5.2.7 Données externes
5.2.8 Discussions
5.3 Expériences
5.3.1 Méthodologie proposée
5.3.2 Evaluation et discussions
5.3.3 Classement d’utilisateurs par niveau d’influence comparaison de performances
5.3.4 Classification d’utilisateurs par selon leur influence comparaison de performances
5.4 Conclusions
6 Visualisation d’information 
6.1 Introduction
6.2 Travaux connexes
6.2.1 Suivi de réputation
6.2.2 Résumé automatique le cas du Micro-Blog
6.3 Méthode de sélection de l’information pertinente
6.3.1 Problématiques
6.3.2 Contributions
6.4 Modélisation de réputation
6.4.1 Problématiques
6.4.2 Contributions
6.5 Données et évaluations
6.5.1 Collections de données
6.5.2 Évaluations
6.6 Expériences
6.6.1 Sélection de messages
6.6.2 Résumés de profils
6.6.3 Modélisation d’alerte
6.6.4 Modélisation d’influence
6.7 Conclusion
7 Conclusions et perspectives
7.1 Récapitulatif
7.2 Perspectives
Bibliographie
Annexes
A Participations aux campagnes RepLab 2013-2014
B Expérimentations avec les données Vodkaster
B.0.1 Introduction
B.1 Cadre expérimental

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *