Comment les big data peuvent-elles permettre de mieux communiquer sur la qualité alimentaire ?

Comment les big data peuvent-elles permettre
de mieux communiquer sur la qualité alimentaire ?

Les technologies big data : quatre domaines d’innovation et d’usage

Comme nous venons de l’annoncer, une des observations qui nous a le plus marqué est que sur les deux salons que nous avons visité, les technologies du big data ont à chaque fois été présentées comme les plus importantes sources d’innoǀation dans le domaine de la relation client. Si cela n’est pas vraiment surprenant pour le cas du Salon Big Data 2014, il en est autrement pour celui du Salon E-Marketing et Stratégie Client 2014. En effet, ce dernier est un salon généraliste qui offre une bonne représentation des tendances actuelles dans le domaine de la numérisation du commerce. Et, comme toute tendance d’innoǀation, celle du ďig data marchand est ďien entendu soumise à un processus de mise en marché (i.e. : d’économicisationͿ. En ce sens, comme dans tout processus de mise en marché, cette tendance est effectivement construite par les offreurs : elle est donc une tendance marketing. Cependant, comme tout processus de mise en marché, cette tendance est aussi construite par les demandeurs : par conséquent, elle est également une solution à une problématique concrğte. C’est pourruoi, dans cette section, nous souhaitons eǆposer les quatre domaines d’innoǀation et d’usage du big data afin de présenter comment celui-ci peut constituer une solution au problème des formes de la communication sur la qualité alimentaire. Nous montrons ainsi que le premier domaine d’innoǀation dans le champ du big data marchand est celui du recueil des données. Nous verrons alors que si les innovations dans le secteur du stockage et du traitement des données tendent aujourd’hui à se faire à la marge, celles réalisées dans celui de la construction et de l’enrichissement des données apparaissent plus conséruentes ;section Ϯ.ϭͿ. Ensuite, nous eǆposons le deuǆiğme domaine d’innoǀation rui est celui des technologies de visualisation des données. Nous expliquons ainsi que celles-ci ont pour principal objectif de permettre à des non-statisticiens de pouvoir facilement représenter et interpréter les données de façon à pouvoir explorer efficacement les structures qui les assemblent (section 2.2). Aussi, comme dans le domaine de la documentation marchande, construire des connaissances sur les clients ne sert pas à grand-chose si ce n’est à guider les actions de communication, nous ǀerrons que le troisiğme domaine d’innoǀation ďig data est celui de l’automatisation de la décision (section 2.3). Finalement, nous soulignons l’importance des innoǀations effectuées dans le secteur de la mesure de la performance (section 2.4) et nous concluons en pointant un des plus remarquables mouvements de fond dans le domaine des innovations big data (section 2.5).

Le recueil des données : la construction et le stockage/traitement de la matière première

Tout projet big data commence par un problème de recueil et/ou de stockage et/ou de traitement des données : – comment recueillir les données nécessaires à la mise en place d’un système de documentation personnalisé ? – Comment stocker ces données de façon à pouvoir y accéder le plus rapidement et le plus facilement possible ? – Comment traiter et organiser ces données plus ou moins structurées de façon à permettre leur conciliation et leur mise en discussion ? Commençons par présenter les solutions que proposent les principaux acteurs du big data8 aux deux dernières ruestions rue nous ǀenons d’eǆposer. D’une façon générale, ces acteurs développent des offres de services permettant de stocker et concilier les données plus ou moins structurées qui 8 Microsoft ; Sinequa ; Statistical Analysis System (SAS) ; Systems Applications and Products (SAP) ; Quartet FS ; International Business Machine (IBM) ; Hewlett-Packard (HP) ; Makazi ; Worldline ; etc. 8 sont internes9 et externes10 à l’entreprise. Afin de faciliter le traitement de ces masses de données, les offreurs du big data ont ainsi élaboré de nouvelles architectures de stockages permettant à la fois de rassembler les données sur une même base et de les traiter directement en toute sécurité (ce qui évite alors les duplications et les transferts de données). De plus, ces architectures de stockages sont distribuées de façon à accroître la rapidité de traitement des données. Ainsi, la majorité des offreurs du big data proposent des systèmes de calcul dits in memorǇ rui s’opğrent, pour la plupart et quelle que soit la taille de la base de données, en (quasi-)temps réel. Autrement dit, dans le domaine du stockage et du traitement des données, il apparaît que les technologies big data sont relativement mûres. En ce sens, lors du discours de clôture du Salon Big Data 2014, Doug Cutting11 a expliqué que, selon lui, il n’eǆiste pas de limite en termes de stockage et de traitement des données : tous les problèmes rencontrés dans ces domaines ont toujours été levés sur le plan technique. Bien entendu, s’il apparaît effectiǀement que les limites techniques du stockage et du traitement des données sont quasi-ineǆistantes, l’ensemďle des acteurs de l’industrie aǇant adopté les technologies ďig data témoignent, à chaque fois, d’une limite économirue qui est, cette fois-ci, bien réelle. Les visites que nous avons pu effectuer du Salon Big Data 2014 et du Salon E-Marketing et Stratégie Client 2014 nous ont donc permis de repérer que si les innovations dans le domaine du stockage et de du traitement des données se font plutôt à la marge, celles réalisées dans le domaine du recueil des données sont, quant à elles, plus remarquables. Cependant, avant de présenter une des nouveautés techniques qui nous a particulièrement frappée, nous souhaitons revenir brièvement sur un aspect mis en avant par Christophe Benavent12 lors des différents salons. Selon lui, une des techniques les plus importantes à maîtriser dans un projet big data est celle de la captation des données. C’est pourruoi, pour Christophe Benaǀent, il est absolument nécessaire de mener une réflexion profonde sur le tǇpe de données rue l’on souhaite enregistrer et sur les technirues rui permettent de les recueillir. En effet, compte tenu que dans le domaine des big data, le recueil des données est automatirue, il est assez facile d’oublier que les techniques de captations qui en sont sous-jacentes introduisent des ďiais ru’il est nécessaire de contrôler. Car, c’est sur cette matière première que constitue les données que repose la totalité d’un projet big data. Maintenant que nous avons souligné ce point, présentons rapidement la solution développée par Octopeek. Octopeek est une jeune start-up rui propose d’enrichir les bases de données des marketers à travers les courriels de leurs clients. Le principe est le suiǀant. À partir d’une simple adresse mail, l’intelligence artificielle d’Octopeek ǀa inférer différentes informations sociodémographiques relatives à son propriétaire en croisant les données mises à disposition par les services publics, celles présentes sur les réseaux sociauǆ, sur l’ensemďle du ǁeď et celles stockées dans les bases de leurs partenaires. Lors d’une collaďoration réalisée aǀec Gaz De France ;GDFͿ, Octopeek a ainsi réussi à identifier les clients réticents au gaz de schiste de façon à ce que GDF puissent travailler à mieux comprendre leurs profils et leurs motivations. Aussi, ďien ru’Octopeek respecte les réglementations de la Commission Nationale de l’Informatirue et des Liďertés ;CNILͿ, il est clair que ce type de service pose un certain nombre de problèmes sur le plan éthique puisru’il s’agit d’eǆploiter les techniques de la ré-identification. Néanmoins, comme nous le verrons par la suite, il est envisageable de mobiliser ce type de technologie afin de développer des connaissances sur les consommateurs tout en respectant, sur le plan éthique, leur vie privée. À tout le moins, il est apparaît ru’en référence auǆ cas de GDF, il pourrait être intéressant, pour les membres du club « Transformation Agroalimentaire », de mieux comprendre les réticences que peuvent éprouver certains de leurs consommateurs vis-à-ǀis, par eǆemple, d’une nouǀelle 9 C’est-à-dire, qui proviennent des outils de Customer Relationship Management (CRM), des centres d’appels, des différents dispositifs de ǀente en ligne et hors ligne, etc. 10 C’est-à-dire, qui proviennent des services publics (i.e. : des open data), des réseaux sociaux, des blogs, de sites d’informations plus ou moins spécialisés, des foires auǆ ruestions, etc. 11 Chef architecte de Cloudera et co-fondateur d’Hadoop. 12 Enseignant-chercheur à l’Uniǀersité Paris Ouest Nanterre la Défense ;CEROS – EA 4429) 9 technologie de traitement des sols utilisée par l’entreprise. Ceci dans le but de documenter les consommateurs, en toute transparence, sur les avantages et les limites qui y sont associés. Ajoutons alors rue d’autres innoǀations plus ludirues ;et par forcément plus éthiruesͿ eǆistent afin de recueillir des informations sur les clients. Par exemple, Optin Manager est une solution destinée à collecter et qualifier des données clients sous formes de petits jeux. Elle permet ainsi de recueillir des données sociodémographiques ou encore sociopsychologiques sur les consommateurs tout en les amusant. De même, Askom propose un service de création d’agents ǀirtuels rui, une fois entraînés, sont capables de répondre aux questions des clients. Par conséquent et de façon détournée, ces agents sont aussi capables d’enregistrer les questions que se posent les clients. Ce qui constitue, en soi, une source d’information intéressante.

La visualisation des données : l’exploration et la construction des connaissances

Partant, une fois le système de recueil, de stockage et de traitement instauré, il faut penser à une maniğre de ǀisualiser et d’étudier ces données. C’est pourruoi, de manière assez commune, les principaux acteurs du big data qui proposent des services de stockage et de traitement développent également des outils de visualisation des données. C’est le cas, par exemple, d’IBM, de HP, de SAS, de SAP, de Sinequa, de Microsoft, de Quartet FS, de Makazi, ou encore de Worldline qui conçoivent des services de visualisation qui sont, sur un plan très général, assez similaires. Ajoutons alors rue d’autres acteurs comme Taďleauǆ Software ou encore QlikView, qui proposent uniquement des technologies de visualisation, offrent des services, toujours d’un point de ǀue trğs gloďal, relativement identiques. De façon schématique, le principe des technologies de visualisation des données massives est le suivant. Il s’agit de simplifier les actiǀités d’eǆploration des données afin de permettre à des nonstatisticiens de naǀiguer à l’intérieur de bases de données complexes sous la forme d’une activité proche de celle de la recherche d’information. Les interfaces de ces technologies sont généralement très intuitives. Par exemple, les dégradés de couleurs sont souvent utilisés pour signifier l’intensité des corrélations statistiques d’une analǇse multifactorielle. Il est alors relativement facile de construire et d’interpréter des tableaux et des graphirues puis de naǀiguer à l’intérieur en sélectionnant, par exemple, une période bien définie afin de préciser l’oďserǀation. De cette façon, ces outils de visualisation permettent aux utilisateurs de faire varier très simplement les échelles d’analyse. De plus, les développeurs de ces services proposent souvent des suivis personnalisés afin de délimiter, avec les utilisateurs, les espaces de données à explorer et les différentes formes de visualisation nécessaires pour les représenter. En d’autres termes, les offreurs de ce type de technologie proposent généralement d’accompagner les utilisateurs afin rue ces derniers puissent constituer des tableaux de bord relativement approfondis dans le ďut de faciliter et d’encadrer les actiǀités d’eǆploration des données en fonction de leurs besoins métiers. Ces tableaux peuvent être rendus accessibles à travers différents espaces de publicisation (cf. les plates-formes cloud) dont les accès sont bien entendu protégés. Selon des règles qui sont à définir par les utilisateurs, ces tableaux de bords deviennent ainsi mobilisables et manipulables sur l’ensemďle des dispositifs numérirues que sont les ordinateurs de bureau/portables, les tablettes, les smartphones, etc., des équipes opérationnelles et/ou décisionnelles de l’entreprise. L’eǆploration collaďoratiǀes des données et la conception collectives des rapports (i.e. : reporting) qui en découlent sont ainsi favorisés. Rappelons alors que, compte tenu des avancées dans le domaine de l’architecture des bases de données et des avancées techniques en termes de puissance de calcul, les actiǀités d’eǆploration sur les technologies de visualisation des données peuvent se faire en temps réel.

Table des matières

Introduction
1. Retour sur la demande : les objectifs de la mission
1.1. Une problématique : améliorer la communication sur la qualité alimentaire
1.2. Quelques pistes de réflexions dégagées par les membres du club
ϭ.ϯ. L’importance du proďlğme des formes de la communication
1.4. Le big data : une solution au problème des formes de la communication
1.5. Conclusion partielle
2. Les technologies big data : ruatre domaines d’innoǀation et d’usage
2.1. Le recueil des données : la construction et le stockage/traitement de la matière première
2.2. La visualisation des données : l’eǆploration et la construction des connaissances
Ϯ.ϯ. L’automatisation de la décision : de la prédiction à l’action
2.4. La mesure de la performance : système de contrôle et rétroaction
2.5. Conclusion partielle .
3. Les limites/aǀantages d’un projet ďig data pour le cluď « Transformation Agroalimentaire »
3.1. Un projet ambitieux à réaliser pas à pas
3.2. Les principales difficultés à considérer
3.3. Les principaux avantages à considérer
3.4. Conclusion partielle
Conclusion
Remerciements
Liens et références
Références techniques .
Références des chercheurs du CERTOP