“Big Data”, quelle(s) définition(s) ?

Facebook Tweet Pin Email

Tout au long de notre exposé, nous utiliserons l’expression « Big Data » ainsi que ses traductions françaises « données massives » et « mégadonnées » de manière alternative. Cette appréciation terminologique part du constat que la littérature scientifique relative à cette thématique est dans une large mesure anglophone. Parallèlement, l’expression fait son entrée dans le langage courant francophone. Ces différents termes doivent donc être vu comme synonymes dans la suite de nos développements.

Pour commencer, il convient de définir le cadre, de resserrer l’objet de notre étude. À cette fin, il est opportun de décomposer le terme de Big Data : il s’agit à la base d’un certain type de données mais qui vont revêtir un caractère « massif » au sein d’un marché numérique. Cette caractéristique les distingue des données en général. Comme le relève l’Autorité de la concurrence française et son homologue allemand, le Bundeskartellamt dans le cadre d’une étude conjointe réalisée en mai 2016 afin d’analyser l’enjeu que représente les Big Data en droit de la concurrence au sein d’une économie numérique , ce que nous comprenons par « données », ou encore « data » dans une économie numérique fait l’objet de multiples définitions. À ce sujet, les deux autorités de concurrence précisent : « Dans une acception étroite, ce terme (de données) est souvent utilisé pour nommer les résultats des expériences ou des mesures scientifiques. Mais dans un sens plus large, il est employé pour faire référence à une information (quelconque) ou sa représentation, souvent en association avec son stockage sur un ordinateur » Les données, comme le précisent Maurice Stucke et Allen Grunes , peuvent être très variées. Celles qui feront l’objet de notre intérêt sont plus particulièrement les données personnelles. Ces derniers auteurs reprennent d’ailleurs la définition proposée par l’OCDE ainsi qu’une liste exemplative de données personnelles dans un document de l’organisation internationale qui met en lumière leur omniprésence dans le monde actuel. L’OCDE définit les données personnelles comme « toute information relative à un individu identifié ou indentifiable » . Relevons quelques-uns des différents exemples cités dans la note du secrétariat de l’OCDE :
– Le contenu généré par les utilisateurs de réseaux sociaux, de blogs, les photos et commentaires s’y rattachant ;
– Les données d’activité et de comportements sur des sites d’achat en ligne tels Amazon, Asos, etc. ;
– Les données démographiques, incluant l’âge, le sexe, la race, l’origine, les affiliations politiques, etc. ;
– Les données bancaires, les informations financières, les numéros de compte en banque, de sécurité sociale, etc.

Big Data : une définition plurielle

En ce qui a trait au concept de Big Data à proprement parler, force est de constater qu’un consensus sur une définition unique n’existe pas au vu de la complexité du sujet . Dès lors, nous relèverons une série de définitions proposées par différents auteurs et organismes afin d’appréhender l’essence de ce terme. Ce panel non exhaustif fait autorité pour une majeure partie de la communauté scientifique. D’une manière générale, les données massives désignent des « ensembles de données dont la taille est supérieure à ce que les logiciels typiques de bases de données peuvent capturer, enregistrer, gérer et analyser » . Dans son avis préliminaire, le Contrôleur européen de la protection des données (CEPD/EDPS) précise que « le terme ‘Big Data’ est utilisé pour désigner l’association de la collecte de données massives à caractère personnel et de l’analyse d’ensembles très volumineux de données très variées ».

Pour De Mauro, « Les données massives sont les ressources d’information dont les caractéristiques en termes de volume, de vitesse et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour générer de la valeur».

La définition des « 4V »

Les Big Data ont fréquemment été caractérisées par ce l’on appelle les « 3 V », à savoir le volume des données, la vitesse à laquelle elles sont collectées, utilisées et diffusées et la variété des informations agrégées . À ces « 3V », Maurice Stucke et Allen Grunes en ajoutent un quatrième : la valeur des données . À l’image de Stucke et Grunes dans leur ouvrage Big data and competition policy, nous passerons en revue de manière succincte chacun de ces « V ». Ce sont notamment ces « 4V » qui permettent de distinguer les données classiques des données massives.

a. Le volume
Le volume, à savoir la masse de données produites chaque seconde, n’a cessé de croitre ces dernières années de manière exponentielle au vu de la croissance forte de l’économie numérique . Un bel exemple de cet accroissement du volume des données engendrées est l’historique de l’évolution des données massives que dressent Hu, Han et al au travers d’une ligne du temps reproduite ci-dessous :

Ce qui attire instantanément le regard est qu’au fur et à mesure des décennies la quantité de données devient faramineuse, ce qui implique d’innover sans cesse afin de stocker ces données dans des méga serveurs bien que le cout de ces derniers ait chuté ces dernières années, ce qui a permis l’utilisation toujours plus croissantes des Big Data.

Une illustration reprise par Stucke et Grunes est la prévision réalisée par Cisco de la croissance du volume des données : le trafic IP des centres de traitement de données devrait atteindre 8.6 zettabytes à la fin de 2018 contre 3.1 zettabytes en 2013, ce qui est colossal . Plusieurs raisons expliquent une telle croissance. Tout d’abord, ces dernières années, de nombreuses entreprises développent des stratégies liées aux Big Data pour analyser et gérer les données générées par leurs activités afin de les assister dans la prise de décision rapide . Ensuite, soulignons l’évolution de notre mode de vie. Notre société moderne est sur une lignée du « tout connecté » au travers de nos smartphones, des réseaux sociaux, des messageries en ligne, etc. Les mails ont remplacé les lettres, les courses peuvent se faire en ligne, le shopping se fait sur Amazon, etc. Toutes une série de tâches de la vie quotidienne tendent à être réalisées en ligne, ce qui par conséquent génère un amoncellement de données. A cela il faut encore rajouter la domotique qui sedéveloppe par le biais d’objets techniques connectés tel un thermostat ou une voiture qui vont collecter des données personnelles sur leurs utilisateurs. Cet accroissement du volume de données générées va de pair avec les innovations en matière de stockage des données, qui peuvent être entreposées dans des contenants de plus en plus petits.

La vélocité/vitesse des données

La vélocité, quant à elle, équivaut à la rapidité de l’élaboration et du déploiement des nouvelles données . Pour Stucke et Grunes, il s’agit de la vitesse à laquelle les données sont générées, accessibles, traitées et analysées, dans certains cas en temps réel . Ils abordent notamment la question du « now casting » que nous pourrions littéralement traduire par « prévision immédiate ». Dans la note de référence de son secrétariat, l’OCDE, se basant sur le travail de Stucke et Grunes (Stucke ayant également participé à la rédaction de cette note) précise que « ce concept de ‘now casting’ consiste à prendre un événement se produisant à l’instant t et à l’utiliser pour prédire des phénomènes au moment même où ils surviennent, comme lorsque l’on signale une épidémie de grippe en se fondant sur une montée en flèche des recherches en ligne sur les traitements antigrippaux. Cette méthode peut toutefois aussi être utilisée pour détecter un concurrent potentiel, en s’appuyant par exemple sur le nombre de téléchargements d’une application sur une boutique d’applications et en recoupant cette donnée avec les comportements en ligne ou les préférences de recherche. La faculté d’établir des prévisions en temps réel pourrait ainsi donner à une entreprise bien établie un avantage sur les nouveaux entrants » . Nous pouvons ainsi le constater, le traitement des données en temps réel est désormais primordial pour des entreprises comme Google ou Netflix afin de prendre des décisions stratégiques et de répondre le plus rapidement possible aux exigences des utilisateurs .

Table des matières

INTRODUCTION
I. CONTEXTE GENERAL
1. “Big Data”, quelle(s) definition(s) ?
A. Au commencement, les données
B. Big Data : une définition plurielle
C. La définition des « 4V »
a. Le volume
b. La vélocité/vitesse des données
c. La variété des données
d. La valeur des données
2. Le développement des Big Data et leurs effets positifs dans l’économie
II. LES BIG DATA DANS LE DROIT DE LA CONCURRENCE : IMPLICATIONS
1. Les données massives en tant que source de pouvoir de marché
A. Un marché hautement stratégique pour les entreprises
B. Les cas des « effets de réseau » et du « Multi-homing » — facteurs à considérer
a. Le cas des effets de réseau
b. Le « Multi-homing » (multi-hébergement)
C. Quel impact réel de la « gratuité » sur le pouvoir de marché ?
2. Objectif et cadre juridique du droit de la concurrence
3. Interaction entre le droit à la protection des données, le droit de la concurrence
et la protection des consommateurs dans l’économie numérique
III. LES COMPORTEMENTS LIÉS AUX BIG DATA POUVANT PORTER ATTEINTE À LA CONCURRENCE
1. Les ententes anti-concurrentielles
A. Une problématique à un stade embryonnaire
B. Les potentielles stratégies d’entente sur base des Big Data selon Ezrachi et Stucke
2. Les abus de position dominante
A. Le refus d’accès aux données massives
B. L’accès discriminatoire aux données
C. Les contrats exclusifs
D. Les ventes liées
3. Les concentrations : fusions et acquisitions
IV. QUELLE(S) RÉACTION(S) FACE À CES COMPORTEMENTS ?
1. Risque en cas d’attentisme des autorités de concurrence
2. L’insuffisance des outils à disposition des autorités de concurrence
A. La technique des seuils de notification sur base du chiffre d’affaire dans
le cadre de concentrations
a. Inadéquation de cette méthode pour les marchés liés aux Big Data
b. L’analyse actuelle des fusions/acquisitions vue par Stucke et Grunes
c. Quelle(s) possible(s) solution(s) ?
B. La détermination du marché pertinent : les tests SSNIP et SSNDQ
a. La difficulté de trouver un outil adapté
b. Le « SSNIP test »
c. Le « SSNDQ test »
d. Quelle voie adopter ?
C. L’évaluation pouvoir de marché lié aux données massives
V. INTERACTION ENTRE LE DROIT DE LA CONCURRENCE ET LE RESPECT DE LA VIE PRIVEE
1. Quel(s) lien(s) ?
2. Le respect de la vie privée en tant qu’élément qualitatif de la concurrence
3. Données liées à la vie privée : Pouvoir de marché – atout concurrentiel
4. De quelle manière appréhender le facteur vie privée dans le cadre d’une analyse concurrentielle ?
CONCLUSION