Modèles Relationnels Probabilistes et Incertitude de Références

Modèles Relationnels Probabilistes et Incertitude de Références

Contributions

Nous distinguons trois types de contributions dans cette thèse : des contributions théoriques, expérimentales et logicielles.

Contributions théoriques

Nous proposons dans cette thèse plusieurs contributions théoriques. La première prend la forme d’une explication détaillée des modèles d’intérêt, détaillant des points laissés même obscurs dans la littérature. Cette contribution comprend également certaines propositions comme autant de choix qui ne sont pas faits dans les articles originaux, p.ex. la définition d’un a priori sur les fonctions de partition pour l’évaluation des modèles, et la description de règles de calculs des distributions de probabilités dans les instanciations de ceux-ci. En outre, cette contribution comprend l’identification de limites pour ces modèles. Notre seconde contribution théorique correspond aux deux extensions que nous proposons pour corriger les limites identifiées préalablement et aux stratégies de partitionnement que nous proposons, allant au-delà de ce qu’il est possible de faire dans les modèles historiques. Nous nous focalisons notamment sur l’utilisation de fonctions de partitionnement relationnel, permettant de grouper conjointement les ensembles d’entités impliqués dans une même association, permettant ainsi de profiter de l’information topologique des associations elles-mêmes, non exploitée sinon. Nous proposons également un algorithme d’apprentissage de structure glouton pour l’apprentissage de nos extensions. Cette contribution a mené à deux publications : la première a été présentée lors de la conférence FLAIRS 27 en 2014 [41] ; la seconde a été présentée lors de la conférence IJCNN 2015 [42]. Enfin, pour faire suite à notre recherche d’algorithmes de partitionnement relationnel et après avoir considéré les avantages et inconvénients de plusieurs méthodes, nous avons découvert une équivalence entre deux familles de méthodes, à savoir d’une part les méthodes de factorisation non négatives régularisées par des matrices laplaciennes, et d’autre part les méthodes de coupes minimales dans des graphes augmentés d’arcs de similarités. Cette équivalence permet d’envisager un partitionnement relationnel présentant la précision de calcul des méthodes de la première famille, avec les temps de calcul rapides de certaines méthodes de la seconde. Cette contribution a également conduit à la publication d’un article présenté lors de la conférence ESANN 2015 [40]. 1.2.2 Contributions expérimentales Nous apportons dans cette thèse des validations expérimentales pour les contributions théoriques énoncées précédemment. Ces contributions expérimentales permettent ainsi de confirmer l’intérêt de réaliser du partitionnement relationnel pour apprendre des modèles plus fidèles aux données, tant sur le plan de l’apprentissage de paramètres que de l’apprentissage de structure. De plus, les différents algorithmes de partitionnement quenous utilisons au fur et à mesure des expériences, après avoir constaté les limites des résultats précédemment obtenus, nous permettent de comparer leurs comportements et de mesurer leur adéquation dans le contexte d’un apprentissage de modèles relationnels probabilistes avec incertitude de références.

Contributions logicielles

Les contributions de cette thèse comprennent enfin des valorisations logicielles importantes. Aucun outil n’existant pour l’apprentissage de structure des modèles relationnels probabilistes et leurs extensions, nous avons dû construire un cadre logiciel permettant de définir ces modèles, de raisonner avec eux, et de les apprendre à partir de données. Ce travail a mené à la réalisation d’une bibliothèque complète, appelée PILGRIM Relational, où nous proposons la majorité des fonctionnalités de la littérature sur les modèles relationnels probabilistes, ainsi que l’ensemble des fonctionnalités provenant de nos contributions théoriques et expérimentales. La réalisation de ce projet s’est faite en collaboration avec d’autres membres de l’équipe de recherche et nous parlerons essentiellement dans ce manuscrit de notre propre apport, comprenant la définition de l’architecture globale du projet, de nombreuses implémentations des concepts de base, ainsi que l’implémentation des extensions avec incertitude de référence et tous les concepts associés.

Organisation du manuscrit

Ce manuscrit est organisé de la façon suivante : Le chapitre 2 présente les concepts généraux qui sont nécessaires à la compréhension de cette thèse. Nous commençons par décrire les concepts liés à la définition de domaines de données mono relationnels, ou tabulaires, c.-à-d. ne comportant qu’une seule relation. Nous définissons ensuite les concepts de dépendance fonctionnelle et probabiliste avant d’aborder l’hypothèse i.i.d. faite dans les algorithmes d’apprentissage non relationnels. Nous définissons ensuite les réseaux bayésiens, le raisonnement à partir de ces modèles ainsi que l’apprentissage de ceux-ci à partir de données. Puis, nous abordons les problèmes que pose la contrainte i.i.d. et motivons le besoin d’aller vers des solutions multi relationnelles. Nous définissons alors les concepts permettant de décrire des jeux de données relationnels et finissons par définir un premier modèle de réseaux bayésiens étendus, les réseaux bayésiens orientés objet, mais donnons les limites de ces modèles justifiant le besoin des modèles relationnels probabilistes, que nous définissons également ainsi que les principes pour y raisonner et en réaliser l’apprentissage à partir de données. Le chapitre 3 présente en détail les modèles relationnels probabilistes dans le contexte d’incertitude de références. Ce chapitre donne des définitions précises des concepts impliqués spécifiques à cette extension et explicite même des points non détaillés dans la littérature par des définitions supplémentaires ainsi que divers exemples. Les notions de variables sélecteur et leur lien avec les fonctions de partition sont des points très importants de ce chapitre et font l’objet d’une attention particulière. Comme pour leur version de base, le raisonnement et l’apprentissage à partir de données pour cette extension sont également détaillés et nous finissons par présenter les différentes limites de ces modèles et de leur apprentissage, tant sur le plan des contraintes inhérentes aux fonctions de partition, où nous regrettons l’impossibilité d’utiliser des méthodes de copartitionnement, que celles induites par le biais de représentation des structures. Le chapitre 4 s’appuie sur les limites énoncées au chapitre précédent relatives aux fonctions de partition et notamment à l’absence de support des méthodes de copartitionnement. Nous y présentons ainsi diverses méthodes faisant partie de la famille que nous appelons partitionnement relationnel permettant de grouper simultanément les différents ensembles d’entités impliqués dans un type d’association. Trois types d’algorithmes nous intéressent particulièrement dans ce chapitre, à savoir les méthodes de factorisation non négatives de matrices, les méthodes de coupe de graphe, ainsi que les méthodes de détection de communautés basées sur l’optimisation de critères de modularité. Le chapitre se termine par notre contribution relative à l’équivalence des méthodes de factorisation de matrices binaires avec régularisation laplacienne et des méthodes de coupe minimale dans un graphe augmenté d’informations de similarités. Le chapitre 5 est le premier à proposer un nouveau type de modèle relationnel probabiliste, visant à effacer les limites des modèles du chapitre 3 relatives aux contraintes sur les fonctions de partition. Ce modèle nous sert principalement à confirmer l’hypothèse que nous faisons au sujet de l’importance d’utiliser des méthodes de partitionnement relationnel pour l’apprentissage de modèles avec incertitude de références. Après avoir décrit cette nouvelle extension, nous réalisons des expériences permettant de confirmer que l’apprentissage de modèles avec des méthodes de partitionnement relationnel obtient de meilleurs résultats que l’apprentissage de modèles selon l’approche historique décrite dans la littérature, utilisant le produit cartésien d’un ensemble d’attributs pris dans le type d’entité concerné pour chaque fonction de partitions. Le chapitre 6 va plus loin et contient une nouvelle proposition d’extension plus complète des modèles du chapitre 3 visant à corriger l’ensemble des problèmes énoncés dans ce chapitre. Cette nouvelle extension, appelée modèles relationnels probabilistes avec incertitude de clusters, est définie de façon précise et nous abordons une nouvelle fois les principes de raisonnement et d’apprentissage dans ces modèles. Nous confirmons l’intérêt de ce modèle par des expérimentations, à la fois sur des données synthétiques, et sur des données réelles. Pour finir, le chapitre 7 présente les contributions logicielles faites durant cette thèse dans le but de valoriser le travail de compréhension des modèles existants avant nous ainsi que nos contributions, et pour être en mesure de réaliser les diverses expériences des chapitres précédents. Nous énumérons l’ensemble des solutions existantes de programmation probabiliste puis nous identifions leurs propriétés et exhibons l’absence d’outils permettant de réaliser de l’apprentissage de structure de modèles relationnels probabilistes, motivant la création de notre propre outil. Nous abordons ainsi ensuite le sujet principal du chapitre, à savoir le projet PILGRIM, et plus particulièrement sa brique relationnelle à laquelle nous avons contribué de façon conséquente. Nous présentons les différentes parties constituant cet outil et donnons divers points de documentation simplifiés, avec quelques diagrammes de classe de haut niveau.

Table des matières

1 Introduction
1.1 Contexte
1.2 Contributions
1.2.1 Contributions théoriques
1.2.2 Contributions expérimentales
1.2.3 Contributions logicielles
1.3 Organisation du manuscrit
2 Des réseaux bayésiens aux MRP
2.1 Introduction
2.2 Paradigme mono relationnel
2.2.1 Généralités
2.2.2 Dépendance fonctionnelle
2.2.3 Dépendance probabiliste
2.2.4 Hypothèse d’indépendance des tuples (i.i.d.)
2.3 Réseaux bayésiens
2.3.1 Inférence dans les réseaux bayésiens
2.3.2 Apprentissage de réseaux bayésiens
2.4 Paradigme multi relationnel
2.4.1 Limites de l’hypothèse i.i.d. et autocorrélation
2.4.2 Réseaux bayésiens orientés objet
2.4.3 Schéma de base de données, contraintes multi relationnelles
2.4.4 Squelette relationnel
2.4.5 Chaîne de références
2.4.6 Exemple
2.4.7 Opérations élémentaires d’algèbre relationnelle
2.4.8 Modèles relationnels probabilistes
2.4.9 Instanciation d’un MRP
2.4.10 MRP garantis acycliques
2.4.11 Apprentissage d’un MRP
2.4.12 Évaluation des candidats
2.5 Autres modèles probabilistes
2.6 Conclusion
3 MRP et incertitude de référence
3.1 Introduction
3.2 Entités et Associations
3.3 Incertitude de référence
3.4 Squelette objet
3.5 Fonctions de partition
3.6 MRP avec incertitude de référence
3.7 MRP-IR complété et garantie d’acyclicité
3.8 Inférence
3.8.1 Instanciation d’un MRP-IR
3.8.2 Complétion et distributions de probabilité d’un RBP .
3.9 Apprentissage
3.9.1 Paramètres
3.9.2 Fonctions de partition
3.9.3 Dépendances probabilistes
3.9.4 Évaluation des modèles
3.10 Limites
3.10.1 Fonctions de partition
3.10.2 Structure
3.11 Autres extensions des MRP
3.12 Conclusion
4 Méthodes de clustering relationnel
4.1 Introduction
4.2 Factorisation de matrices
4.2.1 Analyse en Composantes Principales et Décomposition en valeurs singulières
4.2.2 Besoins de non-négativité et représentations creuses
4.2.3 Factorisation non négative de matrice
4.2.4 NMF orthogonale et creuse
4.2.5 NMF et régularisation laplacienne
4.2.6 NMF symétrique
4.2.7 Multi relations binaires, relations n-aires
4.3 Partitionnement de graphes
4.3.1 Coupe totale, ratio de coupe, coupe normalisée
4.3.2 Algorithmes de partitionnement globaux
4.3.3 Algorithmes de partitionnement par amélioration locale
4.3.4 Approches multi niveaux
4.4 Détection de communautés dans les graphes
4.4.1 Définitions du concept de communauté
4.4.2 Modularité et communautés
4.4.3 Cas spécifique des graphes multi partis
4.4.4 Algorithmes de détection de communautés biparties
4.5 Factorisation régularisée et coupe de graphe enrichi
4.5.1 De l’équivalence de NMF et d’une coupe minimale dans un contexte régularisé
4.5.2 Discussion
4.5.3 Expériences
4.5.4 Perspectives
4.6 Conclusion
5 Apprentissage relationnel des partitions
5.1 Introduction
5.2 MRP-IR+
5.3 Propriétés des types d’association
5.4 NMF et MRP-IR+
5.5 Expériences, partie 1
5.5.1 Génération des jeux de données
5.5.2 Protocole d’apprentissage
5.5.3 Méthode d’évaluation
5.5.4 Résultats
5.5.5 Discussion
5.5.6 Vers un NMF large échelle
5.6 Expériences, partie 2
5.6.1 Protocole de génération des données
5.6.2 Algorithmes considérés
5.6.3 Résultats
5.7 Conclusion
6 MRP avec incertitude de Clusters
6.1 Introduction
6.2 MRP avec incertitude de Clusters
6.3 MRP-IC complété et graphe de dépendance
6.4 Inférence
6.4.1 Instanciation d’un MRP-IC
6.4.2 Complétion et distributions de probabilité d’un RBP
6.4.3 Inférence des variables de référence
6.5 Apprentissage
6.5.1 Estimation de paramètres
6.5.2 Apprentissage de fonctions de partition
6.5.3 Couplage faible entre modèle et fonctions de partition
6.5.4 Sélection de modèles
6.5.5 Évaluation des modèles
6.5.6 Comparaison des scores pour un MRP et un RB
6.6 Travaux connexes
6.7 Expériences sur données synthétiques
6.8 Expériences sur données réelles : IMDB/MovieLens
6.9 Discussion
6.10 Conclusion
7 PILGRIM-Relational
7.1 Introduction
7.2 Outils logiciels pour les MRP
7.3 Le projet PILGRIM
7.4 PILGRIM-Relational
7.5 Contributions
7.6 Schéma relationnel
7.7 Noeuds, Variables, Séquences
7.8 Instance
7.9 Distributions
7.10 Modèles
7.11 Algorithmes de clustering, Fonctions de partition
7.12 Apprentissage de dépendances
7.13 RBP, Inférence
7.14 Workflow d’expériences
7.15 Conclusion
8 Conclusion et Perspectives
8.1 Conclusion
8.2 Discussion et perspectives à court et moyen termes
8.3 Perspectives générales
8.4 Perspectives logicielles