Modélisation Bayésienne pour la Factorisation de Matrices Positives

Modélisation Bayésienne pour la Factorisation de Matrices Positives

Modélisation bayésienne 

L’objet principal de la Statistique est de mener, grâce à l’observation d’un phénomène aléatoire, une inférence sur la distribution probabiliste à l’origine de ce phénomène, c’est-à-dire de fournir une analyse (ou une description) d’un phénomène passé, ou une prédiction d’un phénomène à venir de nature similaire. Ce phénomène pouvant être l’apparition ou l’expansion d’une épidémie, le métissage d’une population, la classification de document, le filtrage collaboratif, la reconstruction tomographique, l’apprentissage, l’imputation de données manquantes . . . s’étudie par le biais d’une modélisation. Cette dernière désigne la représentation d’un système par un autre plus facile à appréhender. C’est donc un procédé qui grâce à ses caractéristiques et ses qualités peut servir de référence à l’imitation ou à la reproduction. Cependant, dans la plupart des cas, une caractéristique inhérente à la modélisation est sa « simplification » de la réalité. Son caractère « réducteur » est dû au fait qu’elle est une approximation de la réalité complexe. Cette propriété de la modélisation fait qu’elle perd une partie de la richesse du phénomène réel mais gagne, en contrepartie, en efficacité de par son aptitude à être facilement appréhendée par des outils mathématiques. L’approche statistique est par essence formelle (ou mathématiquement structurée) parce qu’elle repose sur une formalisation poussée de la réalité objective. Notons par ailleurs que d’illustres auteurs considère la statistique comme l’interprétation du phénomène observé, plutôt que son explication (Robert, 2006 [45]). Si nous la regardons sous cet angle alors la critique de l’apposition d’un modèle probabiliste sur un phénomène inexpliqué, comme il est possible que le phénomène observé soit entièrement déterministe ou tout du moins sans rapport direct avec le modèle pré-supposé, n’aura guère de consistance. Il s’agit d’un point de vue fort qui s’illustre bien avec la modélisation de factorisation matricielle de Lee et Seung, 1999 et 2001 [19, 19], où approche déterministe et approche probabiliste conduisent aux mêmes équations d’estimations. Les modèles probabilistes formels permettent en effet d’incorporer simultanément les information disponibles sur le phénomène et les incertitudes inhérentes à ces information. Ils autorisent donc un discours qualitatif sur le problème en fournissant, à travers la théorie des probabilités, un véritable calcul de l’incertain qui permet de dépasser le stade descriptif des modèles déterministes. Notons que dans les modèles probabilistes d’analyses statistiques deux approches s’opposent : l’approche non paramétrique et celle paramétrique. La première suppose que l’inférence statistique doit prendre en compte la complexité du phénomène autant que possible et elle cherche donc à estimer la distribution sous-jacente du phénomène sous des hypothèses minimales, en ayant recours en général à l’estimation fonctionnelle(densité, fonction de régression . . .). La seconde propose la représentation de la distribution des observations par une fonction de densité f(x; θ), où seul le paramètre θ (de dimension finie) est inconnu. Les deux approches ont leur avantages respectifs, cependant nous nous intéresserons dans ce chapitre aux modèles paramétriques. La modélisation bayésienne, fait partie de la classe des approches probabilistes d’analyse statistique et doit sa formulation mathématique au révérend Thomas Bayes (1761) et à Pierre Simon Laplace (1773), même si l’histoire n’a retenu par la suite que le nom de Bayes, avec la très connue Formule de Bayes. C’est une modélisation qui forme avec l’approche fréquentiste la principale dualité de l’analyse statistique. Bien qu’une vieille rivalité, née dans les années 1970, était entretenue par les « fréquentistes » et les « bayésiens » , les deux points de vue ne sont en réalité pas opposées puisque les probabilités fréquentistes et bayésiennes disent la même chose dès que l’on est sur des grands nombres (taille élevée des observations). Sur la finalité, leur différence apparaît dès que la taille des observations est faible, où l’inférence bayésienne se révèle plus utile. Dans la conception, la différence les deux écoles statistiques se manifeste par les fait que la statistique fréquentiste repose sur la loi des observations pour effectuer une inférence sur le paramètre, alors que la statistique bayésienne permet de combiner l’information apportée par les données avec les connaissances a priori, sur le paramètre, provenant soit d’études antérieures soit d’avis d’experts, dans le but d’obtenir une information a posteriori. L’analyse Bayésienne est donc basée sur la formule de Bayes, selon laquelle, la distribution postérieure (loi a posteriori) d’un paramètre θ est proportionnelle à la distribution antérieure (loi a priori) paramètre θ par la vraisemblance de θ provenant des données collectées. Ainsi c’est ainsi un procédé d’affinement des croyances a priori sur un phénomène d’intérêt combinées aux informations tirées des données observées, pour arriver à des attentes postérieures mises à jour sur le phénomène. L’inférence bayésienne s’articule alors autour de trois points majeurs. D’abord la caractérisation des attentes a priori sur le phénomène étudié résumé par le paramètre, θ, du modèle. Cette caractérisation débouche sur la considération d’une loi a priori π(θ). Ensuite les informations sur les données observées sont modélisées par une distribution paramétrique f(x; θ), de paramètre θ et où x = (x1, . . . , xn) pouvant être un vecteur ou une matrice représente les données. Enfin la dernière étape consiste à la mise à jour des attentes a priori sachant les données observées. Cette mise à jour se caractérise par une distribution dite loi a posteriori du paramètre π(θ | x). Dans ce chapitre un accent particulier sera mis sur les aspects décisionnels de l’inférence bayésienne parce que, d’une part, les analyses et/ou prédictions qu’elle effectue sont presque toujours motivées par un objectif (par exemple pour une entreprise, devrait-elle lancer un nouveau produit, pour un bateau marchand doit-on modifier sa trajectoire, pour un investisseur devrait-il vendre ses actions . . .) ayant des conséquences mesurables (résultats financiers, durée du trajet, gains escomptés . . .). D’autre part proposer des procédures inférentielles implique qu’on doit justifier le fait qu’elles soient préférables à d’autres. Il est donc nécessaire d’avoir un outil d’évaluation adapté à la comparaison de différentes procédures. Ces aspects décisionnels sont ainsi développés ici par la théorie de la décision dans un contexte d’analyse bayésienne. Le dernier point qui sera abordé dans ce chapitre est l’ensemble des principaux outils d’inférence, désigné par la méthode du calcul bayésien. Celle-ci s’articule autour deux méthodologies que sont les méthodes d’intégration de Monte Carlo et les méthodes Monte Carlo par Chaînes de Markov. Les seconds cités engendrent des processus appelés chaînes de Markov par le biais principalement de deux algorithmes que sont l’algorithme de Metropolis-Hastings et l’échantillonneur de Gibbs. 

 Le paradigme bayésien

 Modélisation probabiliste en analyse statistique 

Dans la plupart des domaines d’études et de recherches (mathématiques, biologie, cosmologie, médecine, épidémiologie économie . . .), la modélisation mathématique est devenue presque incontournable. Principalement deux approches s’opposent, la modélisation déterministe et la modélisation probabiliste. Pour cette dernière qui nous intéresse ici nous donnons quelques exemples où elle s’applique à résoudre des problèmes de la vie réelle : la modélisation des filaments galactiques (van Lieshout et Stoica, 2003 [46]), la modélisation d’agrégats en épidémiologie animale (Erskine 2001 [47]), la modélisation du morcellement pour un environnement (Roques et Stoica, 2007 [48]), etc. La modélisation probabiliste est ainsi un préalable à une bonne étude statistique en ce sens que l’objet de celle-ci est, grâce à l’observation d’un phénomène aléatoire, de faire une inférence sur la distribution probabiliste à l’origine de ce phénomène. L’aléa dans le phénomène est porté par la part d’incertitude contenu dans les données. Cependant tout phénomène réel inexpliqué n’est pas toujours forcément sujet à une modélisation probabiliste car il peut arriver que le phénomène observé soit entièrement déterministe, sans que la fonction régulatrice du processus soit connue ni qu’il soit possible de la reconstruire à partir des observations. D’un autre côté si l’on regarde l’analyse statistique comme une interprétation du phénomène naturel observé et non explication, l’usage de la modélisation probabiliste se justifie d’avantage car les modèles qui en découlent permettent d’incorporer simultanément les informations disponibles sur le phénomène (facteurs déterminants, fréquence, amplitude, etc.) et les incertitudes inhérentes à ces informations. Ils autorisent donc un discours qualitatif sur le problème en fournissant, à travers la théorie des probabilités, un véritable calcul de l’incertain qui permet de dépasser le stade descriptif des modèles déterministes. C’est d’ailleurs la raison pour laquelle une interprétation probabiliste est nécessaire pour conduire une inférence statistique : elle donne un cadre qui permet de replacer le phénomène singulier observé dans la globalité d’un modèle et autorise ainsi les analyses et les généralisations. Il faut également noter qu’une modélisation probabiliste ne peut être défendue que si elle fournit une représentation suffisamment proche du phénomène observé. Toutefois un problème inhérent à la modélisation façon générale qu’est le caractère réducteur de la réalité complexe fait que les modèles probabilistes, en particuliers, ont une difficulté à connaître exactement la distribution probabiliste sous-jacente de la génération des observations, c’est-àdire savoir s’il s’agit de la loi normale, exponentielle, binomiale, poisson . . ., sauf dans des cas où la distribution des observations est parfaitement connue grâce à des considérations d’ordre physique, économique ou autres. Ainsi le formalisme mathématique du modèle probabiliste est la donnée du triplet (X , A, P) appelé espace probabilisé où X est l’espace des observations possibles, A est la tribu des évènements observables associée et P la mesure de probabilité définie sur A. Comme nous l’avons dit, pour ce type de modèle les seules questions qui se posent sont de l’ordre du calcul de l’incertain. A partir du modèle probabiliste se construit donc le modèle statistique. La différence entre les deux modèles est que pour modèle statistique nous avons à la place de la probabilité P, une famille de probabilités. En effet le modèle statistique est considéré comme un outil mathématique associé à l’observation de données issues d’un phénomène aléatoire. Un travail fondamental préalable est l’expérience statistique qui consiste à recueillir une observation x d’un élément aléatoire X, à valeurs dans un espace X et dont on ne connait pas exactement la loi de probabilité P. Alors des considérations de la modélisation du phénomène observé amènent à admettre que P appartient à une famille P de lois de probabilité possibles. Le modèle statistique associé à cette expérience est le triplet (X , A,P), où X est l’espace des observations possibles, A est la tribu des évènements observables associée et P est une famille de lois de probabilités possibles définie sur A. L’intérêt de cette notion de modèle statistique est qu’elle permet de traiter avec le même formalisme tous les types d’observations possibles. Dans la modélisation statistique deux approches plus ou moins opposées sont adoptées : l’approche non-paramétrique et celle paramétrique. 

Inférence bayésienne

 Comparée à la modélisation probabiliste, l’analyse statistique se ramène fondamentalement à une inversion 1 , car elle doit déterminer les causes, réduites aux paramètres du mécanisme probabiliste générateur, à partir des effets résumés par les observations. En d’autres termes, quand nous observons un phénomène aléatoire contrôlé par le paramètre θ, une méthode statistique permet de déduire de ces observations une inférence (c’est-à-dire, en résumé, une caractérisation) sur θ, alors que la modélisation probabiliste caractérise le comportement des observations futures conditionnellement à θ. Ce caractère d’inversion propre à la Statistique apparaît de façon évidente 1. A l’époque de bayes et de Laplace, c’est-à-dire à la fin du XVIIIème siècle, la Statistique était appelée Probabilités inverses, à cause de cette perspective. dans la notion de fonction de vraisemblance, car, d’un point de vue formel, il s’agit simplement d’une densité 2 réécrite dans le « bon ordre », L(θ | x) = f(x | θ) soit donc comme fonction de θ, qui est inconnu, dépendant de la valeur observée x. Cette introduction du conditionnement dans la densité se justifie par le fait que dans le contexte bayésien la densité paramétrique est vue comme une loi de l’observation conditionnellement au paramètre θ, d’où f(x ; θ) ≡ f(x | θ). Une description générale de l’inversion des probabilités est donnée par le Théorème de Bayes : Si A et E sont des événements tels que P(E) 6= 0, P(A|E) et P(E|A) sont reliés par P(A|E) = P(E|A)P(A) P(E|A)P(A) + P(E|Ac)P(Ac) . (1.1) En particulier quand P(B) = P(A) on a, P(A|E) P(B|E) = P(E|A) P(E|B) , (1.2) Obtenir ces résultats à partir des axiomes de la Théorie des Probabilités est trivial. Il s’agit cependant de l’étape conceptuelle la plus importante dans l’histoire de la Statistique, constituant la première inversion des probabilités. L’équation (1.2) exprime le fait fondamental que, pour deux causes équiprobables, le rapport des probabilités pour un effet donné est égal au rapport des probabilités de ces deux causes. Ce théorème est aussi un principe d’actualisation, car il décrit la mise à jour de la vraisemblance de A de P(A) vers P(A|E), une fois que E a été observé. L’équation (1.1) pose ainsi les bases de l’inférence bayésienne. 

 Introduction de lois a priori 

La philosophie de la méthode d’estimation bayésienne est très différente de celles des méthodes classiques ( méthode du maximum de vraisemblance ou méthode des moments) où le paramètre θ est inconnu mais constant, déterministe. L’estimation est menée en considérant qu’on ignore tout de θ, mis à part son ensemble de définition. Or parfois, on dispose d’une connaissance partielle sur θ. Cette information, dite a priori, peut provenir d’expériences similaires effectuées auparavant ou d’avis d’experts du phénomène étudié qui peuvent anticiper le résultat de l’expérience. Le principe de l’estimation bayésienne est de considérer que le paramètre θ est en fait la réalisation d’une variable aléatoire, et d’intégrer dans sa loi de probabilité toutes les informations a priori dont on dispose sur lui. Des informations a priori aux lois a priori. Le point le plus critiquable et le plus critiqué de l’analyse bayésienne est le choix de la loi a priori. Car, une fois que cette loi a priori est connue, l’inférence peut être conduite d’une façon quasi mécanique en minimisant le coût a posteriori, en calculant les régions de plus forte densité a posteriori ou en intégrant les paramètres pour obtenir la distribution prédictive. La loi a priori est la clé de voute de l’inférence bayésienne et sa détermination est donc l’étape la plus importante dans la mise en œuvre de cette inférence. Dans une certaine mesure, c’est aussi la plus difficile. Évidemment, dans la ´ pratique, il est rare que l’information a priori soit suffisamment précise pour conduire à une détermination exacte de la loi a priori, au sens où plusieurs lois de probabilité peuvent être compatibles avec cette information. Il y a plusieurs raisons pour cela : le décideur, le client ou le statisticien n’a pas forcément le temps ou les ressources (ni souvent la volonté) de chercher à construire un a priori exact (qui, de toute façon, peut tout simplement ne pas exister, au vu de l’information disponible) et doit compléter l’information partielle qu’il a rassemblée à l’aide de données subjectives afin d’obtenir une loi a priori. Il est donc nécessaire le plus souvent de faire un choix (partiellement) arbitraire de loi a priori, ce qui peut avoir un impact considérable sur l’inférence qui en découle. En particulier, l’utilisation systématique de lois usuelles (normale, gamma, bêta, etc.) et la restriction plus forte encore aux lois conjuguées ne sont pas toujours justifiées, car la détermination subjective de la loi a priori qui 2. On parle de densité en supposant que la variable aléatoire est continue. 

Le paradigme bayésien 

 en résulte se fait au prix d’un traitement analytique plus fruste du problème, puisque ignorant une partie de l’information a priori. Certaines situations requièrent cependant une détermination partiellement automatisée de la loi a priori comme dans le cas extrême où l’information a priori est complètement absente. Nous considèrerons deux techniques usuelles : l’approche a priori conjuguée, qui nécessite une quantité limitée d’information, et l’approche non informative, qui est obtenue à partir de la distribution de l’échantillon. Ces critiques contre l’approche bayésienne ont une certaine validité au sens où elles attirent l’attention sur le fait qu’il n’y a pas une façon unique de choisir une loi a priori, et que le choix de cette loi a un impact sur l’inférence résultante. Cet impact peut être négligeable, modéré ou énorme, puisqu’il est toujours possible de choisir une loi a priori qui donnera la réponse qu’on souhaite obtenir. Mais le point essentiel est ici que, premièrement, les lois a priori non fondées fournissent des inférences a posteriori non justifiées et, deuxièmement, le concept d’une loi a priori unique n’a pas de sens, sauf dans des cas très particuliers. Après des années de critiques, le travail de Jeffreys (1946) sur les a priori non informatifs apparut comme un don du ciel pour la communauté bayésienne, car il propose une méthode de construction de la loi a priori directement déduite de la distribution des observations. Certains bayésiens sont cependant en désaccord avec l’utilisation de méthodes automatisées (Lindley, 1971, 1990). Plus récemment, les avancées théoriques en robustesse et analyse de sensibilité ont aussi fourni une base solide à l’analyse bayésienne dans les cas d’information a priori incomplète, tandis que l’introduction de la modélisation hiérarchique permet de placer la sélection d’un a priori à un niveau plus éloigné, avec une diminution notable de l’impact sur l’inférence résultante. 

Table des matières

Dédicaces
Remerciements
Résumé
Abstract
Introduction générale
I Préliminaires
1 Modélisation bayésienne
Introduction
1.1 Le paradigme bayésien
1.1.1 Modélisation probabiliste en analyse statistique
1.1.2 Inférence bayésienne
1.1.2.1 Introduction de lois a priori
1.1.2.2 Lois a posteriori .
1.2 Approche bayésienne de la théorie de la décision
1.2.1 La fonction d’utilité
1.2.2 Fonction de coût en analyse statistique
1.2.3 Fonctions de coût usuelles
1.2.3.1 Le coût quadratique
1.2.3.2 Le coût absolu
1.2.3.3 Le coût – 1
1.3 Méthodes de calcul bayésien
1.3.1 Les méthodes Monte Carlo par Chaines de Markov
1.3.1.1 Échantillonneur de Gibbs
Conclusion
2 Factorisation de matrices positives
Introduction
2.1 Les algorithmes NMF classiques
2.1.1 Méthodes multiplicatives de Lee et Seung
2.1.1.1 Formalisation du problème NMF
2.1.1.2 Fonctions coûts
2.1.1.3 Algorithmes et convergence
2.1.2 Méthodes du gradient de descente
2.1.2.1 Algorithmes à directions de descente
2.1.2.2 Algorithmes du gradient de descente
2.1.2.3 Méthodes du gradient de descente pour NMF
2.1.3 Algorithmes de moindres carrés alternés
2.1.3.1 Les algorithmes ALS
2.1.3.2 Les algorithmes ANLS
2.2 Quelques variantes : Algorithmes de factorisation pondérée .
2.2.1 Les algorithmes MU avec la factorisation WNMF
2.2.1.1 Divergence de Kullback-Leibler pondérée
2.2.1.2 Distance euclidienne pondérée
2.2.1.3 Lien entre les deux fonctions-coûts
2.2.2 Les algorithmes ANLS sous la factorisation WNMF
Conclusion
II Problématique, État de l’art et Méthodologie proposée
3 Problématique des données manquantes dans les questionnaires d’enquêtes et État de l’art
Introduction
3.1 Typologie des données manquantes
3.1.1 Structures des données manquantes
3.1.2 Mécanisme de génération des données manquantes
3.1.2.1 Quelques causes de l’absence des données
3.1.2.2 Formalisation des mécanismes sous-jacents
3.1.2.3 Les mécanismes ignorables : MAR et MCAR
3.1.2.4 Les mécanismes non-ignorables : MNAR
3.2 État de l’art sur la problématique
3.2.1 Les analyses sans imputation
3.2.2 Les méthodes d’imputation
3.2.2.1 La méthode Poisson Espérance-Maximisation
3.2.2.2 La méthode des forêts aléatoires
3.2.2.3 La factorisation NMF pondérée
3.2.2.4 Imputation par analyse des correspondances multiples
3.2.2.5 Les méthodes naïves
Conclusion
4 Factorisation NMF Poisson-Gamma et reconstruction automatique du questionnaire médical HSOPSC
Introduction
4.1 Lien avec le modèle NMF de fonction-coût la divergence de Kullback
4.2 Description des données et du modèle Poisson-Gamma
4.2.1 Description des données
4.2.1.1 Notion de la culture de sécurité
4.2.1.2 Les dimensions de la culture de sécurité mesurées dans le questionnaire
4.2.1.3 Procédure de conduite de l’enquête
4.2.2 Description du modèle
4.3 Méthodologie d’imputation sous le modèle NMF Poisson-Gamma
4.3.1 Échantillonneur de Gibbs
4.3.2 Estimation des hyperparamètres du modèle
4.3.3 Algorithme de reconstruction automatique
4.4 Résultats
4.4.1 Critères d’évaluation
4.4.2 Résultats sur données simulées
4.4.3 Résultats sur données réelles : questionnaire HSOPSC
4.4.4 Résultats sur répliques boostrap
Conclusion
Conclusion générale
Annexe 1
Annexe 2
Bibliographie

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *