FAMILLES PARTICULIÈRES DE DISTRIBUTIONS CONJUGUÉES ET MODÈLES BAYÉSIENS CORRESPONDANTS

Télécharger le fichier original (Mémoire de fin d’études)

NOTIONS DE STATISTIQUE BAYÉSIENNE

Ce chapitre est consacré à exposer des notions élémentaires de la théo-rie bayésienne. Nous renvoyons le lecteur désireux de compléments dans ce domaine à l’ouvrage de J.O. Berger (1985).

PRELIMINAIRES

Modèle probabiliste et paramétrique

L’analyse statistique exige en général de disposer d’un ensemble d’ob-servations. Pour les modéliser mathématiquement, nous considérons le modèle paramétrique (£2, B, (Pfi)„ Q) défini de la façon suivante :
— l’ensemble ß désigne tous les résultats possibles, considérés indi-viduellement comme des réalisations d’une grandeur aléatoire obser-vable, décrite par une variable aléatoire X;
— l’ensemble B est formé des événements possibles, représentés par des sous-ensembles de ß , constituant une o—algèbre de ß;
— pour chaque 8 de 9, P est une distribution de probabilité sur l’espace probabiUsable (ß,B) , attribuant une probabilité à chaque événement.
L’ensemble 6 des valeurs du paramètre 0 est souvent multidimensionnel. Ce paramètre est appelé aussi l’état de la nature dans la théorie statisti-que de la décision.
Par exemple, supposons que la variable X suie une loi normale dont les paramètres de moyenne ¿i et de variance <r sont à déterminer. L’ inconnue 8 du problème est le couple 8 = (jx.cr ).
Désignons par n la loi de distribution de la variable aléatoire X dans l’état de la nature 8. Elle est la loi image de la probabilité P par X. Si la famille de lois -{/i ; 6 e 6}- est dominée par une mesure c-finie n, nous noterons f(x|0) la densité de probabilité de fi relative à p et nous avons :
d , x e (î.oi)
f(x|e) = -¿-Z-M
Dans ce cas, le modèle correspondant est appelé modèle dominé ; et la loi de distribution de densité f(x|6) est dite ici sous-Jacente. Nous emploierons dans la suite la terme « X suit la loi f » ou « X **« f » au lieu de « X suit la loi de densité f » par souci de brièveté.
Les grandeurs aléatoires que l’on considère seront à valeurs dans un espace euclidien H qui sera le plus souvent IR ou R . Nous noterons X la variable aléatoire désignant une telle grandeur. Elle sera une application définie sur (fi,B, (Pfi)fl p) à valeurs dans H = R ou IR muni de la tribu boré-lienne B(PJ ou S(IR ). L’espace fi sera par la suite soit H, soit Hn, si nous considérons un échantillon de la variable X, de taille finie n < +», et dont la loi correspondante est définie dans la section suivante.

Echantillon

Considérons l’expérience qui consiste à tirer n valeurs consécutives x ,x , …,x d’une variable aléatoire X, ces réalisations étant indépendantes.
Ces réalisations qui constituent un échantillon de X peuvent être aussi considérées comme une réalisation d’un n-uplet de variables aléatoires (X , X ,…,X ‘) indépendantes et de même loi, celle de X. Cet n-uplet est appelé un n-échantillon aléatoire de la variable sous-jacente X, ou plus simplement un échantillon aléatoire de la variable X. S’il n’y a pas de confusion pos-sible dans le contexte, la notation X représentera aussi cet n-échantillon aléatoire de X.
L’espace de probabilité (fi,B,(P ) A sera alors constitué de la façon suivante: fi est l’ensemble des échantillons, noté par H ; B est la tribu des boréliens de 3<n; P est la distribution de probabilité produit des lois de probabilité de chacun des X , i = 1,2 n.
Dans ce cas , la loi de distribution de X sera le produit fi = (~|fi avec ji la loi de la variable X , pour tout i = 1,2 n. Dans le cas d’un modèle dominé, si nous notons f(x le) la densité de probabilité de n relative à n pour i = 1,2, …,n, la densité de cet échantillon obéit à la règle de produit :
f(x|G) = fi f(xje) (1.02)
où x = (x, , x .. . . ,x ).

Statistique

Il est d’usage dans la pratique de résumer les n valeurs d’un échantillon x = (x ,x x ) par quelques caractéristiques simples telles que leur moyenne arithmétique, leur moment centré d’ordre 2, leur plus grande valeur, leur plus petite valeur, leur moyenne géométrique, …etc. Ces caractéristi-ques sont elles-mêmes des réalisations de variables aléatoires fonctions de X = (X .X, X).
Une statistique T d’une variable aléatoire X est une fonction mesurable à valeurs dans un espace A, d’un n-échantillon aléatoire de X, constitué de n tirages indépendants de X. Nous supposerons que l’espace A est de dimen-sion finie p : A S Rp.
Pour simplifier la présentation, un échantillon x peut être une valeur de la variable aléatoire X lorsque n = 1.

Vraisemblance : fonction et principe

Soit x = (x ,x ,…,x ) un échantillon de la variable aléatoire X. Dans la plupart des problèmes, nous cherchons à déterminer le paramètre inconnu 8 de manière à maximiser la probabilité d’observer l’échantillon x dans la famille de distributions possibles P . Nous considérons alors la densité de cet échantillon f(x|6) comme une fonction de 6, appelée dans ce cas fonction de vraisemblance de 9 en x, et notée par L(6;x) = f(x|6).
Le principe de vraisemblance repose sur les hypothèses suivantes : l’information consemant le paramètre 6, tirée de l’observation (ou de l’échantillon) x, est contenue dans la vraisemblance L(6;x); si pour deux observations x et x , il existe une constante c telle que, pour tout 0, L(8;x ) = L(6;x ), elles apportent la même infor-mation sur 6 et doivent conduire à la même inference. (cf. [5] et [8] pour une étude plus détaillée).
Dans l’approche classique, on cherche à déterminer une (des) valeur(s) de 6 qui maximise la fonction de vraisemblance L(6;x), appelée estimateur du maximum de vraisemblance. Ceci est l’une des approches compatibles avec le principe de vraisemblance. Nous verrons que l’approche bayésienne intégre de manière automatique la notion de vraisemblance (cf. formule de Bayes (1.43)) avec L(6;x) = f(x|6). Nous utiliserons souvent f(x|6) comme la fonction de vraisemblance au lieu de L(6;x) pour alléger l’exposé.

EXHAUSTIVITE

Dans un problème statistique où figure un paramètre 8 inconnu, un échantillon nous apporte une certaine information sur ce paramètre. Lorsque l’on résume cet échantillon x par une statistique, il ne faut pas perdre cette information sur ce paramètre 8 ; une statistique qui la conserve sera qualifiée d’exhaustive.
En termes mathématiques, une statistique T est dite exhaustive par rap-port à 6, si la distribution conditionnelle P = P [-|T(X) = t] d’un n échan-tillon aléatoire X, sachant T(X) = t, est indépendante du paramètre 6. Cette distribution conditionnelle est portée par l’ensemble R = -{x e Í2; t = T(x)}-.
Si le modèle est dominé et que la statistique T est exhaustive, la fonction de vraisemblance de l’échantillon x se factorise sous certaines conditions de régularité de la manière suivante : f(x|9) = h(x)g (T(x)) = h(x)g(T(x)|e) (1.11) où h(x) est une fonction indépendante du paramètre 6. La notation g(T(x)je) indique que g dépend de 9, mais sa dépendance en x est seulement fonction de t = T(x). Le plus souvent h(x) peut être choisie comme une densité de P sur il et g comme une densité de la loi de T(x). Dans ce cas, nous disons que la distribution conditionnelle f(x|9) admet une statistique exhaustive T.
Ainsi, toute l’information sur G contenue dans f(x|8) se retrouve dans g(T(x)|6). Nous pouvons donc dire qu’une fois t = T(x) connue, aucune valeur de l’échantillon ou d’autres statistiques ne nous apporteront des renseigne-ments supplémentaires sur 6. Ce principe d’exhaustivité est très répandu dans l’analyse statistique.
Le principe de factorisation nous donne donc un moyen de reconnaître si une statistique est exhaustive, mais permet difficilement de la construire, ou même de savoir s’il en existe.
Pour trouver des statistiques exhaustives, il existe un résultat inté-ressant montré par Pitman (1936) et Koopman (1936) (cf. [2], [11] et [25]) : parmi les familles de distributions satisfaisant certaines conditions de régularité, une statistique exhaustive de dimension constante p ne peut exister que dans la famille exponentielle de la forme suivante : a(x)b(6)exp,[j;c(x)dd (9))] f(xle) = ) i i (1.12) où a et (c ) _ sont des fonctions de il = H»n dans IR ; b et (d ) sont 1 lSiSp i lSi<p des fonctions de 6 dans IR ; et les fonctions a, b sont positives, vérifiant: Lf(x|9)dx = 1.
Nous verrons dans la suite que le symbole proportionnel « « » joue un rôle important pour la simplification des calculs mathématiques et la com-modité de la présentation, car il permet de ne pas normaliser les distribu-tions considérées.

CONVEXITE

Rappelons quelques définitions et quelques résultats élémentaires.
Un ensemble £2 c Hn points quelconques x, y a e [0,1], on a : Vx, y est appelé convexe si toute « segment » reliant deux de ß est inclus dans fl, c’est à dire que, pour tout € ß ax+(l-oc)y e ß.
Soit une fonction f(x) définie sur un ensemble convexe ß à valeurs dans R. La fonction f(x) est dite convexe sur cet ensemble si, quel que soit la constante a € [0,1], on a : Vx, y € ß f[ocx+(l-a)y] s af(x) + (l-a)f(y).
Si, pour tout couple de deux points non égaux x * y et tout a * 0 ou 1, l’inégalité est stricte, alors f est strictement convexe.
De manière analogue, la fonction f est dite concave si l’inégalité est vérifiée dans l’autre sens : Vx, y € ß f[ax+(l-a)y] £ af(x) + (l-a)f(y).
Si f(x) est convexe, -f(x) est concave et vice-versa. Une fonction li-néaire est à la fois convexe et concave et réciproquement.
Par exemple, les fonctions x , |x| et e définies sur IR sont convexes, parmi elles, x et e sont strictement convexes. Par contre, les fonctions -x et logx (définie sur (0,oo)) sont strictement concaves, et donc concaves.
Vérifier directement la convexité ou la concavité de la définition n’est pas toujours facile en pratique. Si la fonction f(x) est définie sur un ensemble convexe ouvert ß c H, deux fois derivable en tout point defl,on utilise le critère :
— pour que f soit convexe (ou concave), il faut et il suffit que, pour tout point x e £î, la dérivée seconde satisfasse: f »(x) s 0 (ou f »(x) s 0).
Dans le cas où 12 est multidimensionnel, on vérifiera que la matrice carrée des dérivées partielles du second ordre est positive ou négative.

CONCEPTS BAYESIENS

Dans les problèmes pratiques, nous rencontrons des niveaux différents d’incertitudes, qui influencent les comportements des systèmes tels que les matériaux, … etc. L’évaluation de ces incertitudes est un problème fré-quemment étudié. Nous nous bornerons à constater les incertitudes au sens statistique.
L’analyse statistique suppose un ensemble des connaissances qualita-tives et quantitatives, qui font apparaître en clair au moins une partie des incertitudes. Cet ensemble sera appelé l’information a priori. Dans l’étude présente, nous considérons l’incertitude portant sur la forme des modèles et pouvant être représentée par des quantités numériques inconnues.

Information a priori

En général, ce paramètre 8 peut être évalué d’une façon indirecte dans le cadre d’un plan d’expérience ou sur des échantillons constitués. Il offre deux points de vue d’interprétation : dans l’approche classique, le paramè-tre 0 est une valeur certaine, mais inconnue ; dans l’approche bayésienne 9 apparait comme une variable aléatoire.
Le paramètre 8 pourra certes, dans certains cas simples, être estimé par un échantillon de taille assez grande. Mais cette méthode est souvent impraticable pour une raison de coût. Par exemple, si l’on veux estimer la proportion d’unités défectueuses dans un contrôle de réception d’un lot de production et si le contrôle est destructif, alors il n’est pas de question de considérer un grand échantillon. De plus, dans certains cas, on ne pourra pas avoir suffisamment d’informations pour que les résultats obtenus par les méthodes statistiques soient significatifs. Il est donc suggéré d’acquérir par ailleurs des connaissances sur ce paramètre 8, par exemple des observa-tions antérieures, des expériences réalisables, des connaissances sur la structure et aussi des intuitions raisonnables … etc, en supposant le tout obtenu sous les mêmes conditions fixées (ou similaires). Cet ensemble des connaissances constitue l’information a priori.
Le statisticien bayésien qui cherche à mieux connaître la valeur du paramètre 6 commence par préciser l’espace 6 des valeurs possibles de G avant d’entreprendre une quelconque observation. Ensuite, il exprime sa con-naissance a priori sous forme d’une loi de probabilité II sur 8, puis combine la nouvelle observation x avec cet a priori dans l’analyse envisagée. L’uti-lisation de la distribution a priori sur le paramètre demeure en fait la meilleure manière d’incorporer des informations supplémentaires à un modèle statistique.

Espace des paramètres

Soit l’espace de probabilité (ß, B, (Pfi)fi Q) • La considération du fait que le paramètre 8 est un élément aléatoire à valeurs dans l’espace 8 impose que 8 reçoive une structure adéquate d’espace probabilisable. Il s’agit en effet d’associer à 8 une c-algèbre A formée d’événements. Dire que 8 appar-tient à un certain événement A e A (ou A £ 8) est une façon d’exprimer une hypothèse.
A chaque événement A (donc à chaque hypothèse), nous pouvons attribuer une probabilité 11(A). Nous obtenons alors un espace de probabilité des para-mètres (8,i4,ïï).
Pratiquement, l’espace 8 est de dimension finie, sous-ensemble d’un espace euclidien de dimension p. Prenons la loi gamma de paramètres a et ß inconnus. On a alors 8 = (a,ß) et l’espace des paramètres est inclus dans IR soit 8 = R**xR** = -{(a.ß) € RxR ; a > 0, ß > 0}- (1.40)

Formule de Bayes

Envisagons un espace de probabilité (ß, B, (Pfl)fl «) • Soient A et B deux événements, donc sous-ensembles de fl appartenant à la a-algèbre S: A, B € S. La probabilité conditionnelle P(A|B) est la probabilité pour que l’événement B s*étant produit, l’événement A advienne.

Table des matières

GÉNÉRALITÉS
I. PROBLÈME GÉNÉRAL
II. ASPECTS BAYÉSIENS
III. FORMALISME
IV. RÉSULTATS
v. APPLICATIONS
CHAPITRE I NOTIONS DE STATISTIQUE BAYÉSIENNE
1.0. PRELIMINAIRES
1.0.1. Modèle probabiliste et paramétrique
1.0.2. Echantillon
1.0.3. Statistique
1.0.4. Vraisemblance : fonction et principe
1.1. EXHAUSTIVITE
1.2. NOYAU D’UNE FONCTION
1.3. CONVEXITE
1.4. CONCEPTS BAYESIENS
1.4.1. Information a priori
1.4.2. Espace des paramètres
1.4.3. Formule de Bayes
1.4.4. Distribution a posteriori
1.4.5. Inference statistique : l’approche décisionnelle
1.5. DE L’INFORMATION A PRIORI A LA LOI A PRIORI
1.5.1. Information subjective et Vraisemblances relatives
1.5.2. Approximation et Estimation empirique
1.5.3. Distribution non-informative
— invariance de transformations
— loi non informative de Jeffrey
1.6. PRINCIPE DE CONJUGUAISON
1.6.1. Distributions conjuguées
1.6.2. Conjuguée naturelle et Opération associée
1.6.3. Opération linéaire de conjuguaison
1.6.4. Extention de la conjuguée naturelle
1.7. ESTIMATION BAYESIENNE
1.7.1. Inference non-décisionnelle
1.7.2. Test et Région de confiance
1.7.3. Prédiction bayésienne
1.8. PROCESSUS DE CONTROLE
1.9. EXEMPLE
1.9.1. Vraisemblances relatives
1.9.2. Expériences antérieures
1.9.3. Comparaison et Représentation graphique
1.10. RESUME ET SCHEMA DU PROCESSUS
CHAPITRE II DÉTERMINATION DE LA LOI A PRIORI
2.0. PRESENTATION GENERALE
2.1. METHODE SEQUENTIELLE
2.1.1. Notion de séquentialité
2.1.2. Mesure uniforme du paramètre 0
2.1.3. Exemple du modèle binomiale-bêta (1)
2.2. METHODE DES SCORES D’EXPERT
2.2.1. Formalisme de scores d’expert et Application logarithmique
2.2.2. Fonction de vraisemblance bayésienne et Résolution générale
2.2.3. Statistique exhaustive correspondante de la famille exponentielle
2.3. METHODE DES ECHANTILLONS EQUILIBRES
2.3.1. Exemple du modèle binomial-bêta (2)
2.4. METHODES DES FAMILLES PARAMETRIQUES
2.4.1. Méthode des moments
2.4.2. Exemple du modèle binomial-bêta (3)
2.4.3. Méthode des fractiles
2.4.4. Méthode du maximum de vraisemblance et Exemple du modèle binomial-bêta (4)
2.5. METHODES DU QUASI-ECHANTILLON
2.5.1. Construction d’un quasi-échantillon du paramètre
2.5.2. Estimateur des paramètres de la loi a priori
2.5.3. Exemple du modèle binomial-bêta (5) et Divers estimateurs du quasi-échantillon
2.6. EXEMPLE NUMERIQUE ET GRAPHIQUE
2.6.1. Résumé des estimateurs du modèle binomial-bêta
2.6.2. Caractéristiques a priori et a posteriori du taux
2.6.3. Résultats numériques et Comparaison des méthodes
CHAPITRE III FAMILLES PARTICULIÈRES DE DISTRIBUTIONS CONJUGUÉES ET MODÈLES BAYÉSIENS CORRESPONDANTS
3. 0. OBJECTIF ET COMMENTAIRES
3.0.1. Deux familles générales
et Leurs modèles bayésiens
3.0.2. Estimation des paramètres connus
3. 1. DISTRIBUTION NORMALE (LAPLACE-GAUSS)
3.1.1. n et c inconnus
3.1.2. n inconnu et a- connu
3.1.3. ¡x connu et a- inconnu
3.2. DISTRIBUTION LOG-NORMALE
3.3. DISTRIBUTION NORMALE INVERSE (WALD)
3.3.1. Couple des variables (ji.ß )
3.3.2. Variable n
3.3.3. Variable ß2
3.4. DISTRIBUTION GAMMA
3.4.1. a et ß inconnus
3.4.2. a connu et ß inconnu
3. 5. DISTRIBUTION GAMMA GENERALISEE
3. 6. DISTRIBUTION GAMMA INVERSE
3.7. DISTRIBUTIONS DE VALEURS EXTREMES : WEIBULL ET FRECHET
3. 8. DISTRIBUTION DE PARETO
3. 9. RESUME
CHAPITRE IV ESTIMATIONS DES PARAMÈTRES DE LA LOI A PRIORI
4.0. INTRODUCTION
4.1. ESTIMATION SEQUENTIELLE
4. 2. ESTIMATION DES ECHANTILLONS EQUILIBRES
4. 3, ESTIMATIONS DES FAMILLES PARAMETRIQUES
4.3.1. Distributions normale et log-normale
4.3.2. Distribution normale inverse
4.3.3. Distributions gamma et gamma inverse
4.3.4. Distributions de Weibull et de Fréchet
4.3.5. Distribution de Pareto
4. 4. ESTIMATIONS DU QUASI-ECHANTILLON
4.4.1. Distributions normale et log-normale
4.4.2. Distribution normale inverse
4.4.3. Distributions gamma et gamma inverse
4.4.4. Distributions de Weibull et de Fréchet
4.4.5. Distribution de Pareto
4. 5. MODELE NORMALE-GAMMA A QUATRE PARAMETRES
4.5.1. Forme mathématique et Estimateur sans biais
4.5.2. Non validation du modèle pour certaines méthodes
— méthode séquentielle
— méthode des échantillons équilibrés
— méthode des moments
4.5.3. Comparaison des estimateurs du quasi-échantillon
— méthode des double moments
— méthode des double maxima de vraisemblance
— signification des paramètres et leurs contraintes
4.5.4. Modèle NG(m,v,k) avec l’estimateur sans biais
4. 6. ETUDE DE LA SENSIBILITE ET COMPARAISON DES METHODES
4.6.1. Etude de la sensibilité du modèle noraml-gamma
4.6.2. Comparaison des méthodes
4.6.3. Résumé des estimateurs des modèles normal et gamma
CHAPITRE V ETUDE DU CAS DES BOULONS HR
5. 0. EXPOSE DE L’ ENVIRONNEMENT
5.1. COEFFICIENT K
5.1.1. Définition et Principe du contrôle
5.1.2. Précision de l’analyse statistique
5.1.3. Prospection sur l’ensemble des données
5. 2. APPROCHE BAYESIENNE
5. 3. MISE EN OEUVRE DES MODELES
5.3.1. Quelques modèles pour la distribution normale de K
5.3.2. Prise en compte du passé
5.4. RESULTATS PREDICTIFS ET COMPARAISON DES MODELES
5.4.1. Ecart-type prédictif
5.4.2. Moyenne prédictive
5. 5. COMPARAISON DES METHODES
5.5.1. Etude de la moyenne et la variance ensemble
5.5.2. Etude de la moyenne
5.5.3. Etude de la variance
5.6. MODELE SPECIFIQUE
5.6.1. Combinaison des modèles normal et gamma
5.6.2. Calcul des résultats prédictifs et Représentation graphique
5.6.3. Enrichlssment d’un échantillon et Sensibilité du modèle
5. 7. CONCLUSION
NOTATION
ANNEXES