Analyse d’une base de données pour la calibration d’un code de calcul

Analyse d’une base de données pour la calibration d’un code de calcul

 Critères associés aux distances

Distances entre points de la BDDE

Les critères que nous allons définir ici permettent de vérifier que les points ne sont pas trop « proches » les uns des autres et régulièrement espacés. Ils sont essentiellement inspirés par Gunzburger et Burkardt (2004). Notons que la notion de proximité dépend bien entendu des caractéristiques du problème étudié. Par exemple, une distance entre deux points pourra être considérée comme « faible » lors de l’étude d’un phénomène linéaire, et « importante » si le phénomène est fortement non linéaire. Pour les applications il est donc nécessaire d’avoir recours à l’avis d’un expert du domaine étudié afin de pouvoir apprécier les distances les plus appropriées au phénomène et à l’étude. • Distances minimales Pour apprécier la proximité mutuelle des points de la BDDE, nous pouvons, dans un premier temps, faire usage de la distance minimale entre deux points de la base de données d’entrée. Celle-ci est définie par : dminp(x(n)) : = min xi6=xj∈x(n) ρp(xi , xj ). (1.3) S’il existe des points trop « proches » les uns des autres, vis-à-vis du problème étudié, la quantité dminp sera faible. Lorsque nous souhaitons que tous les points soient au moins séparés les uns des autres d’une distance dv, nous pouvons définir le critère : min xi6=xj∈x(n) ρp(xi , xj ) > dv. (1.4) Dans le cas où la répartition des points x(n) = {x1, . . ., xn} composant la BDDE peut être planifiée (conformément à un procédé de planification), nous définissons le plan de répartition suivant : Définition 1.2.1 Le plan x ∗ (n) = {x ∗ 1 , . . ., x∗ n}, permettant d’assurer une distance minimale satisfaisante entre chaque point, au sens de l’égalité : min xi6=xj∈x∗(n) ρp(xi , xj ) = max x(n)∈Xn min xi6=xj∈x(n) ρp(xi , xj ), (1.5) est dit maximin

Partant du constat que, pour un maillage où les points sont régulièrement espacés les uns des autres, nous avons γ1 = . . . = γn où γi désigne la distance entre xi et son plus proche voisin dans la BDDE, nous pouvons aussi définir le critère de qualité suivant : γ(x(n)) : = maxi=1,…,n γi mini=1,…,n γi . (1.6) Comme dans un cas de parfaite régularité, ce critère vaut 1, une valeur voisine de 1 exprimera un critère de qualité de la régularité de la répartition des points. Remarquons que le critère basé sur γ(x(n)) est plus global que dminp (voir (1.3)). • Distances moyennes Une autre approche pour apprécier la régularité des espacements entre les points de la BDDE est de considérer des distances « moyennes ». 

Distances entre points de la BDDE et points de l’espace 

Nous allons introduire ici des critères qui permettent de vérifier qu’il n’existe pas de « trous » dans la BDDE, et, par conséquent, de vérifier que l’ensemble du domaine X est recouvert de façon « acceptable » (voir Feuillard et al. (2005)). Nous ne considérons donc plus uniquement des distances entre points de la BDDE, mais des distances entre points de la BDDE et des points convenables de l’espace X. • Dispersion Un premier critère permettant de quantifier les « trous » de la BDDE est celui de la dispersion au sens de la définition suivante : Définition 1.2.3 Nous définissons la dispersion de la BDDE x(n) ∈ X n par : dp(x(n)) := sup w∈X  min xi∈x(n) ρp(w, xi)  . (1.13) Dans le cas particulier p = 2 et p = ∞, nous obtenons : d2(x(n)) : = sup w∈X  min xi∈x(n) kw − xik  , d∞(x(n)) : = sup w∈X  min 1≤i≤n  max j=1,…,d |wj − xj |  . Intuitivement, la dispersion au sens de la définition (1.2.3) s’interprète comme le rayon de la plus grande boule ne contenant aucun point de la BDDE dans l’espace X. Cette quantité peut aussi être vue comme l’infimum de tous les rayons r tels que les boules B(x1, r), . . ., B(xn, r) recouvrent X (rappelons que lorsque X est compact, il existe un nombre fini de boules de rayon r recouvrant X). Par conséquent, lorsque la dispersion (au sens de la définition (1.2.3)) est élevée, la suite de points comporte des « trous » dans le domaine X, et une dispersion faible assure une bonne répartition des points dans X, un recouvrement de l’espace sans « trou ». Précisons quelques propriétés intéressantes. Nous avons les inégalités 1 2⌊n1/d⌋ ≤ d∞(x(n)) ≤ d2(x(n)) ≤ d 1/2d∞(x(n)), (1.14) où ⌊n 1/d⌋ désigne la partie entière de n 1/d. Cette dernière inégalité est notamment atteinte pour les grilles de Sukharev (voir l’illustration graphique (1.1)). Pour davantage de détails sur cette notion, nous nous référerons à Sukharev (1971), Niederreiter (1988), Niederreiter (1992), Niederreiter et Wills (1975). Une façon de calculer la dispersion est de considérer une dispersion « relative » à une suite dont nous savons qu’elle recouvre bien tout l’espace (nous pourrons considérer des Chapitre 1. Critères déterministes.Fig. 1.1 – Grille de Sukharev (25 points) suites à discrépances faibles dans [0, 1]d , définies au paragraphe (1.3)). Nous supposons disposer d’une suite auxiliaire BDDREF xf (N) = {xf,1, . . ., xf,N } de points de X dont nous considérons les propriétés d’uniformité « acceptables ». Ici, N correspond à un nombre important (en pratique, largement supérieur à n) de points (de façon à bien recouvrir tout l’espace). Nous calculons : Disp(x(n), xf (N)) : = max xfi ∈xf (N)  min xj∈x(n) ρp(xfi , xj )  . (1.15) Ceci est illustré par le graphique (1.2). Nous faisons donc, en utilisant (1.15), une approximation de la dispersion au sens de l’égalité (1.13). Ne pouvant calculer le supremum relativement à w ∈ X dans la définition (1.2.3) sur tout le domaine X, nous prenons, dans (1.15), le maximum relativement aux xf i ∈ xf (n), parmi un ensemble xf (n) de points qui recouvre X de façon jugée satisfaisante. Nous pouvons aussi interpréter le critère (1.15) comme une comparaison entre les points de la BDDE et des points d’une BDDREF ayant une bonne répartition uniforme, c’est pourquoi nous avons choisi l’appellation dispersion « relative » pour (1.15). Précisons que cette notion que nous introduisons ici n’a pas été rencontrée dans la littérature, et est à notre connaissance, nouvelle. Signalons dès à présent que certaines des suites xf que nous choisirons comme BDDREF seront les suites à discrépance faible ( au sens de la définition (1.3.7) du paragraphe (1.3)). Celles-ci ont aussi l’avantage d’être à dispersion faible (au sens de l’égalité (1.30) du paragraphe (1.3)). Ainsi, si la suite de points de la BDDE est « proche » (dispersion 32 Chapitre 1. Fig. 1.2 – Approximation de la dispersion relative faible) d’une suite à discrépance faible, nous pouvons penser que la discrépance, et par conséquent la dispersion, sera faible. Nous calculerons donc pour la BDDE x(n) différentes dispersions « relatives » à l’aide de différentes BDDREF, suites à discrépance faible. Au lieu de prendre comme BDDREF une suite « déterministe » (comme le sont les suites à discrépance faible), nous pouvons aussi considérer des suites de variables aléatoires indépendantes et de loi uniforme dans X = [0, 1]d . Nous calculerons le critère (1.15) pour ces différentes suites, et garderons la plus grande valeur comme approximation de la dispersion. En pratique, le nombre de points de ces suites peut ne pas être trop élevé (de l’ordre du nombre de points de la BDDE étudiée n, par exemple) de façon à effectuer de nombreux calculs de la dispersion « relative ». Lorsque les différentes approximations ont le même ordre de grandeur, nous pourrons considérer une approximation correcte de la dispersion théorique. Pour apprécier la valeur de l’approximation obtenue, nous pouvons la comparer avec les différents critères de distance que nous aurons précédemment calculés, comparant ainsi les distances entre points de la BDDE et le rayon de la plus grande boule vide dans l’espace X. Il est, ici aussi, utile d’avoir recours à l’avis d’un expert du domaine étudié qui soit capable d’apprécier la pertinence des différentes distances utilisées dans les critères d’uniformité. Plus la dispersion (définition (1.2.3) et approximation par la formule (1.15)) sera faible et plus la BDDE recouvrira (« remplira ») l’espace, i.e. avec des « petits » domaines (boules de rayon faible) de l’espace sans point de la BDDE. 

Table des matières

Introduction
1 Critères déterministes
1.1 Contexte
1.2 Les critères
1.2.1 Notations
1.2.2 Critères associés aux distances
1.2.2.1 Distances entre points de la BDDE
1.2.2.2 Distances entre points de la BDDE et points de l’espace
1.2.3 Critères associés aux volumes des cellules de Voronoi
1.2.4 Récapitulatif
1.3 Discrépance
1.3.1 Notations
1.3.2 Définitions
1.3.3 Propriétés
1.3.3.1 Inégalité .
1.3.3.2 Propriétés des suites aléatoires de loi uniforme sur [0, 1]
1.3.3.3 Expressions, Discussion
1.3.4 Récapitulatif
1.4 Utilisation, méthodologie
1.4.1 Etude d’une base de données d’entrée
1.4.2 Sélection de points
1.4.2.1 Méthode 1
1.4.2.2 Méthode 2
1.4.2.3 Méthode 3
1.4.3 Application des méthodes de sélection
1.4.4 Spécification de points
1.4.4.1 Méthode 1
1.4.4.2 Méthode 2
1.4.4.3 Méthode 3
1.4.5 Application des méthodes de spécification
1.4.6 Discussion
2 Liens entre discrépance et estimation non-paramétrique
2.1 Introduction
2.2 Inégalité de Koksma-Hlwaka généralisée
2.2.1 Notations et hypothèse
2.2.2 Inégalité généralisée de Koksma-Hlwaka
2.2.3 Considération du processus empirique uniforme
2.3 Majoration de critères
2.3.1 Introduction
2.3.2 Majoration de l’IMSE
2.3.3 Majoration de la MSE
2.3.4 Interprétation
2.4 Cadre méthodologique
2.5 Application
2.5.1 Présentation de l’exemple
2.5.2 Analyse initiale des points disponibles
2.5.3 Sélection d’un sous-ensemble de points
2.5.4 Estimation et Validation
2.6 Discussion
3 Critères probabilistes
3.1 Notion de Test Statistique
3.2 Partition du pavé unité
3.3 Test sur le vecteur de paramètres d’une loi multinomiale
3.3.1 Espérance et Variance de Sfn,k (Y1, ., Yk)
3.3.2 Test de Pearson
3.3.3 Test du rapport de vraisemblance
3.3.4 « φ-divergence family »
3.3.5 Discussion
3.4 « Sparse case »
3.4.1 Application du théorème de Holst (1972)
3.4.2 Recherche du « plus grand pavé vide »
3.5 « Scan Statistics »
3.5.1 Approximation par une loi de Poisson conditionnelle
3.5.2 Lois des « conditional two-dimensional discrete scan statistic »
3.5.3 Cas continu
3.6 Utilisation
3.7 Discussion
Conclusion
Annexe
4.1 « Connaissance » de la fonction de code
4.2 Absence de « Connaissance » de la fonction de code
4.2.1 Différence entre réponses du code et réponses expérimentales
4.2.2 Méthode GLUE
4.2.3 Approche de Kennedy et O’Hagan (2001)
4.2.4 Méthodes de « calibration multivariée »
4.2.4.1 Approche indirecte
4.2.4.2 Approche directe
4.3 Discussion .

projet fin d'etude

Télécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *