Estimation par sélection de modèle en régression hétéroscédastique

Les dernières décennies ont connu un fort essor des interactions entre les statistiques mathématiques et de nombreux domaines de recherche (génétique, écologie, imagerie médicale, finance, …). De la modélisation à l’analyse de données complexes, ces relations ont permis de meilleures approches de certains phénomènes. Cependant, elles ont aussi grandement étendu le champ de recherche des statisticiens. Ce lien entre les statistiques et le milieu des sciences appliquées trouve souvent sa source dans le souhait du non-statisticien d’avoir accès à des outils et des procédures lui permettant de formaliser son étude dans un cadre mathématique et de pouvoir traiter convenablement les données observées. Cela se traduit pour lui par la construction de modèles simples à expliquer mais assez riches pour prendre en compte la complexité du phénomène observé. C’est dans cette recherche de compromis entre adéquation aux données et relative simplicité du modèle que la théorie de la sélection de modèle trouve, entre autres, un vaste champ d’application.

Lors des interactions entre statisticiens et expérimentateurs, une des premières étapes consiste à prendre les probabilités comme langage commun. En particulier, ils doivent s’accorder sur une modélisation probabiliste satisfaisante pour les uns comme pour les autres. A la base de tout ce qui se construira ensuite, cette étape est cruciale et doit rendre compte de la connaissance du phénomène dont disposent les expérimentateurs.

Bien que les récents progrès des statistiques aient permis d’envisager des modèles de plus en plus généraux, le paramètre de variance des variables aléatoires introduites lors de cette étape de modélisation reste encore souvent supposé connu et constant. Dans le monde de l’expérimentateur, cette quantité est, malheureusement, bien souvent inaccessible et doit être approchée pour mettre en place les procédures proposées par le statisticien. Cela donne lieu à des méthodes utilisées en pratique mais dont les propriétés mathématiques peuvent être difficiles (voire impossibles) à établir. Ce constat fait apparaître la nécessité de prendre en compte la nature inconnue et potentiellement variable de la variance dans la construction de nouveaux outils statistiques.

Régression hétéroscédastique. L’analyse des modèles régressifs est un sujet mathématique ancien. Les premiers travaux dans le domaine sont dus à Legendre [Leg05] et à Gauss [Gau09] pour l’estimation des orbites de certains corps du système solaire. Etant données deux variables X ∈ X ⊂ Rd et Y ∈ Y ⊂ R, les modèles régressifs permettent d’expliquer les variations de Y en fonction de celles de X. De façon générale, ces modèles se présentent sous la forme
Y = s(X) + σ(X)ε   (1.1.1)

où ε est un terme de bruit (ou d’erreur), s : X → Y est appelée fonction de régression et σ : X → R∗ + s’appelle le niveau de bruit. La variable ε est supposée centrée et de variance unitaire conditionnellement à X (mais pas forcément indépendante de X), ce qui donne une autre définition de la fonction de régression, s(x) = E[Y |X = x], x ∈ X .

Ainsi, expliquer comment Y fluctue en fonction de X revient à déterminer des fonctions s et σ de telle sorte que (1.1.1) décrive au mieux la réalité du phénomène. D’un point de vue statistique, étant données des observations X1, . . . , Xn ∈ X et Y1, . . . , Yn ∈ Y, le problème consiste à construire de telles fonctions uniquement à partir des couples (Xi , Yi). Nous supposons donc qu’il existe deux fonctions s et σ inconnues telles que Yi = s(Xi) + σ(Xi)εi , i = 1, . . . , n , (1.1.2)

et l’objectif est d’en donner des estimateurs construits à partir des observations. Lorsque les Xi sont des variables aléatoires, ce problème de régression est dit à support aléatoire. Inversement, lorsque les Xi sont déterministes et connues, nous parlons de support fixe. Les résultats présentés dans la suite de cette thèse sont tous établis dans le cadre de la régression à support fixe. Pour plus de précisions sur ces deux situations, le lecteur pourra consulter [Bar00] et [Bar02]. Désormais, les variables du support seront notées en lettres minuscules afin de garder à l’esprit leur nature déterministe. Considérons donc les observations (x1, Y1), . . . ,(xn, Yn) ∈ X × Y et supposons, dans un premier temps, qu’elles sont indépendantes et que le niveau de bruit σ(·) ≡ σ > 0 est constant. Un tel cas est appelé régression homoscédastique. Il est possible de reformuler (1.1.2), Yi = si + σεi, i = 1, . . . , n, (1.1.3) .

Table des matières

Chapitre 1. Introduction
1.1. Cadre de la régression
1.1.1. Régression hétéroscédastique
1.1.2. Modèle additif
1.2. Sélection de modèle
1.2.1. Motivations
1.2.2. Estimation par critère pénalisé
1.2.3. Propriétés de l’estimateur
1.3. Contributions de la thèse
Chapitre 2. Simultaneous estimation of the mean and the variance in heteroscedastic Gaussian regression
2.1. Introduction
2.2. Main results
2.2.1. Model collection and estimators
2.2.2. Risk upper bound
2.2.3. Convergence rate
2.3. Simulation study
2.4. Proofs
2.4.1. Proof of Proposition 2.1
2.4.2. Proof of Theorem 2.2 22
2.4.3. Proof of Proposition 2.3
2.5. Technical results
Chapitre 3. Estimation of a component in an additive model
3.1. Introduction
3.1.1. Additive models
3.1.2. Statistical framework
3.2. Main results
3.3. Application to additive models
3.4. Convergence rates
3.5. Estimation when σ2 is unknown
3.6. Simulation study
3.6.1. Collections of models
3.6.2. The choice of C
3.6.3. Numerical simulations
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *