Analyse P(D) des cartes SPIRE

Analyse P(D) des cartes SPIRE

Présentation de l’analyse P(D)

Principe

Dans les chapitres précédents, nous avons vu qu’il est difficile d’étudier directement les sources les plus faibles à cause de la confusion. La méthode de l’empilement permet de sonder ces populations à condition d’avoir au préalable des informations venant d’autres longueurs d’onde. La méthode du P(D) est complémentaire à l’empilement. En effet, elle se base uniquement sur l’histogramme d’une (ou plusieurs) cartes infrarouges, dont la forme dépend uniquement de la PSF, du bruit instrumental et des comptages1 . Dans le cas où la PSF et le bruit instrumental sont bien connus, il est possible de retrouver les comptages qui sont compatibles avec l’histogramme observé. Le principe est donc simple, mais la mise en application l’est beaucoup moins.

Quelques exemples illustratifs

La manière dont les comptages de sources sont liés à l’histogramme des pixels2 d’une carte est non triviale (voire Sect. 4.2). La Fig. 4.1 illustre ce lien. Nous avons pris un modèle simple de comptages en S −1.5 en dessous de 1 mJy et S −3.5 au delà (en noir). On suppose également que les cartes sont à moyenne nulle3 . On voit tout de suite qu’en dehors des hauts flux, les comptages et l’histogramme ont des comportements assez différents. En effet, une source affecte le signal dans plusieurs pixels, avec un effet qui décroît avec la distance entre la source et le pixel. De plus, il peut y avoir plusieurs sources faibles par pixel. C’est pour ces raisons que l’histogramme du flux des sources (les comptages) est assez différent de celui du signal dans les pixels. La forme des comptages de sources affecte fortement l’histogramme d’une carte. Si on augmente le nombre de sources brillantes, en utilisant un comportement en S −2.5 au delà de 10 mJy (courbe en bleu de la Fig. 4.1), la forme de l’histogramme est fortement affectée à haut flux (D>10 mJy). En effet, plus de sources brillantes implique plus de pixels brillants. En revanche, le pic de l’histogramme est très peu affecté, car les ailes des sources brillantes, peu nombreuses, n’affectent que légèrement l’histogramme. Si on augmente le nombre de sources à bas flux, en utilisant un comportement en S −2.5 en dessous de 1 mJy (courbe en rouge de la Fig. 4.1), on élargit le pic de la distribibution, alor que les haut flux sont très peu affectés. Ces sources de flux faibles sont très nombreuses (plusieurs sources par beam), ne sont pas détectables individuellement dans les images, mais engendrent des fluctuations du fond. Si on augmente le nombre de sources faibles, ces fluctuations augmentent (comme √ N dans le cas simpliste où toute les sources ont le même flux). Cet exemple simple illustre les principes de base de l’analyse P(D). Les pixels brillants permettent de poser des contraintes sur les sources brillantes, alors que la largeur du pic à bas flux contraint les comptages de sources faibles. L’histogramme est très sensible aux comptages à haut flux, mais moins aux comptages à bas flux, plus difficiles à estimer. Enfin, un bruit instrumental important (graphique du bas) élargit l’histogramme et s’il est trop fort, peut empêcher de discriminer deux pentes de comptages à bas flux (courbes noire et rouge de la Fig. 4.1). Il est donc important pour bien contraindre les bas flux d’utiliser des observations très profondes.

Mise en oeuvre

Contrairement aux méthodes de comptages classiques pour lesquels on mesure simplement un nombre de sources par bin de flux, l’analyse P(D) nécessite de supposer une représentation paramétrique des comptages. On peut par exemple supposer une simple loi de puissance. Toutefois, ce type de fonction simple n’est pas représentatif des comptages réels, et le meilleur ajustement en loi de puissance peut être très différent de la réalité. Patanchon et al. (2009) a proposé d’utiliser une description paramétrique des comptages plus élaborée. Des noeuds sont placés à des flux fixés. La valeur des comptages différentiels (dN/dS) à chaque noeud est un paramètre libre, et sont reliés entre eux par des lois de puissances. Les paramètres du modèle de comptages sont ajustés afin de reproduire les histogrammes observés. On peut par exemple utiliser une méthode MCMC (Monte Carlo Markov Chain, Chib et Greenberg (1995)) pour étudier précisément les dégénérescences entre paramètres et produire des intervalles de confiance réalistes. Cette technique consiste à explorer de manière semi-aléatoire l’espace de paramètres. A chaque pas, un déplacement aléatoire se fait dans l’espace des paramètres. La nouvelle position est conservée si la vraisemblance est meilleure qu’au pas précédent. Elle est conservée avec une probabilté L(n)/L(n − 1) (rapport entre la nouvelle et l’ancienne vraisemblance) dans le cas contraire. Pour une chaîne suffisamment longue (hypothèse d’ergodicité), les différentes réalisations ont la même distribution que la densité de probabilité a posteriori des paramètres du modèle de comptages. Cette propriété rend extrêmement commode la détermination des intervalles de confiance sur chacun des paramètres.

Développement d’un code d’analyse P(D)

J’ai développé des outils en langage IDL permettant de réaliser une analyse P(D). Ces outils utilisent une paramétrisation des comptages similaire à celle de Patanchon et al. (2009). Toutefois, une option permet de relier les noeuds avec une spline à la place d’une loi de puissance. Il est également possible de prendre en compte l’incertitude sur le bruit instrumental, en autorisant ce bruit à varier, mais en pénalisant les valeurs éloignées de la valeur mesurée. Un second terme additionnel peut être ajouté pour forcer un accord entre le modèle de comptages et le niveau du fond infrarouge mesuré par FIRAS. L’ajustement des paramètres est réalisé par méthode MCMC en utilisant l’algorithme MetropolisHastings. La loi de déplacement dans l’espace des paramètres est dans un premier temps choisie en calculant la matrice de Fisher du problème à une position initiale choisie manuellement (typiquement un modèle de comptages). Un première chaîne courte (∼10 000 pas) est lancée. Sa matrice variance-covariance est calculée. La nouvelle loi de déplacement est la loi gaussienne ayant la même matrice variance-covariance. On lance alors une nouvelle chaîne plus longue. On vérifie la convergence de celle-ci en utilisant les critères de Dunkley et al. (2005), qui utilisent les spectres de puissance des réalisations des paramètres. Le calcul rapide de la vraisemblance du modèle à chaque pas pilote totalement la vitesse du programme. J’ai écrit un programme rapide permettant de réaliser cette opération. La première étape consiste à calculer n+(F) et n−(F) (voir Eqs. 4.19 et 4.20). Pour gagner du temps, ces fonctions sont calculées sur une grille logarithmique. Un histogramme de la PSF est utilisée pour calculer l’intégrale, au lieu de sommer sur tous les pixels de la PSF. On interpole ensuite ces fonctions sur une grille régulière afin de calculer sa transformée de Fourier dans Eq. 4.23. On soustrait alors la moyenne du signal à la grille en D, afin d’obtenir une distribution à moyenne nulle. Puis, on intègre par la méthode des trapèzes la fonction p(D) dans les bins de flux utilisés pour construire l’histogramme moyen des cartes analysées, afin d’en déduire la vraisemblance du modèle comptages testé (Patanchon et al. (2009)) ln(L) = X i (ni ln(pi) − ln(ni!)) + ln(N!), (4.33) où L est la vraisemblance, ni le nombre de pixel de la carte dans le i-ième intervalle de flux, pi est la valeur moyenne du nombre de pixels dans le même intervalle de flux, et N le nombre total de pixels.