Un modèle à facteur latent partagé

Un modèle à facteur latent partagé

Travailler de façon conditionnelle à l’effectif total pour stationnariser le protocole expérimental

Le chapitre précédent faisait l’hypothèse de comptages Poissonniens du nombre d’occurrences de chaque espèce. Or l’hypothèse Poissonnienne a été remise en cause car de nombreuses sources d’incertitudes, en particulier la non stationnarité du protocole de captures d’une année à l’autre, semblent pouvoir entraîner une surdispersion des résultats. Travailler conditionnellement à l’effectif total observé, c’est opérer une standardisation que nous pensons propre à réduire cette surdispersion en rendant le processus plus homogène, en gommant une certaine variabilité interannuelle : certaines années on capture beaucoup d’individus (pêche plus longue, débits plus propices, etc…), d’autres années la pêche est moins efficace. Dans ce chapitre on focalisera donc sur les ratios de chacun des trois groupes d’espèces (p1, p2, p3) pour étudier leurs variations. On notera qu’une telle approche est de plus très complémentaire à la modélisation des abondances, en termes d’information apportée. En effet, dans le cas d’une modélisation des comptages, les proportions relatives des groupes peuvent être calculées à partir des abondances respectives. Dans le cas présent, elles constituent la variable cible et on travaille conditionnellement aux nombres de captures de chaque campagne. 105 Un modèle à facteur latent partagé 106 Assemblages piscicoles et variations de l’environnement

Créer des variables explicatives ad-hoc

La façon la plus directe de relier une réponse multinomiale à un jeu de p variables explicatives X1, X2…Xp consiste à mettre en place une relation avec 2 × p paramètres du type log linéaire : log p1 p3 = X p j=1 β j 1Xj = Xβ1 log p2 p3 = X p j=1 β j 2Xj = Xβ2 Ces deux équations (avec la troisième équation p1 + p2 + p3 = 1) donnent facilement l’expression des probabilités (p1, p2, p3) associés à chacune des trois communautés. Si l’on considère le problème de la sélection de modèle, en toute généralité, il y a cette fois 2 p × 2 pmodèles alternatifs possibles en considérant que l’on peut les construire « en allumant ou en éteignant » l’effet de chaque variable explicative indépendamment dans chaque combinaison linéaire explicative (à comparer aux 2 pmodèles en compétitions avec les comptages Poissonniens au chapitre précédents). Pour notre application p = 9, il y aurait 2 18 = 262144 modèles dont il faudrait réaliser l’inférence, ce qui rend les temps de calculs rédhibitoires sur un ordinateur personnel (plus de 182 jours si chaque inférence MCMC prenait une seule minute). Par l’intermédiaire de facteurs explicatifs latents que nous introduisons pour faire un pont entre variables explicatives et réponses multinomiales, nous proposons ici de résoudre dans un même temps les problèmes d’inférence statistique et de sélection de variables explicatives. 4.1.3 Quelques approches bibliographiques de l’analyse multivariée Considérant un jeu de p variables explicatives Xi , i = 1, …, p , d’une variable Y multivariée, discriminer l’influence particulière d’une variables Xi particulière est un problème ancien. Il a été montré que juxtaposer des modèles de régression simple sur chacune des composantes n’était pas satisfaisant. Les régressions linéaires multiples (MLR), où la variable Y est prise comme combinaison linéaire de l’ensemble des variables Xi , i = 1, …, p a été développée pour résoudre ce problème. Toutefois, cette méthode est prise en défaut lorsque les variables explicatives sont trop fortement corrélées entre elles (Woody and Brown, 2003). Dans le 4. Un modèle à facteur latent partagé 107 cas de colinéarité des variables prédictives, les coefficients de régression de la MLR deviennent instables, et fluctuent fortement selon l’échantillon utilisé (Cramer et al., 1988) et leur interprétation devient difficile. Des approches multivariées ont été développées afin de créer des variables explicatives non-corrélées à partir des variables explicatives initiales. Ces méthodes proposent donc de coupler une méthode d’analyse de données multivariées (par ex. l’Analyse en Composantes Principales (Saporta, 1990)) qui permet de décrire de façon synthétique la structure des données par leur projection dans un nouveau repère défini par des axes principaux, combinaisons linéaires des variables explicatives initiales, orthogonaux. Ces axes principaux sont alors utilisés dans une régression linéaire simple ou multiple (selon le nombre d’axes principaux conservés) (Tomassone et al., 1983). La régression sur composantes principales (PCR) utilise les axes principaux d’une ACP, la régression PLS (Partial Least Square) quant à elle utilise un algorithme qui construit des axes en maximisant la covariance entre les X et Y . L’avantage de ces méthodes est que les coefficients des régressions sur les axes principaux deviennent comparables (en signes et en amplitude) à ceux d’une simple corrélation (Tenenhaus et al., 1995; Wold et al., 2001). La régression PLS permet donc d’extraire directement les composantes qui sont significatives au regard des deux jeux de données X et Y (Wasson et al., 2010). Le cas général des régressions linéaires normales a été généralisé au cas des modèles linéaires généralisés afin de pouvoir faire le lien entre différents types de données continues ou catégorielles.