Modèle spatio-temporel déterministe pour la prévision photovoltaïque

Modèle spatio-temporel déterministe pour la prévision photovoltaïque

Les modèles de référence

Persistance et modèle autorégressif Dans le but d’évaluer les avantages d’une approche spatio-temporelle pour la prévision PV, nous présentons des modèles de référence pour l’analyse comparative qui n’utilisent pas ces informations géographiquement distribuées. Plusieurs méthodes peuvent être utilisées pour prévoir la production PV telle que présenté dans l’état de l’art du chapitre 1. Le modèle de persistance est souvent utilisé comme référence dans la littérature pour comparer les performances des modèles avancés. En effet, il est simple à implémenter, et est basé uniquement sur les données mesurées et n’implique aucun processus de modélisation. Les résultats du modèle de persistance sont facilement reproductibles. De plus, dans les applications pratiques de la prévision PV, la persistance est souvent choisie comme un modèle de secours pour fournir des prévisions dans le cas où les modèles avancés échouent. Nous définissons ici comme « persistance » un modèle qui considère que la production d’énergie d’une installation photovoltaïque au temps t + h est la même que la production de cette centrale au même moment la veille. Cette approche ne tient pas compte des données hors site. Malgré sa popularité en tant que modèle de référence dans la littérature, sa performance globale est assez faible [2]. Pour tenir compte des différents facteurs qui affectent la production PV, on pourrait ajuster la persistance en fonction des valeurs observées durant le jour en cours. Toutefois, cela implique déjà une certaine manipulation de données, et différentes options peuvent être envisagées. Pour éviter d’obtenir des résultats trop optimistes à partir d’une méthode spatio-temporelle, il est également nécessaire d’utiliser un modèle de « référence avancé » qui présente des performances de pointe et une complexité raisonnable afin que les résultats puissent être facilement reproduits. Pour cela, nous considérons le modèle autorégressif (AR) défini comme suit : Pˆx t+h|t = βˆ0 h + X L l=0 βˆl hP x t−l (3.1) avec P x t la production de la centrale x au temps t et Pˆx t+h|t la prévision de la production pour l’horizon h. L’ordre optimal L est très important pour la qualité de l’estimateur car il implique un compromis entre biais et variance. Cet ordre maximal est choisi ici par minimisation du critère de l’AIC (Akaike Information Criterion). En règle générale l’AIC se calcule par maximum de vraisemblance suivant la formule AIC = −2logL˜ + 2 ∗ k avec L˜ la vraisemblance maximisée et k le nombre de paramètres du modèle. Le modèle optimal est celui avec l’AIC le plus faible. Dans le cas du modèle AR, la vraisemblance peut 48 Modèle spatio-temporel déterministe Figure 3.1 – Jeu de données d1 : Comparaison des valeurs de RMSE normalisées des modèles AR (rouge) et persistance (noir). Le pas de temps est 15 min. être remplacée lorsque n représente la taille des données par la variance des innovations σ 2 L soit : AIC = n(logσ2 L + 1) + 2 ∗ (L + 1). (3.2) Les modèles de persistance et AR ont été appliqués au jeu de données d1 avec des échantillons d’apprentissage et de test couvrant respectivement 15 mois et 5 mois. Les prévisions sont mises à jour au pas de temps de 15 minutes. La figure 3.1 présente l’erreur quadratique moyenne RMSE normalisée pour les modèles AR et persistance pour les centrales du jeu de données d1 en fonction de l’horizon de prévision. La figure montre que le meilleur modèle est le modèle AR qui présente les niveaux de RMSE les plus bas. Les valeurs de biais et de MAE sont aussi plus basses pour le modèle AR que pour la persistance. Le modèle AR a donc été préféré au modèle de persistance. Ce modèle servira à évaluer la contribution de l’intégration d’informations supplémentaires relatives aux centrales avoisinantes.

Le modèle de forêts aléatoires

Le modèle AR n’est pas le seul modèle de référence que nous utilisons. Les forêts aléatoires sont aussi utilisées pour évaluer l’efficacité des modèles proposés. En effet, les forêts aléatoires font partie des méthodes déterministes les plus performantes que l’on retrouve dans la littérature pour prévoir la production PV [15]. Nous présentons ici le principe d’estimation de cette méthode et son application à la prévision. Dans cette partie la variable aléatoire Y représente la production PV, ses réalisations sont les mesures de production à chaque instant et X représente les variables explicatives. Définition et propriétés Une forêt aléatoire est l’agrégation d’une collection d’arbres aléatoires. Le nom forêt aléatoire vient du fait que les prédicteurs individuels sont des prédicteurs par arbre et de l’introduction de l’aléatoire dans le choix des variables de division et des échantillons « Out Of Bag ». Les forêts aléatoires ont été développées par L. Breiman [106] et font partie 49 Développement de méthodes spatio-temporelles pour la prévision à court-terme de la production photovoltaïque des méthodes d’ensemble. Le principe de ces méthodes est de construire une collection de prédicteurs et d’agréger ensuite l’ensemble de leurs prédictions. Dans le cadre d’une régression, si on dispose de q prédicteurs individuels qui fournissent chacun une prévision Yˆ t , agréger leurs prédictions revient ici à faire une moyenne 1 q Pq t=1 Yˆ t . Les forêts aléatoires sont caractérisées par : — un nombre important de prédicteurs individuels (d’arbres) ; — la création pour chaque arbre d’un échantillon destiné aux tests appelé échantillon « out-of-bag » ; — le choix pour tous les arbres d’un paramètre correspondant à la taille du souséchantillon de variables tiré aléatoirement à chaque nœud de chaque arbre ; — une variable de division choisie pour chaque arbre parmi le sous-échantillon précédemment décrit ; — l’absence d’élagage des arbres. Prévision à l’aide de forêts aléatoires Soit θ le vecteur de paramètres qui détermine la construction d’un arbre (les variables de division à chaque nœud par exemple), on notera T(θ) l’arbre correspondant. La prévision par les forêts aléatoires pour une nouvelle observation X = x0 se fait suivant les étapes ci-après. 1. Construire K arbres T(θt), t = 1, . . . , K comme décrit précédemment. 2. Faire passer x0 dans l’arbre et conserver toutes les observations de la feuille terminale dans laquelle il tombe. 3. Calculer pour chaque arbre t des poids wi(x0, θt) tel que wi(x0, θt) = 1 kt si l’observation xi de l’échantillon d’apprentissage fait partie des kt points du nœud terminal contenant x0 0 sinon 4. La prévision pour un arbre t est alors µˆ(x0) = Xn i=1 wi(x0, θt)Yi . 5. On en déduit la prévision par les forêts aléatoires en moyennant sur tous les arbres : µˆ(x0) = Xn i=1 wi(x0)Yi avec wi(x0) = K−1 PK t=1 wi(x0, θt). On vient ainsi de construire une approximation de l’espérance conditionnelle E(Y |X) par une somme pondérée sur toutes les observations. Les pondérations, qui varient avec les covariables sont au centre de la démarche de prévision. Plusieurs études sont consacrées à la compréhension du lien entre ces pondérations et la distribution conditionnelle (Y |X). Y. Lin & Y. Jeon [107] ont montré que les poids ont tendance à être d’autant plus importants que la distribution conditionnelle de (Y |X = Xi) est similaire à celle de (Y |X) .

Télécharger le document complet