Machine-learning pour la prédiction des prix dans le secteur du tourisme en ligne

Les travaux de thèse présentés dans ce manuscrit portent sur le développement d’un système de prédiction d’évolutions de séries temporelles finies basé sur le changement de modélisation des séries et l’apprentissage supervisé de comportements types générés par une étape de clustering.

Les compagnies aériennes au premier chef, suivies par l’ensemble des professionnels du tourisme (compagnies ferroviaires, hôteliers, etc.) ont généralisé les politiques de “yield management” afin d’optimiser le prix d’une prestation en fonction de leur niveau d’inventaire et de la date de réservation [45]. Il en résulte une opacité totale dans le processus de formation des prix, qui, pour un même billet et aux mêmes dates, peuvent varier très fortement (i) d’un fournisseur à un autre, et (ii) d’un moment à l’autre. Le consommateur est maintenu dans l’ignorance et l’incertitude, parfois encouragé à réserver longtemps à l’avance, parfois exhorté à réserver précipitamment à la dernière minute pour bénéficier d’offres présentées comme dégriffées.

Liligo.com est un moteur de recherche du voyageur capable de chercher un billet d’avion parmi plus de 250 sites d’agences de voyages et de compagnies aériennes. Afin d’aider l’utilisateur dans son acte d’achat, nous voulons pouvoir afficher pour chaque vol retourné par la recherche, une aide à la décision d’achat basée sur une estimation de la tendance dans l’évolution du prix. A chaque prix sera associé un indice d’évolution échelonné sur 5 valeurs (Forte hausse, Faible hausse, Prix stable, Faible baisse, Forte baisse), ainsi qu’un indice de confiance. Nous voulons un service flexible qui saurait répondre à plusieurs types d’interrogation comme par exemple l’évolution (hausse ou baisse du prix) à 7 jours ou l’intensité de la variation à 3 jours.

La prédiction de séries temporelles est un sujet très répandu et ses applications se retrouvent dans de nombreux domaines : dans la finance pour la prédiction de l’évolution des cours de la bourse, en météorologie pour la prédiction à court terme de la température ou dans un domaine plus lié, pour la prédiction du nombre de réservations d’un vol [31] et l’évolution de l’émission de CO₂ dans l’aviation [24]. Dans ces dernières approches, les séries sont le plus souvent infinies et la prédiction repose sur l’analyse statistique des précédentes évolutions.

Les changements de prix dans le domaine aérien suivent des règles régies par des algorithmes de yield management ou revenue management décrits dans de nombreux ouvrages [2][15] ou [46], laissant entrevoir que certaines de ces règles, communes à tous les marchands, peuvent être apprises pour prévoir leurs évolutions. Le Yield Management est une discipline économique adaptée à des secteurs où la tarification par segments de marché est pratiquée et combinée à une analyse statistique poussée. Cette pratique a pour objectif d’augmenter le revenu de la compagnie par siège disponible. Les paramètres déterminants dans l’optimisation des prix sont donc le taux de remplissage de l’avion et l’évolution de la demande mais d’autres variables peuvent introduire des subtilités dans la maximisation des revenus [51]. Ces informations n’étant pas publiques, nous pouvons uniquement percevoir ces variables cachées par le biais de l’évolution des séries temporelles et de la répartition par destination du trafic de liligo.com.

Nous rappelons que liligo.com est un moteur de recherche de voyages permettant aux utilisateurs, de comparer plus de 250 sites d’agences de voyages et compagnies aériennes. A chaque recherche utilisateur, toutes les informations de la page de résultats sont conservées en base de données représentant une source volumineuse d’informations à traiter. Il est donc nécessaire de faire des choix quant aux vols que nous souhaitons utiliser et quant à l’architecture de notre base de données. Notre base d’apprentissage devra représenter la majorité des comportements existants tout en conservant une taille raisonnable. L’architecture doit permettre de reconstruire les séries temporelles de prix, de comparer les mêmes vols proposés par des sites différents et d’accéder rapidement aux caractéristiques des vols.

Au sein d’une même cabine, la compagnie divise son avion en classes de réservation, ou classes tarifaires, ou encore classes de yield. C’est un découpage purement informatique, invisible pour le passager, et sans conséquence sur le positionnement des voyageurs à l’avant ou l’arrière de l’appareil.

Il ne faut pas confondre ce découpage avec le découpage en classes de transport, que sont la première classe, la classe affaires et la classe économique. Les classes de réservation sont des sous-divisions de l’avion au sein même de ces cabines. Toutes ces classes sont emboîtées à la manière de poupées russes, de la classe la plus basse à la classe la plus haute. Chaque vol est décomposé en 10 à 20 classes de réservations. Elles sont désignées par des lettres de l’alphabet. En général, la première classe de transport contient les classes tarifaires P et F, la classe affaires contient les classes tarifaires J et C, et la classe économique contient le plus de classes tarifaires, dont la Y. L’IATA  recommande une certaine codification, mais chaque compagnie a ses propres habitudes.

Ces classes sont emboîtées, au sens où une classe inférieure ne peut pas empiéter sur une classe supérieure, alors qu’une classe tarifaire supérieure peut préempter des sièges prévus pour une classe inférieure. Les compagnies low-cost appliquent pour la plupart les mêmes principes, mais d’une manière fortement simplifiée. Ainsi, le prix de leurs billets ne varie généralement que suivant deux facteurs : l’achat à l’avance, et l’état de remplissage de l’avion. À un instant donné, il n’existe qu’un seul prix pour le billet d’avion, valable pour tout le monde. Ce système est bien adapté à la clientèle plus homogène (essentiellement loisir) de ces compagnies, et présente également l’avantage d’être bien compris par les passagers, car il se résume par la formule simple “plus on achète tôt, moins c’est cher”. Dans la réalité, ce principe est infirmé quotidiennement par les algorithmes de revenue management qui doivent baisser les prix dans diverses situations : annulation de billet, augmentation de la taille de l’avion, retour de places allouées aux agences de voyages, etc. Nous allons d’ailleurs montrer dans la section “Pertinence”(1.5) de ce chapitre que nombre de lieux communs ne sont pas toujours vérifiés.

Table des matières

Introduction
1 Analyse exploratoire
Introduction
1.1 Notations
1.2 Yield Management
1.3 Structure et description de nos données
1.3.1 Description des données
1.3.2 Structure de la base de données
1.4 Statistiques expliquant le choix des paramètres
1.4.1 Les trajets
1.4.2 La longueur des séries temporelles
1.5 Pertinence
1.5.1 Meilleur moment pour acheter
1.5.2 Proportion des baisses
1.5.3 Gain optimal
1.6 Conclusion et perspectives
2 Représentation des trajectoires
Introduction
2.1 WorkFlow
2.2 Notations
2.3 Séries temporelles
2.3.1 Problèmes d’échantillonnage
2.3.2 Comportements des trajectoires
2.3.3 Interpolation des trajectoires
2.4 Représentation par des processus ponctuels
2.5 Modélisation par de processus ponctuels poissonniens
2.5.1 Estimation de l’intensité – visualisation par niveaux de gris
2.5.2 Choix de la bande passante
2.6 Simulation
2.7 Conclusion et perspectives
3 Segmentation des données d’apprentissage
Introduction
3.1 WorkFlow
3.2 Notations
3.3 Les algorithmes
3.3.1 K-Means
3.3.2 Bagged K-Means
3.3.3 EM
3.4 Choix des paramètres
3.4.1 Initialisation
3.4.2 Nombre de groupes
3.4.3 Dimensions des niveaux de gris
3.5 Conclusion et perspectives
4 Apprentissage supervisé – Classification – Prédiction
Introduction
4.1 WorkFlow
4.2 Notations
4.3 Apprentissage
4.3.1 Arbres de décision : CART & C4.5
4.3.2 Adaboost
4.3.3 Forêts aléatoires (Random Forest)
4.4 Prédiction d’un comportement
4.5 Prédiction directe
4.6 Approches séquentielles
4.6.1 Classification uniquement par les premiers points
4.6.2 EM logit
4.7 Conclusion et perspectives
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *