Classiﬁcation hiérarchique des pages web avec une analyse thématique catégorielle

Classiﬁcation hiérarchique des pages web avec une analyse thématique catégorielle

L’allocation latente de Dirichlet (LDA), avec l’application de l’échantillon- nage de Gibbs, peut être considérée comme un algorithme d’apprentissage non supervisé des thèmes dans les textes. LDA représente les thèmes par une distribution de mots, chaque mot possède diﬀérentes valeurs de probabilités selon le thème. L’aﬀectation d’une étiquette thématique à une distribution de mots est une étape manuelle et subjective. Aﬁn de contour- ner ce problème et orienter l’algorithme vers l’apprentissage automatique d’une catégorie de thèmes prédéﬁnis, nous avons développé une version semi-supervisée de LDA. Ceci nous a servi par la suite pour entraîner des forêts aléatoires aﬁn de classiﬁer les documents selon une hiérarchie de thèmes en partant du thème le plus général vers le thème le plus particu- lier. Ce type d’approche est utile pour l’archivage automatique d’une grande collection de documents. Avec le développement de l’internet et des réseaux sociaux, nous constatons une augmentation de la production de pages web et de la production d’articles textuels en tout genre. La classiﬁcation des pages web est une tâche importante et cela pour plusieurs raisons. Premièrement, elle permet de développer et d’assurer la mainte- nance automatique des archives ou des répertoires de ces pages. Deuxièmement, elle permet aux moteurs de recherches de fournir plusieurs listes ordonnées en réponse à une requête donnée où chaque liste correspond à une catégorie en particulier. Cela peut aider notamment l’utilisateur à avoir un plus large spectre sur les résultats qui lui sont retournés, ou encore cela peut l’aider à repréciser sa requête. Troisième- ment, la récupération des données textuelles depuis le web, connue également sous le nom de crawling en anglais, est une tâche compliquée à cause de l’hétérogéinité des sources de données sur le web.

En réponse à ces diﬀérents besoins, nous adressons dans ce chapitre une nou- velle méthode de classiﬁcation souple et hiérarchique des textes. Nous qualiﬁons cette méthode de souple, car un document peut appartenir à une ou plusieurs caté- gories. Nous la qualiﬁons de hiérarchique, car les catégories auxquelles un document appartient sont hiérarchisées. Nous souhaitons avec notre méthode classiﬁer un do- cument donné à travers une hiérarchie de catégories, en partant de la plus générale vers la plus particulière.[Patil 2012] ont utilisé un modèle de langage avec une classiﬁcation naïve bayésienne des pages. [Klassen 2010] ont utilisé les forêts aléatoires avec une sélection de mots- clés extraite des documents pour entraîner ces derniers. D’autres caractéristiques ont été utilisé par [Liparas 2014] pour entraîner également des forêts aléatoires. Les auteurs se sont référées à ces caractéristiques comme étant multimodales, c’est-à-dire textuelles et visuelles.Le principal déﬁ lors de l’entraînement des forêts aléatoires est l’extraction de caractéristiques textuelles adaptées pour la tâche que nous intéresse. [Liparas 2014] ont utilisé des n-grammes, quant à [Klassen 2010], ils ont rajouté une phase de sélection des n-grammes en calculant la fréquence des mots. Dans les deux approches la classiﬁcation est basée sur l’extraction ensuite la sélection d’un nombre de mots clés. Ces mots clés sont aﬀectés à des catégories, ensuite l’algorithme de classiﬁcation discrimine le contenu textuel des pages web par rapport à ces mots clés.

Nous utilisons également les forêts aléatoires pour la classiﬁcation des pages web. Néanmoins notre approche est diﬀérente, car l’algorithme de classiﬁcation dis- crimine les pages web non pas directement selon leur contenu textuel, mais selon la distribution de thèmes de chaque page web. Cette approche nous permet d’oﬀrir une navigation dans les pages web par thèmes et sous thèmes au lieu d’une navi- gation par mots clés. Elle nous permet également de construire automatiquement des archives avec des hiérarchies de thèmes partant des plus généraux vers les plus particuliers où une page web peut appartenir à plusieurs niveaux dans la hiérarchie en même temps. Pour extraire les distributions de thèmes à partir des pages web, nous utilisons l’allocation latente de Dirichlet (LDA). LDA avec l’application de l’échantillonnage de Gibbs peut être considéré comme un algorithme d’apprentissage non supervisé qui ne nous donne pas la possibilité d’extraire un ensemble de thèmes prédéﬁnis avec une certaine étiquette. C’est pour cette raison, nous avons développé une version semi-supervisée tirée des travaux de [Ramage 2009, Lu 2013].Nous nous référons à cette version comme étant semi supervisé, car nous gar- dons les caractéristiques d’un apprentissage non supervisé, mais nous orientons cet apprentissage par un certain nombre d’interventions. Par exemple, nous allons pré- férer un résultat d’un échantillonnage par rapport à un autre si les mots dans la distribution de thèmes échantillonnés contiennent certains mots qui appartiennent à une catégorie en particulier.