Identification des scripts dans les manuscrits anciens

Identification des scripts dans les manuscrits anciens

Position du problème

L’évolution technologique de l’acquisition d’images, par scanner ou appareil photo de type réflexe, a permis de réduire les coûts liés à la numérisation de nombreux documents anciens, dans les bibliothèques, archives municipales, musées, etc. Ceci a résulté en une rapide expansion du nombre de travaux sur l’analyse d’images de documents ou DIA, Document Image Analysis. Le DIA est un domaine qui se trouve au croisement de l’analyse d’images, la reconnaissance de formes et les Identification des scripts dans les manuscrits anciens 1 Figure 7.1 – Exemple des quatre scripts correspondant aux quatre classes identifiées (a) Éthiopien (b) Syriaque (c) Grec (d) Latin sciences humaines, avec par exemple l’implication de la philologie ou encore la paléographie. Dans ce chapitre, nous nous intéressons à un cas particulier de DIA qui est l’identification des scripts 1 Dans les pages d’un manuscrit ancien. Le but d’exécuter une telle tâche est de proposer une méthodologie qui permettra de rechercher un document en émettant une requête sur son script, ou encore de transcrire son contenu avec un algorithme adapté de reconnaissance de caractères OCR Optical Character Recognition en anglais. La figure 7.1 montre quatre scripts issus de différents manuscrits anciens qui seront étudiés dans ce chapitre (voir la table 7.1). Nous appelons donc script, un texte écrit à la main, à ne pas confondre avec une langue qui est la lecture du texte écrit ou le parlé dans une discussion. Les manuscrits anciens sont des documents complexes. D’abord, leur mise en forme est complexe avec une variété d’artefacts comme des lettrines, des dessins, et des contenus textuels de différentes formes (e.g. figure 7.2 a et c). Ensuite, leur qualité est souvent détériorée par le temps, ou par des interventions humaines (e.g taches, coupures) comme cela est illustré par exemple dans les figures 7.2 (b) et 7.2 (d)). Puis, vu qu’il n’existe pas encore de normes communes à l’ensemble des 1. À ne pas confondre avec le terme « script » d’un langage informatique.Figure 7.2 – Exemple de différentes formes de dégradation, artefacts, intervention humaine que l’on peut trouver dans les manuscrits étudiés. (a) Une page de garde noire. (b) Taches sur la page et dilution de l’encre. (c) Artefacts. (d) Coupures et interventions humaines. bibliothèques (e.g. Cambridge, Stanford, Bibliothèque National de France, etc.), la numérisation des manuscrits qui sont complets est souvent non homogène, c’est-àdire que parfois le code couleur lors de la numérisation n’est pas le même, ou que la résolution n’est pas la même. Enfin, nous pouvons également avoir affaire à plusieurs fragments d’un seul manuscrit qui sont distribués dans plusieurs bibliothèques à travers le monde. En pratique, les scripts sont qualifiés à l’aide d’un ensemble de caractéristiques (e.g. largeur du trait, contraste, forme des lettres). Ces caractéristiques sont accessibles au travers du traitement de l’image représentée par une matrice de pixels. Le traitement aux termes des pixels s’effectue par l’application d’un filtre sur un ou plusieurs niveaux qui correspondent à différentes régions d’intérêts (ROI pour Region Of Interest en anglais). Ces ROI peuvent représenter une ligne, un mot, ou encore un caractère. Dans ce cas, les documents illustrés dans la figure 7.2 sont le plus souvent considérés comme du bruit et sont supprimés lors de l’extraction des caractéristiques, et aussi de la discrimination des scripts. En raison de la nature complexe des documents anciens, nous pensons que les méthodes qui sont entraînées sur un seul manuscrit avec des caractéristiques ex- 102 Chapitre 7. Identification des scripts dans les manuscrits anciens traites au niveau des ROI cités perdent en information et ne sont pas directement applicables à d’autres manuscrits anciens. Dans cette partie, nous proposons de travailler au niveau de la page sans aucun nettoyage ni pré traitement préalable sur les pixels du manuscrit. 7.1.2 Spécification de notre jeu de données Dataset #Pages Scripts Code manuscrit BNF_eth_226 222 Ethiopic Eth 226 BNF_eth_248 188 Ethiopic Eth 248 BNF_eth_31 169 Ethiopic Eth 31 BNF_eth_32 415 Ethiopic Eth 32 BNF_syr_438 217 Syriaque Syr 438 N41_BNF_grec_2465 476 Greek Gr 2465 N97jpg 93 Greek Suppl Gr 687 N43jpg 529 Greek Gr 2795 N65jpg 377 Greek N/A N71jpg 417 Greek Gr 164 N73jpg 824 Greek N/A N84 531 Latin Latin 2246 N89jpg 338 Latin Latin 9452 Table 7.1 – Description du jeu de données utilisé. Les scripts qui sont en gras sont ceux qui ont été utilisés lors de la phase d’entraînement pour l’identification des scripts. Pour mener notre étude sur l’identification des scripts, nous avons choisi d’utiliser un jeu de données composé de 13 manuscrits avec un total de 4796 pages divisées en quatre principaux scripts : Éthiopien, Syriaque, Grec et Latin. Des exemples représentés par des captures sont illustrés dans la figure 7.1. Les manuscrits ont été téléchargés sur le site de la Bibliothèque Nationale de France (BNF). 2 . Les manuscrits écrits en éthiopien sont issus des collections de Mondon-Vidailhet, Griaule et Marcel Cohen. Ceux en Syrique sont issus des collections de l’Ancien Testament dans la version peshitta. Ceux en Grec sont issus de la collection ayant appartenu au chancelier Séguier. Ceux en latin sont issus de Gregorius Magnus, Homiliae in Ezechielem et d’un lectionnaire romain composé vers 670-680. Les images des documents téléchargés ont été convertis du canal RGB (i.e. Red Green Blue) en des images niveaux de gris, c’est-à-dire vers un canal à une seule valeur. Téléchargées en jpeg, les images ont été converties dans le format png d’une taille moyenne de 300 ko. La taille des pages est de 1024×1400 pixels. Une description du jeu de données est décrite dans la Table 7.1. Pour chaque script (i.e. Éthiopien, Syriaque, Grec et Latin) nous avons choisi au hasard deux manuscrits, mis en gras dans la table 7.1. Notre vérité terrain 3 (Ground Truth en anglais) est composée d’un total de 2523 pages étiquetées chacune avec le 2. http://www.bnf.fr/fr/collections_et_services/catalogues.html 3. Une vérité terrain est un ensemble d’images étiquetées par les différentes classes d’objets que nous souhaitons reconnaître en utilisant un algorithme d’apprentissage. L’étiquetage peut être fait par des experts ou automatiquement par une analyse des images script qui lui correspond. La vérité terrain est divisée en un jeu d’entraînement, en un jeu de validation pour l’optimisation des paramètres des différents algorithmes, et en un jeu de test pour valider les résultats obtenus par les algorithmes présentés. En se basant sur les bonnes pratiques tirées de l’état de l’art [Krig 2014], les proportions des trois jeux de données sont les suivantes : 60% pour l’entraînement, 25% pour la validation et 15% pour le test. La vérité terrain construite contient des images découpées dans des positions aléatoires de l’image, avec une dimension de 256×256. Nous n’avons pas effectué de traitement ni de déformation sur les données, ce qui veut dire que nous avons également gardé le type d’images données en exemple dans la figure 7.2 (c’est-à-dire des images dégradées ou contenant divers artefacts).

Notre approche pour la classification des scripts

Nous avons considéré deux principales méthodes pour l’extraction de caractéristiques. Nous nous référons à la première méthode comme une extraction faite main des caractéristiques, en anglais handcrafted features method. Nous nous référons à la deuxième méthode comme une extraction des caractéristiques apprises, en anglais learned features method. Signal 38 40 96 190 45 79 146 186 159 182 200 182 184 196 188 194 0 1 -1 0 1 -1 Signal Noyau sur x NoyauT sur y 38 40 96 190 45 79 146 186 159 182 200 182 184 196 188 194 (a) (b) Figure 7.3 – (a) Extraction du signal au niveau du pixel de chaque image. (b) Application successive du masque [−1, 0, 1] sur l’axe des x et [−1, 0, 1]T sur l’axe des y. Comme dans tous les problèmes de traitement d’images, la page du manuscrit numérisé est représentée par une matrice de pixels. Nous nous référons à cette matrice comme étant un signal. L’extraction des caractéristiques à partir d’une image passe par la transformation du signal de cette dernière, usuellement représenté par une matrice de pixel, par exemple celle de la figure 7.3. La transformation s’effectue par une application d’une fonction de pondération appelée aussi masque. En pratique ceci revient à appliquer par translation sur la matrice de l’image un vecteur. Par exemple, le vecteur [−1, 0, 1] traduit la différence entre la valeur du pixel d’avant et la valeur du pixel suivant. Comme c’est montré dans la figure 7.3. Un masque est appliqué sur une surface de pixels qui va être utilisée pour un certain traitement. L’application de [−1, 0, 1] sur l’axe x et de [−1, 0, 1]T sur l’axe y de l’image nous permet de calculer la dérivée du signal de l’image d’origine et de capturer 104 Chapitre 7. Identification des scripts dans les manuscrits anciens les changements au niveau des pixels. De grands changements nous permettront de capturer des traits ou de calculer les gradients dans une image. Notons que le processus que nous venons de décrire est commun à plusieurs techniques d’analyse des images nous y référons comme l’action d’appliquer un masque. Notamment lors de l’utilisation des réseaux de neurones artificiels, nous parlerons de filtre convolutif ou encore appliquer une convolution sur le signal de l’image. 4 .

Télécharger le document complet