Reconnaissance de l’Ecriture Arabe par Systèmes Flous

Reconnaissance en-ligne

La reconnaissance en-ligne s’effectue à partir d’une acquisition spatio-temporelle des caractères ou mots cursifs sur une tablette électronique .
L’écriture en ligne est obtenue lors de sa réalisation par une saisie en continu du tracé. Les données se présentent alors sous la forme d’une séquence de points ordonnés dans le temps. Dans ce cas, le signal est de type 1D (Unidimensionnel) et le système de reconnaissance peut bénéficier de la représentation temporelle. De ce fait il existe une analogie avec la reconnaissance de la parole. Il n’est donc pas surprenant de voir des chercheurs appliquer les techniques développées pour la parole à l’écriture [SAO 98].
Les applications concernées par ces systèmes de reconnaissance sont principalement les interfaces orientées stylo qui cherchent à intégrer l’écriture manuscrite comme une nouvelle modalité d’interaction entre l’homme et la machine.
Dans les applications de REM en-ligne, l’utilisateur écrit sur une table spéciale, le système va reconnaître l’écriture et envoyer le résultat à l’ordinateur. Ces systèmes sont utilisés dans plusieurs équipements électroniques comme PDA, Pocket PC ou Tablet PC. Il y a pas mal d’avantages de REM en-ligne, par rapport à celle hors-ligne.
Par exemple, car l’utilisateur écrit sur une table spéciale, il y a moins de bruit. De plus, on peut déterminer comment un caractère est écrit, c’est à dire, l’ordre de traits constituants ce caractère. D’ailleurs, la contrainte du temps de reconnaissance n’est pas stricte, on peut utiliser des algorithmes complexes. C’est pour quoi le taux de reconnaissance de ces systèmes est assez élevé .

Reconnaissance de l’imprimé ou du manuscrit

Les approches diffèrent selon qu’il s’agisse de reconnaissance de caractères imprimés ou manuscrits. L’écriture imprimée présente des caractères bien alignés horizontalement et séparés verticalement, ce qui simplifie la phase de lecture [BEN 01b, BEN 99]. La forme des caractères est définie par un style calligraphique (fonte) qui constitue un modèle pour l’identification, par conséquent, le problème de la reconnaissance peut ce concevoir au départ comme un problème de reconnaissance de caractères. En revanche, pour le cas du manuscrit, les caractères sont souvent ligaturés et leur graphisme est inégalement proportionné provenant de la variabilité intra et inter scripteurs. Cela nécessite généralement l’emploi de techniques de délimitation spécifiques et souvent des connaissances contextuelles pour guider la lecture [FAH 01]. Dans ce cas, le problème de REM sera donc plus un problème de reconnaissance de mots ou fraction de mots qu’un problème de reconnaissance de caractères [BEL92].

Complexité d’un système de RAED

D’une manière générale la complexité d’un système de RAED s’évalue suivant trois critères orthogonaux [BEL 01] :
Disposition spatiale du texte : La présentation d’un texte varie globalement entre deux formats : l’écriture contrainte correspondant à une écriture guidée par des cadres (les formulaires par exemple) et l’écriture non-contrainte correspondant à une écriture guidée exclusivement par le scripteur donc extrêmement variable. Les écritures externes ou internes détachées (écriture en bâtons) sont, bien entendu, les plus aisées à traiter du fait de la séparation plus ou moins immédiate des lettres .
Les types de contraintes peuvent caractériser l’écriture : externes correspondant aux types d’écriture et internes correspondant aux styles d’écriture propres à chaque personne.
Nombre de scripteurs : La difficulté de traitement croît avec le nombre de scripteurs. Trois catégories d’écritures se distinguent : les écritures monoscripteurs, multiscripteurs et omniscripteurs. En mode multiscripteurs, le système doit être capable de reconnaître l’écriture de plusieurs personnes prédéfinies, alors qu’en omniscripteur il doit s’adapter à n’importe qui.

Architecture du système

L’objectif principal de ce travail est de concevoir et réaliser une combinaison de quatre classifieurs différents [3 statistiques et un neuronal] pour la reconnaissance hors ligne des 48 mots des willayas algérienne arabes manuscrits, multi scripteur à vocabulaire limitée. Le système proposé peut s’intégrer dans le cadre de tri automatique du courrier ou lecture d un montant de cheque littéral algérien.
Les images sont d’abord binarisées, lissées, segmentées en mots , puis les contours de ces mots sont extraits ainsi que leurs squelettes. Les caractéristiques représentatives de ces mots sont extraites (d’après une image binaire, contour ou squelette) pour servir d’entrée aux classifieurs proposés.
De nombreux travaux montrent que la combinaison de classifieurs (séquentielle, parallèle ou hybride) améliore nettement les performances du système de reconnaissance par rapport à chacun des classifieurs pris séparément. Cependant l’architecture parallèle est celle qui a donné lieu aux travaux les plus importants.
Nous nous sommes focalisé dans notre travail sur la combinaison parallèle car cette dernière a prouvé son efficacité dans de nombreux problèmes de classification [ZOU 04, FAR 05, AZI 02b, NEM 09], ce succès est du à sa simplicité de mise en œuvre, sa capacité à exploiter les réponses des différent classifieurs à combiner, en prenant en compte ou non le comportement de chacun des classifieurs. Dans cette combinaison parallèle, chacun des ces classifieurs est responsable de connaitre le mot entier ; Il doit apprendre les caractéristiques globales du mot. La différence entre eux c’est la façon de traiter les caractéristiques du mot selon le principe de fonctionnement de chacun des ces classifieurs choisis. Cette fusion est faite soit de manière démocratique, dans le sens où elle ne favorise aucun classifieur par rapport à un autre, où bien de manière dirigée et, dans ce cas, on attribue à la réponse de chaque classifieur un poids en fonction de ses performances et ceci est en fonction généralement du taux obtenu lors de la phase d apprentissage;

Historique de LAD (Lecture Automatique des Documents)

Commençons par survoler l’historique de la LAD et plus spécifiquement de la reconnaissance d’écriture. Nous ne reviendrons pas sur les débuts de l’informatique dont les capacités de stockage et de représentation ne permettent pas de vrais traitements optiques des textes. Tout commence véritablement vers le milieu des années 60 avec la création de l’Extended ASCII en 1965 qui permet la représentation de 256 caractères [ARR 02]. Pendant cette période, les premiers systèmes de lecture automatique du texte imprimé ont vu le jour. Toutefois, des systèmes fiables étaient restreints à quelques fontes seulement [AYA 04]. Ensuite il y a, grossièrement, trois périodes distinctes dans le développement de l’OCR décrite dans [ARR 02].
La reconnaissance de l’écriture arabe remonte aux années 70, depuis plusieurs solutions ont été proposées. Elles sont aussi variées que celles utilisées pour le latin [BEN 01b].
Entre les années 1980 et 1990, Les réseaux de neurones ont montré des résultats remarquables dans ce domaine. Jusqu’à très récemment, le perceptron multicouche a été rapidement reconnu comme le classifieur par excellence dans beaucoup de problèmes de reconnaissance de caractères. Par la suite, le besoin d’automatisation massive a donné lieu à toute une multitude d’applications dont la lecture de chèques bancaires, des adresses postales, des documents imprimés, etc. [AYA 04].
Quelques années plus tard, des systèmes de REM ont été réalisés et sont opérationnels à ce jour. Cependant, ils sont spécifiques à un domaine précis et sont encore limités [DAR 94], parmi ces systèmes ceux qui sont orientés vers l’écriture pour la reconnaissance d’adresses manuscrites ou de montants de chèques, on trouve [GAA 01, KB 00, KHP 05, LLG 95]. Parmi eux qui sont orientés vers l’écriture arabe manuscrite citant à titre d’exemple le système Reconnaissance de l’écriture Cursive Arabe Manuscrite RECAM.
On a d’autres travaux qui sont focalisés à développer un logiciel «auto-apprenant» de reconnaissance de caractères manuscrits cursifs (documents anciens notamment).
Ce système OCR veut s’affranchir des bibliothèques de langues et de la forme des caractères. Il doit reconnaître après une phase d’apprentissage automatique la plupart des caractères. Plusieurs langues ont été traitées parmi eux la langue arabe ; chinoise, etc. En explorant les méthodes de reconnaissance générique. Ils ont orientés donc vers les approches structurelles. Et cela dans le cadre du projet Cognitive Optical Recognition Old Characters COROC [ARR 02].

Table des matières

INTRODUCTION GENERALE
Problématique et objectifs
Présentation du mémoire
Chapitre1.Reconnaissance Automatique De L’écriture Manuscrite
I.1. Introduction
I.2. Historique de LAD (Lecture Automatique des Documents)
I.3. Différents aspects de la Reconnaissance Automatique de l’Ecriture et du Document ou RAED
I.3.1. Mode d’acquisition (En-ligne / Hors-ligne)
I.3.1.1. Reconnaissance en-ligne
I.3.1.2. Reconnaissance hors-ligne
I.3.1.2.1. Reconnaissance de texte ou analyse de documents
I.3.1.2.2. Reconnaissance de l’imprimé ou du manuscrit
I.3.2. Approches de la Reconnaissance
I.3.2.1. Approche globale
I.3.2.2. Approche analytique
I.3.2.3. Approche basée sur la lecture humaine
I.3.2.4. Avantages et Inconvénients de l’approche globale et l’analytique
I.4. Complexité d’un système de RAED
I.4.1. Disposition spatiale du texte
I.4.1.1. Types d’écriture
1.4.1.2. Styles d’écriture
I.4.2. Nombre de scripteurs
I.4.3. Taille du vocabulaire
I.5. Méthodes de classification de la reconnaissance
I.5.1. Méthodes statistiques
I.5.1.1. Méthode bayésienne
I.5.1.2. Méthode du plus proche voisin
I.5.1.3. Méthode connexionniste
I.5.1.3.1. Réseaux non bouclés
I.5.1.3.2. Réseaux bouclés
I.5.2. Méthodes stochastiques
I.5.3. Méthodes linguistiques
I.5.3.1. Méthode structurelle
I.5.3.1.1. Méthodes de tests
I.5.3.1.2. Comparaison de chaînes
I.5.3.2. Méthode syntaxique
I.5.4. Méthodes hybrides
I.6. Conclusion
Chapitre2. Processus De Reconnaissance D’écriture Manuscrite
II.1. Introduction
II.2. Organisation générale d’un SREM
I.2.1. Phase d’acquisition d’image
II.2.2. Phase de Prétraitement
II.2.2.1. Réduction du bruit
II.2.2.1.1. Seuillage
II.2.2.1.2. Lissage
II.2.2.2. Redressement de l’écriture
II.2.2.3. Homogénéisation des données
II.2.2.4. Normalisation
II.2.3. Squelettisation
II.2.4. Phase de Segmentation
II.2.5. Phase d’Analyse ou Extraction des Caractéristiques
II.2.5.1. Niveaux des caractéristiques
II.2.5.2. Représentation des caractéristiques
II.2.5.3. Types de caractéristiques
II.2.5.3.1. Caractéristiques topologiques ou métriques
II.2.5.3.2. Caractéristiques locales ou structurelles
II.2.5.3.3. Caractéristiques statistiques
II.2.5.3.4. Transformations globales
II.2.5.3.5. Superposition des modèles (template matching) et corrélation
II.2.6. Phase de Classification
II.2.6.1. Apprentissage
II.2.6.1.1. Apprentissage supervisé
II.2.6.1.2. Apprentissage non supervisé
II.2.6.2. Reconnaissance
II.2.6.2.1. Les systèmes à base de règles SBR (y compris les systèmes experts)
II.2.6.2.2. Les arbres de décision.
II.2.6.2.3. Les techniques agglomératives
II.2.7. Poste-traitement
II.3. Conclusion
Chapitre 3. Ecriture Arabe Et L’OCR
III.1. Origine de l’écriture arabe
III.2. Réforme de l’écriture arabe
III.3. Caractéristiques de l’écriture arabe
III.4. Vocalisation de l’écriture arabe
III.5. Problèmes posés par l’écriture arabe
III.5.1. Multitude de graphismes
III.5.2. Ligatures
III.5.3. Vocalisation
III.5.4. Normalisation des caractères
III.6. Difficultés de la reconnaissance de l’écriture arabe
III.7. Application de la reconnaissance hors-ligne de l’écriture
III.8. Conclusion
Chapitre 4. Approche globale pour la reconnaissance de mots arabes manuscrits
IV.1. Introduction
IV.2. Architecture du système
IV.3. Acquisition et Prétraitement
IV.3.1. Binarisation
IV.3.2. Lissage
IV.3.2.1. Bouchage
IV.3.2.2. Nettoyage
IV.4. Segmentation de textes (Traitement d’images de haut niveau)
IV.4.1. Localisation de la ligne de base et la zone médiane
IV.4.1.1. Localisation de la ligne de base
IV.4.1.2. Localisation de la zone médiane
IV.4.2. Localisation de la zone supérieure et la zone inférieure
IV.4.2.1. Localisation de la zone supérieure
IV.4.2.2. Localisation de la zone inférieure
IV.4.3. Détection des composantes connexes
IV.5. Squelettisation
IV.6. Traçage de contours
IV.7. Extraction des caractéristiques globales et description du mot
IV.7.1. Choix des caractéristiques
IV.7.2. Descripteurs globaux
IV.7.3. Descripteurs externes
IV.7.3.1. Extraction de contour
IV.7.3.2. Détermination des contours des mots
IV.7.4. Zonage
IV.7.5. Caractéristiques structurelles d’un mot arabes
IV.7.5.1. Détection des différents types des points diacritiques
IV.7.5.2. Détection des boucles (occlusions)
IV.7.5.3. Détecter le nombre d’ascendants (hampes) et de descendants (jambages)
IV.7.5.3.1. Détection des jambages
IV.7.5.3.2. Détection des hampes
IV.8. décomposition du vocabulaire considéré
IV.9. Reconnaissance
IV.9.1. Sélection des attributs
IV.9.2. Classification par les méthodes implémentées
IV.9.2.1. Classification par la méthode KPPV
IV.9.2.2. Classification par la méthode C-Moyenne Floue
IV.9.2.3. Classification par méthode K-Means
IV.9.2.4. Classification par réseaux de neurones probabilistes (PNN)
IV.9.2.4.1. Propriétés générales d’un PNN
IV.9.2.4.1. Avantages et inconvénients de PNN
IV.9.3. Résultats et discussion
IV.9.3.1. Classification simple
IV.9.3.2. Combinaison de classifieurs
IV.9.3.3. Influence de paramètre K sur les résultats de la classification KPPV
IV.9.3.4. Utilité de décomposition du vocabulaire
IV.10. Conclusion
CONCLUSION GENERALE
BIBLIOGRAPHIE
ANNEXE A
ANNEXE B