Evaluation de nos deux méthodes de segmentation

Evaluation de nos deux méthodes de segmentation

Méthode d’évaluation

Outil d’évaluation

Nous évaluons toutes les méthodes de segmentation avec « PARSEVAL » : le système d’évaluation le plus connu pour l’extraction et la recherche d’information. Proposé par « Grammar Evaluation Interest Group »1 , il est basé sur les notions de « Précision » et de « Rappel », définies ci-dessous : • La précision permet de chiffrer la pertinence des résultats, c’est le rapport entre le nombre de réponses correctes fournies et le nombre de réponses fournies par le système : Précision = × %100 fourniesréponsesdenombre fourniescorrectesréponsesdenombre Le contraire de la « Précision » est le « Bruit » qui est le rapport entre le nombre de réponses incorrectes et le nombre de réponses fournies par le système. Il peut être simplement calculé par : Bruit = 100% – Précision • Le rappel permet d’évaluer la quantité de réponses correctes fournies par rapport au nombre de réponses réellement attendues : Rappel = × 100 % nombre de réponses attendues nombre de réponses correctes fournies Le contraire du « Rappel » est le « Silence » qui est le rapport entre le nombre de réponses correctes mais non-fournies et le nombre de réponses attendues. Il peut être simplement calculé par : Silence = 100% – Rappel

Évaluation sur les mots

Étant donné que nos méthodes de segmentation en mots (cf. §4.1) n’ont pas pour l’objectif de trouver les frontières exactes de mots dans une séquence contiguë de caractères, mais de permettre la reconnaissance de mots par dictionnaires, nous évaluons directement le nombre de mots reconnus par les DELAF et DELACF du thaï en utilisant le système « PARSEVAL » décrit ci-dessus. Nous comparons les résultats de nos deux méthodes : méthode par caractères (cf. §4.1.1) et méthode par syllabes (cf. §4.1.2) en faisant des évaluations sur les corpus P0 et P3. Nous comparons également nos résultats avec ceux de la méthode « Maximal Matching »2 (cf. §0.3.2.1) et de la méthode « Trigram »3 (cf. §0.3.2.2). Cette dernière est la méthode utilisée dans le système « ORCHID »4 (cf. §0.3.4). 5.1.3 Évaluation sur les phrases Nos deux méthodes de segmentation en phrases (cf. §4.2) tentent d’ajouter le séparateur {S} au début de chaque phrase. Nous les évaluons sur le nombre de séparateurs qui sont insérés aux bons endroits par rapport au nombre d’insertions effectuées et au nombre d’insertions souhaitées. Ensuite, nous comparons notre résultat avec ceux de la méthode par règles statistiques5 (cf. §0.3.3.1), de la méthode « POS Trigram »6 et de la méthode « Winnow »7 (cf. §0.3.3.2). Étant donné que les deux dernières méthodes mentionnées utilisent un autre outil d’évaluation, nous devons d’abord le convertir en « Précision » et « Rappel ».