Login


Register | Recover Password
 

Exemple de correction de question de corpus

Nous croyons que le domaine devrait progresser vers la fixation des erreurs grammaticales (telles que les modifications minimales) tout en rendant la phrase plus native de sondage (couramment). Les algorithmes de correction de phrase doivent être évalués par rapport à un jeu de données pour tester si l`algorithme fonctionne bien. Ces phrases dans leur forme originale n`ont pas été annotées, mais chaque phrase a été classée, dans un effort de recherche antérieur, sur une échelle de 1 à 4 (moins à la plus grammaticalement correcte). Les progrès réalisés sur le terrain ont fait beaucoup de chemin, mais nous pouvons continuer à faire mieux. Jusqu`à présent, la communauté PNL a utilisé la norme de «corrections minimales d`édition, i. Avec cette analyse, nous espérons créer une nouvelle référence pour évaluer les algorithmes de correction grammaticale d`erreur et continuer à améliorer les modèles qui peuvent détecter et corriger des formulations non naturelles ou maladroites. Le “Fluency Edit” ressemblerait à quelque chose comme ceci: ils ont juste créer une telle bonne impression que les gens sont obligés de l`acheter. Le tableau ci-dessous, qui est basé sur une évaluation manuelle de 100 phrases annotées, montre le pourcentage de phrases contenant chaque type d`erreur, ainsi que le pourcentage de ces erreurs qui ont été édités par les humains. Par exemple, ils sont généralement invités à mettre en surbrillance une étendue de texte incorrect, assigner une erreur spécifique à cette étendue à partir d`une liste de types d`erreurs, puis tapez une correction à l`étendue. Et nous voulons fournir à la communauté PNL de meilleurs outils pour aider à faire progresser cet objectif. On a demandé aux candidats d`éditer cinq phrases, que nous avons examinées manuellement. Chaque annotateur devait passer un test de dépistage pour se qualifier. En général, les annotateurs sont invités à modifier le moins possible les phrases pour les rendre grammaticalement corrects.

Cependant, le problème avec cette approche est qu`une phrase grammaticalement correcte ne semble pas toujours naturelle à un locuteur natif. Une fois les annotations terminées, nous avons examiné 100 phrases de l`ensemble de données et les avons classées par types d`erreurs contenues dans les phrases. En utilisant l`approche «minimal Edit», la phrase serait corrigée à: ils créent juste une impression si bien que les gens sont traînés pour l`acheter. Le texte intégral du document peut être trouvé ici. Nous avons demandé aux annotateurs de la foule de corriger ces phrases. Les erreurs grammaticales incluent des erreurs dans la syntaxe comme l`accord sujet-verbe. Joel est le directeur de la recherche de Grammarly, et Courtney et Keisuke sont à la fois Ph. Comment savez-vous si votre algorithme de relecture fait un bon travail? Le graphique ci-dessous, basé sur une évaluation manuelle de 100 phrases, indique le pourcentage de types d`erreurs qui sont restés après que chaque système a été exécuté sur ce jeu de données, par rapport à l`original. Ce jeu de données, que nous appelons le corpus de l`Université Johns Hopkins (JFLEG), contenait environ 1 500 phrases d`un examen d`aptitude en anglais, écrits par des locuteurs d`un nombre varié de langues non anglaises. Chaque phrase a été corrigée par quatre annotateurs, ce qui signifie que chaque phrase aurait quatre références. Nous présenterons notre article à la 15e Conférence du chapitre européen de l`Association pour la linguistique computationnelle le 5 avril.

Ce poste a été écrit en collaboration avec Sunshine Yin, un ingénieur logiciel à Grammarly. Au lieu d`instruire les annotateurs de classer les erreurs en utilisant des balises d`erreur spécifiques (comme dans l`approche de modification minimale), nous leur avons simplement demandé de corriger chaque phrase de sorte qu`il sonnait naturel. Ce jeu de données doit contenir des centaines ou des milliers de phrases grammaticalement incorrectes et une liste des moyens possibles que chaque phrase peut être corrigée. Ces phrases parallèles sont créées par des humains (comme les professeurs d`anglais), qui sont embauchés pour annoter (i.

Print