Différences entre versions de « SELF/Évaluation de la production écrite chinoise »

Version du 5 janvier 2021 à 00:19

< M2 IdL — TAL & ALAO/2020-2021

Projet réalisé par Yumeng DING, Jingyu LIU et Ning ZHANG

Introduction

Notre projet s’inscrit dans le projet « Système d’Évaluation en Langues à visée Formative » (SELF) et il concentre sur la production écrite chinoise au niveau de la syntaxe. En proposant une série d' exercices, le système permettra d'évaluer la production correspondante.

Contexte

Le chinois est une langue orientale et une des spécialités de cette langue est sa flexibilité. Différente de la langue française, la morphologie du chinois est relativement simple, parce qu’il n’y a pas de flexions et d’affixes grammaticales. Les mots à sens lexical sont invariables du point de vue grammatical. Les rapports syntaxiques s’expriment en général à l’aide de mots-outils indépendants (par exemple : particule et prépositions) et de l’ordre des mots. Cependant, l’ordre des mots est assez flexible et il existe encore le débat pour décider si le mandarin est une langue SVO (Sujet-Verbe-Objet) ou une langue SOV(Sujet-Objet-Verbe). Par exemple :

SVO : 他打破了玻璃。(Il a cassé la glace.)
SOV : 他把玻璃打破了。(Il a cassé la glace.)

En plus, selon l’analyse faite par HSK Dynamic Composition Corpus, la fréquence de l’erreur au niveau de l’ordre des mots est très élevée.

Par conséquent, l’ordre des mots peut être une grande difficulté pour les apprenants pendant les études.

Objectif

L’objectif de notre projet est de développer un outil qui permet aux apprenants de s’entraîner sur la structure syntaxique du mandarin et faire une auto-évaluation sur leurs productions écrites. Un site d’interface convivial sera aussi développé, celui qui est facile à être utilisé.

Composants

1. En donnant une série de constituants de la phrase, on demande de faire remettre en ordre ces différents constituants pour obtenir une phrase significative.
2. Le système va faire une évaluation en comparant la production avec la référence et les règles. À la fin, un score sera distribué et éventuellement afficher plus d’exemples de la même structure syntaxique pour faire familiariser.

Public visé

Le public visé est principalement les apprenants qui possèdent déjà des connaissances basiques du mandrin et donc ils connaissent les mots simples et les structures basiques (HSK2-HSK3 correspond A2 - B1 dans le cadre de CECRL). En plus, si dans le futur, il est possible de récupérer toutes les erreurs faites par les apprenants, il permet aussi aux enseignants et chercheurs de bien focaliser les difficultés rencontrées pendant les études et développer les stratégies correspondantes.

Fonctionnalité

Entrainer

Le système permet aux utilisateurs de choisir différents niveaux (simple et avancé) d’exercices et chaque exercice est composant principalement par les parties suivantes :

La transcription entre Pinyin et sinogramme
La remise en ordre des tokens d’une phrase choisie aléatoirement dans un corpus.

Il y a 2 formes de contenu à choisir : soit la conversation courte sur différents sujets, soit le mot clé avec son utilisation.

Evaluer

Le système est capable d’évaluer la production de l’utilisateur en comparant avec la référence et à la fin, de bien indiquer la faute orthographique ou syntaxique. L’utilisateur va aussi obtenir un score. Pour élever la tolérance au niveau syntaxique, il y a 2 possibilités :

Comme le corpus n’est pas de grande taille, on essaie de trouver toutes les possibilités de variance de phrase et les stocker dans le dictionnaire. (Il est moins possible de tous trouver. Si la taille de corpus augmente, cette manière ne sera pas faisable.)
Le corpus est annoté et chaque constituant de la phrase est accompagné d’une étiquette. On essaie de construire de différentes règles pour que les phrases correctes, mais qui sont différentes des références soient acceptables.

Corpus

Évaluation

Le système permet d’évaluer la production écrite par deux aspects : une correspondance entre les sinogrammes et le pinyin et une bonne structure grammaticale de la phrase.

Correspondance entre les sinogrammes et le pinyin

Dans un contexte spécifique, chaque caractère chinois ne correspond qu’à un pinyin. En utilisant l’outil de Pinyin4j, on compare la référence avec la production de l’utilisateur pour calculer la distance.

Structure grammaticale

Vu la liberté grammaticale en chinois, on compare non seulement la structure entre la référence et la production, on élève aussi la tolérance à travers des règles qu’on propose.

@@ Ligne 12 : / Ligne 12 : @@
 En plus, selon l’analyse faite par HSK Dynamic Composition Corpus, la fréquence de l’erreur au niveau de l’ordre des mots est très élevée. <br>
-[[Fichier:Analyse des types d’erreur.png|vignette]]
+[[Fichier:Analyse des types d’erreur.png|vignette|centré]]
 Par conséquent, l’ordre des mots peut être une grande difficulté pour les apprenants pendant les études.

Projets

Différences entre versions de « SELF/Évaluation de la production écrite chinoise »

De GBLL, TAL, ALAO, etc.

< Projets:SELF