Actions

Projets

SELF/Évaluation de la production écrite chinoise

De GBLL, TAL, ALAO, etc.

< Projets:SELF

< M2 IdL — TAL & ALAO/2020-2021

Projet réalisé par Yumeng DING, Jingyu LIU et Ning ZHANG

Introduction


Notre projet s’inscrit dans le projet « Système d’Évaluation en Langues à visée Formative » (SELF) et il concentre sur la production écrite chinoise au niveau de la syntaxe. En proposant une série d' exercices, le système permettra d'évaluer la production correspondante.

Contexte

Le chinois est une langue orientale et une des spécialités de cette langue est sa flexibilité. Différente de la langue française, la morphologie du chinois est relativement simple, parce qu’il n’y a pas de flexions et d’affixes grammaticales. Les mots à sens lexical sont invariables du point de vue grammatical. Les rapports syntaxiques s’expriment en général à l’aide de mots-outils indépendants (par exemple : particule et prépositions) et de l’ordre des mots. Cependant, l’ordre des mots est assez flexible et il existe encore le débat pour décider si le mandarin est une langue SVO (Sujet-Verbe-Objet) ou une langue SOV(Sujet-Objet-Verbe). Par exemple :

  • SVO : 他 打破 了 玻璃。(Il a cassé la glace.)
  • SOV : 他 把 玻璃 打破 了。(Il a cassé la glace.)

En plus, selon l’analyse faite par HSK Dynamic Composition Corpus, la fréquence de l’erreur au niveau de l’ordre des mots est très élevée.

Analyse des types d’erreur.png

Par conséquent, l’ordre des mots peut être une grande difficulté pour les apprenants pendant les études.

Problématique

Le problématique de notre projet consiste à comment nous pouvons utiliser les outils de TAL pour faciliter les apprentissages de la langue mandarin et pour évaluer leur production écrite.

Objectif

L’objectif de notre projet est de développer un outil qui permet aux apprenants de s’entraîner sur la structure syntaxique du mandarin et faire une auto-évaluation sur leurs productions écrites. Un site d’interface convivial sera aussi développé, celui qui est facile à être utilisé.

Composants principaux

  1. L’utilisateur peut en choisir un parmi une série de livres. Et puis, les textes et les phrases seront choisis aléatoirement par le système.
  2. En donnant une série de constituants de la phrase, on demande de faire remettre en ordre ces différents constituants pour obtenir une phrase significative.
  3. Le système va faire une évaluation en comparant la production avec la référence et les règles. À la fin, un score sera distribué et éventuellement afficher plus d’exemples de la même structure syntaxique pour faire familiariser.


Public visé

Le public visé est principalement les apprenants qui possèdent déjà des connaissances basiques du mandrin et donc ils connaissent les mots simples et les structures basiques (HSK2-HSK3 correspond A2 - B1 dans le cadre de CECRL). En plus, si dans le futur, il est possible de récupérer toutes les erreurs faites par les apprenants, il permet aussi aux enseignants et chercheurs de bien focaliser les difficultés rencontrées pendant les études et développer les stratégies correspondantes.

Présentation de notre travail

Web scraper

Un corpus pertinent est un prérequis de ce projet. Nous allons travailler sur le corpus du site « Corpus of Teaching Chinese as Second Language »(« 汉语国际教育动态语料库 ») qui est, malheureusement, non-téléchargeable. Par conséquent, il est important de développer un script de web-scraper pour récupérer une partie de ce corpus afin de réaliser notre objectif. Nous concentrons principalement les dialogues et les textes courts.

Système principal

Site d'interface

Difficultés et solutions


Construction du corpus

Corpus

Évaluation

Le système permet d’évaluer la production écrite par deux aspects : une correspondance entre les sinogrammes et le pinyin et une bonne structure grammaticale de la phrase.

  • Correspondance entre les sinogrammes et le pinyin

Dans un contexte spécifique, chaque caractère chinois ne correspond qu’à un pinyin. En utilisant l’outil de Pinyin4j, on compare la référence avec la production de l’utilisateur pour calculer la distance.

  • Structure grammaticale

Vu la liberté grammaticale en chinois, on compare non seulement la structure entre la référence et la production, on élève aussi la tolérance à travers des règles qu’on propose.

Difficultés

Référence et Ressource

Liens