Différences entre versions de « SELF/Évaluation de la production écrite chinoise »

Version du 5 janvier 2021 à 04:14

< M2 IdL — TAL & ALAO/2020-2021

Projet réalisé par Yumeng DING, Jingyu LIU et Ning ZHANG

Introduction

Notre projet s’inscrit dans le projet « Système d’Évaluation en Langues à visée Formative » (SELF) et il concentre sur la production écrite chinoise au niveau de la syntaxe. En proposant une série d' exercices, le système permettra d'évaluer la production correspondante.

Contexte

Le chinois est une langue orientale et une des spécialités de cette langue est sa flexibilité. Différente de la langue française, la morphologie du chinois est relativement simple, parce qu’il n’y a pas de flexions et d’affixes grammaticales. Les mots à sens lexical sont invariables du point de vue grammatical. Les rapports syntaxiques s’expriment en général à l’aide de mots-outils indépendants (par exemple : particule et prépositions) et de l’ordre des mots. Cependant, l’ordre des mots est assez flexible et il existe encore le débat pour décider si le mandarin est une langue SVO (Sujet-Verbe-Objet) ou une langue SOV(Sujet-Objet-Verbe). Par exemple :

SVO : 他打破了玻璃。(Il a cassé la glace.)
SOV : 他把玻璃打破了。(Il a cassé la glace.)

En plus, selon l’analyse faite par HSK Dynamic Composition Corpus, la fréquence de l’erreur au niveau de l’ordre des mots est très élevée.

Par conséquent, l’ordre des mots peut être une grande difficulté pour les apprenants pendant les études.

Problématique

Le problématique de notre projet consiste à comment nous pouvons utiliser les outils de TAL pour faciliter les apprentissages de la langue mandarin et pour évaluer leur production écrite.

Objectif

L’objectif de notre projet est de développer un outil qui permet aux apprenants de s’entraîner sur la structure syntaxique du mandarin et faire une auto-évaluation sur leurs productions écrites. Un site d’interface convivial sera aussi développé, celui qui est facile à être utilisé.

Composants principaux

L’utilisateur peut en choisir un parmi une série de livres. Et puis, les textes et les phrases seront choisis aléatoirement par le système.
En donnant une série de constituants de la phrase, on demande de faire remettre en ordre ces différents constituants pour obtenir une phrase significative.
Le système va faire une évaluation en comparant la production avec la référence et les règles. À la fin, un score sera distribué et éventuellement afficher plus d’exemples de la même structure syntaxique pour faire familiariser.

Public visé

Le public visé est principalement les apprenants qui possèdent déjà des connaissances basiques du mandrin et donc ils connaissent les mots simples et les structures basiques (HSK2-HSK3 correspond A2 - B1 dans le cadre de CECRL). En plus, si dans le futur, il est possible de récupérer toutes les erreurs faites par les apprenants, il permet aussi aux enseignants et chercheurs de bien focaliser les difficultés rencontrées pendant les études et développer les stratégies correspondantes.

Présentation de notre travail

Web scraper

Un corpus pertinent est un prérequis de ce projet. Nous allons travailler sur le corpus du site « Corpus of Teaching Chinese as Second Language »(« 汉语国际教育动态语料库 ») qui est, malheureusement, non-téléchargeable. Par conséquent, il est important de développer un script de web-scraper pour récupérer une partie de ce corpus afin de réaliser notre objectif. Nous concentrons principalement les dialogues et les textes courts.

Système principal

Site d'interface

Difficultés et solutions

Construction du corpus

Le site « Corpus of Teaching Chinese as Second Language » est un site dynamique. C’est à dire que nous arrivons pas à obtenir le code source de la page Web, mais un script « index.js ». Il est donc difficile d’utiliser les outils qui collectent les informations à travers les labels de HTML. Par conséquent, nous avons choisi « HtmlUnit » et « jsoup » pour, d’une part, créer un objet client de navigateur qui simule le navigateur afin d’avoir tout le contenu de la page, et d’autre part, manipuler le contenu afin d’extraire ce dont nous avons besoin. Chaque texte est stocké dans un fichier nommé d’après sa source. Nous avons, à la fin, obtenu 1184 fichiers (sur le GitHub, il n’y a que 1000 fichiers en raison de la restriction du GitHub). Pour bien adapter les niveaux de notre public visé, nous avons enlevé de manière manuelle les textes très longs et très difficiles. 390 fichiers composent notre corpus : 221 fichiers pour le primaire et 169 fichiers pour l’avancée.

Système principal

Site d'interface

Corpus

Évaluation

Le système permet d’évaluer la production écrite par deux aspects : une correspondance entre les sinogrammes et le pinyin et une bonne structure grammaticale de la phrase.

Correspondance entre les sinogrammes et le pinyin

Dans un contexte spécifique, chaque caractère chinois ne correspond qu’à un pinyin. En utilisant l’outil de Pinyin4j, on compare la référence avec la production de l’utilisateur pour calculer la distance.

Structure grammaticale

Vu la liberté grammaticale en chinois, on compare non seulement la structure entre la référence et la production, on élève aussi la tolérance à travers des règles qu’on propose.

@@ Ligne 53 : / Ligne 53 : @@
 <br>
-=== site d'interface ===<br>
+=== Site d'interface ===
+<br>
 == Corpus ==

Projets

Différences entre versions de « SELF/Évaluation de la production écrite chinoise »

De GBLL, TAL, ALAO, etc.

< Projets:SELF

Version du 5 janvier 2021 à 04:14

Sommaire

Introduction

Contexte

Problématique

Objectif

Composants principaux

Public visé

Présentation de notre travail

Web scraper

Système principal

Site d'interface

Difficultés et solutions

Construction du corpus

Système principal

Site d'interface

Corpus

Évaluation

Difficultés

Référence et Ressource

Liens