Actions

Projets

Projet NiHao! HanZi

De GBLL, TAL, ALAO, etc.

Projet réalisé par Zhiyuan Qiu et Heng Yang

Introduction

Notre travail vise à utiliser le pinyin comme un pont entre les caractères chinois et les apprenants, permettant aux apprenants d'utiliser le pinyin pour faciliter leur apprentissage du chinois et de développer progressivement une connaissance conjointe du pinyin et de la forme du caractère chinois dans les exercices fournis par notre application, et notre travail pourrait faire partie du projet "Système d'Évaluation en Langues à visée Formative" (SELF).

Contexte

Dans les milieux culturels non chinois, la majorité des apprenants sont des locuteurs natifs de langues indo-européennes. Les langues indo-européennes sont des écritures phonogramme avec une combinaison de lettres, dont la structure est très différente de celle des idéogrammes chinois : elles sont complexes, chaque caractère a une analyse à plusieurs niveaux et est très complet, avec une grande quantité d'informations.

Depuis 1958, le pinyin est activement utilisé dans l'éducation des adultes. Il est devenu un outil pour beaucoup d'étrangers désirant connaître la prononciation du mandarin. [1]. Le pinyin a été développé pour les locuteurs chinois et ceux qui apprennent la prononciation chinoise standard. Il s'agit d'un moyen efficace de représenter les sons chinois avec l'alphabet romain. Il a la même fonction que les symboles phonétiques internationaux utilisés dans les dictionnaires pour indiquer la prononciation des mots anglais.[2]. Le chinois est une langue tonale à quatre tons. Ceux-ci sont représentés en pinyin par des accents, également appelés diacritiques. En tant qu'écriture à forme et signification, les caractères chinois sont caractérisés par leur signification unique, ce qui signifie que lorsqu'on voit un caractère, il peut y avoir des situations où l'on ne sait pas comment le caractère doit être prononcé. Par conséquent, l'apprentissage du pinyin est la base de l'apprentissage du chinois et une bonne base en pinyin est sans aucun doute une aide très importante pour l'apprentissage du chinois.

Les tons

Problématique

La phonétique est le premier attribut de la langue, sans lequel la compétence dite communicative de la langue ne peut exister, l'enseignement de la phonétique en chinois langue étrangère est particulièrement important. Le Pinyin est la première étape de l'apprentissage de la phonétique chinoise.

La problématique de notre travail consiste à comment nous pouvons utiliser les outils de TAL pour faciliter les apprentissages du Pinyin de la langue mandarin et pour évaluer les compétences en Pinyin des apprenants.

Pour les apprenants non chinois, la première prise de connaissance des caractères chinois est comme une image, et il est impossible de combiner visuellement la prononciation et le sens. Selon les habitudes de la langue maternelle, ils préfèrent associer le pinyin au sens de l'expression, mais ignorent la relation entre le pinyin et la forme des caractères chinois.

Les apprenants, en général, connaissent l'alphabet latin, et certains étudiants des pays occidentaux, en particulier, utilisent l'alphabet latin comme langue maternelle. Cependant, la prononciation des lettres latines dans le Pinyin ne correspond pas à celle des autres pays, ce qui peut facilement entraîner un transfert négatif. Par conséquent, la compréhension du Pinyin est un point clé et un domaine difficile dans l'enseignement du chinois en tant que langue étrangère.

En outre, le chinois est une langue avec des tons, et les tons ont un rôle dans la distinction du sens, les chercheurs ont constaté que l'orthographe et les tons en pinyin sont souvent confondus. [3].Cela est très préjudiciable à l'apprentissage du chinois car les variations de ton et d'orthographe impliquent un mot différent.

Ex1: Les tons sont confondus
(Premier ton) => Maman
(Troisième ton) => Un cheval

Ex2: l'orthographe est confondu
(Consonne "n") => La boue
(Consonne "l") => Une poire

Présentation de notre travail

Le contenu technique plus détaillé peut être trouvé dans notre page de GitHub.

Objectif

L'objectif de notre travail, dans le cadre de l'enseignement du chinois langue étrangère, est de corriger et de clarifier la forme du pinyin du caractère chinois par la méthode TAL & ALAO. Plus précisément, nous travaillons pour permettre aux apprenants de maîtriser le pinyin des mots utilisés dans les différents niveaux de l'examen HSK.

Public visé

Pour la fonction de recherche en pinyin, nous n'avons aucune restriction de niveau. Il suffit de taper un caractère chinois pour obtenir le pinyin correspondant, ce qui fait que le public cible de cette fonction est assez large. Pour l'étude des mots, nous avons choisi le vocabulaire de l'examen HSK comme matériel d'étude. Comme les explications du contenu impliqué dans la recherche en pinyin et l'étude des mots sont presque toutes en chinois, nous recommandons que les utilisateurs soient les étudiants qui doivent passer l'examen HSK pour étudier en Chine ou des apprenants ayant une connaissance de base du chinois ou ayant une compréhension élémentaire de la langue. Par exemple, les règles de la prononciation en pinyin, le ton, etc. En outre, la présentation du site, les consignes étant en français, l’utilisateur ou l'utilisatrice de l’application doit avoir des bases en français.

Ressources utilisées

Pour le développement de ces activités, nous nous sommes appuyées sur la librairie de Python -- Django et pypinyin. Django nous permet de développer rapidement des sites web sécurisés et maintenables, de créer et de lier différents éléments d'un site web, de mettre en place des projets, qu'il s'agisse de fichiers HTML, de fonctions Javascript, de fichiers au format json ou de modules de traitement Python. Et pypinyin nous permet de convertir les caractères chinois en pinyin. Peut être utilisé pour la transcription phonétique, le tri et la recherche de caractères chinois.

Pour le matériel d'étude, nous avons sélectionné le vocabulaire des différents niveaux de l'examen HSK. Le test d'évaluation de chinois ( HSK ), est le seul test normalisé de la République populaire de Chine pour tester les compétences linguistiques en mandarin des personnes ne l'ayant pas comme langue maternelle.[7]. Nous avons sélectionné ici du vocabulaire de niveau débutant à intermédiaire : Vocabulaire de niveau 1[8]., Vocabulaire de niveau 2[9]., Vocabulaire de niveau 3[10]. et Vocabulaire de niveau 4[11].

Description de l'application

Fonction de recherche du pinyin

Comme nous l'avons mentionné plus haut, il n'y a aucune restriction à l'utilisation de cette fonction. Il est à la disposition de toute personne qui souhaite rechercher le pinyin des caractères chinois.

L'utilisateur tape le(s) caractère(s) chinois qu'il souhaite rechercher dans le champ de saisie, soit comme un mot, soit comme un caractère. Ensuite cliqué sur le bouton "consulter" et la page renverra des informations sur le(s) caractère(s) recherché(s).

Feedback

Informations retournées:

  • Caractère chinois
  • Le pinyin avec les tons correspondants
  • L'initial
  • La finale
  • Le ton


Ex: recherche "你好"(bonjour)

Recherche_pinyin_1
Recherche_pinyin_2
Recherche_pinyin_3


Fonction d'apprentissage

Dans cette section, nous proposons différents niveaux d'apprentissage du vocabulaire chinois. En guise de matériel d'étude, les vocabulaires choisis ici sont destinés aux niveaux 1 à 4 de l'examen HSK.

L'apprentissage_1


Les apprenants choisissent le cours qui correspond à leur niveau. La page affichera tous les vocabulaires du niveau sélectionné et l'apprenant devra saisir le pinyin correspondant au mot dans le champ de saisie, selon les conseils. Les conseils faites ici concernent la façon de taper pour les tons du pinyin.

Conseils
Vocabulaires


Feedback

Afin d’offrir un feedback à l'apprenant, le pinyin saisi par l'apprenant sera comparé à la bonne réponse (fourni par pypinyin). A la fin de l’exercice, on compte les entrées correctes du nombre total d'entrées afin d’offrir un score (la similarité en pourcentage) à l'utilisateur et on affiche également le pinyin correctes.

  • Le pinyin correct pour le mot et les informations associées sont affichés en vert à l'extrême gauche.
  • L'entrée de l'apprenant est représentée en orange au milieu.
  • Le résultat est affiché à l'extrême droit.
  • Lors de la session d'évaluation, nous afficherons la bonne réponse et la réponse de l'apprenant et les comparerons. Si la réponse est correcte, un petit dessin de coche vert apparaîtra ; sinon, un petit dessin de croix rouge.
  • La similarité sera affichée sous forme de pourcentage en rose.
Feedback_1
Feedback_2

L'apports du TAL

Méthodes d'évaluation

Nous ne voulons pas déterminer mécaniquement et directement si le pinyin saisi par l'utilisateur est égal au pinyin correct, par exemple :


if("zhong3" != "zong2"):
    print("Votre réponse est incorrecte.")


Cela n'aide pas beaucoup l'apprenant du Pinyin car, bien qu'il connaisse le corrigé, il ne sait pas à quel distance sa réponse se trouve du corrigé ou à quel point sa réponse est bonne ou mauvaise.

Notre solution consiste à diviser le Pinyin en trois parties :


  1. L'initial
  2. La finale
  3. Le ton


Par conséquent, nous avons écrit un algorithme pour diviser l'entrée de l'utilisateur en trois parties du Pinyin,puis nous évaluons chacune des trois parties pour voir si elle est correcte (comme le montre l'image ci-dessus). De cette façon, l'utilisateur connaît les nuances entre sa réponse et de le corrigé.

La distance entre 2 pinyin (chaine de caractères)

Mais cela ne suffisait pas, nous voulions également montrer visuellement à l'utilisateur un paramètre permettant de mesurer la qualité réelle de la réponse qu'il a saisie. Les tâches TAL rencontrent souvent des comparaisons de la similarité de deux séquences, comme la métrique d'évaluation clé dans le domaine de la reconnaissance vocale : WER/CER. Voir l'image ci-dessous :

          WER.png

Le Pinyin étant également une séquence, autrement dit une chaîne de caractères, nous calculons la distance d'édition entre deux chaînes de Pinyin au moyen du calcul du WER, et le résultat obtenu peut être utilisé pour décrire la similarité entre deux chaînes de Pinyin. Puisque l'utilisateur peut ne pas être conscient de TAL, nous devons prendre le nombre réciproque du résultat,et le convertir en un pourcentage. Pour des algorithmes spécifiques, veuillez consulter le fichier sur notre page de Github : Levenshtein_Distance.py

Mais cela pose une autre difficulté que nous ne pouvons pas résoudre, dans la partie suivante, nous décrirons ses limites.

Limites et Améliorations

Limites

Le pinyin est un outil d'apprentissage et une forme de la phonétique chinoise, pourtant la similarité phonétique est fortement influencée par la méthode de prononciation et le point d'articulation; en fait, notre méthode d'évaluation considère simplement la forme de la phonologie chinoise ( pinyin ) comme une chaîne de caractères, nous n'avons évalué que les nuances des chaînes de caractères. Plus précisément, c et ch sont plus similaires l'un à l'autre que m et t en pinyin. Cependant, notre méthode d'évaluation considère que la similarité entre ces deux paires est la même.


En outre, bien qu'en général, les résultats fournis par pypinyin pour notre application étaient corrects, nous avons tout de même constaté les limites au cours de notre processus de débogage et de développement.

1. Caractères polyphoniques:
Un caractères polysyllabique est un mot qui a deux ou plusieurs prononciations ; les différentes prononciations ont des épithètes différentes, sont utilisées différemment et ont souvent des propriétés lexicales différentes. La prononciation sert à distinguer le sens lexical.[12]. Dans ce cas, nous avons constaté que le pypinyin fait des erreurs dans le pinyin de certains mots qui contiennent des caractères polyphoniques.

Ex:

银行_yín háng
行人_xíng rén



Les mots Pinyin[13]
(banque) yín háng
人 (passant) xíng rén

2. Majuscules:
En pinyin, il n'y a pas de majuscule à la première lettre. Notre programme ne tient donc pas compte du fait que la première lettre est saisie en majuscule. Si la première lettre est en majuscule, le programme détermine que l'entrée est incorrecte.

Majuscules

Pistes d'amélioration futures

Perspective de TAL

Nous pouvons effectuer des opérations de l'Embedding sur le pinyin initial et final séparément, puis comparer leur similarité. Pour effectuer de l'Embedding, nous pouvons générer des paires de mots et annoter manuellement les paires de mots pour la similarité. Par exemple, nous générons des paires de mots (包bao1 袱fu2, 泡pao4 芙fu2) et invitons des locuteurs natifs chinois à les annoter.

Comme la génération aléatoire de paires de mots génère un trop grand nombre de paires de mots, cela rend l'annotation plus difficile. Par conséquent, nous ne générons que les paires de mots similaires pour l'annotation, tandis que les paires de mots dissemblables ne sont pas annotées et reçoivent directement le score de similarité le plus bas.

Puisque la similarité phonétique est fortement influencée par la méthode de prononciation et le point d'articulation, nous devons regrouper le pinyin initial et final séparément.

Par exemple, pour le groupement des initiales du pinyin :


"bp", "dt", "gk", "hf", "nl", "zcs", "zhchshi", "zzh", "cch"...


Regroupement des finales du pinyin :


"a,o,e,i,u,v", "i, in, ing"...

Perspective d'ALAO

Afin de faciliter l'accès des apprenants à notre site web, nous devons déployer notre application sur un serveur.

Et pour de meilleurs résultats d'apprentissage, les informations sur chaque mot doivent être stockées dans une base de données contenant l'explication française de chaque mot et sa prononciation.

Lien du projet

Lien du GitHub : https://github.com/Hefr-y/pinyinALAO

Références

  1. Wikipédia - Hanyu pinyin : https://fr.wikipedia.org/wiki/Hanyu_pinyin
  2. HSK - Introduction to Chinese Pinyin : http://hsk2020.com/Pinyin?n=A
  3. Ma Yanhua - 论对外汉语教学的语音难点与语音重点. Consulté le 26/08/2014 : https://wenku.baidu.com/view/f79357703169a4517623a32d.html?rec_flag=default&fr=Recommend_RelativeDoc-90112,60399,100002,90075,90016,90037,80088,100107-kpdrec_doc_pc_view-7d5044fa561252d381eb6e4f&sxts=1641993432039
  4. Python (Version 3.8): https://docs.python.org/fr/3.8/
  5. pypinyin (Version 0.44.0) [librairie Python]. Retrieved from https://pypi.org/project/pypinyin/
  6. Django (Version 3.2) [librairie Python]. Retrieved from https://www.djangoproject.com
  7. Wikipédia - Test d'évaluation de chinois :https://fr.wikipedia.org/wiki/Test_d%27évaluation_de_chinois
  8. Vocabulaire de l’examen HSK ( niveau 1 )  :https://www.unive.it/pag/fileadmin/user_upload/centri/istituto-confucio/documenti/HSK/Liste_vocaboli_HSK1.pdf
  9. Vocabulaire de l’examen HSK ( niveau 2 )  :https://www.unive.it/pag/fileadmin/user_upload/centri/istituto-confucio/documenti/HSK/Lista_vocaboli_HSK2.pdf
  10. Vocabulaire de l’examen HSK ( niveau 3 )  :http://www.hskgta.com/uploads/1/1/8/5/11856723/3级新hsk词汇_hsk_level_3_vocabularies.pdf
  11. Vocabulaire de l’examen HSK ( niveau 4 )  :http://culture-oushi.com/files/HSK1%20cihui%20ch-fr.pdf
  12. Baike - 多音字 : https://baike.baidu.com/item/多音字/10884829
  13. Les Oxford Languages