Actions

Projets

MagicWord (Japonais)

De GBLL, TAL, ALAO, etc.

< M2 IdL — TAL & ALAO/2020-2021

Lire la proposition de projet "MagicWord/Gestion des lexiques/API Accès lexique externe"

Présentation

Ce projet vient compléter travail plus important, qui s'appelle Magic Word. Il s'agit d'un jeu de vocabulaire, qui se base sur une grille de 4 par 4, chacune des 16 case contient une lettre, ou dans le cas du japonais un caractère. Le but du jeu est de créer des mots en faisant un lien entre des cases adjacentes. (pour plus de détails, rendez vous sur la page principale de Magic Word).

La version qui sert aujourd'hui de base au jeu à été développée par des étudiants. C'est un corpus de formes fléchies de 56 millions de forme, qui prend donc énormément de place. Ce corpus à été généré à partir d'un dictionnaire de racine et d'une liste de flexions. Beaucoup de formes présentes dans le corpus ne son pas ou plus utilisées, notre but est donc aujourd'hui d'évaluer la qualité du lexique existant pour la version japonaise du jeu Magic Word dans un premier temps. Puis, nous affinerons le lexique en fonction de nos résultats pour retirer les formes rares ou plus vraiment utilisé.


Notre travail

Pour expliquer plus en détail notre travail précisément, nous avions pour but de réduire le lexique du jeu en enlevant toutes les formes fausses ou trop rares pour épurer ce lexique. Pour cela, nous avons utilisé la librairie python MeCab qui nous a permis d'analyser la fréquence de certains mots et formes. Ou plus précisément, la vraisemblance de la dernière partie du verbe par rapport aux précédentes. Pour l'instant, nous avons décidé de faire ces analyses sur toutes les formes du verbe "taberu (manger)". C'est comme ça que nous avons fait la découverte que le lexique contenait beaucoup de double et de triple voir même de quadruple. Les double sont plutôt logique étant donné que chaque forme à son équivalent en kanji mais pour les autres, nous les avons décider de les supprimé ce qui a considérablement allégé le lexique. Grâce à ces analyses, nous avons aussi découvert que plus les formes agglutinantes étaient longues, moins la forme était vraisemblante en principe.


Plus techniquement, pour réaliser cela nous avons rassembler les formes de taberu dans deux fichiers txt, un avec les formes sans kanji et un autre avec les kanji. Puis nous les avons passé par notre script python qui va calculer la vraisemblance et le mettre en face du verbe correspondant. Ensuite le script va trié par ordre décroissant. On aura donc les moins vraisemblants (donc ceux à supprimer en priorité) en premier et les moins vraisemblants en dernier. Le script en ressort 2 fichiers txt de la même manière, un avec les kanji et un sans. On peut voir que les résultats ne fluctue pas énormément avec ou sans kanji.


Problèmes rencontrés

Nous avons rencontré plusieurs problèmes durant le projet. Tout d'abord, un problème avec la langue japonais qui n'était pas reconnu par le terminal Windows mais après plusieurs changement dans les paramètres de fichier non-unicode, nous avons pu résoudre ce problème.


Un autre problème concerne la taille énorme du lexique. Nous ne pouvions pas l'ouvrir malgré le fait qu'il soit découpé en plusieurs parties. Nous avons donc redécoupé les sous parties et avons même extrait seulement les formes du verbe "taberu (manger)" pour pouvoir faire les analyses.


Nous avons eu beaucoup de problèmes avec MeCab qui ne fonctionnait pas correctement sous Windows. Personnellement (Cyril), j'ai fini par installer Linux sur un ancien pc et tout mes problèmes avec Python et MeCab se sont réglés. Nous pouvons en déduire que MeCab fonctionne bien plus facilement avec Linux. De plus, le peu de documentation en anglais n'a pas aidé.


Pour finir, nous avons rencontrés de petits problèmes mineurs comme le fait que les trois premières entrée de notre fichier txt trié sont les trois dernière, il faut donc prendre en compte ce paramètre quand on regarde les fichiers finales.

Travail restant et prolongement pour l'avenir

Ce qu'il resterait à faire pour finir le travail mais que nous n'avons pas le temps de faire durant ce projet, serait d'appliquer le script d'analyse à tout le lexique et pas seulement au formes de "taberu". Il faudra se heurter au problème de la lourdeur du lexique.

Ensuite, nous présenterons les résultats à un natif de la langue japonaise qui pourra trancher à partir de combien d'indice de vraisemblance une forme devrait être supprimé.

Et pour finir, il faudrait donc supprimer toutes ces formes du lexique en modifiant le script python déjà conçu pour l'extraction du lexique.

Liens

[MagicWord[1]]

[Jeu Magic Word[2]]

[MagicWord/Gestion des lexiques/Japonais[3]]

[Git[4]]

[MeCab[5]]