Projets:SavoirConjuguer
De GBLL, TAL, ALAO, etc.
< M2 IdL — TAL & ALAO/2020-2021
Projet réalisé par Wenjing DENG et Ziyi TONG
Introduction
SavoirConjuguer est un programme pédagogique ayant pour but de générer des exercices de conjugaison automatiquement à partir d'un corpus choisi.
Problématique
La conjugaison est l'une des caractéristiques les plus importantes de la langue française. Masculin, féminin, singulier, pluriel, les accords du temps... les verbes français ont des formes très spéciaux et variés selon le contexte de textes, ce qui rendent le vocabulaire français plus riche mais aussi plus compliqué à apprendre. Savoir conjuguer est le premier pas pour apprendre le français. Il est donc nécessaire de disposer d'un outil pédagogique qui puisse générer automatiquement les exercices afin de permettre les apprenants du français de pratiquer la conjugaison.
Présentation de notre projet
Notre projet s'intéresse à proposer des exercices de conjugaison aux apprenants du français. Les exercices sont générés automatiquement à partir d'un corpus choisi, en utilisant Java CoreNLP. Concernant le type d'exercice, les exercices sont désignés sous la forme des " textes à trous " comme l'exemple ci-dessous :

A l' approche de Noël , essayons de positiver . Certes , il n' y aura pas de grand rassemblement : la jauge (1) ________ (avoir) été fixée à six adultes pour le réveillon . Peut-être même (2) ________ (falloir) -t-il renoncer à se rassembler , y compris en petit comité . Mais du moins serons -nous épargnés par la malédiction qui frappe chaque année cette bien mal-nommée trêve des confiseurs : l' engueulade du repas de famille . , Du côté de celle de mon épouse , le sujet qui fâche , c' est le nucléaire . Il (3) ________ (falloir) dire que certains de ses membres travaillent dans le secteur . Cela revient à faire , a priori , du ci-devant chroniqueur de la transition écologique un ennemi de classe , et je dois reconnaître que j' y (4) ________ (mettre) parfois du mien . Je me souviens de la réaction outrée d' un ami de la famille lorsque j' avais évoqué , pour me moquer , la présence de crocodiles phosphorescents dans la cuve de refroidissement d' une centrale . , A vrai dire , j' ai bien du mal à avoir une position tranchée . (5) ________ (null) -je pour ou contre le nucléaire ?
Chaque exercice contient 10~20 trous variés selon la longueur du texte. Un score et une correction sont proposés après chaque exercice. L'utilisateur peux choisir continuer ou quitter le programme après chaque exercice, pourtant, une fois une exercice commence, il ne serait pas possible de quitter le programme avant remplir tous les trous.
- Public visé : en considérant que ce forme d'exercice demande un certain niveau de compréhension écrite ainsi que une connaissance fondamentale sur la conjugaison française, notre prototype conviendrait surtout aux apprenants de niveaux A2-C1 du CECRL.
Type d’exercice choisi
Pourquoi choisir "texte à trous" pour pratiquer la conjugaison ? Parce que ce type d'exercice évalue et exerce plusieurs compétences langagières dans le même temps. Un exercice de conjugaison du type texte à trous peut apporter les entraînements dans ces aspects langagières :
- Lecture/Compréhension écrits : comme l'apprenant devrait d'abord lire le texte et comprendre le contexte afin de trouver le temps et le mode du verbe cohérent, il permet l'apprenant pratiquer sa compréhension écrite.
- Vocabulaire : Comme les textes sont extraits à partir des émissions France Culture, dans ce type d'exercice, l'apprenant rencontrerait beaucoup de nouveaux mots et expressions authentiques, ce qui lui permettrait enrichir son vocabulaire.
- Conjugaison : Pour bien conjuguer, l'apprenant dois comprendre le contexte du texte et identifier les voix du verbe, le mode du verbe et le temps du verbe corrects, ce qui demande à la fois une connaissance grammaticale et une bonne maîtrise de conjugaison régulière ou irrégulière.
Ressources
Cette partie cite les corpus et les bibliothèques qu'on a utilisé.
Corpus
- Textes extraits de France Culture
Pour le corpus, nous avons choisi les transcriptions de l’émission La Transition de France Culture parce qu’il y a plus de variations du verbe par rapport aux autres émissions et aux autres journaux. Ce corpus contient 83 textes et environ 4000 mots pour chaque texte. De ce point de vue, cet outil est flexible parce que l’utilisateur peut remplace ce corpus de France Culture par d’autre corpus qu’il préfère.
- Corpus ABU
Etant donné que CoreNLP ne propose pas de lemmatisation pour le français, nous avons du trouver une alternative pour récupérer les lemmes. Nous avons donc choisi le corpus ABU qui contient les verbes et leur conjugaison.
Bibliothèques
Beautiful Soup
Nous avons fait du web-scraping avec Python en utilisant Beautiful Soup [1].
Stanford CoreNLP
Nous avons analysé les textes avec Java en utilisant Stanford CoreNLP [2].
Fonctionnalités
Python
Nous avons utilisé Python pour scraper les transcriptions de Podcast La Transition de France Culture et pour construire un corpus.
Le web scraping consiste en deux étapes. La première étape est de récupérer les liens des épisodes en utlisant la librairie BeautifulSoup. Le code se trouve dans franceculture_url.py.
Ensuite, nous avons récupéré le contenu de chaque transcription et l'enregistrer dans un fichier txt. Le code se trouve dans franceculture_articles.py. Pour faciliter le traitement du corpus en Java, nous avons supprimé les balises et les liens inutiles dans le corpus.
Enfin, nous avons un corpus qui contient 83 textes. Pour chaque texte, il y a environ 4000 mots.
Java
Génération de textes à trous
- POS
- Lemmatisation
Scores
Affichage
Problèmes
Difficultés de programmation
- Durée d'exécution
CoreNLP fonctionne trop lentement. Le temps d'exécution du programme se trouve donc allongée et le chargement d'article prend 2~3 minutes.
- Interface graphique
Le programme fonctionne encore plus lentement avec cela. Nous avons donc renoncé à l'interface graphique utilisateur.
- Exécution en console
Nous avons essayé de exécuter notre programme en console mais ça ne fonctionne pas. Il faut donc l'exécuter avec un IDE comme Eclipse ou Intellij.
- Traitement du corpus
Au début, nous avons choisi le corpus Frantext. Pour le traitement du fichier XML, nous avons utilisé l'API Java Dom4j qui permet de lire du XML, mais le traitement du fichier XML est plus difficile que celui du fichier TXT/CSV. Nous avons enfin choisi de construire un corpus pour notre projet.
Distance entre l'objectif et la réalisation
Discussion
Ce qu'on a réalisé
Améliorations possibles
Liens
Lien vers notre projet