« SavoirConjuguer » : différence entre les versions
De GBLL, TAL, ALAO, etc.
| Ligne 24 : | Ligne 24 : | ||
=== Corpus === | === Corpus === | ||
'''Corpus extrait de France Culture''' <br> | '''Corpus extrait de France Culture''' <br> | ||
Pour le corpus, nous avons choisi les transcriptions de l’émission La Transition de France Culture parce qu’il y a plus de variations du verbe par rapport aux autres émissions et aux autres journaux. Ce corpus contient 83 textes et environ 4000 mots pour chaque texte. | Pour le corpus, nous avons choisi les transcriptions de l’émission La Transition de France Culture parce qu’il y a plus de variations du verbe par rapport aux autres émissions et aux autres journaux. Ce corpus contient 83 textes et environ 4000 mots pour chaque texte. | ||
De ce point de vue, cet outil est flexible parce que l’utilisateur peut remplace ce corpus de France Culture par d’autre corpus qu’il préfère. | De ce point de vue, cet outil est flexible parce que l’utilisateur peut remplace ce corpus de France Culture par d’autre corpus qu’il préfère. | ||
<br> | |||
'''Corpus ABU''' <br> | '''Corpus ABU''' <br> | ||
Version du 4 janvier 2021 à 17:57
< M2 IdL — TAL & ALAO/2020-2021
Projet réalisé par Wenjing DENG et Ziyi TONG
Introduction
SavoirConjuguer est un programme pédagogique ayant pour but de générer des exercices de conjugaison automatiquement à partir d'un corpus choisi.
Problématique
La conjugaison est l'une des caractéristiques les plus importantes de la langue française. Masculin, féminin, singulier, pluriel, les accords du temps... les verbes français ont des formes très spéciaux et variés selon le contexte de textes, ce qui rendent le vocabulaire français plus riche mais aussi plus compliqué à apprendre. Savoir conjuguer est le premier pas pour apprendre le français. Il est donc nécessaire de disposer d'un outil pédagogique qui puisse générer automatiquement les exercices afin de permettre les apprenants du français de pratiquer la conjugaison.
Présentation de notre projet
Type d’exercice choisi
Ressources
Nous avons utilisé Beautifulsoup pour scraper les transcriptions de l'émission La Transition de France Culture [1].
Corpus
Corpus extrait de France Culture
Pour le corpus, nous avons choisi les transcriptions de l’émission La Transition de France Culture parce qu’il y a plus de variations du verbe par rapport aux autres émissions et aux autres journaux. Ce corpus contient 83 textes et environ 4000 mots pour chaque texte.
De ce point de vue, cet outil est flexible parce que l’utilisateur peut remplace ce corpus de France Culture par d’autre corpus qu’il préfère.
Corpus ABU
Etant donné que CoreNLP ne propose pas de lemmatisation pour le français, nous avons du trouver une alternative pour récupérer les lemmes. Nous avons donc choisi le corpus ABU qui contient les verbes et leur conjugaison.
Bibliothèques
Fonctionnalités
Python
Web Scraping
Traitement du corpus
Java
Génération de textes à trous
- POS
- Lemmatisation
Scores
Affichage
Problèmes
Difficultés de programmation
Distance entre l'objectif et la réalisation
Discussion
ce qu'on a réalisé
Améliorations possibles
Liens
Lien vers notre projet