Actions

Projets

« SavoirConjuguer » : différence entre les versions

De GBLL, TAL, ALAO, etc.

Wdeng (discussion | contributions)
Wdeng (discussion | contributions)
Ligne 23 : Ligne 23 :
<br>
<br>


#'''Corpus extrait de France Culture''' <br>
'''Corpus extrait de France Culture''' <br>
Pour le corpus, nous avons choisi les transcriptions de l’émission La Transition de France Culture parce qu’il y a plus de variations du verbe par rapport aux autres émissions et aux autres journaux. Ce corpus contient 83 textes et environ 4000 mots pour chaque texte.
Pour le corpus, nous avons choisi les transcriptions de l’émission La Transition de France Culture parce qu’il y a plus de variations du verbe par rapport aux autres émissions et aux autres journaux. Ce corpus contient 83 textes et environ 4000 mots pour chaque texte.
De ce point de vue, cet outil est flexible parce que l’utilisateur peut remplace ce corpus de France Culture par d’autre corpus qu’il préfère.
De ce point de vue, cet outil est flexible parce que l’utilisateur peut remplace ce corpus de France Culture par d’autre corpus qu’il préfère.
Ligne 29 : Ligne 29 :
<br>
<br>


#'''Corpus ABU''' <br>
'''Corpus ABU''' <br>
Etant donné que CoreNLP ne propose pas de lemmatisation pour le français, nous avons du trouver une alternative pour récupérer les lemmes. Nous avons donc choisi le corpus ABU qui contient les verbes et leur conjugaison.
Etant donné que CoreNLP ne propose pas de lemmatisation pour le français, nous avons du trouver une alternative pour récupérer les lemmes. Nous avons donc choisi le corpus ABU qui contient les verbes et leur conjugaison.



Version du 4 janvier 2021 à 17:59

< M2 IdL — TAL & ALAO/2020-2021

Projet réalisé par Wenjing DENG et Ziyi TONG

Introduction

SavoirConjuguer est un programme pédagogique ayant pour but de générer des exercices de conjugaison automatiquement à partir d'un corpus choisi.

Problématique

La conjugaison est l'une des caractéristiques les plus importantes de la langue française. Masculin, féminin, singulier, pluriel, les accords du temps... les verbes français ont des formes très spéciaux et variés selon le contexte de textes, ce qui rendent le vocabulaire français plus riche mais aussi plus compliqué à apprendre. Savoir conjuguer est le premier pas pour apprendre le français. Il est donc nécessaire de disposer d'un outil pédagogique qui puisse générer automatiquement les exercices afin de permettre les apprenants du français de pratiquer la conjugaison.

Présentation de notre projet


Type d’exercice choisi


Ressources

Corpus


Corpus extrait de France Culture
Pour le corpus, nous avons choisi les transcriptions de l’émission La Transition de France Culture parce qu’il y a plus de variations du verbe par rapport aux autres émissions et aux autres journaux. Ce corpus contient 83 textes et environ 4000 mots pour chaque texte. De ce point de vue, cet outil est flexible parce que l’utilisateur peut remplace ce corpus de France Culture par d’autre corpus qu’il préfère.


Corpus ABU
Etant donné que CoreNLP ne propose pas de lemmatisation pour le français, nous avons du trouver une alternative pour récupérer les lemmes. Nous avons donc choisi le corpus ABU qui contient les verbes et leur conjugaison.


Bibliothèques

Fonctionnalités


Python


Web Scraping

Nous avons utilisé Beautifulsoup pour scraper les transcriptions de l'émission La Transition de France Culture [1].

Traitement du corpus


Java


Génération de textes à trous

  • POS
  • Lemmatisation


Scores

Affichage

Problèmes


Difficultés de programmation


Distance entre l'objectif et la réalisation

Discussion

ce qu'on a réalisé

Améliorations possibles


Liens

Lien vers notre projet