Actions

Projets

« SavoirConjuguer » : différence entre les versions

De GBLL, TAL, ALAO, etc.

Wdeng (discussion | contributions)
Wdeng (discussion | contributions)
Ligne 41 : Ligne 41 :


Nous avons utilisé Python pour scraper les transcriptions de Podcast ''La Transition'' de France Culture <ref>[https://www.franceculture.fr/emissions/la-transition/ La Transition de France Culture]</ref> et construire un corpus pour notre projet.<br>
Nous avons utilisé Python pour scraper les transcriptions de Podcast ''La Transition'' de France Culture <ref>[https://www.franceculture.fr/emissions/la-transition/ La Transition de France Culture]</ref> et construire un corpus pour notre projet.<br>
Le web scraping consiste en deux étapes. La première étape est de récupérer les liens des épisodes en utlisant la librairie BeautifulSoup. Le code se trouve dans ''franceculture_url.py''.  
Le web scraping consiste en deux étapes. La première étape est de récupérer les liens des épisodes en utlisant la librairie BeautifulSoup. Le code se trouve dans ''franceculture_url.py''. <br>
Ensuite, nous avons récupéré le contenu de chaque transcription et l'enregistrer dans un fichier txt. Le code se trouve dans ''franceculture_articles.py''. Pour faciliter le traitement du corpus en Java, nous avons supprimé les balises et les liens inutiles dans le corpus.  
Ensuite, nous avons récupéré le contenu de chaque transcription et l'enregistrer dans un fichier txt. Le code se trouve dans ''franceculture_articles.py''. Pour faciliter le traitement du corpus en Java, nous avons supprimé les balises et les liens inutiles dans le corpus. <br>
Enfin, nous avons un corpus qui contient 83 textes. Pour chaque texte, il y a environ 4000 mots.
Enfin, nous avons un corpus qui contient 83 textes. Pour chaque texte, il y a environ 4000 mots.<br>


===Java===
===Java===

Version du 4 janvier 2021 à 18:22

< M2 IdL — TAL & ALAO/2020-2021

Projet réalisé par Wenjing DENG et Ziyi TONG

Introduction

SavoirConjuguer est un programme pédagogique ayant pour but de générer des exercices de conjugaison automatiquement à partir d'un corpus choisi.

Problématique

La conjugaison est l'une des caractéristiques les plus importantes de la langue française. Masculin, féminin, singulier, pluriel, les accords du temps... les verbes français ont des formes très spéciaux et variés selon le contexte de textes, ce qui rendent le vocabulaire français plus riche mais aussi plus compliqué à apprendre. Savoir conjuguer est le premier pas pour apprendre le français. Il est donc nécessaire de disposer d'un outil pédagogique qui puisse générer automatiquement les exercices afin de permettre les apprenants du français de pratiquer la conjugaison.

Présentation de notre projet


Type d’exercice choisi


Ressources

Corpus


Corpus extrait de France Culture
Pour le corpus, nous avons choisi les transcriptions de l’émission La Transition de France Culture parce qu’il y a plus de variations du verbe par rapport aux autres émissions et aux autres journaux. Ce corpus contient 83 textes et environ 4000 mots pour chaque texte. De ce point de vue, cet outil est flexible parce que l’utilisateur peut remplace ce corpus de France Culture par d’autre corpus qu’il préfère.


Corpus ABU
Etant donné que CoreNLP ne propose pas de lemmatisation pour le français, nous avons du trouver une alternative pour récupérer les lemmes. Nous avons donc choisi le corpus ABU qui contient les verbes et leur conjugaison.


Bibliothèques

Fonctionnalités


Python

Nous avons utilisé Python pour scraper les transcriptions de Podcast La Transition de France Culture [1] et construire un corpus pour notre projet.
Le web scraping consiste en deux étapes. La première étape est de récupérer les liens des épisodes en utlisant la librairie BeautifulSoup. Le code se trouve dans franceculture_url.py.
Ensuite, nous avons récupéré le contenu de chaque transcription et l'enregistrer dans un fichier txt. Le code se trouve dans franceculture_articles.py. Pour faciliter le traitement du corpus en Java, nous avons supprimé les balises et les liens inutiles dans le corpus.
Enfin, nous avons un corpus qui contient 83 textes. Pour chaque texte, il y a environ 4000 mots.

Java


Génération de textes à trous

  • POS
  • Lemmatisation


Scores

Affichage

Problèmes


Difficultés de programmation


Distance entre l'objectif et la réalisation

Discussion

ce qu'on a réalisé

Améliorations possibles


Liens

Lien vers notre projet