Actions

Projets

SELF/Évaluation de la production écrite française

De GBLL, TAL, ALAO, etc.

< Projets:SELF

Projet réalisé par Océane GIROUD et Célia MARTIN

< M2 IdL — TAL & ALAO/2020-2021

Contexte


Le prototype que nous allons créer s’inscrit dans le projet Innovalangue dont le but est de trouver des solutions innovantes pour apprendre et enseigner les langues. Dans ce projet général, notre travail s’inscrira plus précisément dans le projet SELF (Système d’Évaluation en Langues à visée Formative) qui vise à évaluer les productions écrites des apprenants (ici des apprenants en français). Dans ce contexte, nous voudrions proposer un prototype développé en Java qui permettrait de calculer différents scores pour donner une idée de la production écrite de l’étudiant (sur un texte court de deux ou trois phrases).

Présentation du projet


Ce projet s'inscrit dans le cadre des cours TAL&ALAO et JAVA.
Ce prototype en Java permettra de calculer différents scores pour donner une idée de la production écrite de l'apprenant sur un court texte. Les évaluations se feront au niveau syntaxique majoritairement. Pour provoquer la production écrite des apprenants, nous proposons différents exercices tels que la production écrite d'un texte à partir d'une image ou la rédaction d'un court énoncé au passé-composé.
Cet outil sera utilisé par les enseignants pour avoir une idée du niveau de production écrite des apprenants selon leurs niveaux. Notre outil conviendra surtout aux apprenants débutants de niveaux A1-A2 du CECRL (Cadre Européen Commun de Compétences). Avant le projet SELF, les tests positionnants et/ou certifiants étaient évalués manuellement. Le TAL à donc permis l'automatisation de l'évaluation. Mais les exercices actuels n'utilisent que des exercices à choix multiples qui sont donc influencés par la compréhension du texte écrit. C'est pourquoi, nous proposons d'évaluer la production écrite libre d'un apprenant.
A l'aide de notre module, nous tenterons de répondre à la question suivante : le TAL peut-il apporter une aide dans l’évaluation de la production de l’écrit des nouveaux apprenants en français ?

Ressources


  • Langage de programmation : Java
  • Bibliothèque : CoreNLP



Fonctionnalités


Interface pour les utilisateurs


  • Exercices sur une page : envoi des réponses mais résultats invisibles pour l’étudiant.
  • Résultats sur une autre page : visible par le chercheur.


Nous ne pensons pas avoir le temps d'effectuer une interface graphique en Java.

Étapes pour la réalisation du projet


Analyse sur le mot :

  • Tokenisation : à l'aide de la bibliothèque CoreNLP.
  • Vérifier la présence du mot dans un dictionnaire : s’il n’est pas présent, on a peut-être une erreur. Ressource : lexique3.

Si le mot n’existe pas soit on a une erreur : quel type ? Soit c’est un mot inventé : calque sur la langue ou autre ?

Analyse sur la phrase :

  • Richesse lexicale : il y a deux types de richesse lexicale (quotient lemmes / occurrences et quotient hapax / lemmes) qui seront intégrées à une classe java (une classe Phrase).

CONTINUER A REMPLIR

Réflexions et problèmes rencontrés


Évaluations


Évaluations envisagées

  • Précision orthographique, grammaticale et lexicale : distance de Levenshtein (peut donner des informations sur l’accentuation graphique). Mais finalement nous nous sommes rendues compte que ce calcul était peu efficace dans notre cas, il faudrait passer par la forme phonétique d'un mot avant pour faire un premier tri, nous n'avons pas le temps nécessaire pour cela.
  • Types d’erreurs : accords, syntaxe, mots oubliés, erreurs de genre etc. C'est une tâche trop complexe pour le temps imparti.


Évaluations retenues


Nous allons concentrer nos évaluations au niveau syntaxique. Il n'y aura que très peu d'évaluation morphologique (cohérence lexicale).

  • Cohérence lexicale : vérifier si les mots existent.
  • Richesse lexicale : lister les lemmes et enlever les doublons (les doublons permettent de voir cela).
  • Richesse grammaticale : : proportion de verbes / adjectifs par exemple.
  • Nombre de lemme.
  • Est-ce que le mot est fréquent ?
  • Quelles sont les répétitions ?
  • La longueur des mots, des phrases.
  • Les catégories des mots.
  • Voir si un groupe nominal a le même accord sur toutes les parties : voir si on a les mêmes étiquettes de genre pour tout le GN.
  • Liste de mots non-reconnus : sortir cette liste pour que l’apprenant puisse les voir et regarder pourquoi ces mots sont apparus.


S'il nous reste du temps:
  • Fluence de saisie : enregistrement de la saisir uniquement lors des corrections (suppression, ajout, etc.).
  • Précision orthographique : avoir une image permet de donner des références par rapport à celle-ci (il y a un chat noir : on aura des références comme chat et noir ou une liste de mots qui sont censés apparaître).
  • Cohérence grammaticale en utilisant CoreNLP (analyse en dépendance).


Exercices


L'idée est de trouver des exercices qui permettent d'avoir une production à la fois courte et spontanée de la part de l'apprenant, mais qui soit assez restreinte pour ne pas avoir trop de variabilité dans les réponses.

Idées non retenues


Idées d'exercices pour provoquer la production de l'apprenant :

  • "Résumer votre journée en une phrase" : l'énoncé est trop vague, il y aura une variabilité très forte d'un exercice à l'autre, il faut donc davantage cadrer la réponse.

Ce qu'on a gardé


Voici des exercices pour provoquer la production de l'apprenant :

Niveau morphologique (pour la production de mots) :
  • Donner un sujet sur lequel il peut écrire librement : Écrire un nombre (approximatifs) de caractères à partir d’une image.
  • Textes à trous (pour se focaliser sur l’orthographe, accentuation etc.)


Niveau syntaxique (pour la production de phrases) :
  • Demander à l’apprenant d’écrire une phrase au passé-composé ou au pluriel (par exemple) : pour vérifier le temps ou voir pourquoi l’apprenant s’est trompé.
  • Donner un sujet sur lequel il peut écrire librement : Écrire un nombre (approximatifs) de caractères à partir d’une image.
  • Questions sur une image si on veut des réponses plus ciblées : que fait le chien sur cette photo ?
  • Exercices de transformation de phrase : passer une phrase au passé, au pluriel etc. ou décrire une image en imposant un temps.
  • S'inspirer du questionnaire de PROUST


Problèmes rencontrés :


  • Projet très vaste : se focaliser sur certains calculs car nous n’avons pas le temps nécessaire pour tout réaliser. Nous ne savions pas quelles évaluations prioriser.



Prise de recul par rapport aux solutions


Prolongements possibles, évaluation possible, distance entre l'objectif et la réalisation...

Bibliographie


Questionnaire de PROUST