Différences entre versions de « Cours:TAL & ALAO/2020-2021 »
De GBLL, TAL, ALAO, etc.
< Cours:TAL & ALAO
Ligne 118 : | Ligne 118 : | ||
*:- [https://dumps.wikimedia.org/jawiki/ Dumps de Japanese Wikipedia] | *:- [https://dumps.wikimedia.org/jawiki/ Dumps de Japanese Wikipedia] | ||
*:- Dumps du Japanese Wiktionary ([https://archive.org/details/jawiktionary-20170101 01/2017], [https://archive.org/details/incr-jawiktionary-20200710 07/2020]) | *:- Dumps du Japanese Wiktionary ([https://archive.org/details/jawiktionary-20170101 01/2017], [https://archive.org/details/incr-jawiktionary-20200710 07/2020]) | ||
− | *:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/lexiques-phonetises Lexique phonétisé] (provenance | + | *:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/lexiques-phonetises Lexique phonétisé] (provenance [http://www.edrdg.org/jmdict/edict_doc.html JMdict]) |
* Mandarin : | * Mandarin : | ||
*:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/lexiques-phonetises Lexique phonétisé] (provenance K3M, contacter [yoann.goudin@univ-grenoble-alpes.fr]) | *:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/lexiques-phonetises Lexique phonétisé] (provenance K3M, contacter [yoann.goudin@univ-grenoble-alpes.fr]) |
Version du 28 octobre 2020 à 17:13
Bienvenue sur la page du cours TAL & ALAO 2020-2021. Nous centraliserons ici tous les liens du Wiki en relation avec ce cours, ainsi que des liens externes pouvant se révéler utiles pour votre formation.
Vous pouvez accéder également à la page du cours de l'année dernière.
Ce cours est géré cette année par Sylvain Coulange (sylvain.coulange@univ-grenoble-alpes.fr).
Planning
15 sept. | Présentation cours, historique ALAO, discussion |
22 sept. | Tour d’horizon d’app pour l’apprentissage des langues (évaluation, discussion) |
29 sept. | Tour d’horizon d’app pour l’apprentissage des langues (mise en commun, présentation, discussion) |
6 oct. | Présentations restantes et discussion sur les applications évaluées |
13 oct. | Tour d’horizon ressources TAL (corpus) + annonce projets possibles |
20 oct. | Tuto Wiki + Tuto GitLab |
26 oct. | (vacances) |
3 nov. | PROJET |
13 nov. | PROJET |
17 nov. | présentation des projets |
Janvier : Rendu projet (code et rapport), date à définir ensemble.
Évaluation
Il y aura deux évaluation pendant le cours :
1.Présentation orale d'une application pour l'apprentissage des langues (20%)
Il s'agit de présenter une appli d'apprentissage des langues de votre choix. Cf. la liste non exhaustive d'appli et les critères pertinents d'évaluation que nous avons choisis ensemble pendant le cours du 15 septembre. Les présentations auront lieu mardi 29 septembre à 15h30.
Les modalité d'évaluation de cette présentation sont les suivantes :
- Profondeur de la documentation (richesse des informations partagées (diversité/précision))
- Qualité de la présentation (clarté de l'exposé, qualité de la diction, clarté des slides) ;
- Qualité de l'esprit critique, de la prise de recul, de la remise en question des choix techniques/pédagogiques de l'application.
2.Projet de fin de semestre (80%)
Vous devrez concevoir un module pour une application d'e-learning d'une langue étrangère ou maternelle. Votre module doit exploiter une ressource TAL (corpus audio/écrit, web scraping, analyse de productions d'étudiants audio/écrit etc.), dans un but pédagogique clairement définit. Il pourra s'intégrer à une application d'e-learning existante ou inventée de toute pièce. L'objectif, c'est d'identifier un BESOIN (d'apprenant/d'enseignant/d'institution), et de proposer une solution, ou une piste de solution adaptée. Votre module pourra se limiter à un prototype, mais devra fonctionner. Vous pouvez l'accompagner d'une interface graphique mais ce n'est pas obligé.
Ce projet peut être combiné avec le projet de Python ou celui de Java.
Détails des rendus :
- Le module de TAL fonctionnel (code, et url le cas échéant) (30%);
- Une présentation de votre projet (10~15 minutes) (20%);
- Un rapport rédigé sur ce Wiki contenant:
- Une présentation du projet global dans lequel s'intègre votre travail (de quel type d'appli est-il question ? Pour quels besoins, quels publics, quelles modalités etc.), quels apports potentiels du TAL et la problématique à laquelle vous tenterez de répondre avec votre module ;
- Une présentation de votre travail et de sa place dans le projet global ;
- Une présentation de votre solution (ressources utilisées, fonctionnement) ;
- Une prise de recul par rapport à la solution que vous proposez (prolongements possibles, évaluation possible, distance entre l'objectif et la réalisation...) ;
- Une bibliographie (courte, que des textes que vous utilisez).
Voici le planning du projet :
- 13 octobre : présentation de sujets possibles (vous restez libres de choisir autre chose) ;
- 20 octobre : deadline pour choisir votre projet ;
- 17 novembre : présentation orale de votre travail ;
- début janvier : rendu code et rapport, date à définir ensemble.
Cours
Télécharger le Fichier:Cours TALALAO 2020-2021.pdf.
Quelques corpus & ressources TAL intéressantes
Il s'agit juste d'une liste très peu exhaustive de ce qu'on peut trouver sur internet.
- [ORTOLANG], mine d'or pour les corpus francophones mais pas seulement (472 ressources, 8,3 To de données, langue écrite, orale et signée);
- [ORFEO], Corpus d'Etude pour le Français Contemporain (CEFC) oral:450h, 2500locuteurs ; écrit:6millions de mots. Très diversifié ;
- [88milSMS], +88 000 sms récoltés à Montpellier en 2011 ;
- [GeoPo], articles géopolitiques 270 000 mots ;
- [Quelques lexiques phonétisés], plusieurs langues, origines diverses ;
- [LEFFF], lexique de formes fléchies du français...
Utilisation de Git et GitLab
Édition du Wiki
Cf. Accueil de ce wiki.
Lien vers la dernière formation Wiki : Aide:Formations “Wiki”/2017.
Projets
Comme tous les ans, voici des suggestions de projets, ou des pistes proposées par des collègues enseignants de langue :
- Projets:Accentuation en espagnol
- Projets:Jeu pour apprendre l'alphabet cyrillique
- Projets:Consultation de dictionnaire par entrée phonologique
- Projets:Jeu pour apprendre les prépositions de mouvement en russe
- Projets:Découpeur automatique de groupes de sens (chunker)
- Projets:MagicWord/Gestion des lexiques/API Accès lexique externe
Ressources TAL intéressantes
Analyse morphosyntaxique
- Spacy (Python) (Chinese, Danish, Dutch, English, French, German, Greek, Italian, Japanese, Lithuanian, Norwegian Bokmål, Polish, Portuguese, Romanian, Spanish, Multi-language)
- Mandarin :
- - HanLP (Java), et un exemple d'utilisation de HanLP pour ajouter le pinyin sur du texte en mandarin
- Japonais :
- - MeCaB (doc en japonais ici, un peu en anglais ici sur la page de Mathieu Mangeot (LIG))
- - Jumandic (code ici)
- Allemand :
- - Splitter automatique de mots composés (demande un dictionnaire)
Ressources lexicales
- Japonais :
- - JMdict Project (Japanese-English Dictionnary Project)
- - JMdict Project (Japanese-English Dictionnary Project)
JMdict is currently distributed in two versions: a basic version in which there are only English glosses, and a full version in which there are glosses included in German (111,000 entries), Russian (77,000), Hungarian (51,000), Spanish (39,000), Italian (38,000), Dutch (29,000), Swedish (16,000), French (15,000) and Slovenian (9,000).
- - Jibiki (dictionnaire Cesselin d'origine téléchargeable ici
- - Dictionnaires bilingues de RikaiChan (anglais, néerlandais, français, allemand, hongrois, russe)
- - Lexique de Jumandic (code ici)
- - IPADIC
- - Dumps de Japanese Wikipedia
- - Dumps du Japanese Wiktionary (01/2017, 07/2020)
- - Lexique phonétisé (provenance JMdict)
- Mandarin :
- - Lexique phonétisé (provenance K3M, contacter [yoann.goudin@univ-grenoble-alpes.fr])
- Coréen :
- - Lexique phonétisé (provenance K3M, contacter [yoann.goudin@univ-grenoble-alpes.fr])
- Taïwanais :
- - Lexique phonétisé (provenance K3M, contacter [yoann.goudin@univ-grenoble-alpes.fr])
- Anglais :
- - WikiPhon, lexique extrait du Wiktionary (100 524 transcriptions phonétiques pour 58 038 mots, multiorigine (US, UK, CA, NZ, indiqué pour chaque transcription))
- - The CMU Pronouncing Dictionary (113 437 mots)
- Français :
- - WikiPhon, lexique extrait du Wiktionnaire (1 414 635 mots)
- - Lexique.org v381 (142 691 mots)
- Allemand :
Autres Ressources
- Allemand :
- Japonais :
- - Les gros corpus de Ninjal, très propres, très gros mais payant (~450€/corpus);
- - Corpus Mainichi Shinbun 1995 de l'Université de Kyoto (40 000 phrases);
- - Kyoto University Web Document Leads Corpus (15 000 phrases);
- - Aozora Bunko (littérature libre de droit ou domaine public);
- - Aozora Bunko analysé morphosyntaxiquement (11 176 livres);
- - Lien intéressant pour trouver des corpus en japonais;