Actions

Cours

Différences entre versions de « Cours:TAL & ALAO/2020-2021 »

De GBLL, TAL, ALAO, etc.

< Cours:TAL & ALAO
Ligne 70 : Ligne 70 :
  
 
=== Quelques corpus & ressources TAL intéressantes ===
 
=== Quelques corpus & ressources TAL intéressantes ===
Il s'agit juste d'une liste très peu exhaustive de ce qu'on peut trouver sur internet.
+
[[Ressources:Ressources TAL par langue]]
 
 
* [[https://www.ortolang.fr/ ORTOLANG]], mine d'or pour les corpus francophones mais pas seulement (472 ressources, 8,3 To de données, langue écrite, orale et signée);
 
* [[https://repository.ortolang.fr/api/content/cefc-orfeo/10/documentation/site-orfeo/index.html ORFEO]], Corpus d'Etude pour le Français Contemporain (CEFC) oral:450h, 2500locuteurs ; écrit:6millions de mots. Très diversifié ;
 
* [[http://88milsms.huma-num.fr/index.html 88milSMS]], +88 000 sms récoltés à Montpellier en 2011 ;
 
* [[http://redac.univ-tlse2.fr/corpus/geopo.html GeoPo]], articles géopolitiques 270 000 mots ;
 
* [[https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/lexiques-phonetises Quelques lexiques phonétisés]], plusieurs langues, origines diverses ;
 
* [[https://www.labri.fr/perso/clement/lefff/ LEFFF]], lexique de formes fléchies du français...
 
  
 
=== Utilisation de Git et GitLab ===
 
=== Utilisation de Git et GitLab ===
Ligne 95 : Ligne 88 :
 
* [[Projets:Découpeur automatique de groupes de sens (chunker)]]
 
* [[Projets:Découpeur automatique de groupes de sens (chunker)]]
 
* [[Projets:MagicWord/Gestion des lexiques/API Accès lexique externe]]
 
* [[Projets:MagicWord/Gestion des lexiques/API Accès lexique externe]]
 
+
* [[Projets:SELF diagnostic de la production écrite]]
== Ressources TAL intéressantes ==
 
 
 
=== Analyse morphosyntaxique ===
 
* [https://spacy.io/ Spacy (Python)] (Chinese, Danish, Dutch, English, French, German, Greek, Italian, Japanese, Lithuanian, Norwegian Bokmål, Polish, Portuguese, Romanian, Spanish, Multi-language)
 
* Mandarin :
 
*:- [https://mvnrepository.com/artifact/com.hankcs/hanlp HanLP (Java)], et [[HanLP|un exemple]] d'utilisation de HanLP pour ajouter le pinyin sur du texte en mandarin
 
* Japonais :
 
*:- MeCaB ([https://taku910.github.io/mecab/ doc en japonais ici], un peu [https://totoro.imag.fr/~mangeot/morphan-php.en.html en anglais ici] sur la page de Mathieu Mangeot (LIG))
 
*:- [[Jumandic]] ([https://salsa.debian.org/nlp-ja-team/mecab-jumandic code ici])
 
* Allemand :
 
*:- [https://github.com/mariondimarco/SimpleCompoundSplitting Splitter automatique de mots composés] (demande un dictionnaire)
 
 
 
=== Ressources lexicales ===
 
* Japonais :
 
*:- [http://www.edrdg.org/jmdict/edict_doc.html JMdict Project] (Japanese-English Dictionnary Project)<br/>
 
''JMdict is currently distributed in two versions: a basic version in which there are only English glosses, and a full version in which there are glosses included in German (111,000 entries), Russian (77,000), Hungarian (51,000), Spanish (39,000), Italian (38,000), Dutch (29,000), Swedish (16,000), French (15,000) and Slovenian (9,000).''
 
*:- [https://jibiki.fr/ Jibiki] (dictionnaire Cesselin d'origine [https://jibiki.fr/data/Cesselin/cesselin_jpn_fra.xml.gz téléchargeable ici]
 
*:- Dictionnaires bilingues de [https://www.polarcloud.com/getrcx/ RikaiChan] (anglais, néerlandais, français, allemand, hongrois, russe)
 
*:- Lexique de [[Jumandic]] ([https://salsa.debian.org/nlp-ja-team/mecab-jumandic code ici])
 
*:- [[IPADIC]]
 
*:- [https://dumps.wikimedia.org/jawiki/ Dumps de Japanese Wikipedia]
 
*:- Dumps du Japanese Wiktionary ([https://archive.org/details/jawiktionary-20170101 01/2017], [https://archive.org/details/incr-jawiktionary-20200710 07/2020])
 
*:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/lexiques-phonetises Lexique phonétisé] (provenance [http://www.edrdg.org/jmdict/edict_doc.html JMdict])
 
* Mandarin :
 
*:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/lexiques-phonetises Lexique phonétisé] (provenance K3M, contacter [yoann.goudin@univ-grenoble-alpes.fr])
 
* Coréen :
 
*:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/lexiques-phonetises Lexique phonétisé] (provenance K3M, contacter [yoann.goudin@univ-grenoble-alpes.fr])
 
* Taïwanais :
 
*:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/lexiques-phonetises Lexique phonétisé] (provenance K3M, contacter [yoann.goudin@univ-grenoble-alpes.fr])
 
* Anglais :
 
*:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/wikiphon WikiPhon], lexique extrait du Wiktionary (100 524 transcriptions phonétiques pour 58 038 mots, multiorigine (US, UK, CA, NZ, indiqué pour chaque transcription))
 
*:- [http://www.speech.cs.cmu.edu/cgi-bin/cmudict The CMU Pronouncing Dictionary] (113 437 mots)
 
* Français :
 
*:- [https://gricad-gitlab.univ-grenoble-alpes.fr/pedagogies-multimodales/wikiphon WikiPhon], lexique extrait du Wiktionnaire (1 414 635 mots)
 
*:- [http://www.lexique.org/ Lexique.org v381] (142 691 mots)
 
* Allemand :
 
*:- [https://github.com/adbar/German-NLP#Word-lists Cf. liste intéressante ici]
 
 
 
== Autres Ressources ==
 
* Allemand :
 
*:- [https://github.com/adbar/German-NLP#Word-lists Cf. liste intéressante ici]
 
* Japonais :
 
*:- [https://www.ninjal.ac.jp/database/type/corpora/ Les gros corpus de Ninjal], très propres, très gros mais payant (~450€/corpus);
 
*:- [https://github.com/ku-nlp/KyotoCorpus Corpus Mainichi Shinbun 1995 de l'Université de Kyoto] (40 000 phrases);
 
*:- [https://github.com/ku-nlp/KWDLC Kyoto University Web Document Leads Corpus] (15 000 phrases);
 
*:- [https://github.com/aozorabunko/aozorabunko Aozora Bunko] (littérature libre de droit ou domaine public);
 
*:- [http://aozora-word.hahasoha.net/index.html Aozora Bunko analysé morphosyntaxiquement] (11 176 livres);
 
*:- [https://lionbridge.ai/ja/datasets/japanese-language-text-datasets/ Lien intéressant] pour trouver des corpus en japonais;
 
* Multilingue (à trier)
 
*:- [https://unitexgramlab.org/fr/language-resources UniTex/GramLab] (ar en fi fr oge de grc el it ko la mg no nn pl pt-BR pt-PT ru sr-Cyrl sr-Latn es th)
 
  
 
[[Catégorie:TALALAO]]
 
[[Catégorie:TALALAO]]

Version du 3 novembre 2020 à 14:01

Bienvenue sur la page du cours TAL & ALAO 2020-2021. Nous centraliserons ici tous les liens du Wiki en relation avec ce cours, ainsi que des liens externes pouvant se révéler utiles pour votre formation.

Vous pouvez accéder également à la page du cours de l'année dernière.


Ce cours est géré cette année par Sylvain Coulange (sylvain.coulange@univ-grenoble-alpes.fr).

Planning

15 sept. Présentation cours, historique ALAO, discussion
22 sept. Tour d’horizon d’app pour l’apprentissage des langues (évaluation, discussion)
29 sept. Tour d’horizon d’app pour l’apprentissage des langues (mise en commun, présentation, discussion)
6 oct. Présentations restantes et discussion sur les applications évaluées
13 oct. Tour d’horizon ressources TAL (corpus) + annonce projets possibles
20 oct. Tuto Wiki + Tuto GitLab
26 oct. (vacances)
3 nov. PROJET
13 nov. PROJET
17 nov. présentation des projets


Janvier : Rendu projet (code et rapport), date à définir ensemble.

Évaluation

Il y aura deux évaluation pendant le cours :

1.Présentation orale d'une application pour l'apprentissage des langues (20%)

Il s'agit de présenter une appli d'apprentissage des langues de votre choix. Cf. la liste non exhaustive d'appli et les critères pertinents d'évaluation que nous avons choisis ensemble pendant le cours du 15 septembre. Les présentations auront lieu mardi 29 septembre à 15h30.

Les modalité d'évaluation de cette présentation sont les suivantes :

    • Profondeur de la documentation (richesse des informations partagées (diversité/précision))
    • Qualité de la présentation (clarté de l'exposé, qualité de la diction, clarté des slides) ;
    • Qualité de l'esprit critique, de la prise de recul, de la remise en question des choix techniques/pédagogiques de l'application.


2.Projet de fin de semestre (80%)

Vous devrez concevoir un module pour une application d'e-learning d'une langue étrangère ou maternelle. Votre module doit exploiter une ressource TAL (corpus audio/écrit, web scraping, analyse de productions d'étudiants audio/écrit etc.), dans un but pédagogique clairement définit. Il pourra s'intégrer à une application d'e-learning existante ou inventée de toute pièce. L'objectif, c'est d'identifier un BESOIN (d'apprenant/d'enseignant/d'institution), et de proposer une solution, ou une piste de solution adaptée. Votre module pourra se limiter à un prototype, mais devra fonctionner. Vous pouvez l'accompagner d'une interface graphique mais ce n'est pas obligé.

Ce projet peut être combiné avec le projet de Python ou celui de Java.

Détails des rendus :

    • Le module de TAL fonctionnel (code, et url le cas échéant) (30%);
    • Une présentation de votre projet (10~15 minutes) (20%);
    • Un rapport rédigé sur ce Wiki contenant:
      • Une présentation du projet global dans lequel s'intègre votre travail (de quel type d'appli est-il question ? Pour quels besoins, quels publics, quelles modalités etc.), quels apports potentiels du TAL et la problématique à laquelle vous tenterez de répondre avec votre module ;
      • Une présentation de votre travail et de sa place dans le projet global ;
      • Une présentation de votre solution (ressources utilisées, fonctionnement) ;
      • Une prise de recul par rapport à la solution que vous proposez (prolongements possibles, évaluation possible, distance entre l'objectif et la réalisation...) ;
      • Une bibliographie (courte, que des textes que vous utilisez).

Voici le planning du projet :

    • 13 octobre : présentation de sujets possibles (vous restez libres de choisir autre chose) ;
    • 20 octobre : deadline pour choisir votre projet ;
    • 17 novembre : présentation orale de votre travail ;
    • début janvier : rendu code et rapport, date à définir ensemble.

Cours

Télécharger le Fichier:Cours TALALAO 2020-2021.pdf.

Quelques corpus & ressources TAL intéressantes

Ressources:Ressources TAL par langue

Utilisation de Git et GitLab

Versioning avec Git

Édition du Wiki

Cf. Accueil de ce wiki.

Lien vers la dernière formation Wiki : Aide:Formations “Wiki”/2017.

Projets

Comme tous les ans, voici des suggestions de projets, ou des pistes proposées par des collègues enseignants de langue :