Ressources:Japonais
De GBLL, TAL, ALAO, etc.
Analyse morphosyntaxique
- MeCaB (doc en japonais ici, un peu en anglais ici sur la page de Mathieu Mangeot (LIG))
- MeCaB-python3 (Mecab directement pour Python)
- JUMAN
- Jumandic (code ici)
- KyTea (python)
- Janome (python)
- Spacy (Python)
Ressources lexicales
- JMdict Project (Japanese-English Dictionnary Project)
JMdict is currently distributed in two versions: a basic version in which there are only English glosses, and a full version in which there are glosses included in German (111,000 entries), Russian (77,000), Hungarian (51,000), Spanish (39,000), Italian (38,000), Dutch (29,000), Swedish (16,000), French (15,000) and Slovenian (9,000).
- Jibiki (dictionnaire Cesselin d'origine téléchargeable ici
- Dictionnaires bilingues de RikaiChan (anglais, néerlandais, français, allemand, hongrois, russe)
- Lexique de Jumandic (code ici)
- IPADIC
- UniDic
- Dumps de Japanese Wikipedia
- Dumps du Japanese Wiktionary (01/2017, 07/2020)
- Lexique phonétisé (provenance JMdict)
Corpus de textes
- Les gros corpus de Ninjal, très propres, très gros mais payant (~450€/corpus);
- Corpus Mainichi Shinbun 1995 de l'Université de Kyoto (40 000 phrases);
- Kyoto University Web Document Leads Corpus (15 000 phrases);
- Aozora Bunko (littérature libre de droit ou domaine public);
- Aozora Bunko analysé morphosyntaxiquement (11 176 livres);
- Lien intéressant pour trouver des corpus en japonais;