« Japonais » : différence entre les versions
De GBLL, TAL, ALAO, etc.
Aucun résumé des modifications |
|||
Ligne 14 : | Ligne 14 : | ||
* Lexique de [[Jumandic]] ([https://salsa.debian.org/nlp-ja-team/mecab-jumandic code ici]) | * Lexique de [[Jumandic]] ([https://salsa.debian.org/nlp-ja-team/mecab-jumandic code ici]) | ||
* [[IPADIC]] | * [[IPADIC]] | ||
* [https://unidic.ninjal.ac.jp/ UniDic] | |||
* [https://dumps.wikimedia.org/jawiki/ Dumps de Japanese Wikipedia] | * [https://dumps.wikimedia.org/jawiki/ Dumps de Japanese Wikipedia] | ||
* Dumps du Japanese Wiktionary ([https://archive.org/details/jawiktionary-20170101 01/2017], [https://archive.org/details/incr-jawiktionary-20200710 07/2020]) | * Dumps du Japanese Wiktionary ([https://archive.org/details/jawiktionary-20170101 01/2017], [https://archive.org/details/incr-jawiktionary-20200710 07/2020]) |
Version du 21 novembre 2020 à 23:07
Analyse morphosyntaxique
- MeCaB (doc en japonais ici, un peu en anglais ici sur la page de Mathieu Mangeot (LIG))
- MeCaB-python3 (Mecab directement pour Python)
- JUMAN
- Jumandic (code ici)
- KyTea
- Spacy (Python)
Ressources lexicales
- JMdict Project (Japanese-English Dictionnary Project)
JMdict is currently distributed in two versions: a basic version in which there are only English glosses, and a full version in which there are glosses included in German (111,000 entries), Russian (77,000), Hungarian (51,000), Spanish (39,000), Italian (38,000), Dutch (29,000), Swedish (16,000), French (15,000) and Slovenian (9,000).
- Jibiki (dictionnaire Cesselin d'origine téléchargeable ici
- Dictionnaires bilingues de RikaiChan (anglais, néerlandais, français, allemand, hongrois, russe)
- Lexique de Jumandic (code ici)
- IPADIC
- UniDic
- Dumps de Japanese Wikipedia
- Dumps du Japanese Wiktionary (01/2017, 07/2020)
- Lexique phonétisé (provenance JMdict)
Corpus de textes
- Les gros corpus de Ninjal, très propres, très gros mais payant (~450€/corpus);
- Corpus Mainichi Shinbun 1995 de l'Université de Kyoto (40 000 phrases);
- Kyoto University Web Document Leads Corpus (15 000 phrases);
- Aozora Bunko (littérature libre de droit ou domaine public);
- Aozora Bunko analysé morphosyntaxiquement (11 176 livres);
- Lien intéressant pour trouver des corpus en japonais;