« Japonais » : différence entre les versions
De GBLL, TAL, ALAO, etc.
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
== Analyse morphosyntaxique == | == Analyse morphosyntaxique == | ||
* MeCaB ([https://taku910.github.io/mecab/ doc en japonais ici], un peu [https://totoro.imag.fr/~mangeot/morphan-php.en.html en anglais ici] sur la page de Mathieu Mangeot (LIG)) | * [[MeCaB]] ([https://taku910.github.io/mecab/ doc en japonais ici], un peu [https://totoro.imag.fr/~mangeot/morphan-php.en.html en anglais ici] sur la page de Mathieu Mangeot (LIG)) | ||
* [https://pypi.org/project/mecab-python3/ MeCaB-python3] (Mecab directement pour Python) | * [https://pypi.org/project/mecab-python3/ MeCaB-python3] (Mecab directement pour Python) | ||
* [[Jumandic]] ([https://salsa.debian.org/nlp-ja-team/mecab-jumandic code ici]) | * [[Jumandic]] ([https://salsa.debian.org/nlp-ja-team/mecab-jumandic code ici]) |
Version du 11 novembre 2020 à 23:34
Analyse morphosyntaxique
- MeCaB (doc en japonais ici, un peu en anglais ici sur la page de Mathieu Mangeot (LIG))
- MeCaB-python3 (Mecab directement pour Python)
- Jumandic (code ici)
- Spacy (Python)
Ressources lexicales
- JMdict Project (Japanese-English Dictionnary Project)
JMdict is currently distributed in two versions: a basic version in which there are only English glosses, and a full version in which there are glosses included in German (111,000 entries), Russian (77,000), Hungarian (51,000), Spanish (39,000), Italian (38,000), Dutch (29,000), Swedish (16,000), French (15,000) and Slovenian (9,000).
- Jibiki (dictionnaire Cesselin d'origine téléchargeable ici
- Dictionnaires bilingues de RikaiChan (anglais, néerlandais, français, allemand, hongrois, russe)
- Lexique de Jumandic (code ici)
- IPADIC
- Dumps de Japanese Wikipedia
- Dumps du Japanese Wiktionary (01/2017, 07/2020)
- Lexique phonétisé (provenance JMdict)
Corpus de textes
- Les gros corpus de Ninjal, très propres, très gros mais payant (~450€/corpus);
- Corpus Mainichi Shinbun 1995 de l'Université de Kyoto (40 000 phrases);
- Kyoto University Web Document Leads Corpus (15 000 phrases);
- Aozora Bunko (littérature libre de droit ou domaine public);
- Aozora Bunko analysé morphosyntaxiquement (11 176 livres);
- Lien intéressant pour trouver des corpus en japonais;