« Japonais » : différence entre les versions
De GBLL, TAL, ALAO, etc.
Aucun résumé des modifications |
|||
Ligne 1 : | Ligne 1 : | ||
== Analyse morphosyntaxique == | == Analyse morphosyntaxique == | ||
* [[MeCaB]] | * [[MeCaB]] | ||
* [https://pypi.org/project/mecab-python3/ MeCaB-python3] (Mecab directement pour Python) | * [https://pypi.org/project/mecab-python3/ MeCaB-python3] (Mecab directement pour Python) | ||
* [http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?JUMAN JUMAN] | * [http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?JUMAN JUMAN] | ||
Ligne 6 : | Ligne 6 : | ||
* [http://www.phontron.com/kytea/ KyTea (python)] | * [http://www.phontron.com/kytea/ KyTea (python)] | ||
* [https://pypi.org/project/Janome/ Janome (python)] | * [https://pypi.org/project/Janome/ Janome (python)] | ||
* [https://spacy.io/ Spacy (Python)] | * [https://spacy.io/ Spacy (Python)] | ||
== Ressources lexicales == | == Ressources lexicales == |
Version du 7 février 2021 à 11:45
Analyse morphosyntaxique
- MeCaB
- MeCaB-python3 (Mecab directement pour Python)
- JUMAN
- Jumandic (code ici)
- KyTea (python)
- Janome (python)
- Spacy (Python)
Ressources lexicales
- JMdict Project (Japanese-English Dictionnary Project)
JMdict is currently distributed in two versions: a basic version in which there are only English glosses, and a full version in which there are glosses included in German (111,000 entries), Russian (77,000), Hungarian (51,000), Spanish (39,000), Italian (38,000), Dutch (29,000), Swedish (16,000), French (15,000) and Slovenian (9,000).
- Jibiki (dictionnaire Cesselin d'origine téléchargeable ici
- Dictionnaires bilingues de RikaiChan (anglais, néerlandais, français, allemand, hongrois, russe)
- Lexique de Jumandic (code ici)
- IPADIC
- UniDic
- Dumps de Japanese Wikipedia
- Dumps du Japanese Wiktionary (01/2017, 07/2020)
- Lexique phonétisé (provenance JMdict)
Corpus de textes
- Les gros corpus de Ninjal, très propres, très gros mais payant (~450€/corpus);
- Corpus Mainichi Shinbun 1995 de l'Université de Kyoto (40 000 phrases);
- Kyoto University Web Document Leads Corpus (15 000 phrases);
- Aozora Bunko (littérature libre de droit ou domaine public);
- Aozora Bunko analysé morphosyntaxiquement (11 176 livres);
- Lien intéressant pour trouver des corpus en japonais;