MeCaB
De GBLL, TAL, ALAO, etc.
Installation
- pour Windows : mecab-0.996.exe
- pour Linux :
git clone https://github.com/taku910/mecab.git
cd mecab/mecab/
./configure –with-charset=utf-8 –enable-utf8-only
make
sudo make install
sudo ldconfig
cd ../mecab-ipadic/
./configure –with-charset=utf-8 –enable-utf8-only
make
sudo make install
Concernant la tokénisation et le calcul des fréquences
Formatage de la sortie
https://taku910.github.io/mecab/format.html
Exemple de commande spécifiant le formatage : $ echo 位を継承|mecab -F"%m,%phl,%phr,%pb,%pw,%pc,%pn\n"
| %s | 形態素種類 (0: 通常, 1: 未知語, 2:文頭, 3:文末) |
|---|---|
| %S | 入力文 |
| %L | 入力文の長さ |
| %m | 形態素の表層文字列 |
| %M | 形態素の表層文字列, ただし空白文字も含めて出力 (%pS を参照のこと) |
| %h | 素性の内部 ID |
| %% | % そのもの |
| %c | 単語生起コスト |
| %H | 素性 (品詞, 活用, 読み) 等を CSV で表現したもの |
| %t | 文字種 id |
| %P | 周辺確率 (-l2 オプションを指定したときのみ有効) |
| %pi | 形態素に付与されるユニークなID |
| %pS | もし形態素が空白文字列で始まる場合は, その空白文字列を表示 %pS%m と %M は同一 |
| %ps | 開始位置 |
| %pe | 終了位置 |
| %pC | 1つ前の形態素との連接コスト |
| %pw | %c と同じ |
| %pc | 連接コスト + 単語生起コスト (文頭から累積) |
| %pn | 連接コスト + 単語生起コスト (その形態素単独, %pw + %pC) |
| %pb | 最適パスの場合 *, それ以外は ' ' |
| %pP | 周辺確率 (-l2 オプションを指定したときのみ有効) |
| %pA | blpha, forward log 確率 (-l2 オプションを指定したときのみ有効) |
| %pB | beta, backward log 確率 (-l2 オプションを指定したときのみ有効) |
| %pl | 形態素の表層文字列としての長さ, strlen (%m) と同一 |
| %pL | 形態素の表層文字列としての長さ, ただし空白文字列も含む, strlen(%M) と同一 |
| %phl | 左文脈 id |
| %phr | 右文脈 id |
| %f[N] | csv で表記された素性の N番目の要素 |
| %f[N1,N2,N3...] | N1,N2,N3番目の素性を, "," を デリミタとして表示 |
| %FC[N1,N2,N3...] | N1,N2,N3番目の素性を, C を デリミタとして表示. ただし, 要素が 空の場合は以降表示が省略される. (例)F-[0,1,2] |
| \0 \a \b \t \n \v \f \r \\ | 通常の エスケープ文字列 |
| \s | ' ' (半角スペース) 設定ファイルに記述するときに使用 |