« MeCaB » : différence entre les versions
De GBLL, TAL, ALAO, etc.
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
== Installation == | == Installation == | ||
* pour Windows : [https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7WElGUGt6ejlpVXc mecab-0.996.exe] | |||
* pour Linux : | * pour Linux : | ||
Ligne 31 : | Ligne 33 : | ||
* [https://kento1109.hatenablog.com/entry/2018/01/24/102322 MeCabのコスト計算を理解する] | * [https://kento1109.hatenablog.com/entry/2018/01/24/102322 MeCabのコスト計算を理解する] | ||
* [http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html 日本テレビ東京で学ぶMeCabのコスト計算] | * [http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html 日本テレビ東京で学ぶMeCabのコスト計算] | ||
== Formatage de la sortie == | |||
{| class="wikitable" | |||
|- | |||
! %s | |||
! 形態素種類 (0: 通常, 1: 未知語, 2:文頭, 3:文末) | |||
|- | |||
| %S | |||
| 入力文 | |||
|- | |||
| %L | |||
| 入力文の長さ | |||
|- | |||
| %m | |||
| 形態素の表層文字列 | |||
|- | |||
| %M | |||
| 形態素の表層文字列, ただし空白文字も含めて出力 (%pS を参照のこと) | |||
|- | |||
| %h | |||
| 素性の内部 ID | |||
|- | |||
| %% | |||
| % そのもの | |||
|- | |||
| %c | |||
| 単語生起コスト | |||
|- | |||
| %H | |||
| 素性 (品詞, 活用, 読み) 等を CSV で表現したもの | |||
|- | |||
| %t | |||
| 文字種 id | |||
|- | |||
| %P | |||
| 周辺確率 (-l2 オプションを指定したときのみ有効) | |||
|- | |||
| %pi | |||
| 形態素に付与されるユニークなID | |||
|- | |||
| %pS | |||
| もし形態素が空白文字列で始まる場合は, その空白文字列を表示 %pS%m と %M は同一 | |||
|- | |||
| %ps | |||
| 開始位置 | |||
|- | |||
| %pe | |||
| 終了位置 | |||
|- | |||
| %pC | |||
| 1つ前の形態素との連接コスト | |||
|- | |||
| %pw | |||
| %c と同じ | |||
|- | |||
| %pc | |||
| 連接コスト + 単語生起コスト (文頭から累積) | |||
|- | |||
| %pn | |||
| 連接コスト + 単語生起コスト (その形態素単独, %pw + %pC) | |||
|- | |||
| %pb | |||
| 最適パスの場合 *, それ以外は ' ' | |||
|- | |||
| %pP | |||
| 周辺確率 (-l2 オプションを指定したときのみ有効) | |||
|- | |||
| %pA | |||
| blpha, forward log 確率 (-l2 オプションを指定したときのみ有効) | |||
|- | |||
| %pB | |||
| beta, backward log 確率 (-l2 オプションを指定したときのみ有効) | |||
|- | |||
| %pl | |||
| 形態素の表層文字列としての長さ, strlen (%m) と同一 | |||
|- | |||
| %pL | |||
| 形態素の表層文字列としての長さ, ただし空白文字列も含む, strlen(%M) と同一 | |||
|- | |||
| %phl | |||
| 左文脈 id | |||
|- | |||
| %phr | |||
| 右文脈 id | |||
|- | |||
| %f[N] | |||
| csv で表記された素性の N番目の要素 | |||
|- | |||
| %f[N1,N2,N3...] | |||
| N1,N2,N3番目の素性を, "," を デリミタとして表示 | |||
|- | |||
| %FC[N1,N2,N3...] | |||
| N1,N2,N3番目の素性を, C を デリミタとして表示.<br /> ただし, 要素が 空の場合は以降表示が省略される. (例)F-[0,1,2] | |||
|- | |||
| \0 \a \b \t \n \v \f \r \\ | |||
| 通常の エスケープ文字列 | |||
|- | |||
| \s | |||
| ' ' (半角スペース)<br /> 設定ファイルに記述するときに使用 | |||
|} |
Version du 11 novembre 2020 à 23:43
Installation
- pour Windows : mecab-0.996.exe
- pour Linux :
git clone https://github.com/taku910/mecab.git
cd mecab/mecab/
./configure –with-charset=utf-8 –enable-utf8-only
make
sudo make install
sudo ldconfig
cd ../mecab-ipadic/
./configure –with-charset=utf-8 –enable-utf8-only
make
sudo make install
Concernant la tokénisation et le calcul des fréquences
Formatage de la sortie
%s | 形態素種類 (0: 通常, 1: 未知語, 2:文頭, 3:文末) |
---|---|
%S | 入力文 |
%L | 入力文の長さ |
%m | 形態素の表層文字列 |
%M | 形態素の表層文字列, ただし空白文字も含めて出力 (%pS を参照のこと) |
%h | 素性の内部 ID |
%% | % そのもの |
%c | 単語生起コスト |
%H | 素性 (品詞, 活用, 読み) 等を CSV で表現したもの |
%t | 文字種 id |
%P | 周辺確率 (-l2 オプションを指定したときのみ有効) |
%pi | 形態素に付与されるユニークなID |
%pS | もし形態素が空白文字列で始まる場合は, その空白文字列を表示 %pS%m と %M は同一 |
%ps | 開始位置 |
%pe | 終了位置 |
%pC | 1つ前の形態素との連接コスト |
%pw | %c と同じ |
%pc | 連接コスト + 単語生起コスト (文頭から累積) |
%pn | 連接コスト + 単語生起コスト (その形態素単独, %pw + %pC) |
%pb | 最適パスの場合 *, それ以外は ' ' |
%pP | 周辺確率 (-l2 オプションを指定したときのみ有効) |
%pA | blpha, forward log 確率 (-l2 オプションを指定したときのみ有効) |
%pB | beta, backward log 確率 (-l2 オプションを指定したときのみ有効) |
%pl | 形態素の表層文字列としての長さ, strlen (%m) と同一 |
%pL | 形態素の表層文字列としての長さ, ただし空白文字列も含む, strlen(%M) と同一 |
%phl | 左文脈 id |
%phr | 右文脈 id |
%f[N] | csv で表記された素性の N番目の要素 |
%f[N1,N2,N3...] | N1,N2,N3番目の素性を, "," を デリミタとして表示 |
%FC[N1,N2,N3...] | N1,N2,N3番目の素性を, C を デリミタとして表示. ただし, 要素が 空の場合は以降表示が省略される. (例)F-[0,1,2] |
\0 \a \b \t \n \v \f \r \\ | 通常の エスケープ文字列 |
\s | ' ' (半角スペース) 設定ファイルに記述するときに使用 |