Actions

« MeCaB » : différence entre les versions

De GBLL, TAL, ALAO, etc.

Aucun résumé des modifications
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
== Installation ==
== Installation ==
* pour Windows : [https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7WElGUGt6ejlpVXc mecab-0.996.exe]


* pour Linux :
* pour Linux :
Ligne 31 : Ligne 33 :
* [https://kento1109.hatenablog.com/entry/2018/01/24/102322 MeCabのコスト計算を理解する]
* [https://kento1109.hatenablog.com/entry/2018/01/24/102322 MeCabのコスト計算を理解する]
* [http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html 日本テレビ東京で学ぶMeCabのコスト計算]
* [http://www.mwsoft.jp/programming/munou/mecab_nitteretou.html 日本テレビ東京で学ぶMeCabのコスト計算]
== Formatage de la sortie ==
{| class="wikitable"
|-
! %s
! 形態素種類 (0: 通常, 1: 未知語, 2:文頭, 3:文末)
|-
| %S
| 入力文
|-
| %L
| 入力文の長さ
|-
| %m
| 形態素の表層文字列
|-
| %M
| 形態素の表層文字列, ただし空白文字も含めて出力 (%pS を参照のこと)
|-
| %h
| 素性の内部 ID
|-
| %%
| % そのもの
|-
| %c
| 単語生起コスト
|-
| %H
| 素性 (品詞, 活用, 読み) 等を CSV で表現したもの
|-
| %t
| 文字種 id
|-
| %P
| 周辺確率 (-l2 オプションを指定したときのみ有効)
|-
| %pi
| 形態素に付与されるユニークなID
|-
| %pS
| もし形態素が空白文字列で始まる場合は, その空白文字列を表示 %pS%m と %M は同一
|-
| %ps
| 開始位置
|-
| %pe
| 終了位置
|-
| %pC
| 1つ前の形態素との連接コスト
|-
| %pw
| %c と同じ
|-
| %pc
| 連接コスト + 単語生起コスト (文頭から累積)
|-
| %pn
| 連接コスト + 単語生起コスト (その形態素単独, %pw + %pC)
|-
| %pb
| 最適パスの場合 *, それ以外は ' '
|-
| %pP
| 周辺確率 (-l2 オプションを指定したときのみ有効)
|-
| %pA
| blpha, forward log 確率 (-l2 オプションを指定したときのみ有効)
|-
| %pB
| beta, backward log 確率 (-l2 オプションを指定したときのみ有効)
|-
| %pl
| 形態素の表層文字列としての長さ, strlen (%m) と同一
|-
| %pL
| 形態素の表層文字列としての長さ, ただし空白文字列も含む, strlen(%M) と同一
|-
| %phl
| 左文脈 id
|-
| %phr
| 右文脈 id
|-
| %f[N]
| csv で表記された素性の N番目の要素
|-
| %f[N1,N2,N3...]
| N1,N2,N3番目の素性を, "," を デリミタとして表示
|-
| %FC[N1,N2,N3...]
| N1,N2,N3番目の素性を, C を デリミタとして表示.<br /> ただし, 要素が 空の場合は以降表示が省略される. (例)F-[0,1,2]
|-
| \0 \a \b \t \n \v \f \r \\
| 通常の エスケープ文字列
|-
| \s
| ' ' (半角スペース)<br />  設定ファイルに記述するときに使用
|}

Version du 11 novembre 2020 à 23:43

Installation

  • pour Linux :

git clone https://github.com/taku910/mecab.git

cd mecab/mecab/

./configure –with-charset=utf-8 –enable-utf8-only

make

sudo make install

sudo ldconfig

cd ../mecab-ipadic/

./configure –with-charset=utf-8 –enable-utf8-only

make

sudo make install


Concernant la tokénisation et le calcul des fréquences

Formatage de la sortie

%s 形態素種類 (0: 通常, 1: 未知語, 2:文頭, 3:文末)
%S 入力文
%L 入力文の長さ
%m 形態素の表層文字列
%M 形態素の表層文字列, ただし空白文字も含めて出力 (%pS を参照のこと)
%h 素性の内部 ID
%% % そのもの
%c 単語生起コスト
%H 素性 (品詞, 活用, 読み) 等を CSV で表現したもの
%t 文字種 id
%P 周辺確率 (-l2 オプションを指定したときのみ有効)
%pi 形態素に付与されるユニークなID
%pS もし形態素が空白文字列で始まる場合は, その空白文字列を表示 %pS%m と %M は同一
%ps 開始位置
%pe 終了位置
%pC 1つ前の形態素との連接コスト
%pw %c と同じ
%pc 連接コスト + 単語生起コスト (文頭から累積)
%pn 連接コスト + 単語生起コスト (その形態素単独, %pw + %pC)
%pb 最適パスの場合 *, それ以外は ' '
%pP 周辺確率 (-l2 オプションを指定したときのみ有効)
%pA blpha, forward log 確率 (-l2 オプションを指定したときのみ有効)
%pB beta, backward log 確率 (-l2 オプションを指定したときのみ有効)
%pl 形態素の表層文字列としての長さ, strlen (%m) と同一
%pL 形態素の表層文字列としての長さ, ただし空白文字列も含む, strlen(%M) と同一
%phl 左文脈 id
%phr 右文脈 id
%f[N] csv で表記された素性の N番目の要素
%f[N1,N2,N3...] N1,N2,N3番目の素性を, "," を デリミタとして表示
%FC[N1,N2,N3...] N1,N2,N3番目の素性を, C を デリミタとして表示.
ただし, 要素が 空の場合は以降表示が省略される. (例)F-[0,1,2]
\0 \a \b \t \n \v \f \r \\ 通常の エスケープ文字列
\s ' ' (半角スペース)
設定ファイルに記述するときに使用