「茶筌」 / 「南瓜」を用いた形態素解析・係り受け解析

「茶筌」 /「南瓜」を用いた形態素解析・係り受け解析

浅原正幸（あさはら　まさゆき）工藤拓（くどう　たく）

松本裕治（まつもと　ゆうじ）

概要1. インストール

1. 「茶筌」のインストール2. 「南瓜」のインストール3. 環境設定

2. 「茶筌」の使い方1. 実際に使ってみる2. カスタマイズ

3. 「南瓜」の使い方4. 演習

1. freqt を用いた木構造マイニング2. 頻出部分木を用いた文分類

1.1. 「茶筌」のインストール

• Administrator もしくは「管理者権限を持ったユーザー」でログオンする


• arch\chasen233_031208.exe を実行する– 以下のような画面が出てくる：

– [ はい (Y)] を選択


– 以下のような画面が出てくる：

– [Next >] を選択

1.1. 「茶筌」のインストール– 以下のような画面が出てくる：

– License に関する項目を読んで[I accept the agreement] をチェック[Next >] を選択






– インストールするフォルダを選択し [Next >] を選択



– [Install] を選択

1.1. 「茶筌」のインストール– 以下のような画面が出てくる：

– インストールが完了– [Finish] を選択

1.2. 「南瓜」のインストール

• arch\cabocha-0.52.exe を実行する– 以下のような画面が出てくる：


1.2. 「南瓜」のインストール– 以下のような画面が出てくる：

– License に関する項目を読んで[I accept the agreement] をチェック[Next >] を選択



– インストールするフォルダを選択し [Next >] を選択


– スタートメニューに作るフォルダ名の指定– [Next >] を選択



– [Install >] を選択



「南瓜」を他のユーザーにも使わせたいならば [ はい (Y)] を選択


– インストールが完了– [Finish] を選択

1.3. 環境設定

• Windows XP の場合• [ コントロールパネ

ル ]→[ パフォーマンスとメンテナンス ]→[ システム ]

• [ 詳細設定 ] のタブを選択

• [ 環境変数 ] をクリック

1.3. 環境設定

– [ システム環境変数 ]の

Path を選択し、 [ 編集(I)] をクリック

– 以下の行を最後尾に付け加える

（インストール先を変えた場合には適宜読み替えること）

;c:\Program Files\ChaSen;C:\Program Files\CaboCha\bin[4.1から来た人はここから戻る]






2.1. 実際に使ってみる

コマンドプロンプトを立ち上げる• [ スタート ]→[ すべてのプログラム ]→[ ア

クセサリ ]→[ コマンドプロンプト ]

もしくは• [ スタート ]→[ ファイル名を指定して実

行 ]• 以下のように入力して [OK]


• サンプルテキストを解析してみる> chasen ( 配ったフォルダ )\text\sample.txt

キーボードから入力


自由に入力したテキストを解析してみる> notepad

とすると [ メモ帳 ] が開きます。自由に日本語文を作成してみてください。

> chasen （保存したテキストファイル名）

2.2. カスタマイズ

• 出力フォーマットを変更する• [ メモ帳 ] などで chasenrc ファイルを

編集する> notepad c:\Program Files\ChaSen\dic\chasenrc

項目 (OUTPUT_FORMAT … ）をいろいろ変更する


例）単語のわかち書き(OUTPUT_FORMAT “%m 　 ")


例）単語と読みだけの出力にする(OUTPUT_FORMAT "%m\t%y\n")


例）単語と品詞だけの出力にする(OUTPUT_FORMAT "%m\t%U(%P-)\n")


• より詳しい説明はマニュアル doc\chasen-2.3.3-j.pdf

1.4 節を参照のこと


• 簡単な分かち書き定義の変更• 品詞の線形結合を一単語に• [ メモ帳 ] などで chasenrc ファイルを

編集する notepad c:\Program Files\ChaSen\dic\chasenrc

項目 (COMPOSIT_POS … ）をいろいろ変更する


例）数値表現デフォルトの設定では数字一文字が一単語> chasen ( 配ったフォルダ )\text\suuchi.txt


例）数値表現（続き）chasenrc に以下のように記述

(COMPOSIT_POS (( 名詞 ) ( 名詞数 ) ( 名詞接尾助数詞 )))

> chasen ( 配ったフォルダ )\text\suuchi.txt


例）名詞の線形結合(COMPOSIT_POS (( 名詞 ) ( 名詞 ))) > chasen ( 配ったフォルダ )\text\kyoto.txt


• より詳しい説明はマニュアル doc\chasen-2.3.3-j.pdf

2 節 13 を参照のこと


• 辞書のメンテナンス「茶筌」辞書に登録されていない語を追加

する

手順1. 最新の辞書パッケージを展開する2. ユーザー辞書を作成する3. 辞書の再コンパイルを行う4. chasenrc の変更


• 辞書のメンテナンス1. 最新の辞書パッケージを展開するarch\ipadic-sjis-2.7.0.zip

を展開する

C:\Program Files\ChaSen\dic と入れ換える• 古い \dic を \dic2 としておくとよいでしょう• 展開されたフォルダを \Program Files\ChaSen

以下に移動してフォルダ名を \dic に変更


• 辞書のメンテナンス2. ユーザー辞書を作成するメモ帳などで新規ファイル User.dic を作成

する＃ファイル名は拡張子が .dic であれば何で

もよい


• 辞書のメンテナンス2. ユーザー辞書を作成する（サンプルファイルが text\User.dic にあります）活用語でない場合( 品詞 ( 名詞一般 )) (( 見出し語 ( ピラティス 4000)) ( 読みピラティス ) ( 発音ピラティス ) )

活用語の場合( 品詞 ( 動詞自立 )) (( 見出し語 ( あだける 4000)) ( 読みアダケル ) ( 発音アダケル ) ( 活用型一段 ) )

※ ピラティス：リハビリ用エクササイズの一種　あだける：播州弁で「おっこちる」


• 辞書のメンテナンス3. 辞書の再コンパイルC:\Program Files\ChaSen\dic 　以下にあるMakefile.bat を実行する


• 辞書のメンテナンス4. chasenrc の変更以下の行を変更

(GRAMMAR /usr/local/lib/chasen/dic/ipadic)

↓;;(GRAMMAR /usr/local/lib/chasen/dic/ipadic)

もしくは(GRAMMAR “c:\\Program Files\\ChaSen\\dic”)


• 辞書のメンテナンス試しに解析してみる> chasen ( 配ったフォルダ )\text\adakeru.txt






3. 「南瓜」の使い方

試しに解析してみる> cabocha ( 配ったフォルダ )\text\sample.txt


-f1 オプション計算機で扱いやすいフォーマット

（京都大学テキストコーパスと同じ形式）> cabocha -f1 ( 配ったフォルダ )\text\sample.txt


固有表現抽出> cabocha ( 配ったフォルダ )\text\koushukai.txt


固有表現抽出> cabocha -f1 ( 配ったフォルダ )\text\koushukai.txt


休憩時間前に4. で使うデータを「南瓜」を使って作成する。

>cabocha -f1 ( 配ったフォルダ )\text\sanshiro.txt > sanshiro-cab.txt

>cabocha -f1 ( 配ったフォルダ )\text\kokoro.txt > kokoro-cab.txt

>cabocha -f1 ( 配ったフォルダ )\text\hana.txt > hana-cab.txt

>cabocha -f1 ( 配ったフォルダ )\text\rashomon.txt > rashomon-cab.txt

注意：　 -f1 オプションをつけるのを忘れないでください

１５分休憩　






4.1. freqt を用いた木構造マイニング

木構造マイニング係り受け解析結果を木構造の集合（森）と考えるこの中で頻出する部分木構造を取り出す

あるテキスト・著者・グループ・分野に特有の言語表現がとりだせる

文分類をするための手ががりを得ることができる


データ整形：「南瓜」の出力を S 式（木構造を括弧の入れ子で表現する形式）へと変

換３種類（ ngram,dep,dep2 ）定義

例文：「部屋が急に明るくなった。」

ngram:(~BOS( 部屋 ( が ( 急 ( に ( 明るい ( なる ( た ( 。 (~EOS)))))))))dep:(~EOS( 。 ( た ( なる ( 明るい ( に ( 急 ))( が ( 部屋 (~BOS))))))))dep2:(~EOS( 。 ( た ( なる ( 明るい )( に ( 急 ))( が ( 部屋 (~BOS)))))))


例文：「部屋が急に明るくなった。」ngram:

(~BOS( 部屋 ( が ( 急 ( に ( 明るい ( なる ( た ( 。 (~EOS)))))))))

BOS

部屋が

急に

明るいなる

た。

Ngram単純な線形結合

EOS


例文：「部屋が急に明るくなった。」dep:

(~EOS( 。 ( た ( なる ( 明るい ( に ( 急 ))( が ( 部屋 (~BOS))))))))

EOS

。

たなる

明るいが

部屋BOS

に

急

dep ：係り受け構造•文節内は線形結合•係り元の最右単語は係り先の最左単語に連結


例文：「部屋が急に明るくなった。」dep2:

(~EOS( 。 ( た ( なる ( 明るい )( に ( 急 ))( が ( 部屋 (~BOS)))))))

EOS

。

たなる

明るいが部屋

BOS

に

急

dep2：係り受け構造•文節内は線形結合•係り元の最右単語は係り先の主辞に連結


データ整形「南瓜」の出力を S 式へと変換する

> ( 配ったフォルダ )\prog\tos.exe -t ngram -i sanshiro-cab.txt > sanshiro-ngram.txt> ( 配ったフォルダ )\prog\tos.exe -t dep -i sanshiro-cab.txt > sanshiro-dep.txt> ( 配ったフォルダ )\prog\tos.exe -t dep2 -I sanshiro-cab.txt > sanshiro-dep2.txt

TIPS( 配ったフォルダ )\prog を適切な場所にコピーして、そこにパスを通す

とtos.exe だけで実行が可能になる　 [やりかた(1.3 環境設定)]

> tos.exe -t ngram -i sanshiro-cab.txt > sanshiro-ngram.txt> tos.exe -t dep -i sanshiro-cab.txt > sanshiro-dep.txt> tos.exe -t dep2 -I sanshiro-cab.txt > sanshiro-dep2.txt


TOS.exe のオプションその他-s SJIS のファイルを入力と仮定（デフォールト）-e EUC のファイルを入力と仮定-u UTF-8 のファイルを入力と仮定


freqt を実際に動かしてみる

> ( 配ったフォルダ )\prog\freqt.exe -m 25 -M 3 < sanshiro-ngram.txt

最小出現回数最小ノード (単語 )数


freqt を実際に動かしてみる> freqt.exe -m 25 -M 3 < sanshiro-ngram.txt > sanshiro-ngram-freqt.txt

出力フォーマット• 1列目の数字　出現頻度• 2列目の数字　重みつき出現頻度• （ 1 つの文に複数回同じ部分木が出現した場合には複数回数える）• 3列目の数字　ノード数


他の木構造でもやってみる :

　　　（ copy & paste するととまらないことがあるので手入力してください）

> freqt.exe -m 25 -M 3 < sanshiro-dep.txt > sanshiro-dep-freqt.txt

> freqt.exe -m 25 -M 3 < sanshiro-dep2.txt > sanshiro-dep2-freqt.txt

結果を眺めてみる：> notepad sanshiro-dep-freqt.txt

> notepad sanshiro-dep2-freqt.txt

オプションの値をいろいろかえてみる :> freqt.exe -m 10 -M 5 < sanshiro-ngram.txt > sanshiro-ngram-freqt2.txt

> freqt.exe -m 10 -M 5 < sanshiro-dep.txt > sanshiro-dep-freqt2.txt

> freqt.exe -m 10 -M 5 < sanshiro-dep2.txt > sanshiro-dep2-freqt2.txt

注意： -m や -M の値を小さくすると出力が大きすぎて HDD があふれる場合があります。


残りのファイルでもやってみる（データ整形）

> tos.exe -t ngram -i kokoro-cab.txt > kokoro-ngram.txt> tos.exe -t dep -i kokoro-cab.txt > kokoro-dep.txt> tos.exe -t dep2 -i kokoro-cab.txt > kokoro-dep2.txt

> tos.exe -t ngram -i rashomon-cab.txt > rashomon-ngram.txt> tos.exe -t dep -i rashomon-cab.txt > rashomon-dep.txt> tos.exe -t dep2 -i rashomon-cab.txt > rashomon-dep2.txt

> tos.exe -t ngram -i hana-cab.txt > hana-ngram.txt> tos.exe -t dep -i hana-cab.txt > hana-dep.txt> tos.exe -t dep2 -i hana-cab.txt > hana-dep2.txt


freqt のオプション：-m [ 数値 ]: 枚挙する部分木の最小頻度-M [ 数値 ]: 枚挙する部分木の最小ノード数-L [ 数値 ]: 枚挙する部分木の最大ノード数

その他のオプションは以下のページを参照http://chasen.org/~taku/software/freqt/

http://chasen.org/~taku/software/freqt/

4.2. 頻出部分木を用いた文分類

各文にラベルが付与されているとしてそれを当てるラベルとして考えられるもの：

• { 意見 , 叙述 , 断定 } 　• 著者• 台詞と地の文

教師あり学習問題として解く訓練データ（ラベルつきデータ）がありそこから学習テストデータ（ラベルなしデータ）に対してラベルを付

与


今回行う文分類与えられた文が「台詞」か「地の文」かを判定する

正解ラベル付与「台詞」か「地の文」かの正解ラベルを付与する+1 台詞-1 地の文と定義する


今回行う文分類与えられた文が「台詞」か「地の文」かを判定する

正解ラベル付与「台詞」か「地の文」かの正解ラベルを付与する+1 台詞-1 地の文と定義する

正解ラベルは以下にある（配られたフォルダ） \text\sanshiro-label.txt （配られたフォルダ） \text\kokoro-label.txt


データ整形「南瓜」の出力に正解ラベルを付与する

> （配られたフォルダ） \prog\addlabel.exe -c sanshiro-cab.txt -l （配られたフォルダ） \text\sanshiro-label.txt > sanshiro-cab-label.txt

> （配られたフォルダ） \prog\addlabel.exe -c kokoro-cab.txt -l （配られたフォルダ） \text\kokoro-label.txt > kokoro-cab-label.txt


データ整形 :S 式に変換する注意： tos.exe に -l オプションをつける（ラベルつき）

> tos.exe -t ngram -i sanshiro-cab-label.txt -l > sanshiro-bact-ngram.txt> tos.exe -t dep -i sanshiro-cab-label -l > sanshiro-bact-dep.txt> tos.exe -t dep2 -i sanshiro-cab-label -l > sanshiro-bact-dep2.txt> tos.exe -t ngram -i kokoro-cab-label.txt -l > kokoro-bact-ngram.txt> tos.exe -t dep -i kokoro-cab-label -l > kokoro-bact-dep.txt> tos.exe -t dep2 -i kokoro-cab-label -l > kokoro-bact-dep2.txt


データ整形 :

S 式に変換する注意： tos.exe に -l オプションをつける（ラベルつき）


訓練する> bact_learn.exe sanshiro-bact-ngram.txt sanshiro-ngram.mod

el

とまらないときは> bact_learn.exe -T 1000 sanshiro-bact-ngram.txt sanshiro-ngr

am.model


モデルのコンパイル> bact_mkmodel.exe -i sanshiro-ngram.model -o sanshiro-ngram.model.bin

-O オプションをつけるとモデルファイルを見やすくする

> bact_mkmodel.exe -i sanshiro-ngram.model -o sanshiro-ngram.model.bin -O sanshiro-ngram.model.O


解析してみる（「三四郎」で作ったモデルを「こころ」でテスト）

> bact_classify.exe kokoro-bact-ngram.txt sanshiro-ngram.model.bin


解析してみる（「三四郎」で作ったモデルを「こころ」でテスト）

> bact_classify.exe kokoro-bact-ngram.txt sanshiro-ngram.model.bin


解析してみる（「三四郎」で作ったモデルを「こころ」でテスト） -v2 オプションをつける

> bact_classify.exe -v2 kokoro-bact-ngram.txt sanshiro-ngram.model.bin > kokoro-ngram-result.txt


正解ラベル解析器の出力（符号が一致していれば正解）


モデルファイルを見てみる> notepad sanshiro-ngram.model.O


モデルファイルを見てみる> notepad sanshiro-ngram.model .O

「ぼく」があると正例「台詞」っぽい


モデルファイルを見てみる> notepad sanshiro-ngram.model .O

「た。」があると負例「地の文」っぽい


• 他のタイプの木構造でもやってみる– dep– dep2

• 「こころ」でモデルを作って「三四郎」でテストしてみる

• 芥川龍之介作品「羅生門」「鼻」でもやってみる






Documents

「茶筌」 / 「南瓜」を用いた 形態素解析・係り受け解析

「茶筌」 / 「南瓜」を用いた形態素解析・係り受け解析