3279866 ランダム
 HOME | DIARY | PROFILE 【フォローする】 【ログイン】

傀儡師の館.Python

傀儡師の館.Python

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

Recent Posts

Calendar

Keyword Search

▼キーワード検索

Category

Archives

2024.06
2024.05
2024.04
2024.03
2024.02
2024.01
2023.12
2023.11
2023.10
2023.09

Freepage List

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2008.01.27
XML
カテゴリ:Python
日本語係り受け解析器 CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzercabocha 0.60 pre1 がリリースされていた。ダウンロードしようと思ったらすでに pre2 がリリースされているので、そちらを使ってみることにした。ちなみに、バージョン番号からも分かるとおり、まだ正式リリース前。

変更点:
- UTF8対応 (./configure --with-charset=UTF8)
- 文節区切りと固有表現抽出に CRF (実装はCRF++)を使用
- ChaSenへの依存を廃止し、MeCab のみのサポートに
- 固有表現を行う前に文字列の正規化を行うことで若干の精度向上
- 簡易並列処理の廃止。係り受けのみ
- APIの一新、より粒度の細かい制御が可能
- PerlやMakefileに依存していた部分の排除。
- 単一バイナリ cabocha-learn による学習の簡易化 (Windows でも学習が可能)
- TinySVMへの依存を排除。単体で学習可能
- Juman のサポートを復活。ただし、形態素解析は mecab-juman に限定
- 評価ツール caboca-system-eval の提供


UTF-8 に対応したということなので UTF-8 で使うことにする。とりあえず Windows でインストール。Shift-JIS と UTF-8 の選択があるので UTF-8 を選択すると、Shift-JIS のモデルファイル等、途中で自動的に UTF-8 にコンバートしてくれていた。とりあえず cabocha.exe を動かそうとしたら、

morph.cpp(103) [charset() == decode_charset(dinfo->charset)] Incompatible charset: MeCab charset is SHIFT-JIS, Your charset is UTF8

そういえば、Windows の MeCab は Shift-JIS で使っていたので、とりあえず Shift-JIS でインストールし直してみると動くようになった。

以前に、ctypes で CaboCha を使う してみたが、0.60 pre2 で動くか確認してみた。とりあえず同じ方法で動くことまで確認。

ついでなので簡単な自分用のベンチマークテスト。2倍ぐらいの速さで処理できるようになった(純粋な速さの違いは調べてない)。以前は ctypes で CaboCha を使う のやり方だと MeCab をどうやって使えるのか分からなかったので以前の Chasen ベースと比べても意味がないので、コマンドラインから -amecab をつけて以前のバージョンと比較してみたが、2倍ぐらいやっぱり速くなっているので、フルスクラッチで書き直したという効果が出てるみたい。すばらしい。

cabocha 0.60pre2
Version Number: Windows NT 5.1 (Build 2600)
Exit Time: 3:11 pm, Sunday, January 27 2008
Elapsed Time: 0:00:10.906
Process Time: 0:00:00.046
System Calls: 338614
Context Switches: 144132
Page Faults: 42346
Bytes Read: 1304199
Bytes Written: 6772557
Bytes Other: 169688

cabocha 0.53
Version Number: Windows NT 5.1 (Build 2600)
Exit Time: 3:10 pm, Sunday, January 27 2008
Elapsed Time: 0:00:21.984
Process Time: 0:00:00.031
System Calls: 614361
Context Switches: 255871
Page Faults: 60164
Bytes Read: 2329855
Bytes Written: 2992005
Bytes Other: 890287

解析結果がどう変わったかはよくみてないが、固有表現タグを数えてみると B-PERSON をカウントしたら同じテキストに対して、以前 vs 最新が、174 vs 154、B-LOCATION が 406 vs 385 と減っている。例えば「沢山要する」とかいうのが、以前は沢山が固有名詞-人名-姓の「沢山」さんになってしまっていたのが、今は副詞の「沢山」(たくさん)に解析されるようになったりとか、よいところはあるみたいだけど全般的にどうかはちゃんとみてない。

旧バージョンでは「昭和初期の」とか「昭和」が B-DATE だったのが、新バージョンでは B-LOCATION に悪くなってしまったりするところもあるみたい。「明治維新」はどちらも B-LOCATION で嫌だ。

「イソップ」が B-ORGANIZATION になってしまう。今まで気がつかなかったが、イソップ 名詞,固有名詞,組織は辞書が悪い。なんで組織になっているんだろう。XX総理大臣って、組織?。細かく見ていくと、アレアレは見つかる。

とりあえず気力が今ないのでここまで。係り受けがどの程度うまくできているか、どの程度変わったか等、見てない。


アクセス解析








お気に入りの記事を「いいね!」で応援しよう

Last updated  2008.01.27 16:28:41
コメント(0) | コメントを書く



© Rakuten Group, Inc.