|
カテゴリ:Python
日本語係り受け解析器 CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer の cabocha 0.60 pre1 がリリースされていた。ダウンロードしようと思ったらすでに pre2 がリリースされているので、そちらを使ってみることにした。ちなみに、バージョン番号からも分かるとおり、まだ正式リリース前。
UTF-8 に対応したということなので UTF-8 で使うことにする。とりあえず Windows でインストール。Shift-JIS と UTF-8 の選択があるので UTF-8 を選択すると、Shift-JIS のモデルファイル等、途中で自動的に UTF-8 にコンバートしてくれていた。とりあえず cabocha.exe を動かそうとしたら、
そういえば、Windows の MeCab は Shift-JIS で使っていたので、とりあえず Shift-JIS でインストールし直してみると動くようになった。 以前に、ctypes で CaboCha を使う してみたが、0.60 pre2 で動くか確認してみた。とりあえず同じ方法で動くことまで確認。 ついでなので簡単な自分用のベンチマークテスト。2倍ぐらいの速さで処理できるようになった(純粋な速さの違いは調べてない)。以前は ctypes で CaboCha を使う のやり方だと MeCab をどうやって使えるのか分からなかったので以前の Chasen ベースと比べても意味がないので、コマンドラインから -amecab をつけて以前のバージョンと比較してみたが、2倍ぐらいやっぱり速くなっているので、フルスクラッチで書き直したという効果が出てるみたい。すばらしい。
解析結果がどう変わったかはよくみてないが、固有表現タグを数えてみると B-PERSON をカウントしたら同じテキストに対して、以前 vs 最新が、174 vs 154、B-LOCATION が 406 vs 385 と減っている。例えば「沢山要する」とかいうのが、以前は沢山が固有名詞-人名-姓の「沢山」さんになってしまっていたのが、今は副詞の「沢山」(たくさん)に解析されるようになったりとか、よいところはあるみたいだけど全般的にどうかはちゃんとみてない。 旧バージョンでは「昭和初期の」とか「昭和」が B-DATE だったのが、新バージョンでは B-LOCATION に悪くなってしまったりするところもあるみたい。「明治維新」はどちらも B-LOCATION で嫌だ。 「イソップ」が B-ORGANIZATION になってしまう。今まで気がつかなかったが、イソップ 名詞,固有名詞,組織は辞書が悪い。なんで組織になっているんだろう。XX総理大臣って、組織?。細かく見ていくと、アレアレは見つかる。 とりあえず気力が今ないのでここまで。係り受けがどの程度うまくできているか、どの程度変わったか等、見てない。 お気に入りの記事を「いいね!」で応援しよう
Last updated
2008.01.27 16:28:41
コメント(0) | コメントを書く
[Python] カテゴリの最新記事
|