MeCab 0.92 を使ってみる (1)
久々に MeCab を使って遊ぶことにした。最新のバージョン 0.92 をダウンロードしてインストール。その前にインストールしてあった、ちょっと古めのバージョン 0.90rc8 と比較してみる。形態素解析結果の違いを見てみると、何気にかなりの差分が出る。未知語で固有名詞に倒していたものが名詞に倒すようになったとかあるのかな。例えば、「ヒューレット・パッカード」を新しくできた -x オプションを付けて「mecab -x UNKNOWN」で解析してみると、ヒューレット・パッカード UNKNOWNと解析される。辞書に登録されているかどうかは、辞書作成用の csv ファイルを検索しなくても、こうしてみれば簡単にチェックできるようになった。地味だが案外嬉しい。以前のバージョンとの違いで気になるところを見てみると、次のようなものがある。五郎が犯人である可能性今の解析五 名詞,数,*,*,*,*,五,ゴ,ゴ郎 名詞,一般,*,*,*,*,郎,ロウ,ローが 助詞,格助詞,一般,*,*,*,が,ガ,ガ犯人 名詞,一般,*,*,*,*,犯人,ハンニン,ハンニンで 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル可能 名詞,形容動詞語幹,*,*,*,*,可能,カノウ,カノー性 名詞,接尾,一般,*,*,*,性,セイ,セイ以前の解析五郎 名詞,固有名詞,人名,名,*,*,五郎,ゴロウ,ゴローが 助詞,格助詞,一般,*,*,*,が,ガ,ガ犯人 名詞,一般,*,*,*,*,犯人,ハンニン,ハンニンで 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル可能 名詞,形容動詞語幹,*,*,*,*,可能,カノウ,カノー性 名詞,接尾,一般,*,*,*,性,セイ,セイ三郎に変えてみても同じような解析結果になる。ところが、一郎、太郎や次郎の場合は、正しく解析できる。辞書と未知語処理の関係かな。試しに、辞書に三郎や五郎が登録されているかどうかを見てみると、やはり三郎や五郎は登録されていない。正しく解析したければ、これらの単語も登録してやる必要がある。不思議といえば不思議なのだが、次のような解析結果に変わっているところを見ると、何となく、傾向がつかめそうな気がする。数詞+名詞の場合は、前の形態素とつなげなくなったような気がする。今の解析結果ベロウソフ・アレクサンドル・ワシーリエヴィッチ第一国防次官兼参謀総長ベロウソフ・アレクサンドル・ワシーリエヴィッチ 名詞,一般,*,*,*,*,*第 接頭詞,数接続,*,*,*,*,第,ダイ,ダイ一 名詞,数,*,*,*,*,一,イチ,イチ国防 名詞,一般,*,*,*,*,国防,コクボウ,コクボー次官 名詞,一般,*,*,*,*,次官,ジカン,ジカン兼 名詞,接続詞的,*,*,*,*,兼,ケン,ケン参謀 名詞,一般,*,*,*,*,参謀,サンボウ,サンボー総長 名詞,一般,*,*,*,*,総長,ソウチョウ,ソーチョー以前の解析結果ベロウソフ・アレクサンドル・ワシーリエヴィッチ 名詞,固有名詞,一般,*,*,*,*第 接頭詞,数接続,*,*,*,*,第,ダイ,ダイ一国防次官兼参謀総長 名詞,数,*,*,*,*,*ベロウソフ・...のようなものは「・」で切って欲しい気がするがそれは置いておき、「第」「一国防次官兼参謀総長」よりも「第」「一」「国防」「次官」「兼」「参謀」「総長」の方が細かく正確に分けてくれている分よくなっている。次の例も、三菱の「三」を以前は数詞として解釈して、後ろの名詞をつなげていたのかもしれない。「三菱重工業長崎造船所主任」で「名詞,数」と解析されていたから。このあたりもよくなった点。三菱重工業長崎造船所主任の手記今の解析三菱重工業 名詞,固有名詞,組織,*,*,*,三菱重工業,ミツビシジュウコウギョウ,ミツビシジューコーギョー長崎造船所 名詞,固有名詞,組織,*,*,*,長崎造船所,ナカザキゾウセンジョ,ナカザキゾーセンジョ主任 名詞,一般,*,*,*,*,主任,シュニン,シュニンの 助詞,連体化,*,*,*,*,の,ノ,ノ手記 名詞,サ変接続,*,*,*,*,手記,シュキ,シュキ前の解析三菱重工業長崎造船所主任 名詞,数,*,*,*,*,*の 助詞,連体化,*,*,*,*,の,ノ,ノ手記 名詞,サ変接続,*,*,*,*,手記,シュキ,シュキやはり、名刺連続複合語の扱いが変わっているのかな。下手につないでしまわないで分けるところは分けるというような形になったのだろうか。上の例ではよい方に倒れていると思うが(より、細かく解析してくれているので)、次の例だと悪い方に倒れている。今は「貢」「献策」だが、以前は「貢献」「策」。これはちょっと困る。たとえば、分かち書きの結果をインデックス作成に使っている場合、以前の解析結果なら「貢献」で検索ができたのに、今の結果だと「貢献」だとヒットしなくなる。中東和平に向けた貢献策今の解析中東 名詞,固有名詞,地域,一般,*,*,中東,チュウトウ,チュートー和平 名詞,一般,*,*,*,*,和平,ワヘイ,ワヘイに 助詞,格助詞,一般,*,*,*,に,ニ,ニ向け 動詞,自立,*,*,一段,連用形,向ける,ムケ,ムケた 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ貢 名詞,一般,*,*,*,*,貢,ミツギ,ミツギ献策 名詞,サ変接続,*,*,*,*,献策,ケンサク,ケンサク以前の解析中東和平に向けた貢献策を検討する。中東 名詞,固有名詞,地域,一般,*,*,中東,チュウトウ,チュートー和平 名詞,一般,*,*,*,*,和平,ワヘイ,ワヘイに 助詞,格助詞,一般,*,*,*,に,ニ,ニ向け 動詞,自立,*,*,一段,連用形,向ける,ムケ,ムケた 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ貢献 名詞,サ変接続,*,*,*,*,貢献,コウケン,コーケン策 名詞,接尾,一般,*,*,*,策,サク,サク他に、困った例としては、次のようなものがある。「小学館」が「小学」「館」に解析されるようになってしまった。講談社や小学館などの出版社今の解析講談社 名詞,固有名詞,組織,*,*,*,講談社,コウダンシャ,コーダンシャや 助詞,並立助詞,*,*,*,*,や,ヤ,ヤ小学 名詞,一般,*,*,*,*,小学,ショウガク,ショーガク館 名詞,接尾,一般,*,*,*,館,カン,カンなど 助詞,副助詞,*,*,*,*,など,ナド,ナドの 助詞,連体化,*,*,*,*,の,ノ,ノ出版 名詞,サ変接続,*,*,*,*,出版,シュッパン,シュッパン社 名詞,接尾,一般,*,*,*,社,シャ,シャ前の解析講談社 名詞,固有名詞,組織,*,*,*,講談社,コウダンシャ,コーダンシャや 助詞,並立助詞,*,*,*,*,や,ヤ,ヤ小学館 名詞,固有名詞,組織,*,*,*,小学館,ショウガクカン,ショーガクカンなど 助詞,副助詞,*,*,*,*,など,ナド,ナドの 助詞,連体化,*,*,*,*,の,ノ,ノ出版 名詞,サ変接続,*,*,*,*,出版,シュッパン,シュッパン社 名詞,接尾,一般,*,*,*,社,シャ,シャ「小学館」が辞書に登録されているかどうかを見てみると、ちゃんと次のようなエントリがあるので、これはデグレードといえるかもしれない。小学館,1292,1292,6017,名詞,固有名詞,組織,*,*,*,小学館,ショウガクカン,ショーガクカン名詞連続複合語の扱いに関しては、まだよくなる余地があるなぁと感じる。辞書の作り方/サンプルの文書を変えるだけでも変わってくるのだろうけど。今日は名詞関連を見てみたが、それ以外でも微妙に違いが出ているようなので、明日以降にもう少しチェックしてみようかな。全般的に見て、解析結果がより細かく分かれるようになっているので、Namazu 等のインデックスを作成するための分かち書きをする場合には、0.92 を使うのが正解な気がする。また、品詞ID をつけることができるようになったので、解析結果を品詞単位でインデックスに追加する、しないの処理もやりやすくなったと思う。たとえば、インデックスに追加したいものは 1、それ以外は、2 以上の値を設定するようにしておけば、1のときはインデックス追加、それ以上なら追加しないなどといったことも分かりやすくできる。MeCab を使ってそうしたことをする場合の処理速度は確実に速くなるだろうから、これで Chasen の分かち書き結果を使って全文検索のインデックスを作っていた人も MeCab を使うようになりそうな気がする。