561854 ランダム
 HOME | DIARY | PROFILE 【フォローする】 【ログイン】

けむしろうの部屋別館

けむしろうの部屋別館

PR

Calendar

Archives

2023年12月
2023年11月
2023年10月
2023年09月
2023年08月

Category

Favorite Blog

ZIKOMANZOKU rooms kotoraya2000さん
しゅみっだ~~~ もこもこ5781さん
今日のご遺体 秘密の洗体レディーさん

Comments

コメントに書き込みはありません。

Freepage List

2006年03月20日
XML
カテゴリ:プログラミング
楽天テーマ検索サービスの機能拡張をしています。
3/19の日記の続きです。

まずは形態素解析ソフトウェア「茶筌」(chasen)のインストールについて。

形態素とは簡単に言えば文を構成する文法上の最小単位のことで、茶筌は与えられた日本語の文を形態素に分解してくれるソフトウェアです。
検索エンジンで正しく日本語のキーワード検索をするためには形態素解析は必須の技術です。

以下に茶筌の実行の一例を示します。

入力出力
形態素読み品詞
楽天からのお知らせ楽天ラクテン名詞-一般
からカラ助詞-格助詞-一般
助詞-連体化
お知らせオシラセ名詞-サ変接続
楽天市場でこれはおすすめという情報楽天ラクテン名詞-一般
市場シジョウ名詞-一般
助詞-格助詞-一般
これコレ名詞-代名詞-一般
助詞-係助詞
おすすめオススメ名詞-サ変接続
というトイウ助詞-格助詞-連語
情報ジョウホウ名詞-一般

日本語文法に従って正しく形態素に分解されていますね。
市場」を「イチバ」ではなく「シジョウ」という読みにしてしまっていますが、検索エンジンのためのキーワード抽出という今回の目的に対しては特に問題なないでしょう。

文を分かち書きするというソフトウェアとしては茶筌の他にもKAKASIが有名ですが、KAKASIの構文解析能力は茶筌よりも弱く、上記の例はうまく分かち書きできません(そういう例をわざと選んでます)。

入力出力
楽天からのお知らせ楽天からのお知らせ
楽天市場でこれはおすすめという情報楽天市場でこれはおすすめという情報

どうもひらがなの連続に弱いようです。
これだと「お知らせ」や「おすすめ」というキーワードで検索しても検索結果に現れてくれません。

そんなわけで今回は茶筌を選択しました。
以下に私が利用しているレンタルサーバ(さくらインターネット)でのインストール手順を示しておきます。
  1. 以下の各ソースをダウンロードする。

    • 茶筌 (配布元)
      今日現在の最新版はchasen-2.3.3.tar.gzです。

    • IPA辞書 (配布元)
      今日現在の最新版はipadic-2.7.0.tar.gzです。

    • Darts(Double-ARray Trie System) (配布元)
      今日現在の最新版はdarts-0.3.tar.gzですが、最新版だとchasen-2.3.3がコンパイルできないので、darts-0.2.tar.gzを使う必要があります。こちらからダウンロードできます。

    • GNU libiconv (文字コード変換ライブラリ) (配布元)
      今日現在の最新版はlibiconv-1.9.1.tar.gzです。
      GNU本家のダウンロードサーバは非常に重いので、適当なミラーサイトを利用した方が良いです。
      なお他のレンタルサーバなどで、システムにlibiconvがインストールされていれば改めてダウンロードする必要はありません。

  2. 各ソースを以下の順でコンパイル・インストールする。
    prefixに指定するパスはインストールする環境に応じて適当に変えてください。
    またインストールの詳細については各配布元やソースに付属のドキュメントを参照してください。

    1. libiconv
      ソースを展開・ディレクトリ移動
      % ./configure --prefix=/home/asamomiji
      % make
      % make install

    2. Darts
      ソースを展開・ディレクトリ移動
      % ./configure --prefix=/home/asamomiji
      % make check
      % make install

    3. 茶筌
      ソースを展開・ディレクトリ移動
      % ./configure --with-darts=/home/asamomiji/include --prefix /home/asamomiji --with-libiconv=/home/asamomiji
      % make check
      % make install

    4. IPA辞書
      ソースを展開・ディレクトリ移動
      % ./configure
      % make
      % make install
ここまで実行してchasen -hでUsageが表示されればインストール完了です。
標準入力から日本語文を与えて遊んでみましょう。

さて次はインデックスファイルのデータ構造を考えます。






Last updated  2006年03月20日 03時26分50秒
コメント(0) | コメントを書く
[プログラミング] カテゴリの最新記事



© Rakuten Group, Inc.