|
テーマ:PDAの選び方(421)
カテゴリ:PDA
今使ってるPOBox辞書としてYajiDicSp1.0を公開してるんですが、現在あっしのT5に収まってる辞書はこれを更にシェイプアップして1.4Mまでエントリーを減らしています。
そのうち学習部分が約3割なので、辞書本体はかなり単語数が減らされ、代わりに自分用にかなり鍛えられた辞書になってるんですね。 YajiDicSpは万人向けに大富豪(?)辞書+ワープロ等で採用されているローマ字スペルを追加した位置づけになっているため、約1.8Mという巨大な辞書になってしまってるんですが、自分の入力するスペルが決まっている場合は大富豪(?)辞書を秀丸等の高性能エディタで直接スペル置き換えをしたほうがサイズが節約できると思います。 個人でしか使わない前提で考えると、入力用辞書は単語数が多いこと&自分が入力するスペルに特化した重複(無駄)のないものであることがベストだと思います。 ATOKなどはさすがによく研究されていて、名詞、動詞、副詞、形容詞等に分類され、「ことば」の規則に則って最適な単語をリストアップするよう作られていますが、POBoxの場合は学習といえども事実上は単語の優先順位なんですね。 最後に確定した単語が常に最初に来るよう並べ替えが行われるため、これを繰り返すことによって「よく使う単語」が選定されていく仕組みです。 おかげで変換にかかる速度は”完全一致”を前提とするATOKやJOS-IMEに比べて、”前方一致(インクリメント)”+”優先順位”で検索するPOBoxのほうが理論上速いことになります。定型文はPOBoxという一般的な認識と一致しますね。 ということで、やっと本題(笑) 『”ベストな辞書”の持論がどこまでPOBoxに適用できるか』というコンセプトで今現在やっている作業が、PC用ATOK辞書をPOBoxに入れてみよう、というものです。 ATOKに入っている巨大な人名、固有名詞などを入れると悲惨な結果になるのは判りきっているため、重複が多い形容詞、○変動詞の類も除外して抽出した単語が約21万6千語。サイズにして約5.4Mあります(笑) まだ重複部分をメンテしてないので最終的にはもう少しサイズは減ると思いますが…。 これをPOBox形式に変換して使ってみるとどういう結果になるのかなと。 当然ながら公開はできませんが、辞書の傾向を探る実験として、POBoxに巨大辞書を入れるメリット、デメリットをそのうち報告したいと思います( ̄ー ̄)b つーか…すげー長文(笑) 大した内容でもないのに読んでくれた方、お疲れさまでした。m(_~_)m お気に入りの記事を「いいね!」で応援しよう
Last updated
Jan 13, 2006 10:34:44 PM
コメント(0) | コメントを書く
[PDA] カテゴリの最新記事
|
|