223683 ランダム
 HOME | DIARY | PROFILE 【フォローする】 【ログイン】

倶楽部やじ。( ̄▽ ̄)ノ

倶楽部やじ。( ̄▽ ̄)ノ

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

Profile

-YJ-

-YJ-

Headline News

Category

Freepage List

Jan 13, 2006
XML
カテゴリ:PDA
今使ってるPOBox辞書としてYajiDicSp1.0を公開してるんですが、現在あっしのT5に収まってる辞書はこれを更にシェイプアップして1.4Mまでエントリーを減らしています。
そのうち学習部分が約3割なので、辞書本体はかなり単語数が減らされ、代わりに自分用にかなり鍛えられた辞書になってるんですね。

YajiDicSpは万人向けに大富豪(?)辞書+ワープロ等で採用されているローマ字スペルを追加した位置づけになっているため、約1.8Mという巨大な辞書になってしまってるんですが、自分の入力するスペルが決まっている場合は大富豪(?)辞書を秀丸等の高性能エディタで直接スペル置き換えをしたほうがサイズが節約できると思います。

個人でしか使わない前提で考えると、入力用辞書は単語数が多いこと&自分が入力するスペルに特化した重複(無駄)のないものであることがベストだと思います。

ATOKなどはさすがによく研究されていて、名詞、動詞、副詞、形容詞等に分類され、「ことば」の規則に則って最適な単語をリストアップするよう作られていますが、POBoxの場合は学習といえども事実上は単語の優先順位なんですね。
最後に確定した単語が常に最初に来るよう並べ替えが行われるため、これを繰り返すことによって「よく使う単語」が選定されていく仕組みです。
おかげで変換にかかる速度は”完全一致”を前提とするATOKやJOS-IMEに比べて、”前方一致(インクリメント)”+”優先順位”で検索するPOBoxのほうが理論上速いことになります。定型文はPOBoxという一般的な認識と一致しますね。

ということで、やっと本題(笑)
『”ベストな辞書”の持論がどこまでPOBoxに適用できるか』というコンセプトで今現在やっている作業が、PC用ATOK辞書をPOBoxに入れてみよう、というものです。
ATOKに入っている巨大な人名、固有名詞などを入れると悲惨な結果になるのは判りきっているため、重複が多い形容詞、○変動詞の類も除外して抽出した単語が約21万6千語。サイズにして約5.4Mあります(笑)
まだ重複部分をメンテしてないので最終的にはもう少しサイズは減ると思いますが…。

これをPOBox形式に変換して使ってみるとどういう結果になるのかなと。

当然ながら公開はできませんが、辞書の傾向を探る実験として、POBoxに巨大辞書を入れるメリット、デメリットをそのうち報告したいと思います( ̄ー ̄)b

つーか…すげー長文(笑)
大した内容でもないのに読んでくれた方、お疲れさまでした。m(_~_)m





お気に入りの記事を「いいね!」で応援しよう

Last updated  Jan 13, 2006 10:34:44 PM
コメント(0) | コメントを書く
[PDA] カテゴリの最新記事


Calendar

Comments

-YJ-@ Triple.fi 10 Proその後 色々試してイヤーチップをVictorの低反発…
-YJ-@ Re:性感エステってもったいないよね(01/11) ★みゆきち★さん ----- どーしても書きた…
★みゆきち★@ 性感エステってもったいないよね ムラムラってきたら性感エステに通ってた…
-YJ-@ Re[1]:音作り(01/11) betyちゃんさん >すげぇwの一言ですw…
betyちゃん@ Re:音作り(01/11) すげぇwの一言ですww

Favorite Blog

みけのす DOHZIさん
betyのまったりw betyちゃんさん

Archives

・Apr , 2024
・Mar , 2024
・Feb , 2024
・Jan , 2024
・Dec , 2023

Keyword Search

▼キーワード検索

Shopping List

お買いものレビューがまだ書かれていません。

© Rakuten Group, Inc.