|
カテゴリ:ことばの処理
やっぱり、このところ食い過ぎで太ってしまった。しゃあない、また少し減量することにしよう。
○ 外来語のカタカナ表記(残りは省略) 一通り『朝日新聞の用語の手引き』の外来語を日本語形態素解析器 MeCab にかけてみたが、やはり、ipadic は日常用語の語彙がかなり不足していること、また、次の例のように素直に未知語に落ちなかった場合には解析誤りが多々生じてしまうこと、コストなどの調整も必要になりそうなことが分かった。終わりまでやったのだけど、同じようなパターンばかりなので、書いてもつまんないから、残りはばっさり省略。けっこうたくさん未知語があった。 めんどくさい。実にめんどくさい。やはり、こうなったら可能な限り未知語に落ちやすいようにして、片っ端から登録していくというのが手かもしれない。でも、コストを手でつけるのはさすがにめんどくさい。めんどくさいので、とりあえず、ばっさり同じような値をつけてしまって、結果を見ながら調整する方向かな。自動的につけるのは、もうちょっといろいろ見てから考えるとしよう。 マイ 名詞,固有名詞,人名,名,*,*,マイ,マイ,マイ コンピュータ 名詞,一般,*,*,*,*,コンピュータ,コンピュータ,コンピュータ これは、舞ちゃんのコンピュータなのかなぁ。舞ちゃんって誰? ロ 名詞,固有名詞,組織,*,*,*,ロ,ロ,ロ リエ 名詞,固有名詞,人名,名,*,*,リエ,リエ,リエ モロ 名詞,固有名詞,一般,*,*,*,モロ,モロ,モロ ヘ 助詞,格助詞,一般,*,*,*,ヘ,ヘ,エ イヤ 感動詞,*,*,*,*,*,イヤ,イヤ,イヤ この手のものは、解析誤りパターンの一つ。解析誤りパターンから、誤り確率を求めてもおもしろいかな。それにしても、この手の単語ってほんとに登録されてない。生活感に欠けるのだよなぁ。人工無能用に使おうとすると、生活感に欠ける辞書は致命的なのだ。いくら難しい言葉をしっていても、お役人としか会話が通じないようなヤツじゃいかんのだ。 しかしまあ、外来語(カタカナ語)ってのは、面倒なもので、音楽放送で使う音声の調整装置の mixer はミクサーで、家庭用のジュースを作ったりする撹拌機(かくはんき)の mixer はミキサーなのだな。この手のものがけっこうたくさんある。実にいいかげんなのに厳密だから困ったものだ。「ミクサーでジュースを作った」という文は、『朝日新聞の用語の手引き』に従えば、やれるもんならやってみよという世界なので誤りなわけ。「このミキサーは実にいい音を出してくれる」というのは、グイーンという音がいいのであって、音をいい具合にミックスしてくれるという意味にとってはいけないのだ。 まあ、とにかく地道に登録してくとするか~。でもって、カタカナ語に関しては、ちょっと飽きてきたので、またそのうちネタにすることにして、どうするかなぁ。とりあえずプログラミングネタはしばし封印してあるので、おいといて、青空文庫あたりにある何かを解析させながら、もう少し、考えてみるかな。与謝野晶子版の『源氏物語』なんかも、おもしろいかと思ったが、かなり辛そうなので プロジェクト杉田玄白 正式参加作品リストあたりから選んでみるかな。ということで、ルイス・キャロル著、山形浩生訳の不思議の国のアリス を題材にしてみよう。そう、この中から、まず、会話の部分だけを抽出して見るかな。 お気に入りの記事を「いいね!」で応援しよう
Last updated
2006.09.11 23:39:20
コメント(0) | コメントを書く
[ことばの処理] カテゴリの最新記事
|