|
テーマ:たわごと(26609)
カテゴリ:与太話
Excite|「あいうえおかきくけこ……」一番使われているひらがなはどれ?
ある日の新聞から10コの記事を選び、その文面を全てひらがなにひらいて、その文字の使用頻度を調査しています。何てヒマな。そして何て地道な。 漢字もカタカナもひらがなにひらいている以上、「一番使われているひらがな」ではなく「一番使われている50音」とするべきと思うのですが、画面で文字として見てるとこういうタイトルになるのでしょうな。 ひらがなを打って変換するのが基本だけれど、ひらがなにだって、よく使われる文字とそうでない文字があるはず。調べてみようではないか。ある土曜日の新聞から10の記事を選び、全てひらがなでワープロ入力。一文字ずつに切り分けて、表計算ソフトで数える。調査総数10,811字。何だかキーボードの調子が悪くなった気がする。10811字打ち込んだぐらいでキーボードがヘタってたら、こんな長文記事書いてられないよぅ、という些細なツッコミはおいといて。 でも、わざわざこんな手間かけんでも、ちょいとしたプログラム書けばあっちゅーまにはじき出せそうだけど…ファイル開いて1文字読んで調べてカウントアップでしょ…エラーチェックを無視すれば、10分もあれば書けそうだな。 試しにニセC言語でコーディングしてみますか。参考にもならないと思うけど。 int main(int argc, char *argv[]) { unsigned short ch; kanacount counters[47]; FILE *fp = fopen(argv[1], "r"); init_counters(counters); while ((ch = fgetkana(fp)) != EOF) { counters[kanatoindex(ch)].count++; } sort_counters(counters); print_counters(counters); return EXIT_SUCCESS; } ごめん、肝心なところ全部省いちゃった、エヘ。 さすがに10分じゃ無理かも。きちんとエラーチェックして動作試験までしたら更に時間かかるしな。 ああでもやっぱりプログラミングは楽しいなぁ。ワクワクするね、脳細胞が。 とにかくそうして調べられた使用頻度上位4位が↓コチラ。:
私は意外でした。てっきり“てにをは”に代表される接続語が来るものと思ってましたが、まったく入っていません。辛うじて6位に“と”、10位に“の”が入っていますが…。 続いて、使用頻度下位4位が↓コチラ。:
私は意外でした。特に“ー”と“へ”が。 “ー”の低さは新聞記事だからなんでしょうかね。ウチの記事とかで実行したら、もうちょっと上位になると思うんだけど…。 開発環境さえあれば…マジでプログラム組んで、やってやるところなのに…10811字なんて、ウチの記事1コひらくだけで楽勝で超えちゃうし。 嗚呼タダで簡単に環境組めるC言語開発キットないかなー。LSI-C試食版はまだ利くのかなぁ。 【関連日記】(※一部別ブログの記事です) ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]()
お気に入りの記事を「いいね!」で応援しよう
最終更新日
2007年05月29日 03時55分09秒
コメント(0) | コメントを書く
[与太話] カテゴリの最新記事
|
|