【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

mywkfmnrのホームページ

フリーページ

お気に入りブログ

源氏物語の世界 jooxさん
一日一冊:読書日記… 本のソムリエさん
おびやまロボット研… CPU4Eduさん
2003年11月09日
XML
カテゴリ:カテゴリ未分類
検索機能の強化とデータの整理が主目的です。

検索機能は、すでに、HTMLヘルプ形式の再編集版を第二サイトにアップしており、そちらでは、かなり強力な全文検索が出来るようになっていました。しかし、このHTMLヘルプにはひらがなをキーにした全文検索には問題があることが指摘されていました。(2003/9/7の日記参照)

この問題の解決策として、第二サイトにCGIを使って検索エンジンを立ち上げる方法と、HTMLヘルプのバージョンアップで解決できないかを調べてきました。しかし、どちらもうまくいかず、見送ることに。

代わりに、再編集版の情報をcsv形式で出力しておき、これをMicrosoft Access等で検索するというアプローチをとることにしました。
最初、今はやりのxmlも検討したのですが、無償で使えるツールの中によいものが見つからなかったことと、私のMicrosoft Accessは、Office 2000のもので、xmlに未対応だったことから、今回はcsv形式にしました。

csv形式だと、Microsoft AccessなどのRDBMSで強力な関係演算を使って検索などのデータ処理が出来ます。ただし、全文検索機能を持つものは、高価なものばかりなので使わず、一般の検索機能で検索することにしました。この場合、気になるのは性能。最初は検索に数十秒程度かかってもいいやと思って始めたのです(2003/10/23の日記参照)。しかし、意外や意外、ものの数秒で結果が出てくるようです。

よく考えてみると、csv形式だと、メモリ上にすべてを読み込んで処理することになるので、全文なめまわし検索でも、そんなに時間がかからないのですね。JoinのようなRDB演算だって、内部処理はソートとマージになるだけなので、すべてメモリ上で処理するならば大して時間がかからないのです。
これなら、簡単なプログラムを書くだけでも、かなり使えそうです。

そんなわけで、とりあえず、csv形式に変換したデータと、手始めに作った簡単な検索機能付きビューアプログラムを源氏物語の世界 再編集版第一サイトにアップしてみました。
ぜひ、使ってみてください。そして、感想や要望などをカキコいただけるとうれしいです。
もちろん、今回はあくまで「手始め」なので、今後も少しずつ、このcsv形式を使った小物便利ツールを作っていくつもりです。

------

csv形式のファイルについて

csv形式といわれてもよくわからないという声が出そうなので、ここで少し説明することにします。

csv形式というのは、20年以上前の初期のパソコンの時代からある古いデータ形式です。古いだけあって、単純なので、非常に多くのソフトでサポートされています。

例えば、Microsoft Accessがあればcsvファイルに対してRDB演算を実行するなどにより多様なデータ処理が行えますが、他に、Microsoft ExcelやMicrosoft Wordでも、csvファイルを読み込んで処理できます。

1.Microsoft Excelでcsvファイルを読み込む方法

例えば、もし、お使いのパソコンにExcelがインストールされていたら、以下のようにしてExcelで使えます。

(1) エクスプローラでcsvファイルをダブルクリックすると、Excelが起動され、csvファイルの内容が表示されます。でも、まだ、書式が設定されていないので、以下のようにして書式を設定します。

(2) 左上端の何も書いてないところ(A1セルの左上)を押すと、ワークシート内の全てのセルが選択されるので、この状態で、メニューから「書式/列/選択範囲にあわせる」を実行します。

(3) ワークシート内の全てのセルが選択されている状態のまま、メニューから「書式/セル」を実行します。

(4) 表示された「セルの書式設定」画面では、「配置」タブを選択、その中の「文字の制御」の「折り返して全体を表示する」をチェックして「OK」ボタンを押します。

(5) 画面に入りきらないほど長い列が出来ていたら、その列を選択して、「書式/列/幅」を実行して、適切な幅に変更しましょう。私は列幅100mm程度が好きです。

(6) 最後に罫線を設定します。まず、A1セルを選択し、次に[Ctrl]+[Shift]+[End]キーを押すと、ワークシート内のデータがある部分の全てが選択されるので、この状態で、メニューから「書式/セル」を実行します。

(7) 表示された「セルの書式設定」画面では、「罫線」タブを選択し、そこで全ての罫線を引くように設定して「OK」ボタンを押します。

2.Microsoft Wordでcsvファイルを読み込む方法

今回のように全文検索が目的の場合は、ExcelよりWordの方が操作は簡単です。しかし、その性能には問題があるかもしれません。

(1) Wordを起動し、メニューから「ファイル/開く」を実行して、csvファイルを開きます。なお、「ファイルを開く」ダイアログのファイルの種類にcsv形式は登録されていないので、「全てのファイル」を選択する必要があります。

(2) そのまま、テキストファイルとして読み込まれるので、メニューから「編集/全て選択」を実行します。

(3) 続いて、「罫線/変換/文字列を表にする」を実行します。表示されるダイアログの設定は、適切に設定されていることを確認して、「OK」を押すと、変換が始まります。ただし、この変換はかなり遅いようですね。Mokuji.csv(82KB)では、すぐに変換が終わりましたが、version.csv(2446KB)だと、1時間実行して、ようやく変換が終わりました。






お気に入りの記事を「いいね!」で応援しよう

最終更新日  2003年12月07日 13時28分45秒
コメント(0) | コメントを書く


PR


© Rakuten Group, Inc.