|
全て
| カテゴリ未分類
| KNOPPIX
| Linux全般
| KNOPPIX BBS
| 源氏物語
| Windowsでサーバの実験
カテゴリ:カテゴリ未分類
検索機能の強化とデータの整理が主目的です。
検索機能は、すでに、HTMLヘルプ形式の再編集版を第二サイトにアップしており、そちらでは、かなり強力な全文検索が出来るようになっていました。しかし、このHTMLヘルプにはひらがなをキーにした全文検索には問題があることが指摘されていました。(2003/9/7の日記参照) この問題の解決策として、第二サイトにCGIを使って検索エンジンを立ち上げる方法と、HTMLヘルプのバージョンアップで解決できないかを調べてきました。しかし、どちらもうまくいかず、見送ることに。 代わりに、再編集版の情報をcsv形式で出力しておき、これをMicrosoft Access等で検索するというアプローチをとることにしました。 最初、今はやりのxmlも検討したのですが、無償で使えるツールの中によいものが見つからなかったことと、私のMicrosoft Accessは、Office 2000のもので、xmlに未対応だったことから、今回はcsv形式にしました。 csv形式だと、Microsoft AccessなどのRDBMSで強力な関係演算を使って検索などのデータ処理が出来ます。ただし、全文検索機能を持つものは、高価なものばかりなので使わず、一般の検索機能で検索することにしました。この場合、気になるのは性能。最初は検索に数十秒程度かかってもいいやと思って始めたのです(2003/10/23の日記参照)。しかし、意外や意外、ものの数秒で結果が出てくるようです。 よく考えてみると、csv形式だと、メモリ上にすべてを読み込んで処理することになるので、全文なめまわし検索でも、そんなに時間がかからないのですね。JoinのようなRDB演算だって、内部処理はソートとマージになるだけなので、すべてメモリ上で処理するならば大して時間がかからないのです。 これなら、簡単なプログラムを書くだけでも、かなり使えそうです。 そんなわけで、とりあえず、csv形式に変換したデータと、手始めに作った簡単な検索機能付きビューアプログラムを源氏物語の世界 再編集版第一サイトにアップしてみました。 ぜひ、使ってみてください。そして、感想や要望などをカキコいただけるとうれしいです。 もちろん、今回はあくまで「手始め」なので、今後も少しずつ、このcsv形式を使った小物便利ツールを作っていくつもりです。 ------ csv形式のファイルについて csv形式といわれてもよくわからないという声が出そうなので、ここで少し説明することにします。 csv形式というのは、20年以上前の初期のパソコンの時代からある古いデータ形式です。古いだけあって、単純なので、非常に多くのソフトでサポートされています。 例えば、Microsoft Accessがあればcsvファイルに対してRDB演算を実行するなどにより多様なデータ処理が行えますが、他に、Microsoft ExcelやMicrosoft Wordでも、csvファイルを読み込んで処理できます。 1.Microsoft Excelでcsvファイルを読み込む方法 例えば、もし、お使いのパソコンにExcelがインストールされていたら、以下のようにしてExcelで使えます。 (1) エクスプローラでcsvファイルをダブルクリックすると、Excelが起動され、csvファイルの内容が表示されます。でも、まだ、書式が設定されていないので、以下のようにして書式を設定します。 (2) 左上端の何も書いてないところ(A1セルの左上)を押すと、ワークシート内の全てのセルが選択されるので、この状態で、メニューから「書式/列/選択範囲にあわせる」を実行します。 (3) ワークシート内の全てのセルが選択されている状態のまま、メニューから「書式/セル」を実行します。 (4) 表示された「セルの書式設定」画面では、「配置」タブを選択、その中の「文字の制御」の「折り返して全体を表示する」をチェックして「OK」ボタンを押します。 (5) 画面に入りきらないほど長い列が出来ていたら、その列を選択して、「書式/列/幅」を実行して、適切な幅に変更しましょう。私は列幅100mm程度が好きです。 (6) 最後に罫線を設定します。まず、A1セルを選択し、次に[Ctrl]+[Shift]+[End]キーを押すと、ワークシート内のデータがある部分の全てが選択されるので、この状態で、メニューから「書式/セル」を実行します。 (7) 表示された「セルの書式設定」画面では、「罫線」タブを選択し、そこで全ての罫線を引くように設定して「OK」ボタンを押します。 2.Microsoft Wordでcsvファイルを読み込む方法 今回のように全文検索が目的の場合は、ExcelよりWordの方が操作は簡単です。しかし、その性能には問題があるかもしれません。 (1) Wordを起動し、メニューから「ファイル/開く」を実行して、csvファイルを開きます。なお、「ファイルを開く」ダイアログのファイルの種類にcsv形式は登録されていないので、「全てのファイル」を選択する必要があります。 (2) そのまま、テキストファイルとして読み込まれるので、メニューから「編集/全て選択」を実行します。 (3) 続いて、「罫線/変換/文字列を表にする」を実行します。表示されるダイアログの設定は、適切に設定されていることを確認して、「OK」を押すと、変換が始まります。ただし、この変換はかなり遅いようですね。Mokuji.csv(82KB)では、すぐに変換が終わりましたが、version.csv(2446KB)だと、1時間実行して、ようやく変換が終わりました。 お気に入りの記事を「いいね!」で応援しよう
最終更新日
2003年12月07日 13時28分45秒
コメント(0) | コメントを書く |
|