next up previous
Next: 2.5 脱線: KAKASI と Up: 2 日本語文書における検索 Previous: 2.3 どうすればいいか?

2.4 Namazu の紹介

実は、 当初 WWW の検索エンジンとして開発された Namazu9 という 日本語全文検索システムが、 今ではかなり汎用目的に使えるように改良されていて、 多くの検索用途にかなり手軽かつ便利に使える。 それを紹介しておこう。

例を二つほどあげる。

  1. Namazu 本来 (元来) の使い方の例として、数学科の WWW ページの検索用ページ
    http://nalab.mind.meiji.ac.jp/cgi-bin/namazu.cgi
    をあげておく (あまり手入れはしていません…)。
  2. 桂田個人の使用例だが、MH のメイル・ボックス ~/Mail 内の 保存メッセージを Namazu を使って検索できるようにしてある。
    oyabun 上のユーザー mk の環境で -- 桂田以外は試せません
    oyabun% namazu 千葉 .Mail

    Mail の下にあるファイル (ほとんど全ては MH によるメイル・メッセージ) の 容量は約 160 MB 程度で (結構多い)、 日本語 EUC と ISO-2022JP の二つのコードのファイルが混在しているが、 瞬時にほぼ完全な検索ができる。

Namazu を利用するには、 事前にインデックス (index, 索引) を作る作業がいるので、 一度だけちょっと調べたくなったような用途には向かないが、 その分、高速に検索ができるし、 何よりも (1), (2) の問題をクリアしていて、 かなり満足の行く (漏れのない) 検索ができる。

(1), (2) の問題を解決してることの確認 -- これは誰でも試せ… 今年度は Namazu がない!
isc-xas06% cd ~re00018
isc-xas06% namazu 桂田 index ← この結果は見てのお楽しみ。
isc-xas06% namazu なぎなた index ← 同上。

この index は索引ファイル (インデックス・ファイル) を納めてある ディレクトリィで、
mkdir index; mknmz -O index nihongo-text として作成した。


next up previous
Next: 2.5 脱線: KAKASI と Up: 2 日本語文書における検索 Previous: 2.3 どうすればいいか?
Masashi Katsurada
平成20年10月18日