Next: 2.4 Namazu の紹介
Up: 2 日本語文書における検索
Previous: 2.2 grep の問題点
このうち文字コードの問題だけは比較的簡単に解決できる
7。
日本語 EUC でも JIS 漢字でも、
日本語データとしては同じと見なすような grep を作れば良い。
例えば、成田多良氏の
作成した lgrep (http://www.ff.iij4u.or.jp/~nrt/lv/ から
入手した) は、
この条件 (実はそれ以上の条件を満たしている
素晴らしいソフトウェアである) を満たす。
grep は EUC しか検索できない, lgrep は何でも OK |
isc-xas06% source ~re00018/syori2rc
|
← 桂田の用意したコマンドを利用できるようにする
8。 |
isc-xas06% cd ~re00018/nihongo-text
|
← サンプル・データのあるディレクトリィに移動する。 |
isc-xas06% ls |
|
euc.txt jis.txt sjis.txt
|
→ 3 つテキスト・ファイルがある。 |
isc-xas06% nkc *
|
← 各ファイルの文字コードを調べる (結果は省略する) |
isc-xas06% cat euc.txt |
|
桂田祐史 |
|
弁慶がな |
|
ぎなたを |
|
isc-xas06% grep 桂田 * |
|
euc.txt:桂田祐史
|
→ EUC のテキストしか検索できていない。 |
isc-xas06% lgrep 桂田 * |
|
euc.txt:桂田祐史 |
|
jis.txt:桂田祐史 |
|
sjis.txt:桂田祐史
|
→ lgrep なら三つとも検索に成功する。 |
isc-xas06% grep なぎなた *
|
← これはうまく行かない。
|
|
しかし、たとえ、
そういう (文字コードの問題を解決した) grep を作ったとしても、
(1) の問題は残ったままである。
これは日本語の文書を処理するには、
grep という made in USA の (行単位で検索する) ソフトはもうあきらめて、
日本語文書のためのソフトを作るべきだ、ということだろう (少し飛躍の
ある主張?)。
Next: 2.4 Namazu の紹介
Up: 2 日本語文書における検索
Previous: 2.2 grep の問題点
Masashi Katsurada
平成20年10月18日