2.3 どうすればいいか？

Next: 2.4 Namazu の紹介 Up: 2 日本語文書における検索 Previous: 2.2 grep の問題点

2.3 どうすればいいか？

このうち文字コードの問題だけは比較的簡単に解決できる ⁷。日本語 EUC でも JIS 漢字でも、日本語データとしては同じと見なすような grep を作れば良い。例えば、成田多良氏の作成した lgrep (http://www.ff.iij4u.or.jp/~nrt/lv/ から入手した) は、この条件 (実はそれ以上の条件を満たしている素晴らしいソフトウェアである) を満たす。

grep は EUC しか検索できない, lgrep は何でも OK

isc-xas06% source ~re00018/syori2rc ← 桂田の用意したコマンドを利用できるようにする ⁸。

isc-xas06% cd ~re00018/nihongo-text ← サンプル・データのあるディレクトリィに移動する。

isc-xas06% ls

euc.txt jis.txt sjis.txt → 3 つテキスト・ファイルがある。

isc-xas06% nkc * ← 各ファイルの文字コードを調べる (結果は省略する)

isc-xas06% cat euc.txt

桂田祐史

弁慶がな

ぎなたを

isc-xas06% grep 桂田 *

euc.txt:桂田祐史 → EUC のテキストしか検索できていない。

isc-xas06% lgrep 桂田 *

euc.txt:桂田祐史

jis.txt:桂田祐史

sjis.txt:桂田祐史 → lgrep なら三つとも検索に成功する。

isc-xas06% grep なぎなた * ← これはうまく行かない。

しかし、たとえ、そういう (文字コードの問題を解決した) grep を作ったとしても、 (1) の問題は残ったままである。これは日本語の文書を処理するには、 grep という made in USA の (行単位で検索する) ソフトはもうあきらめて、日本語文書のためのソフトを作るべきだ、ということだろう (少し飛躍のある主張？)。

Next: 2.4 Namazu の紹介 Up: 2 日本語文書における検索 Previous: 2.2 grep の問題点

Masashi Katsurada
平成20年10月18日