しかし、grep (正確には日本語対応 grep) は日本語の文書に用いるには、 今一つ不十分なところがある。大きな問題点を二つほど説明しよう。
弁慶がな ぎなたを |
I am Katsurada. |
以上のことと少し関係するが3、 英語では単語の境界が空白というもので明らか (機械的に 判明する) であるが、 日本語ではそのようになっていない。 日本語の文章を 「形態素4」に分解することは、英文ほど単純にはできない。
例えば (厳密には単語への分解とは違うが)、前回紹介した
cat alice29.txt | /usr/ucb/tr -cs A-Za-z '\012' |
[ |
l]多分うまく検索できないisc-xas06% grep 日本語文字列 Mail/inbox/* |