next up previous
Next: A..4 テキスト・エディター Up: A..3 古典 (文書) の電子化 Previous: A..3.0.2 日本語の古典のテキスト・ファイル

A..3.0.3 日本語の文書の電子化の問題

日本にも電子化できる素材 (既に著作権の切れた古典) はたくさんあるが、文 字コードの問題が難しい。JIS 規格でコードが決まった文字はせいぜい1万数千 であり、これは日常現れるテキストの表現には大抵の場合困らないが (それでも 自分の名前が正しく表現できない人は結構いる。少し前の細川首相の名前も確か JIS 規格にはなかった)、古典テキストの表現に十分であるとは言い難い。

例えば、「新潮文庫の100冊」という CD-ROM タイトルがある。この種のソ フトでは JIS 規格にない文字は、JIS でない文字コードセットを使ったり、 文字パターンを独自に用意したり (こういう扱いをする文字のことを外字と呼 ぶ)、特別扱いしている。


next up previous
Next: A..4 テキスト・エディター Up: A..3 古典 (文書) の電子化 Previous: A..3.0.2 日本語の古典のテキスト・ファイル
Masashi Katsurada
平成20年10月18日