Next: 日本語の古典のテキスト・ファイル
Up: 古典テキストの電子化について
Previous: Gutenberg プロジェクト
日本にも既に著作権の切れた古典はたくさんある。そういう意味で、電子化
できる素材はたくさんあるのだが、案外難しいのが、文字コードの問題である。
JIS 規格でコードが決められた文字はせいぜい1万数千であり、これは日常現
れるほとんどのテキストの表現にはそれほど困らないが (それでも自分の名前
がワープロで正しく印刷出来ない人は結構いる。少し前の細川首相の名前も確
か JIS 規格になかったはず)、古典テキストの表現に十分であるとは言い難い。
例えば、「新潮文庫の100冊」という CD-ROM タイトルがある。この種のソ
フトでは JIS 規格にない文字は、JIS でない文字コードセットを使ったり、
文字パターンを独自に用意したり (こういう扱いをする文字のことを外字と呼
ぶ)、特別扱いしている。
Masashi Katsurada
平成10年7月2日