next up previous
: 日本語文書を電子化する上での問題点について : 情報処理II 第8回 情報の電子化 (3) : 蛇足

日本語のテキスト・ファイルの例

青空文庫 http://www.aozora.gr.jp/ から、 著作権フリーの文書が入手できる。 例えば芥川龍之介「蜘蛛の糸」を読んでみよう。

waltz21% mkdir kumonoito
waltz21% cd kumonoito
waltz21% cp ~re00018/kumonoito.zip . ← コピーする。
waltz21% unzip kumonoito.zip ← 圧縮されているので復元する。
waltz21% ls
waltz21% ~re00018/bin/nkc kumonoito.txt ← 文字コードをチェックする。
waltz21% qkc -eu kumonoito.txt ← UNIX 形式 (日本語 EUC, 0x0a で改行) に変換する。
waltz21% cat kumonoito.txt
waltz21% mule kumonoito.txt &

二つのことに気が付くと思う。


next up previous
: 日本語文書を電子化する上での問題点について : 情報処理II 第8回 情報の電子化 (3) : 蛇足
Masashi Katsurada 平成13年6月18日