next up previous
Next: B. 日本語文書を電子化する上での問題点について Up: 情報処理II 第8回 情報の電子化 (3) Previous: 3 研究課題2

A. 日本語のテキスト・ファイルの例

青空文庫 http://www.aozora.gr.jp/ から、 著作権フリーの文書が入手できる。 例えば芥川龍之介「蜘蛛の糸」を読んでみよう。

isc-xas06% mkdir kumonoito
isc-xas06% cd kumonoito
isc-xas06% cp ~re00018/kumonoito.zip . ← コピー
isc-xas06% unzip kumonoito.zip ← 圧縮されているので復元
isc-xas06% ls
isc-xas06% /usr/meiji/pub/bin/nkc kumonoito.txt ← 文字コードをチェック
isc-xas06% qkc -eu kumonoito.txt ← UNIX 形式 (日本語 EUC, 0x0a で改行) に変換
isc-xas06% cat kumonoito.txt
isc-xas06% emacs kumonoito.txt &

二つのことに気が付くと思う。


next up previous
Next: B. 日本語文書を電子化する上での問題点について Up: 情報処理II 第8回 情報の電子化 (3) Previous: 3 研究課題2
Masashi Katsurada
平成20年10月18日