日本語の文字コードは JIS (日本工業規格) で決められている。日本語にお ける文字数が多いため13、1 文字を表すのに 16 ビットを用いる。
例えば「桂」という文字の JIS コードは 0x374b である。
しかし、ファイルの中に 0x37, 0x4b というバイト列をそのまま入れたので は、ASCII の '7', 'K' と区別がつかない。両者を混在させるには何らかの工 夫が必要になる。
情報科学センターの Solaris (UNIX) 環境では日本語 EUCという 文字コードを用いている。やはり emacs を用いて
| kanji.txt |
桂田 祐史 |
日本語 EUC 以外にも、ASCII の文字と日本語の文字を混在を可能にした文 字コードはいくつかある。
| 準備: nkf を用いて kanji.txt の文字コードを変換する | ||||
|
isc-xas06% cat kanji-jis.txt
桂田 祐史
isc-xas06% od -cx kanji-jis.txt
0000000 033 $ B 7 K E D 033 ( B 033 $ B M 4
1b24 4237 4b45 441b 2842 201b 2442 4d34
0000020 ; K 033 ( B \n
3b4b 1b28 420a
0000026
|
isc-xas06% cat kanji-ms.txt
jc S (いわゆる文字化け)
isc-xas06% od -cx kanji-ms.txt
0000000 214 j 223 c 227 S 216 j \r \n
8c6a 9363 2097 538e 6a0d 0a00
0000013
isc-xas06%
|