日本語の文字コードは JIS (日本工業規格) で決められている。日本語にお ける文字数が多いため9、1 文字を表すのに 16 ビットを用いる。
例えば「桂」という文字の JIS コードは 0x374b である。 mule で C- とすると、
記号入力: 0.JIS入力 1.記号 2.英数字 3.ひらがな 4.カタカナ 5.ギリシャ文字というメニューが現れる。0 を選択し ``374b'' と入力すると「桂」という文 字が入力できる。
しかし、ファイルの中に 0x37, 0x4b というバイト列をそのまま入れたので は、ASCII の '7', 'K' と区別がつかない。両者を混在させるには何らかの工 夫が必要になる。
情報科学センターのワークステーションでは日本語 EUCという
文字コードを用いている。
というファイルを od -cx してみると、「桂」が 0xb7, 0xcb という 2
バイトで表現されていることが分かる。これは JIS コードを上下 8 ビットに
それぞれ 0x80 を加えたものになっている:
日本語 EUC 以外にも、ASCII の文字と日本語の文字を混在を可能にした文 字コードはいくつかある。
tango21% cat kanji-jis.txt 桂田 祐史 tango21% od -cx kanji-jis.txt 0000000 033 $ B 7 K E D 033 ( B 033 $ B M 4 1b24 4237 4b45 441b 2842 201b 2442 4d34 0000020 ; K 033 ( B \n 3b4b 1b28 420a 0000026 |
tango21% cat kanji-ms.txt jc S (いわゆる文字化け) tango21% od -cx kanji-ms.txt 0000000 214 j 223 c 227 S 216 j \r \n 8c6a 9363 2097 538e 6a0d 0a00 0000013 tango21% |