(しばらく工事中、多分解決しない。)
住所の最後、1丁目2番地3号というのを 1-2-3 のように書く。 “半角文字” のときは、ASCII コード 0x2d の hyphen-minus を使えばいいのだろう。 でも “全角文字” を要求されることが多い。
“全角文字” で書くとき、棒のところはどの文字を使うのか。
それらしい文字(を UTF-8でエンコードしたとき)の文字コードを調べる。
echo 文字 | od -cx でやってみたところ
Mac だと、普通使っているフォントで音引(長音記号)が音引に見えないせいか、 音引を使ってしまう人が多く、 「音引を使う人が多いな。間が抜けて見える。」 と(Macユーザーでなかった頃は)思っていた。 今は自分がMacユーザーになって困っている(苦笑)。 仕方がないので、単語登録して入力することにしている。
全角の(EM)ダッシュを使うのだろう、と(根拠なく)信じていたのだが、 先日、確定申告の書類を作成していて、叱られてしまった。 それで、どうも自分が勘違いしているらしいことに気づいた。
何と、国税庁のWWWサイトによると、 全角のマイナスを使うのだそうだ。あららら。本当? そのWWWサイトから件の文字をコピペすると、0xef, 0xbc, 0x8d だ。 FULLWIDTH HYPHEN-MINUS というの? (https://www.utf8-chartable.de/unicode-utf8-table.pl?start=65280&utf8=0x)
shift JIS だと 0x817C に相当。負記号。Unicode の U+2212 だとか。 あれ、でも、それなら UTF-8 では 0xe2, 0x88, 0x92 となるのでは??
あ、Mac で仮名漢字変換するとき、 マイナスで 0xef, 0xbc, 0x8d というのも出て来る。 こっちを使うべきということか。紛らわしい。
とりあえずのまとめ (根拠は知らん) |
住所の丁目・番地・号をつなぐ「棒」には、 全角のマイナスを使うべき (確定申告とか) である。 UTF-8 の符号化では、 e0x2 0x88 0x92 ではなく、0xef 0xbc 0x8d の方を使う。 |
実はこれはよく知られた問題らしい。
(少し文句) 個人的には、半角のハイフン・マイナスでも、全角マイナス (e0x2 0x88 0x92 と 0xef 0xbc 0x8d のどちらでも)、 ダッシュでも、とにかく似ている字ならば、 受け取る側が全角マイナスとかに正規化してしまえば良い、 と考えるけれど、そうしないのは、お役所なりの理屈があるのでしょう (手書きの時はゆるゆるだったのでは?という気がするのだけど)。 入力して、ずっと後に進んで最終段階になってから、 使っていけない文字を使っていると指摘して、 たくさんの入力のやり直しを強制するのはやめてほしい。
(脱線) ところで、某銀行のWWWサイトでは、次のように説明している。
住所入力欄では、全角文字がお使いいただけます。
全角スペースもしくは「-(ハイフン)」に置き換えて入力してください。 なお、マイナス記号や長音記号はご使用いただけません。 |
ハイフンと言っているけれど、これもコピペして調べたら、 0xef 0xbc 0x8d だって、何だこれは。 -- 多分、この銀行の説明はおかしい。
さらなる脱線だけれど、 昔は縦書きにしたときに確実に90度回転してもらうために、 わざと音引を使ったものだ、とか言っている人がいる。 なるほど、そうなんだ…
「ダッシュ (記号)」 JISですら後から訂正したとか書いてある。 (なぜそういうことになったのか、昔だったら、追求する人がいたと思うけれど。) これは一般人が間違えても仕方ない?
「全角ハイフンとかチルダとか / 2014-03-21 (金)」
「ハイフンに似てる文字の文字コード」 …… え、― HORIZONTAL BAR U+2015 (0xe2 0x80 x095) というのもあるのか。 それをダッシュと呼んでいる人もいる (正しいのかな?)。