« 電子メールの送信から受信まで-7 | メイン | 電子メールの送信から受信まで-9 »

電子メールの送信から受信まで-8

○ 文字コードの話
  「文字コードて何?」という方々もおられるだろう。
  一般にコンピュータ上における文字の表現は、文字単位に一連の文字番号(=文字コード)を割り当て、その文字コードで一文字一文字を表現する。
  文字の羅列は、そういった文字コードの羅列であり、コンピュータ上で文書を保存する場合は、文字コードの羅列を保存する :

上記は、本文のごく一部をファイルに格納(左側)し、その中身を表示させたもの(右側)である。
 例えば、ひらがなの「こ」は 文字コード 9267 (16進数で 2433)が割り当てられており、漢字の「電」は文字コード 17733(16進数で 4545) 、全角アルファベット「A」は 文字コード 9025(16進数で 2341) が割り当てられている。
 半角アルファベットの「A」は、65 (16進数では 41)、「a」は、97(16進数では 61) が割り当てられている。
 文字コードは、コンピュータが処理を行う際は 16進数で扱う。

 電子メールの本文も、上記と同じように文字コードの羅列で文章を表現している。
 文字コードには、規格化された文字コード表の形で地球上に数百種類ある。文字コードを全部示すと分厚い本が一冊できてしまう。

 日本語環境では現在、以下の文字コードが存在する:
・ JIS X0201  ― 半角カナ、句読点が規定されている。1980年代前半の パーソナルコンピュータがほとんどこの規格。
現在、これしか扱えないというコンピュータは無いだろう。
規定されている文字数は、約 160文字。JIS 8単位符号とも呼ばれる。
・ JIS X0208  ― 現在の主流。一般に JIS コードと言えば、JIS X0208 を指す。
         いわゆる、半角カナ文字・半角句読点の規定はない。
3回の改訂があり、現在の JIS X0208 は、1997年改定の JIS X0208-1997 である。
         但し、この文字コードがそのまま使われている例は少なく、この文字コードの変種が専ら使用される。
         この文字コードの変種は以下:

hift-JIS   ・・・ SJIS X0201 の半角カナと JIS X0208 の全角カナを共存させるために、JIS X0208 の文字コードを一定の規則でずらした(=シフト)もの。1990年代前半までは、これが主流。
EUC-JP   ・・・ EUC とは、Extended Unix Code の略。JP は日本語という意味。
日本語に特化した Unix 文字コードという訳である。
BSD 系 Unix では、事実上の標準文字コード。
ISO-2022-JP ・・ 正規の JIS X0208 を一部変更し、国際的な日本語文字コードとして規定したもの。
2回の改訂があり、ISO-2022-JP-2、ISO-2022-JP-3 とある。
日本語の電子メールは、この文字コードを使用するように推奨されている。
また、日本語のWebサイトもこの文字コードを使うことが勧められている。
・ JIS X0213  ― この文字コード体系をまともに使える日本語のシステムは、まだ存在しない。
1回改訂があり、現在の JIS X0213 は、2004年改訂の JIS X0213-2004 である。
このため、JIS 2004 とも言われる。
事実上の JIS X0208-1997 の改訂である。JIS X0208 では、JIS第1水準漢字、JIS第2水準漢字があって、聞いた事がある人もおられると思うが、JIS X0213 では、JIS第3水準漢字、JIS第4水準漢字が規定され、規定総文字数が倍近くに増えている。
・ JIS X0221  ― この文字コード体系をまともに使える日本語のシステムは、まだ存在しない。
1回改訂があり、現在の JIS X0213 は、2004年改訂の JIS X0213-2004 である。
このため、JIS 2004 とも言われる。
事実上の JIS X0208-1997 の改訂である。JIS X0208 では、JIS第1水準漢字、JIS第2水準漢字があって、聞いた事がある人もおられると思うが、JIS X0213 では、JIS第3水準漢字、JIS第4水準漢字が規定され、規定総文字数が倍近くに増えている。
UTF-8    ・・・ 一般に Unicode といえば、この文字コードを指す。
多くの文字コードが1つの文字コードを示すのに決まった長さを使うのに対し、UTF-8は、可変長である。つまり、文字によって文字コードの長さが変わる。
電子メールにおいても UTF-8 が散見されるが、まだまだ一般的ではない。
外国の文字を混在させる(ハングル文字とひらがななど)必要性がなければ、むしろ使用しない方がよい。
UTF-16,UTF-32 EUC とは、Extended Unix Code の略。JP は日本語という意味。
日本語に特化した Unix 文字コードという訳である。
BSD 系 Unix では、事実上の標準文字コード。
UCS-2     ・・ UTF-8 が文字コードの長さが可変長なのに対し、UCS-2 は固定長である。
UCS-4     ・・ UCS-2 と似ているが、文字コードの長さが UCS-2 の2倍である点が異なる。
どうだろうか。日本語に限っただけでもこれだけあり、勝手気ままに電子メールで好きな文字コードを使われたのでは、混乱するのは必至である。
説明を眺めただけでも混乱したのではないのだろうか?

 どれか特定の文字コードに決め、使用してもよい文字を限定することが、文字化けを巡るトラブル解消に繋がることが、おぼろげな実感として湧いていただけたら、ここで敢えて文字コードの説明を行った目的は達成である。

次回に続く
Powered by
Movable Type 3.34