今更聞けない文字コードの仕組み


文字コードの構成要素

  • 文字集合

  • 符号化方式(エンコーディング)

cf. http://equj65.net/tech/charcode/

JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。
Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。
cf. http://d.hatena.ne.jp/snaka72/20100710/SUMMARY_ABOUT_JAPANESE_CHARACTER_CODE

文字コードの仕組み

それぞれの文字集合に含まれる文字について、その「符号位置」を示す「番号」をそれぞれ独自の手順や計算式によってバイト列の表現に変換したもの。
http://d.hatena.ne.jp/snaka72/20100710/SUMMARY_ABOUT_JAPANESE_CHARACTER_CODE

※16進数を表すために「0x」を数値の文頭に付与する

http://q.hatena.ne.jp/1156532619

文字集合 符号化方式(エンコーディング) 備考
unicode UTF-8, UTF-16 全世界の文字を扱えることを目的としてしている。
JIS X 0208 ISO-2022-JP(JIS)、EUC-JP、Shift_JIS 日本語で使用される主な文字を収録した文字コード。漢字はJIS第1・第2水準漢字が収録されている
ASCII ない 英数字と一部の記号のみを収録した基礎的な文字コード

cf. http://appakumaturi.hatenablog.com/entry/20120414/1334334986

なぜWEBでUTF-8がよく使われるか

他の言語よりも比較的容易に多言語対応が行える。