今更聞けない文字コードの仕組み
文字コードの構成要素
文字集合
符号化方式(エンコーディング)
cf. http://equj65.net/tech/charcode/
JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。
Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。
cf. http://d.hatena.ne.jp/snaka72/20100710/SUMMARY_ABOUT_JAPANESE_CHARACTER_CODE
文字コードの仕組み
それぞれの文字集合に含まれる文字について、その「符号位置」を示す「番号」をそれぞれ独自の手順や計算式によってバイト列の表現に変換したもの。
http://d.hatena.ne.jp/snaka72/20100710/SUMMARY_ABOUT_JAPANESE_CHARACTER_CODE
文字集合
符号化方式(エンコーディング)
cf. http://equj65.net/tech/charcode/
JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。
Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。
cf. http://d.hatena.ne.jp/snaka72/20100710/SUMMARY_ABOUT_JAPANESE_CHARACTER_CODE
それぞれの文字集合に含まれる文字について、その「符号位置」を示す「番号」をそれぞれ独自の手順や計算式によってバイト列の表現に変換したもの。
http://d.hatena.ne.jp/snaka72/20100710/SUMMARY_ABOUT_JAPANESE_CHARACTER_CODE
※16進数を表すために「0x」を数値の文頭に付与する
文字集合 | 符号化方式(エンコーディング) | 備考 |
---|---|---|
unicode | UTF-8, UTF-16 | 全世界の文字を扱えることを目的としてしている。 |
JIS X 0208 | ISO-2022-JP(JIS)、EUC-JP、Shift_JIS | 日本語で使用される主な文字を収録した文字コード。漢字はJIS第1・第2水準漢字が収録されている |
ASCII | ない | 英数字と一部の記号のみを収録した基礎的な文字コード |
cf. http://appakumaturi.hatenablog.com/entry/20120414/1334334986
なぜWEBでUTF-8がよく使われるか
他の言語よりも比較的容易に多言語対応が行える。
Author And Source
この問題について(今更聞けない文字コードの仕組み), 我々は、より多くの情報をここで見つけました https://qiita.com/pink/items/667df574305ccbff2887著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .