文字コードについて
まずはじめに
今まで文字コードについて、なんとなく理解しているつもりであったが、全く理解していないことに気づいたので復習も兼ねて文字コードについてまとめます。
文字集合
文字コードについて話す前に、文字集合について。
今まで聞いたことなかったが、文字集合という定義がある。
文字集合とはコンピュータで扱う対象となる文字をとにかく列挙して集めたもの。
英語圏の人たちであれば、
・英字(a, b, ・・・ x, z)
・数字(1, 2, 3, ・・・)
・記号({, }, <, >)
などあれば問題はないが、私たち日本人の場合は
・漢字(日、月、火・・・)
・ひらがな(あ、い、う・・・)
・カタカナ(ア、ア、イ・・・)
なども必要であるため、必要な文字集合はそれぞれ環境によって異なる。
文字符号化集合
文字符号化集合とは、上記にある「文字集合」に対してそれぞれの文字を特定できるように1つずつに番号を振っておき、1バイトや2バイトでのビット組み合わせと対応させている。
簡単にいえば符合の振られた文字集合のこと。
符号化文字集合として代表的なものは以下の通り。
・JIS X 0201
・JIS X 0208
・Unicode
文字符号化方式
文字符号化方式とは、普段我々が文字コードと読んでいるもの。
文字符号化方式として代表的なものは以下の通り。
・UTF-8
・Shift_JIS
・EUC_JP
例えば、Unicodeの文字符号化方式として、UTF-8があるということ。
同じようにJIS X 0208の文字符号化方式として、Shift_JIS、EUC_JPがあるということ。
まとめ
普段文字コードと呼んでいたものに、Unicodeもあったが、正確に言えばUnicodeは文字コードではなかった。奥が深く意外と面白いなと思いました。余裕あればもうちょっと踏み込みたいです。
Author And Source
この問題について(文字コードについて), 我々は、より多くの情報をここで見つけました https://qiita.com/shotah1215/items/82444ae042b1d9067ced著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .