文字コードについて

1279 ワード

文字コード UTF-8 UTF-8 テキストリンク

まずはじめに

今まで文字コードについて、なんとなく理解しているつもりであったが、全く理解していないことに気づいたので復習も兼ねて文字コードについてまとめます。

文字集合

文字コードについて話す前に、文字集合について。
今まで聞いたことなかったが、文字集合という定義がある。

文字集合とはコンピュータで扱う対象となる文字をとにかく列挙して集めたもの。

英語圏の人たちであれば、
・英字（a, b, ・・・　x, z）
・数字（1, 2, 3, ・・・）
・記号（{, }, <, >）

などあれば問題はないが、私たち日本人の場合は

・漢字（日、月、火・・・）
・ひらがな（あ、い、う・・・）
・カタカナ（ア、ｱ、イ・・・）
なども必要であるため、必要な文字集合はそれぞれ環境によって異なる。

文字符号化集合

文字符号化集合とは、上記にある「文字集合」に対してそれぞれの文字を特定できるように１つずつに番号を振っておき、１バイトや２バイトでのビット組み合わせと対応させている。
簡単にいえば符合の振られた文字集合のこと。

符号化文字集合として代表的なものは以下の通り。
・JIS X 0201
・JIS X 0208
・Unicode

文字符号化方式

文字符号化方式とは、普段我々が文字コードと読んでいるもの。
文字符号化方式として代表的なものは以下の通り。
・UTF-8
・Shift_JIS
・EUC_JP

例えば、Unicodeの文字符号化方式として、UTF-8があるということ。
同じようにJIS X 0208の文字符号化方式として、Shift_JIS、EUC_JPがあるということ。

まとめ

普段文字コードと呼んでいたものに、Unicodeもあったが、正確に言えばUnicodeは文字コードではなかった。奥が深く意外と面白いなと思いました。余裕あればもうちょっと踏み込みたいです。

Author And Source

この問題について(文字コードについて), 我々は、より多くの情報をここで見つけました https://qiita.com/shotah1215/items/82444ae042b1d9067ced

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

HDU_2004——成績転換

setting.xml設定説明