かわいいコード——ASC、Unicode、UTF-8、GBK
1096 ワード
文字セット
ASCII
ASC符号化は現在最も一般的な単バイト符号化システムであり、英語のアルファベット、数字、特殊文字などを含む.
その最上位はパリティビットと呼ばれ、伝送中に符号化にエラーが発生したかどうかを検証するために使用されます.
各地域には異なる文字がバイナリ列に符号化される必要があるため、統一された文字セットを提供し、世界中で障害なく使用できるようにunicodeが誕生し、各文字にユニークなバイナリ列を提供します.
Unicode
Unicodeは、言語間、プラットフォーム間でのテキスト変換、処理の要件を満たすために、各言語の各文字に統一された一意のバイナリ符号化を設定します.
Unicodeは各文字コードビットのみを規定しており、それらをどのように格納、伝送するかは規定されていない.そのため、unicode符号化の伝送、記憶に使用される多くの符号化規則が現れ、最も一般的なのはUTF-8とGBKである.
エンコーディング
UTF-8
UTF-8はUnicodeに基づく最も一般的な国際符号化である.各文字の長さは1バイト~4バイトです.英字は1バイト、漢字は3バイト.サイズ端をサポートします.
エンコード形式は次のとおりです.
0xxxxxxx # 0000-007F
110xxxxx 10xxxxxx # 0080-07FF
1110xxxx 10xxxxxx 10xxxxxx # 0800-FFFF
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx # 10000-1FFFF
GBK
GBKもUnicodeのコードに基づいており、中国のコードであり、各文字の長さを2バイト固定し、英字と漢字を最高位で区別している.
1xxxxxxx xxxxxxxx #
0xxxxxxx xxxxxxxx #
明らかに、GBKとUTF 8との間にUnicodeによる変換が必要である.