かわいいコード——ASC、Unicode、UTF-8、GBK

1096 ワード

文字セット


ASCII


ASC符号化は現在最も一般的な単バイト符号化システムであり、英語のアルファベット、数字、特殊文字などを含む.
その最上位はパリティビットと呼ばれ、伝送中に符号化にエラーが発生したかどうかを検証するために使用されます.
  • 奇数バイトのうち1の個数は奇数であり、そうでなければ最高位置1
  • である.
  • バイトのうち1の個数は偶数であり、そうでない場合は最高位置1
  • である.
    各地域には異なる文字がバイナリ列に符号化される必要があるため、統一された文字セットを提供し、世界中で障害なく使用できるようにunicodeが誕生し、各文字にユニークなバイナリ列を提供します.

    Unicode


    Unicodeは、言語間、プラットフォーム間でのテキスト変換、処理の要件を満たすために、各言語の各文字に統一された一意のバイナリ符号化を設定します.
    Unicodeは各文字コードビットのみを規定しており、それらをどのように格納、伝送するかは規定されていない.そのため、unicode符号化の伝送、記憶に使用される多くの符号化規則が現れ、最も一般的なのはUTF-8とGBKである.

    エンコーディング


    UTF-8


    UTF-8はUnicodeに基づく最も一般的な国際符号化である.各文字の長さは1バイト~4バイトです.英字は1バイト、漢字は3バイト.サイズ端をサポートします.
    エンコード形式は次のとおりです.
    0xxxxxxx    # 0000-007F 
    110xxxxx 10xxxxxx   # 0080-07FF 
    1110xxxx 10xxxxxx 10xxxxxx  # 0800-FFFF  
    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx  # 10000-1FFFF 
    

    GBK


    GBKもUnicodeのコードに基づいており、中国のコードであり、各文字の長さを2バイト固定し、英字と漢字を最高位で区別している.
    1xxxxxxx xxxxxxxx  #  
    0xxxxxxx xxxxxxxx  #  
    

    明らかに、GBKとUTF 8との間にUnicodeによる変換が必要である.