utf-8の中国語は1つの漢字が3バイトの長さを占めていますか?

2413 ワード

 
  
英文字母和中文汉字在不同字符集编码下的字节数

英文字母:

字节数 : 1;编码:GB2312

字节数 : 1;编码:GBK

字节数 : 1;编码:GB18030

字节数 : 1;编码:ISO-8859-1

字节数 : 1;编码:UTF-8

字节数 : 4;编码:UTF-16

字节数 : 2;编码:UTF-16BE

字节数 : 2;编码:UTF-16LE

 

中文汉字:

字节数 : 2;编码:GB2312

字节数 : 2;编码:GBK

字节数 : 2;编码:GB18030

字节数 : 1;编码:ISO-8859-1

字节数 : 3;编码:UTF-8

字节数 : 4;编码:UTF-16

字节数 : 2;编码:UTF-16BE

字节数 : 2;编码:UTF-16LE

      ,         。        。 1、                ,      ascii ,       7       128   , 1    0; 2、           128    ,                   ,      , ,  1     ,                 ,     256 。           ,   ,       ; 3、       ,              ,  0--127         ,  128--255           ,  2      ,          ,  135   ,    ,             ; 4、     ,             ,        10     ,     256       。      GB2312      ,    2               ,      65536     ,                     ,                      。 5、           ,      ?     email    ,         ,         。    ,      unicode,              ,                 ,  unicode    100     ,           ,      ,         ,                 。 6、  ,unicode                ,          , 。x86 amd                  ,            unicode  acsii 。  Unicode    ,              ,                    0,               ,             。        :   Unicode       。 7、      ,          ,     , 。utf-8  Unicode          。    utf-16、utf-32 。UTF-8         ,           。     1~4         ,              。          ,           0,             ;      1,       1,              。 8、  unicode      utf-8           ,  " "  Unicode  4E25,UTF-8   E4B8A5,  7      ,UTF-8         ,      ,E4B8A5               4E25。 9、UTF-8                。128   ASCII   (Unicode     U+0000   U+007F)      ,          、   、     、     、    、    、          (Unicode     U+0080   U+07FF)      ,         (BMP)    (CJK    -Qieqie )      ,   Unicode               。  10、  ,       ,    ,     utf-8        ,   3   ,         1110xxxx 10xxxxxx 10xxxxxx。