UTF-8コードの中で、1つの漢字は何バイトを占有します-回転します

839 ワード

UTF-8のコードの资料を探している时、多くの招待状の言うUTF-8のコードの中で、1つの汉字は3バイト占めて、あるのはまた证明をして、大概はこのようにして、1つのBOMのUTF-8のコードのテキストのファイルがなくて、中にいくつかの汉字を保存して、それからファイルの大きさを见ます.このような証明は少しも説得力がないと思います.UTF-8は長くなっているので、1-6バイトで、少量の漢字検出ではすべての漢字が正しいとは説明できません.
その後、文字マッピングテーブル-中国語を調べて、正しい答えを見つけました.少数は漢字が3バイト、多くは4バイトを占めています.3バイトの範囲
U+2E80 - U+2EF3 : 0xE2 0xBA 0x80 - 0xE2 0xBB 0xB3        115  
U+2F00 - U+2FD5 : 0xE2 0xBC 0x80 - 0xE2 0xBF 0x95        213  
U+3005 - U+3029 : 0xE3 0x80 0x85 - 0xE3 0x80 0xA9        36  
U+3038 - U+4DB5 : 0xE3 0x80 0xB8 - 0xE4 0xB6 0xB5        7549  
U+4E00 - U+FA6A : 0xE4 0xB8 0x80 - 0xEF 0xA9 0xAA        44138  
U+FA70 - U+FAD9 : 0xEF 0xA9 0xB0 - 0xEF 0xAB 0x99        105  

合計:52156個
4バイトの範囲
U+20000 - U+2FA1D : 0xF0 0xA0 0x80 0x80 - 0xF0 0xAF 0xA8 0x9D        64029  

合計:64029