手に2本の

1373 ワード

锟斤拷の由来GBKとUTF-8
Unicodeと古い符号化システムの変換の過程の中で、きっといくつかの字があって、Unicodeで表すことができなくて、Unicodeの公式は1つのプレースホルダでこれらの文字を表して、これは:U+FFFD REPLACEMENT CHARACTERです.
ではU+FFFDのUTF-8が符号化されるのは、まさに「xefxbfxbd」です.もしこの「xefxbfxbd」が、何度も繰り返されているとしたら、例えば「xefxbfxbdxefxbfxbd」を、GBK/CP 936/GB 2312/GB 18030の環境で表示すると、漢字1文字2バイト、最終的な結果は、ロール斤拷問「ロール」(0 xEFBF)、斤(0 xBEF)、拷問(0 xBFBD)、

#include  
int main()  
{  
    char *s = "\xef\xbf\xbd\xef\xbf\xbd";  
    printf("%s
", s); return 0; }

パーマの由来vc+:
Windowsプラットフォームの下で、msのコンパイラ(つまりvc帯のあれ)はDebug形式で、初期化されていないスタックメモリをすべて0 xccに記入し、文字列で見ると「パーマパーマパーマ」、つまりパーマを出しているので、急いで初期化を反省しましょう
#include
int main()
{

    char* s;
    print(" %s
",s); return 0; }

屯屯屯の由来VC:
同様に、初期化されていないスタックメモリはすべて0 xcdに記入され、文字列は「屯屯屯屯屯屯」と呼ばれている.
#include    
#include    
int main()  
{  
    char *s;  
    s = (char *)malloc(16);  
    printf(" %s", s);  
    free(p);  
    return 0;  
}

锘の由来VC HTML:
マイクロソフトはUTF-8ファイルヘッダにEF BB BF BOMマークを付けた.BOMがサポートされていない環境でUTF-8復号を停止すると「锘」の字が失われる.
#include  
int main()  
{  
    char *s = "\xef\xbb";  
    printf("%s
", s); return 0; }