utf 8符号化データは、以下のコードを直接使用することができる
最も重要なステップは文字列を単一の字に分解することであり、UTF-8符号化の字は、1バイトしかない場合、その最高バイナリビットは0である.マルチバイトであれば、その最初のバイトが最上位から始まり、連続するバイナリビット値が1の個数が符号化のビット数を決定し、残りの各バイトは10で始まる.
UTF-8は最大6バイトまで使用可能です.
1バイト0 xxxxxxx
2バイト110 xxxxx 10 xxxxx
3バイト1110 xxxx 10 xxxxxx 10 xxxxxx
4バイト11110 xxx 10 xxx 10 xxx 10 xxx 10 xxx 10 xxx
5バイト111110 xxx 10 xxxxx 10 xxxxxxx 10 xxxxx 10 xxxxx
6バイト1111110 x 10 xxxxxxx 10 xxxxxxxxx 10 xxxxxxx 10 xxxxxxx 10 xxxxxxx
他は簡単だ
1、無効ワード処理無効ワード分割後最初にkeyとして保存
2、テスト対象文字列
a)、単語に分割
b)、大文字小文字、アルファベットとスペースは全角半角に回転し、余分なスペースを取り除く(英語のアルファベットの後には最大1つのスペースしかなく、中国語の後にはスペースがあるべきではない)
c)、遍歴文字列のすべての字は、各字に対応する無効文字群が測定対象文字列にあるかどうかを検出する
#include
#include
#include