漢字のピンインの頭文字を取得
2953 ワード
漢字ピンインの頭文字を用いて高速検索を行い,直接検索よりも効率が高い.ASCII符号化では、漢字はピンインの頭文字の順に符号化されている.すなわち、ピンインの頭文字が同じ漢字のコンパイルは連続的で相対的に集中している.漢字のASCIIコードの大きさを比較することで、ピンインの頭文字を特定することができます.例えば、漢字のASCII符号nがn>=0 xB 0 A 1&&n<=0 xB 0 C 4を満たす場合、その漢字のピンインの頭文字がAであることを示す.まず、数値範囲を判断する補助関数を書きます. それから漢字のピンインの頭文字を得る関数です.
ASCIIは2つのcharで1つの漢字を表し、それぞれ漢字ASCII値の高低位として、2つの文字を1つのASCII値に組み合わせることで、ピンインの頭文字の臨界値と比較することができる.は最後に中国語文字列を取得する関数を実現する.
文字列には漢字以外の文字が存在する可能性があり、それらを処理せずに直接保持します.漢字ASCIIコードを構成する2つのchar値はいずれも0未満であるため,文字が漢字であるか否かを容易に判断できる.テストしてみます.
結果はカットする必要はないでしょう、とてもOK!
// var
bool Between(int var, int lower, int upper)
{
assert(upper >= lower);
return (var >= lower) && var <= upper;
}
ASCIIは2つのcharで1つの漢字を表し、それぞれ漢字ASCII値の高低位として、2つの文字を1つのASCII値に組み合わせることで、ピンインの頭文字の臨界値と比較することができる.
char GetPinyinHead(const char * pszText)
{
assert(strlen(pszText) == 2);
unsigned char hi = static_cast<unsigned char>(pszText[0]);
unsigned char low = static_cast<unsigned char>(pszText[1]);
int val= unsigned short(hi << 8) +low;
if (Between(val, 0xB0A1, 0xB0C4)) return 'A';
if (Between(val, 0XB0C5, 0XB2C0)) return 'B';
if (Between(val, 0xB2C1, 0xB4ED)) return 'C';
if (Between(val, 0xB4EE, 0xB6E9)) return 'D';
if (Between(val, 0xB6EA, 0xB7A1)) return 'E';
if (Between(val, 0xB7A2, 0xB8c0)) return 'F';
if (Between(val, 0xB8C1, 0xB9FD)) return 'G';
if (Between(val, 0xB9FE, 0xBBF6)) return 'H';
if (Between(val, 0xBBF7, 0xBFA5)) return 'J';
if (Between(val, 0xBFA6, 0xC0AB)) return 'K';
if (Between(val, 0xC0AC, 0xC2E7)) return 'L';
if (Between(val, 0xC2E8, 0xC4C2)) return 'M';
if (Between(val, 0xC4C3, 0xC5B5)) return 'N';
if (Between(val, 0xC5B6, 0xC5BD)) return 'O';
if (Between(val, 0xC5BE, 0xC6D9)) return 'P';
if (Between(val, 0xC6DA, 0xC8BA)) return 'Q';
if (Between(val, 0xC8BB, 0xC8F5)) return 'R';
if (Between(val, 0xC8F6, 0xCBF0)) return 'S';
if (Between(val, 0xCBFA, 0xCDD9)) return 'T';
if (Between(val, 0xCDDA, 0xCEF3)) return 'W';
if (Between(val, 0xCEF4, 0xD188)) return 'X';
if (Between(val, 0xD1B9, 0xD4D0)) return 'Y';
if (Between(val, 0xD4D1, 0xD7F9)) return 'Z';
return char(0);
}
文字列には漢字以外の文字が存在する可能性があり、それらを処理せずに直接保持します.漢字ASCIIコードを構成する2つのchar値はいずれも0未満であるため,文字が漢字であるか否かを容易に判断できる.
string GetAllPinyinHeads(const char * pszText)
{
string rst, temp;
string strText = pszText;
for (int i = 0; i < strText.length(); i++)
{
if (strText[i] >= 0) // 0
{
rst += strText[i];
}
else
{
temp += strText[i];
if (temp.length() == 2)
{
rst += GetPinyinHead(temp.c_str());
temp.clear();
}
}
}
return rst;
}
int _tmain(int argc, _TCHAR* argv[])
{
string strTxt;
while (cin>>strTxt)
{
cout<<GetAllPinyinHeads(strTxt.c_str())<<endl;
}
return 0;
}
結果はカットする必要はないでしょう、とてもOK!