GBK UTF 8符号化変換
2294 ワード
プログラミングの過程で、よくGBK、UTF 8、Unicodeなどの符号化フォーマットの文字列変換に遭遇し、以下にまとめる.
Windowsプラットフォームでは、MultiByteToWideCharとWideCharToMultiByteの2つの関数で実現
その原理は、「MultiByteToWideChar」関数で文字列をunicode文字列に変換した後、「WideCharToMultiByte」でunicodeから所望の目的で符号化された文字列に変換することである.
void ConvertGBKToUtf8(CString& strGBK)
{
int len=MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, NULL,0);
unsigned short * wszUtf8 = new unsigned short[len+1];
memset(wszUtf8, 0, len * 2 + 2);
MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, wszUtf8, len);
len = WideCharToMultiByte(CP_UTF8, 0, wszUtf8, -1, NULL, 0, NULL, NULL);
char *szUtf8=new char[len + 1];
memset(szUtf8, 0, len + 1);
WideCharToMultiByte (CP_UTF8, 0, wszUtf8, -1, szUtf8, len, NULL,NULL);
strGBK = szUtf8;
delete[] szUtf8;
delete[] wszUtf8;
}
void ConvertUtf8ToGBK(CString& strUtf8)
{
int len=MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, NULL,0);
unsigned short * wszGBK = new unsigned short[len+1];
memset(wszGBK, 0, len * 2 + 2);
MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, wszGBK, len);
len = WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, NULL, 0, NULL, NULL);
char *szGBK=new char[len + 1];
memset(szGBK, 0, len + 1);
WideCharToMultiByte (CP_ACP, 0, wszGBK, -1, szGBK, len, NULL,NULL);
strUtf8 = szGBK;
delete[] szGBK;
delete[] wszGBK;
}
Linuxプラットフォームの下でiconv関数クラスタによって実現
内
iconv関数ファミリーのヘッダファイルはiconv.hで、使用前に含める必要があります.includeiconv関数ファミリーには3つの関数があり、プロトタイプは以下の通りである:(1)iconv_t iconv_open(const char *tocode, const char *fromcode);この関数は、どの2つの符号化の変換を行うかを示し、tocodeはターゲット符号化であり、fromcodeは元の符号化であり、この関数は次の2つの関数で使用される変換ハンドルを返す.(2) size_t iconv(iconv_t cd,char **inbuf,size_t *inbytesleft,char **outbuf,size_t *outbytesleft);この関数はinbufから文字を読み出し、変換後にoutbufに出力し、inbytesleftは変換されていない文字数を記録し、outbytesleftは出力バッファの残りの空間を記録します.
(3) int iconv_close(iconv_t cd);この関数は、変換ハンドルを閉じてリソースを解放するために使用します.
Windowsプラットフォームでは、MultiByteToWideCharとWideCharToMultiByteの2つの関数で実現
その原理は、「MultiByteToWideChar」関数で文字列をunicode文字列に変換した後、「WideCharToMultiByte」でunicodeから所望の目的で符号化された文字列に変換することである.
void ConvertGBKToUtf8(CString& strGBK)
{
int len=MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, NULL,0);
unsigned short * wszUtf8 = new unsigned short[len+1];
memset(wszUtf8, 0, len * 2 + 2);
MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, wszUtf8, len);
len = WideCharToMultiByte(CP_UTF8, 0, wszUtf8, -1, NULL, 0, NULL, NULL);
char *szUtf8=new char[len + 1];
memset(szUtf8, 0, len + 1);
WideCharToMultiByte (CP_UTF8, 0, wszUtf8, -1, szUtf8, len, NULL,NULL);
strGBK = szUtf8;
delete[] szUtf8;
delete[] wszUtf8;
}
void ConvertUtf8ToGBK(CString& strUtf8)
{
int len=MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, NULL,0);
unsigned short * wszGBK = new unsigned short[len+1];
memset(wszGBK, 0, len * 2 + 2);
MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, wszGBK, len);
len = WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, NULL, 0, NULL, NULL);
char *szGBK=new char[len + 1];
memset(szGBK, 0, len + 1);
WideCharToMultiByte (CP_ACP, 0, wszGBK, -1, szGBK, len, NULL,NULL);
strUtf8 = szGBK;
delete[] szGBK;
delete[] wszGBK;
}
Linuxプラットフォームの下でiconv関数クラスタによって実現
内
iconv関数ファミリーのヘッダファイルはiconv.hで、使用前に含める必要があります.include
(3) int iconv_close(iconv_t cd);この関数は、変換ハンドルを閉じてリソースを解放するために使用します.