JAvaはutf-8とGB 2312符号化の変換を実現
Javaはプラットフォームに関係のないUNICODを採用しており、Javaがbyteストリームから文字列を読み出すと、プラットフォームに関連するbyteをプラットフォームに関係のないUnicode文字列に変換します.Javaは、出力時にUnicode文字列をプラットフォーム関連byteストリームに変換し、あるUnicode文字がプラットフォーム上に存在しない場合は「?」を出力します.
GB 2312符号化では漢字1文字が16ビットであるのに対し、UTF 8では漢字1文字が24ビットである.UTF-8とgb 2312の符号化の相互変換が実現されるとしたら?今日は整理して、両者を変換するコードを与えました.
//UTF-8符号化文字列をGB 2312符号化フォーマットに変換する:
もちろん,種々の符号化の前に相互の変換が可能であり,本稿では最もよく用いられる2つの文字を変換するだけで,レンガを投げて玉を引く役割を果たす.後で追加の必要がある場合は、他の文字の変換について説明します.
GB 2312符号化では漢字1文字が16ビットであるのに対し、UTF 8では漢字1文字が24ビットである.UTF-8とgb 2312の符号化の相互変換が実現されるとしたら?今日は整理して、両者を変換するコードを与えました.
//UTF-8符号化文字列をGB 2312符号化フォーマットに変換する:
public static String utf8Togb2312(String str){
StringBuffer sb = new StringBuffer();
for ( int i=0; i<str.length(); i++) {
char c = str.charAt(i);
switch (c) {
case ‘+’ :
sb.append( ’ ‘ );
break ;
case ‘%’ :
try {
sb.append(( char )Integer.parseInt (
str.substring(i+1,i+3),16));
}
catch (NumberFormatException e) {
throw new IllegalArgumentException();
}
i += 2;
break ;
default :
sb.append(c);
break ;
}
}
String result = sb.toString();
String res= null ;
try {
byte [] inputBytes = result.getBytes( “8859_1” );
res= new String(inputBytes, “UTF-8” );
}
catch (Exception e){}
return res;
}
// GB2312 UTF-8 :
public static String gb2312ToUtf8(String str) {
String urlEncode = “” ;
try {
urlEncode = URLEncoder.encode (str, “UTF-8” );
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return urlEncode;
}
もちろん,種々の符号化の前に相互の変換が可能であり,本稿では最もよく用いられる2つの文字を変換するだけで,レンガを投げて玉を引く役割を果たす.後で追加の必要がある場合は、他の文字の変換について説明します.