JAvaはutf-8とGB 2312符号化の変換を実現


Javaはプラットフォームに関係のないUNICODを採用しており、Javaがbyteストリームから文字列を読み出すと、プラットフォームに関連するbyteをプラットフォームに関係のないUnicode文字列に変換します.Javaは、出力時にUnicode文字列をプラットフォーム関連byteストリームに変換し、あるUnicode文字がプラットフォーム上に存在しない場合は「?」を出力します.
GB 2312符号化では漢字1文字が16ビットであるのに対し、UTF 8では漢字1文字が24ビットである.UTF-8とgb 2312の符号化の相互変換が実現されるとしたら?今日は整理して、両者を変換するコードを与えました.
//UTF-8符号化文字列をGB 2312符号化フォーマットに変換する:
public static String utf8Togb2312(String str){

        StringBuffer sb = new StringBuffer();

        for ( int i=0; i<str.length(); i++) {

            char c = str.charAt(i);

            switch (c) {

               case ‘+’ :

                   sb.append( ’ ‘ );

               break ;

               case ‘%’ :

                   try {

                        sb.append(( char )Integer.parseInt (

                        str.substring(i+1,i+3),16));

                   }

                   catch (NumberFormatException e) {

                       throw new IllegalArgumentException();

                  }

                  i += 2;

                  break ;

               default :

                  sb.append(c);

                  break ;

             }

        }

        String result = sb.toString();

        String res= null ;

        try {

             byte [] inputBytes = result.getBytes( “8859_1” );

            res= new String(inputBytes, “UTF-8” );

        }

        catch (Exception e){}

        return res;

  }

//   GB2312             UTF-8       :

public static String gb2312ToUtf8(String str) {

        String urlEncode = “” ;

        try {

            urlEncode = URLEncoder.encode (str, “UTF-8” );

        } catch (UnsupportedEncodingException e) {

            e.printStackTrace();

        }

        return urlEncode;

}

もちろん,種々の符号化の前に相互の変換が可能であり,本稿では最もよく用いられる2つの文字を変換するだけで,レンガを投げて玉を引く役割を果たす.後で追加の必要がある場合は、他の文字の変換について説明します.