JAva中国語文字整合性判断

1905 ワード

前提:
英語の文字はutf 8符号化の下で1文字です
中国語のutf 8符号化は3文字を占める
考え方:
文字配列を文字列に変換すると、最後のビットが文字化けしている可能性があります.コンピュータにとって、最後の文字が中国語か文字化けしているかどうかを判断する方法はないようです.確認されていない文字列をUTF 8の文字配列に再復号すると、最後の文字が文字化けしていると3文字に変換されるのが不思議です.文字配列の長さを比較すると、後に多くの文章ができます.

import java.io.UnsupportedEncodingException;

import org.junit.Test;

public class StringTest {

	@Test
	public void test() throws UnsupportedEncodingException{
		String str = "hello,   ";
		byte[] bs = str.getBytes("UTF-8");
		
		printInfo(bs);
		//104 101 108 108 111 -17 -68 -116 -26 -120 -111 -26 -104 -81 -24 -80 -127 
		System.out.println(new String(bs, "UTF-8"));
		byte[] bs2 = new byte[bs.length-1];
		for(int i=0;i<bs.length-1;i++){
			bs2[i] = bs[i];
		}
		
		//104 101 108 108 111 -17 -68 -116 -26 -120 -111 -26 -104 -81 -24 -80 
		printInfo(bs2);
		
		//hello,  �
		String str2 = new String(bs2, "UTF-8");
		System.out.println(str2);
		
		//104 101 108 108 111 -17 -68 -116 -26 -120 -111 -26 -104 -81 -17 -65 -67 
		byte[] bs3 = str2.getBytes("UTF-8");
		printInfo(bs3);
		
		System.out.println("");
		if(bs2.length!=bs3.length){
			//hello,  
			System.out.println(str2.substring(0, str2.length()-1));	
			int leftLen = 3 - (bs3.length - bs2.length);
		    byte lefted[] = new byte[leftLen];   
		    for(int i =0; i < leftLen ; i++){
		    	lefted[i] = bs2[bs2.length-1-i];
		    }    
		    printInfo(lefted);
		}		
	}
	
	private void printInfo(byte[] bs){
		System.out.println(bs.length+":");
		for(int i=0;i<bs.length;i++){
			System.out.print(bs[i]+" ");
		}
	}

}