Stringのシーケンス化ノット
Stringは私たちにとってよく知られています.それはどこにもいないので、Stringでこの世界のほとんどのものを説明することができます.正確な数値を記述するためにもStringの出馬が必要です(コンピュータの目の中のバイナリと人間の目の中の十進法の間にはいつもそんなに隔膜があるからです).よく知っているので簡単になり、無視されやすいです.今日はStringについて無視されやすい2つの問題を記録します.文字列再利用―メモリ節約 文字列が多すぎるため、再利用できればメモリを大幅に節約できます.まず次の例を見てみましょう.
Stringstring1=“HELLOHELLO”;
Stringstring2=“HELLO”+“HELLO”;
上にはいくつの文字列が作成されていますか?1or2?後者は動的に作成されますが、JVMはそれを直接最適化できると信じています.コンパイル時に内容が分かったので、同じchar配列であるinstanceだと推測しています.Heapdumpが出てきて観察するとやはり一つ.
Stringstring3=args[0]+args[1];
入力パラメータHELLO HELLO?文字列はいくつになりますか?そうですね.2つのHELLOHELLOです.Dumpheap後に観察してみると、やはり2つでした.(実はdumphealpではなく、debugでもわかりますが、string 1とstring 3のchar[]がアドレスを指しているのは違います).
これによりjavaの逆シーケンス化によるstringも異なることが分かる.例は以下の通りである.
スクリーンショットはheapdumpで出てきて、HELLOHELLOがある個数は101個で、占有するsize>8080です.JVMのメモリ使用について参照http://www.javamex.com/tutorials/memory/object_memory_usage.shtml
問題は、システムが維持するデータの多くはconfigserverのような文字列情報であり、多くの情報は同じ文字列であるため、ネットワークからシーケンス化を繰り返し、多くのHeapを占有している.もちろん、weakhashmapを書いて維持し、これらの文字列を再利用することができます.JVMにStringPoolがあることはよく知られていますが、それを使うのは間違いありません.Stringソースコードを検索すると、intern()のコメントは次のとおりです.
*Whentheinternmethodisinvoked,ifthepoolalreadycontainsa
*stringequaltothis
*the{@link#equals(Object)}method,thenthestringfromthepoolis
*returned.Otherwise,this
*poolandareferencetothis
次の行のコードを変更します.
再度Heapdumpは以下のように分析され、10文字を含むStringが占有するHeapが80 byteであることが明らかになった.
文字列のシーケンス化速度
現在、CS処理はいわゆる任意のタイプのデータをサポートするために、CSはSwizzleでjavaシーケンス化後のbyteタイプを保存し、Server端は逆シーケンス化を必要とせずに任意のタイプのdataを保存する技術を採用している.このようなデメリットは2つあります:共通のJavaシーケンス化の効率が高くありません;プロトコルが通用しないので、他の言語のサポートはできません.現在のデータ情報は基本的にStringタイプであるため、Stringデータの専門的な処理はString内部のbyte配列(UTF-8)クラスで表すことができ、他の言語の解析にも便利である.publish(String)のサポートを増やすことも考えられる.そこで、Stringの異なるserialize/deserializeに対するレートとサイズを以下のテストで比較した.
結果はwriteUTFが最小で最も速く,100 charのStringに対しては数段の差がかなり顕著であったが,Swizzleは同じswizzleinstanceを複数回伝送する場合に反復的なシーケンス化を必要としないテクニックを用いた.
PS:Swizzleは簡単に言えば、情報をパッケージし、シーケンス化されたbyteストリームをキャッシュすることで、同じ情報をN回プッシュ/送信すると、N-1回のシーケンス化時間を減らすことができません.
Stringstring1=“HELLOHELLO”;
Stringstring2=“HELLO”+“HELLO”;
上にはいくつの文字列が作成されていますか?1or2?後者は動的に作成されますが、JVMはそれを直接最適化できると信じています.コンパイル時に内容が分かったので、同じchar配列であるinstanceだと推測しています.Heapdumpが出てきて観察するとやはり一つ.
Stringstring3=args[0]+args[1];
入力パラメータHELLO HELLO?文字列はいくつになりますか?そうですね.2つのHELLOHELLOです.Dumpheap後に観察してみると、やはり2つでした.(実はdumphealpではなく、debugでもわかりますが、string 1とstring 3のchar[]がアドレスを指しているのは違います).
これによりjavaの逆シーケンス化によるstringも異なることが分かる.例は以下の通りである.
public final static void main(String[] args) throws Exception {
new StringDeserialized().testDescirialized();
}
public void testDescirialized() throws Exception {
String testString = “HELLOHELLO”;
ObjectOutputStream dataOutStream = new ObjectOutputStream(new FileOutputStream(“./stringdeserialized.data”));
for (int i = 0; i < 1000; i++)
dataOutStream.writeObject(testString);
dataOutStream.close();
List<String> readAgainList = new ArrayList<String>(100);
for (int i = 0; i < 100; i++) {
ObjectInputStream dataInputStream = new ObjectInputStream(new FileInputStream(“./stringdeserialized.data”));
readAgainList.add((String) dataInputStream.readObject());
dataInputStream.close();
}
Thread.sleep(Integer.MAX_VALUE);
}
スクリーンショットはheapdumpで出てきて、HELLOHELLOがある個数は101個で、占有するsize>8080です.JVMのメモリ使用について参照http://www.javamex.com/tutorials/memory/object_memory_usage.shtml
問題は、システムが維持するデータの多くはconfigserverのような文字列情報であり、多くの情報は同じ文字列であるため、ネットワークからシーケンス化を繰り返し、多くのHeapを占有している.もちろん、weakhashmapを書いて維持し、これらの文字列を再利用することができます.JVMにStringPoolがあることはよく知られていますが、それを使うのは間違いありません.Stringソースコードを検索すると、intern()のコメントは次のとおりです.
*Whentheinternmethodisinvoked,ifthepoolalreadycontainsa
*stringequaltothis
String
objectasdeterminedby *the{@link#equals(Object)}method,thenthestringfromthepoolis
*returned.Otherwise,this
String
objectisaddedtothe *poolandareferencetothis
String
objectisreturned. 次の行のコードを変更します.
readAgainList.add(((String) dataInputStream.readObject()).intern());
再度Heapdumpは以下のように分析され、10文字を含むStringが占有するHeapが80 byteであることが明らかになった.
文字列のシーケンス化速度
現在、CS処理はいわゆる任意のタイプのデータをサポートするために、CSはSwizzleでjavaシーケンス化後のbyteタイプを保存し、Server端は逆シーケンス化を必要とせずに任意のタイプのdataを保存する技術を採用している.このようなデメリットは2つあります:共通のJavaシーケンス化の効率が高くありません;プロトコルが通用しないので、他の言語のサポートはできません.現在のデータ情報は基本的にStringタイプであるため、Stringデータの専門的な処理はString内部のbyte配列(UTF-8)クラスで表すことができ、他の言語の解析にも便利である.publish(String)のサポートを増やすことも考えられる.そこで、Stringの異なるserialize/deserializeに対するレートとサイズを以下のテストで比較した.
結果はwriteUTFが最小で最も速く,100 charのStringに対しては数段の差がかなり顕著であったが,Swizzleは同じswizzleinstanceを複数回伝送する場合に反復的なシーケンス化を必要としないテクニックを用いた.
PS:Swizzleは簡単に言えば、情報をパッケージし、シーケンス化されたbyteストリームをキャッシュすることで、同じ情報をN回プッシュ/送信すると、N-1回のシーケンス化時間を減らすことができません.
public class CompareSerialization {
public String generateTestData(int stringLength) {
Random random = new Random();
StringBuilder builder = new StringBuilder(stringLength);
for (int j = 0; j < stringLength; j++) {
builder.append((char) random.nextInt(127));
}
return builder.toString();
}
public int testJavaDefault(String data) throws Exception {
ObjectOutputStream outputStream = null;
ObjectInputStream inputStream = null;
try {
ByteArrayOutputStream byteArray = new ByteArrayOutputStream();
outputStream = new ObjectOutputStream(byteArray);
outputStream.writeObject(data);
outputStream.flush();
inputStream = new ObjectInputStream(new ByteArrayInputStream(byteArray.toByteArray()));
inputStream.readObject();
return byteArray.size();
}
finally {
outputStream.close();
inputStream.close();
}
}
public int testJavaDefaultBytes(String data) throws Exception {
ObjectOutputStream outputStream = null;
ObjectInputStream inputStream = null;
try {
ByteArrayOutputStream byteArray = new ByteArrayOutputStream();
outputStream = new ObjectOutputStream(byteArray);
outputStream.writeBytes(data);
outputStream.flush();
inputStream = new ObjectInputStream(new ByteArrayInputStream(byteArray.toByteArray()));
byte[] bytes = new byte[byteArray.size()];
inputStream.read(new byte[byteArray.size()]);
new String(bytes);
return byteArray.size();
}
finally {
outputStream.close();
inputStream.close();
}
}
public int testSwizzle(Swizzle data) throws Exception {
ObjectOutputStream outputStream = null;
ObjectInputStream inputStream = null;
try {
ByteArrayOutputStream byteArray = new ByteArrayOutputStream();
outputStream = new ObjectOutputStream(byteArray);
outputStream.writeObject(data);
outputStream.flush();
inputStream = new ObjectInputStream(new ByteArrayInputStream(byteArray.toByteArray()));
inputStream.readObject();
return byteArray.size();
}
finally {
outputStream.close();
inputStream.close();
}
}
public int testStringUTF(String data) throws Exception {
ObjectOutputStream outputStream = null;
ObjectInputStream inputStream = null;
try {
ByteArrayOutputStream byteArray = new ByteArrayOutputStream();
outputStream = new ObjectOutputStream(byteArray);
outputStream.writeUTF(data);
outputStream.flush();
inputStream = new ObjectInputStream(new ByteArrayInputStream(byteArray.toByteArray()));
inputStream.readUTF();
return byteArray.size();
}
finally {
outputStream.close();
inputStream.close();
}
}
public final static void main(String[] args) throws Exception {
CompareSerialization compare = new CompareSerialization();
String data = compare.generateTestData(Integer.parseInt(args[0]));
Swizzle swizzle = new Swizzle(data);
System.out.println(“testJavaDefault size on networking:” + compare.testJavaDefault(data));
System.out.println(“testJavaDefaultBytes size on networking:” + compare.testJavaDefaultBytes(data));
System.out.println(“testStringUTF size on networking:” + compare.testStringUTF(data));
System.out.println(“testSwizzle size on networking:” + compare.testSwizzle(swizzle));
// warm up
for (int i = 0; i < 100; i++) {
compare.testJavaDefault(data);
compare.testJavaDefaultBytes(data);
compare.testStringUTF(data);
compare.testSwizzle(swizzle);
}
long startTime = System.currentTimeMillis();
for (int i = 0; i < 10000; i++) {
compare.testJavaDefault(data);
}
long endTime = System.currentTimeMillis();
System.out.println(“testJavaDefault using time:” + (endTime �C startTime));
startTime = System.currentTimeMillis();
for (int i = 0; i < 10000; i++) {
compare.testJavaDefaultBytes(data);
}
endTime = System.currentTimeMillis();
System.out.println(“testJavaDefaultBytes using time:” + (endTime �C startTime));
startTime = System.currentTimeMillis();
for (int i = 0; i < 10000; i++) {
compare.testStringUTF(data);
}
endTime = System.currentTimeMillis();
System.out.println(“testStringUTF using time:” + (endTime �C startTime));
startTime = System.currentTimeMillis();
for (int i = 0; i < 10000; i++) {
compare.testSwizzle(swizzle);
}
endTime = System.currentTimeMillis();
System.out.println(“testSwizzle using time:” + (endTime �C startTime));
}
}