Java性能漫談-配列コピーのSystem.arraycopy
10610 ワード
私がまだ幼い頃、私はわがままで、配列をコピーしても、forループを書いて、往復して、それから大きくなって、Systemを発見しました.arraycopyのメリット.
両者の区別をテストするためにint[100000]を単純に付与するプログラムを書いて比較し,nanoTimeを用いて時間差を計算した.
手順は次のとおりです.
メモリの不安定な干渉と動作の偶然的な結果を避けるために、私は最初にすべての空間を明記して完成し、その後10回だけ実行し、以下の結果を得ました.
システムarraycopyの性能はとても良くて、いったいこの下層がどのように処理したのかを見るために、私はopenJDKのいくつかのコードを見つけて少し未練を持っています:
System.arraycopyはnative関数であり、nativeレイヤのコードを見る必要があります.
対応するopenjdk 6-src/hotspot/src/share/vm/prims/jvmを見つけます.cpp、ここにJVM_がありますArrayCopyのエントリ:
前の文はすべて判断で、最後のcopyを知っています.array(s,src_pos,d,dst_pos,length,thread)は本物のcopyで、さらにここを見るとopenjdk 6-src/hotspot/src/share/vm/oops/typeArrayKlass.cpp:
この関数の前には、最後の文が真実のコピー文になるまで判断が山積みになっています.
Openjdk 6-src/hotspot/src/share/vm/utilities/copy.cppで対応する関数を見つけます.
上のコードはどのcopy関数を選択するかを示しています.conjointを選択します.jints_atomic,openjdk 6-src/hotspot/src/share/vm/utilities/copy.hppの詳細:
引き続き下を見てopenjdk 6-src/hotspot/src/cpu/zero/vm/copy_zero.hpp中:
引き続き下を見てopenjdk 6-src/hotspot/src/os_cpu/linux_zero/vm/os_linux_zero.cpp:
メモリブロックの付与の論理であることがわかります.これにより、多くの参照が逆転する時間を避けることができ、必然的に速くなります.
両者の区別をテストするためにint[100000]を単純に付与するプログラムを書いて比較し,nanoTimeを用いて時間差を計算した.
手順は次のとおりです.
int[] a = new int[100000];
for(int i=0;i<a.length;i++){
a[i] = i;
}
int[] b = new int[100000];
int[] c = new int[100000];
for(int i=0;i<c.length;i++){
c[i] = i;
}
int[] d = new int[100000];
for(int k=0;k<10;k++){
long start1 = System.nanoTime();
for(int i=0;i<a.length;i++){
b[i] = a[i];
}
long end1 = System.nanoTime();
System.out.println("end1 - start1 = "+(end1-start1));
long start2 = System.nanoTime();
System.arraycopy(c, 0, d, 0, 100000);
long end2 = System.nanoTime();
System.out.println("end2 - start2 = "+(end2-start2));
System.out.println();
}
メモリの不安定な干渉と動作の偶然的な結果を避けるために、私は最初にすべての空間を明記して完成し、その後10回だけ実行し、以下の結果を得ました.
end1 - start1 = 366806
end2 - start2 = 109154
end1 - start1 = 380529
end2 - start2 = 79849
end1 - start1 = 421422
end2 - start2 = 68769
end1 - start1 = 344463
end2 - start2 = 72020
end1 - start1 = 333174
end2 - start2 = 77277
end1 - start1 = 377335
end2 - start2 = 82285
end1 - start1 = 370608
end2 - start2 = 66937
end1 - start1 = 349067
end2 - start2 = 86532
end1 - start1 = 389974
end2 - start2 = 83362
end1 - start1 = 347937
end2 - start2 = 63638
システムarraycopyの性能はとても良くて、いったいこの下層がどのように処理したのかを見るために、私はopenJDKのいくつかのコードを見つけて少し未練を持っています:
System.arraycopyはnative関数であり、nativeレイヤのコードを見る必要があります.
public static native void arraycopy(Object src, int srcPos,
Object dest, int destPos,
int length);
対応するopenjdk 6-src/hotspot/src/share/vm/prims/jvmを見つけます.cpp、ここにJVM_がありますArrayCopyのエントリ:
JVM_ENTRY(void, JVM_ArrayCopy(JNIEnv *env, jclass ignored, jobject src, jint src_pos,
jobject dst, jint dst_pos, jint length))
JVMWrapper("JVM_ArrayCopy");
// Check if we have null pointers
if (src == NULL || dst == NULL) {
THROW(vmSymbols::java_lang_NullPointerException());
}
arrayOop s = arrayOop(JNIHandles::resolve_non_null(src));
arrayOop d = arrayOop(JNIHandles::resolve_non_null(dst));
assert(s->is_oop(), "JVM_ArrayCopy: src not an oop");
assert(d->is_oop(), "JVM_ArrayCopy: dst not an oop");
// Do copy
Klass::cast(s->klass())->copy_array(s, src_pos, d, dst_pos, length, thread);
JVM_END
前の文はすべて判断で、最後のcopyを知っています.array(s,src_pos,d,dst_pos,length,thread)は本物のcopyで、さらにここを見るとopenjdk 6-src/hotspot/src/share/vm/oops/typeArrayKlass.cpp:
void typeArrayKlass::copy_array(arrayOop s, int src_pos, arrayOop d, int dst_pos, int length, TRAPS) {
assert(s->is_typeArray(), "must be type array");
// Check destination
if (!d->is_typeArray() || element_type() != typeArrayKlass::cast(d->klass())->element_type()) {
THROW(vmSymbols::java_lang_ArrayStoreException());
}
// Check is all offsets and lengths are non negative
if (src_pos < 0 || dst_pos < 0 || length < 0) {
THROW(vmSymbols::java_lang_ArrayIndexOutOfBoundsException());
}
// Check if the ranges are valid
if ( (((unsigned int) length + (unsigned int) src_pos) > (unsigned int) s->length())
|| (((unsigned int) length + (unsigned int) dst_pos) > (unsigned int) d->length()) ) {
THROW(vmSymbols::java_lang_ArrayIndexOutOfBoundsException());
}
// Check zero copy
if (length == 0)
return;
// This is an attempt to make the copy_array fast.
int l2es = log2_element_size();
int ihs = array_header_in_bytes() / wordSize;
char* src = (char*) ((oop*)s + ihs) + ((size_t)src_pos << l2es);
char* dst = (char*) ((oop*)d + ihs) + ((size_t)dst_pos << l2es);
Copy::conjoint_memory_atomic(src, dst, (size_t)length << l2es);// copy
}
この関数の前には、最後の文が真実のコピー文になるまで判断が山積みになっています.
Openjdk 6-src/hotspot/src/share/vm/utilities/copy.cppで対応する関数を見つけます.
// Copy bytes; larger units are filled atomically if everything is aligned.
void Copy::conjoint_memory_atomic(void* from, void* to, size_t size) {
address src = (address) from;
address dst = (address) to;
uintptr_t bits = (uintptr_t) src | (uintptr_t) dst | (uintptr_t) size;
// (Note: We could improve performance by ignoring the low bits of size,
// and putting a short cleanup loop after each bulk copy loop.
// There are plenty of other ways to make this faster also,
// and it's a slippery slope. For now, let's keep this code simple
// since the simplicity helps clarify the atomicity semantics of
// this operation. There are also CPU-specific assembly versions
// which may or may not want to include such optimizations.)
if (bits % sizeof(jlong) == 0) {
Copy::conjoint_jlongs_atomic((jlong*) src, (jlong*) dst, size / sizeof(jlong));
} else if (bits % sizeof(jint) == 0) {
Copy::conjoint_jints_atomic((jint*) src, (jint*) dst, size / sizeof(jint));
} else if (bits % sizeof(jshort) == 0) {
Copy::conjoint_jshorts_atomic((jshort*) src, (jshort*) dst, size / sizeof(jshort));
} else {
// Not aligned, so no need to be atomic.
Copy::conjoint_jbytes((void*) src, (void*) dst, size);
}
}
上のコードはどのcopy関数を選択するかを示しています.conjointを選択します.jints_atomic,openjdk 6-src/hotspot/src/share/vm/utilities/copy.hppの詳細:
// jints, conjoint, atomic on each jint
static void conjoint_jints_atomic(jint* from, jint* to, size_t count) {
assert_params_ok(from, to, LogBytesPerInt);
pd_conjoint_jints_atomic(from, to, count);
}
引き続き下を見てopenjdk 6-src/hotspot/src/cpu/zero/vm/copy_zero.hpp中:
static void pd_conjoint_jints_atomic(jint* from, jint* to, size_t count) {
_Copy_conjoint_jints_atomic(from, to, count);
}
引き続き下を見てopenjdk 6-src/hotspot/src/os_cpu/linux_zero/vm/os_linux_zero.cpp:
void _Copy_conjoint_jints_atomic(jint* from, jint* to, size_t count) {
if (from > to) {
jint *end = from + count;
while (from < end)
*(to++) = *(from++);
}
else if (from < to) {
jint *end = from;
from += count - 1;
to += count - 1;
while (from >= end)
*(to--) = *(from--);
}
}
メモリブロックの付与の論理であることがわかります.これにより、多くの参照が逆転する時間を避けることができ、必然的に速くなります.