OpenMP:プログラムforサイクル並列効率最適化
2439 ワード
#pragma omp parallel forこの文は、後のforループ文が並列実行になることを指定するために使用されますが、forループの文を並列実行にすると効率が向上しますか?やはりテストしてみましょう.テストの时、サイクルはもっと大きくて、計算量を増やしたほうがいいです.そうしないと、プログラムの時間が短すぎて、区別しにくいです.
クアッドコアのマシンで、4つのスレッドが開いていて、加速比はほぼ4なので、やっぱりいいですね.
また、BSはclock()関数を見ると、私はこれまで何の役にも立たないと思っていました.の
結局時間的に改善されなかった.
clockには3つの問題がある:1)1時間を超えるとオーバーフローを招く.2)関数clockがCPUの布団プロセスで使用することを考慮していない場合.3)ユーザ空間とカーネル空間を区別することもできない.
#include <omp.h>
#include <stdio.h>
#include <time.h>
void test() {
int a = 0;
for(int i = 0; i < 10000000; i++) {
a = i + 1;
}
}
int main() {
int nthrds = 4;
omp_set_num_threads(nthrds);
timeval tStart,cTime;
long long tPassed = 0;
gettimeofday(&tStart, 0);
for (int i = 0; i < 100; i++) {
test();
}
gettimeofday(&cTime, 0);
cTime.tv_sec -= tStart.tv_sec;
cTime.tv_usec -= tStart.tv_usec;
tPassed = 1000000LL * cTime.tv_sec + cTime.tv_usec;
tPassed /= 1000;
printf("Time = %lld/n", tPassed);
gettimeofday(&tStart, 0);
#pragma omp parallel for
for (int i = 0; i < 100; i++) {
test();
}
gettimeofday(&cTime, 0);
cTime.tv_sec -= tStart.tv_sec;
cTime.tv_usec -= tStart.tv_usec;
tPassed = 1000000LL * cTime.tv_sec + cTime.tv_usec;
tPassed /= 1000;
printf("Time = %lld/n", tPassed);
return 1;
}
クアッドコアのマシンで、4つのスレッドが開いていて、加速比はほぼ4なので、やっぱりいいですね.
また、BSはclock()関数を見ると、私はこれまで何の役にも立たないと思っていました.の
#include <omp.h>
#include <stdio.h>
#include <time.h>
void test() {
int a = 0;
for(int i = 0; i < 10000000; i++) {
a = i + 1;
}
}
int main() {
int nthrds = 4;
omp_set_num_threads(nthrds);
long start = clock();
for (int i = 0; i < 100; i++) {
test();
}
long end = clock();
printf("Time = %ld/n", end - start);
start = clock();
#pragma omp parallel for
for (int i = 0; i < 100; i++) {
test();
}
end = clock();
printf("Time = %ld/n", end - start);
return 1;
}
結局時間的に改善されなかった.
clockには3つの問題がある:1)1時間を超えるとオーバーフローを招く.2)関数clockがCPUの布団プロセスで使用することを考慮していない場合.3)ユーザ空間とカーネル空間を区別することもできない.