AI技術Day 14(マルチGPU学習、HyperParameter Tuning、PyTorch Troubleshooting)
7805 ワード
1.今日のスケジュール
1)授業
2)ピアセッション
3)勤務時間(課題説明)
2.学習内容
PyTorch
第8課:マルチGPU学習
PyTorch
第8課:マルチGPU学習
Model parallel vs Data parellel
学習を
区分
Model parallel
Data parallel
GPUにデータを割り当て、結果を平均します.
minbatch式と同様に、一度に複数のGPUで実行
PyTorchは、次の2つの方法を提供します.
9講:HyperParameter Tuning
Hyperparameter Tuning
Ray
第10回:PyTorch Troubleshoting
OOM(Out Of Memory)が解決しにくい原因。
GPUtilの使用
モジュール
torch.cuda.空のcache()を書き込む
トレーニングサイクルにテンソル形式で蓄積された変数は確認する必要がある.
delコマンドを正しく使用
for x in range(10):
i = x
print(i)
実験可能なbatchサイズ
学習
oom = False
try:
run_model(batch_size)
except RuntimeError:
oom = True
if oom:
for _ in range(batch_size):
run_model(1)
torch.No grad()の使用
with torch.no_grad():
for data, target in test_loader:
output = network(data)
test_loss += F.nll_loss(output, target, size_average=False).item()
pred = output.data.max(1, keepdim=True)[1]
correct += pred.eq(target.data.view_as(pred)).sum()
予期しないエラーメッセージ
それ以外は...
寸法を
3.ピアセッションのクリーンアップ
4.課題実行プロセス
5.回顧
6.今週の回顧
7.週末にやるべきこと
Reference
この問題について(AI技術Day 14(マルチGPU学習、HyperParameter Tuning、PyTorch Troubleshooting)), 我々は、より多くの情報をここで見つけました https://velog.io/@f2f42012/AI-Tech-Day-14-Multi-GPU-학습-Hyperparameter-Tuning-PyTorch-Troubleshootingテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol