义齿
667 ワード
最近sparkを使って分析しているときは数千万のデータ量は多くないが走るのが遅い
メモリオーバーフローOutOfMemory
1.次にmapを使用する場所でmapの前にパーティション化repartitionを行う
2.joinはshuffleがあってshuffleが発生してもデータオーバーフローが発生する
3.mapはmapPartitionsに変更し、パーティション数200,400を適宜調整することもできる
他にも私が使っているものがたくさんあります.それから任務が出てきます.
reset by peerとか255の間違いとか
エラーメッセージが記録されていません
プロファイルを使用して調整
役に立たない
主にコードの問題です...
メモリオーバーフローOutOfMemory
1.次にmapを使用する場所でmapの前にパーティション化repartitionを行う
2.joinはshuffleがあってshuffleが発生してもデータオーバーフローが発生する
3.mapはmapPartitionsに変更し、パーティション数200,400を適宜調整することもできる
他にも私が使っているものがたくさんあります.それから任務が出てきます.
reset by peerとか255の間違いとか
エラーメッセージが記録されていません
プロファイルを使用して調整
config.set("spark.network.timeout","100000")
config.set("spark.executor.heartbeatInterval","100s")
config.set("spark.executor.memory", "50g")
config.set("spark.shuffle.blockTransferService", "nio")
役に立たない
主にコードの問題です...