义齿

667 ワード

最近sparkを使って分析しているときは数千万のデータ量は多くないが走るのが遅い
メモリオーバーフローOutOfMemory
1.次にmapを使用する場所でmapの前にパーティション化repartitionを行う
2.joinはshuffleがあってshuffleが発生してもデータオーバーフローが発生する
3.mapはmapPartitionsに変更し、パーティション数200,400を適宜調整することもできる
他にも私が使っているものがたくさんあります.それから任務が出てきます.
 
reset by peerとか255の間違いとか
エラーメッセージが記録されていません
プロファイルを使用して調整
config.set("spark.network.timeout","100000")
    config.set("spark.executor.heartbeatInterval","100s")
    config.set("spark.executor.memory", "50g")
    config.set("spark.shuffle.blockTransferService", "nio")

役に立たない
主にコードの問題です...