[TIL] day40

1218 ワード

TIL テキストリンク

#TIL

Spark MLlibモデルの調整

最適なスーパーパラメータを選択します.

アルゴリズムとfeatureを学習する機械は?

機械学習モードの性能はどのように測定しますか?

どのような形のスーパーパラメータを選択しますか?

こんな流れだと思えばいい.

Spark MLlibモデルのテスト

モデルを選択する重要な側面はテスト方法です!
重要なことは二つある.

クロス検証

保険剥離

穴をあけた場合、一度間違えるとズレが発生します!
代替案として現れるのはクロス検証です.
このテスト方法を選択すると、
次の3つの入力に基づいて、最適なパラメータを見つけます.

Estimator:マシンモデルまたはML Pipeline

Evaluator:マシンモデル性能を示す指標

Parameter:トレーニング繰返し数などのスーパーパラメータ

そして最終的に結果の最高のモデルを返します!

Evaluator

evaluate関数が用意されています.

RegressionEvaluator
BinaryClassificationEvaluator (AUC가 성능지표가 됨!)
MulticlassClassificationEvaluator
MultilableClassificationEvaluator
RankingEvaluator

すなわち,機械学習モデルの性能を測定するための指標である.

Parameter

パラメータグリッド(ParamGrid)とも呼ばれ、これらはモデルテスト時に考慮すべき可能な学習関連パラメータである.(主にツリー関連アルゴリズムで重要です.)
テストのパラメータ例としては,ツリーの最大深さ,トレーニング回数などがある.

簡単に言えば、

MLTuningを使用する手順は、次のようにまとめられています.

CrossValidator/trainValidationSplit作成

テストするマシン学習アルゴリズムオブジェクト(またはML Pipeline)の作成

性能検証のためにどの指標を使用するかを選択

Param Grid、テストするスーパーパラメータを指定

こう見ればいいのに…!
pipeline以外は使ったことがないので、試してみるべきだと思います.🤔

Reference

この問題について([TIL] day40), 我々は、より多くの情報をここで見つけました https://velog.io/@hhyebb/TIL-day40

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

最小数を削除

白駿2003ツリーの和2(Java、Java)