[TIL] day40


#TIL

Spark MLlibモデルの調整


最適なスーパーパラメータを選択します.
  • アルゴリズムとfeatureを学習する機械は?
  • 機械学習モードの性能はどのように測定しますか?
  • どのような形のスーパーパラメータを選択しますか?
  • こんな流れだと思えばいい.

    Spark MLlibモデルのテスト


    モデルを選択する重要な側面はテスト方法です!
    重要なことは二つある.
  • クロス検証
  • 保険剥離
  • 穴をあけた場合、一度間違えるとズレが発生します!
    代替案として現れるのはクロス検証です.
    このテスト方法を選択すると、
    次の3つの入力に基づいて、最適なパラメータを見つけます.
  • Estimator:マシンモデルまたはML Pipeline
  • Evaluator:マシンモデル性能を示す指標
  • Parameter:トレーニング繰返し数などのスーパーパラメータ
  • そして最終的に結果の最高のモデルを返します!

    Evaluator

    evaluate関数が用意されています.
    RegressionEvaluator
    BinaryClassificationEvaluator (AUC가 성능지표가 됨!)
    MulticlassClassificationEvaluator
    MultilableClassificationEvaluator
    RankingEvaluator
    すなわち,機械学習モデルの性能を測定するための指標である.

    Parameter


    パラメータグリッド(ParamGrid)とも呼ばれ、これらはモデルテスト時に考慮すべき可能な学習関連パラメータである.(主にツリー関連アルゴリズムで重要です.)
    テストのパラメータ例としては,ツリーの最大深さ,トレーニング回数などがある.

    簡単に言えば、


    MLTuningを使用する手順は、次のようにまとめられています.
  • CrossValidator/trainValidationSplit作成
  • テストするマシン学習アルゴリズムオブジェクト(またはML Pipeline)の作成
  • 性能検証のためにどの指標を使用するかを選択
  • Param Grid、テストするスーパーパラメータを指定
  • こう見ればいいのに…!
    pipeline以外は使ったことがないので、試してみるべきだと思います.🤔