トレーニングセット、テストセット、検証セットの区分


文書ディレクトリ

  • サンプルオプション
  • トレーニングセット
  • 検証セット
  • テストセット
  • トレーニングセット、テストセット、検証セットの区分割合
  • サンプルオプション


    訓練データが多ければ多いほど良いとよく言われていますが、いくつかの条件の下で、過剰なデータはかえって利益より弊害が大きいです.
  • データ量が大きすぎると、計算リソースと時間が大量に消費されます.リソースが限られている場合、データセットをモデル効果に影響を及ぼさない最小サブセットに縮小できれば、この問題を効果的に解決することができます.
  • は、すべてのサンプル/フィーチャーが予測対象のターゲットに役立つわけではありません.冗長なデータを携帯することはモデリングに役に立たず、より詳細なサンプル選択/フィーチャーフィルタリングによってデータを縮小することができます.
  • データにノイズが含まれていると、モデルの効果に影響を及ぼすに違いないが、トレーニングセットにノイズが付いてもモデルの頑丈性が向上するため、ノイズをどのように処理するかは複雑な問題である.ここでのノイズには、エラーマーク、データ記録エラーなどが含まれます.

  • トレーニングセット


    トレーニングセットは、トレーニングモデルに使用されます.理論的には訓練集が大きいほどいい.

    検証セット


    ほとんどの機械学習アルゴリズムは超パラメータを有し,超パラメータの値は学習アルゴリズムによってフィッティングできない.最適なスーパーパラメータ設定を探すために、検証セットを導入できます.トレーニングデータを交差しない2つのサブセットに分割します.トレーニングセットは学習モデルに使用され、検証セットはスーパーパラメータを更新するために使用されます.
     : 。 、 、 。
     : , 。 、 C sigma 、k k。
    

    通常、検証セットが十分大きい必要があります.検証セットが小さい場合、モデルのスーパーパラメータは小さな検証セットのサンプルを覚えている可能性があります.モデルは検証セットに深刻にフィットします.

    テストセット


    テストセットは、モデルの汎化誤差を評価するために使用されます.理論的に試験セットが大きいほど,モデルの汎化誤差評価が正確になる.
     ( ) 。
    

    トレーニングセット、テストセット、検証セットの区分割合


    小ロットデータの場合、データの分割の一般的な割合は次のとおりです.
  • 検証セットが設定されていない場合、データの3、7分:70%のデータがトレーニングセットとして使用され、30%のデータがテストセットとして使用されます.
  • 検証セットが設定されている場合、60%のデータがトレーニングセットとして使用され、20%のデータが検証セットとして使用され、20%のデータがテストセットとして使用されます.

  • 大量のデータの場合、検証セットとテストセットが総データに占める割合は小さくなります.百万レベルのデータについては、1万個を検証セット、1万個をテストセットとすればよい.
    検証セットの目的は、異なるスーパーパラメータを検証することです.テストセットの目的は、異なるモデルを比較することです.一方、スーパーパラメータ、モデルを評価するのに十分な大きさが必要です.一方、それらが大きすぎると、データが浪費されます(検証セットとトレーニングセットのデータはトレーニングに使用できません).