トレーニングセット、テストセット、検証セットの区分
文書ディレクトリ
サンプルオプション
訓練データが多ければ多いほど良いとよく言われていますが、いくつかの条件の下で、過剰なデータはかえって利益より弊害が大きいです.
トレーニングセット
トレーニングセットは、トレーニングモデルに使用されます.理論的には訓練集が大きいほどいい.
検証セット
ほとんどの機械学習アルゴリズムは超パラメータを有し,超パラメータの値は学習アルゴリズムによってフィッティングできない.最適なスーパーパラメータ設定を探すために、検証セットを導入できます.トレーニングデータを交差しない2つのサブセットに分割します.トレーニングセットは学習モデルに使用され、検証セットはスーパーパラメータを更新するために使用されます.
: 。 、 、 。
: , 。 、 C sigma 、k k。
通常、検証セットが十分大きい必要があります.検証セットが小さい場合、モデルのスーパーパラメータは小さな検証セットのサンプルを覚えている可能性があります.モデルは検証セットに深刻にフィットします.
テストセット
テストセットは、モデルの汎化誤差を評価するために使用されます.理論的に試験セットが大きいほど,モデルの汎化誤差評価が正確になる.
( ) 。
トレーニングセット、テストセット、検証セットの区分割合
小ロットデータの場合、データの分割の一般的な割合は次のとおりです.
大量のデータの場合、検証セットとテストセットが総データに占める割合は小さくなります.百万レベルのデータについては、1万個を検証セット、1万個をテストセットとすればよい.
検証セットの目的は、異なるスーパーパラメータを検証することです.テストセットの目的は、異なるモデルを比較することです.一方、スーパーパラメータ、モデルを評価するのに十分な大きさが必要です.一方、それらが大きすぎると、データが浪費されます(検証セットとトレーニングセットのデータはトレーニングに使用できません).