shufによるデータレコードのランダムサンプリング
1212 ワード
最近SVMで分類器の実験をしていますが、データ量が大きすぎます(2000 k本の記録があります)が、訓練時間が長すぎます...1日たっぷり待たされました!ランダムサンプリングをしてから訓練すれば、訓練結果にあまり影響を及ぼさないように指導されている(これは検証される).そこで、データをダウンサンプリングしました.具体的な方法は以下の通りです.
ここで、私のデータはtxtファイルに格納されています.基本的なフォーマットは:
===========================================================================================================================
今日Ubuntuのソフトウェアライブラリにlibsvmがあることを発見しました!直接
インストールできるようになりました....また、ソフト接続や環境変数を必要とせずにコマンドラインで使用できます...完全なmanual pageもあります
ここにはsvm-subsetというツールがあり、ランダムにサンプリングすることができます.
これは素晴らしい~
shuf data | head -n 100000
ここで、私のデータはtxtファイルに格納されています.基本的なフォーマットは:
record 1 xxxxx
record 2 xxxxx
record 3 xxxxx
record 4 xxxxx
...........
record n xxxxx
===========================================================================================================================
今日Ubuntuのソフトウェアライブラリにlibsvmがあることを発見しました!直接
sudo apt-get install libsvm-tools
インストールできるようになりました....また、ソフト接続や環境変数を必要とせずにコマンドラインで使用できます...完全なmanual pageもあります
ここにはsvm-subsetというツールがあり、ランダムにサンプリングすることができます.
これは素晴らしい~