shufによるデータレコードのランダムサンプリング

1212 ワード

最近SVMで分類器の実験をしていますが、データ量が大きすぎます(2000 k本の記録があります)が、訓練時間が長すぎます...1日たっぷり待たされました!ランダムサンプリングをしてから訓練すれば、訓練結果にあまり影響を及ぼさないように指導されている(これは検証される).そこで、データをダウンサンプリングしました.具体的な方法は以下の通りです.
shuf data | head -n 100000

ここで、私のデータはtxtファイルに格納されています.基本的なフォーマットは:
record 1 xxxxx

record 2 xxxxx

record 3 xxxxx

record 4 xxxxx

 ...........

record n xxxxx

 ===========================================================================================================================
今日Ubuntuのソフトウェアライブラリにlibsvmがあることを発見しました!直接
sudo apt-get install libsvm-tools

インストールできるようになりました....また、ソフト接続や環境変数を必要とせずにコマンドラインで使用できます...完全なmanual pageもあります
ここにはsvm-subsetというツールがあり、ランダムにサンプリングすることができます.
これは素晴らしい~