Mahot-RandomForets
1743 ワード
1.データダウンロードと準備
1.1 ダウンロードの住所はhttp://nsl.cs.unb.ca/NSL-KDD/
1.2ダウンロードしたデータを開いて、@で始まるデータを削除する
1.3 hdfsにデータをアップロードする
-p:トレーニングデータパス
-f:出力記述ファイルのパス
-d:データ属性の説明は、以下の通りです。
N:NUMERICAL
C:CATEGORICAL
L:LABEL
I:IGNORED
3.決定森林の生成
-ds:データ記述ファイルのパス
-sl:各ノードの属性をランダムに選択します。
-p:使用部分の実行を表します。
-t:ツリーを作成する数
-o:出力決定森林ファイル経路
4.決定森林を使って新しいデータを分類する
-ds:データ記述ファイルのパス
-m:意思決定森林ファイルの所在経路
-mr:Hadoop分布を使って計算する
-o:出力ファイルパス
備考:
1.ソースの分析住所:http://wenku.baidu.com/link?url=WjB5pZ8a91m1VY44IPqeV9nqhzrzMmWo6ruj9OxyzRmIMUfUPSbAbb0GSdsODvamwdaWo1-CH 83 g t 2 bLt 7 R_r_z 0 Ws Al 7 XzBG 7 oMZ 0 UFzm
2.mahoustランダム森林公式サイト:http://mahout.apache.org/users/classification/partial-implementation.html
1.1 ダウンロードの住所はhttp://nsl.cs.unb.ca/NSL-KDD/
1.2ダウンロードしたデータを開いて、@で始まるデータを削除する
1.3 hdfsにデータをアップロードする
# $HADOOP_HOME/bin/hadoop fs -mkdir /testdata
# $HADOOP_HOME/bin/hadoop fs -put /usr/local/mahout/data/KDD* /testdata
2.データセット記述ファイルを生成する# $HADOOP_HOME/bin/hadoop jar /usr/local/mahout/mahout0.9/mahout-core-0.9-job.jar org.apache.mahout.classifier.df.tools.Describe -p /testdata/KDDTrain+.arff -f /testdata/KDDTrain+.info -d N 3 C 2 N C 4 N C 8 N 2 C 19 N L
パラメータ:-p:トレーニングデータパス
-f:出力記述ファイルのパス
-d:データ属性の説明は、以下の通りです。
N:NUMERICAL
C:CATEGORICAL
L:LABEL
I:IGNORED
3.決定森林の生成
# $HADOOP_HOME/bin/hadoop jar /usr/local/mahout/mahout0.9/mahout-examples-0.9-job.jar org.apache.mahout.classifier.df.mapreduce.BuildForest -Dmapred.max.split.size=1874231 -d /testdata/KDDTrain+.arff -ds /testdata/KDDTrain+.info -sl 5 -p -t 100 -o /nsl-forest
→d:データファイルのトレーニングパス-ds:データ記述ファイルのパス
-sl:各ノードの属性をランダムに選択します。
-p:使用部分の実行を表します。
-t:ツリーを作成する数
-o:出力決定森林ファイル経路
4.決定森林を使って新しいデータを分類する
# $HADOOP_HOME/bin/hadoop jar /usr/local/mahout/mahout0.9/mahout-examples-0.9-job.jar org.apache.mahout.classifier.df.mapreduce.TestForest -i /testdata/KDDTest+.arff -ds /testdata/KDDTrain+.info -m /nsl-forest -a -mr -o /predictions
-i:テストファイルのパス-ds:データ記述ファイルのパス
-m:意思決定森林ファイルの所在経路
-mr:Hadoop分布を使って計算する
-o:出力ファイルパス
備考:
1.ソースの分析住所:http://wenku.baidu.com/link?url=WjB5pZ8a91m1VY44IPqeV9nqhzrzMmWo6ruj9OxyzRmIMUfUPSbAbb0GSdsODvamwdaWo1-CH 83 g t 2 bLt 7 R_r_z 0 Ws Al 7 XzBG 7 oMZ 0 UFzm
2.mahoustランダム森林公式サイト:http://mahout.apache.org/users/classification/partial-implementation.html