Weka:ARFFって何?


ARFFファイルはWekaのデフォルトのセーブデータセットファイルです.各ARFFファイルは2 Dテーブルに対応します.表の各行はデータセットの各インスタンスであり、各列はデータセットの各属性である.
次はWekaが持参した「weather.arff」ファイルで、Wekaインストールディレクトリの「data」サブディレクトリの下にあります.
Windowsのメモ帳でこのファイルを開くと、リターンの定義が一致しないため、支店が正常でない可能性があります.UltraEditのような文字編集ソフトを使って、ARFFファイルの内容をチェックすることをお勧めします.% ARFF file for the weather data with some numric features
%

@relation weather

@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no}
@data

%
% 14 instances
%
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

ファイル構造
ARFFファイルを識別する重要な根拠は支店であるため,このようなファイルで勝手に断行することはできない.空の行(またはスペースだらけの行)は無視されます.
「%」で始まる行はコメントで、WEKAはこれらの行を無視します.「weather.arff」ファイルが「%」から始まる行が多くなったり少なくなったりした場合、影響はありません.
注記を削除すると、ARFFファイル全体を2つの部分に分けることができます.第1部では、関係の宣言と属性の宣言を含むヘッダ情報(Head information)を示します.第2部では、データ情報(Data information)、すなわち、データセットから与えられるデータを示す.「@data」タグから、後にデータ情報が表示されます.
ヘッダメッセージ
データ情報
その他のフォーマットをARFFに変換
Wekaは他のフォーマットのファイルもサポートしていますが、ARFFフォーマットがサポートされているのが一番です.したがって,データ処理の前にデータセットのフォーマットをARFFに変換する必要がある.
CSV
  • CSVをARFFに変換する最も迅速な方法は、WEKAが持っているコマンドラインツールを使用することです.

  • WEKAのメインプログラムを実行し、メニューに「Simple CLI」モジュールを見つけ、コマンドライン機能を提供します.新しいウィンドウの一番下(上は字が書けない):入力ボックスに
     
    java weka.core.converters.CSVLoader filename.csv > filename.arff
     
    を選択します.
  • はWEKA 3.5に「Arff Viewer」モジュールを提供し、CSVファイルを開いてブラウズし、ARFFファイルとして保存することができます.
  • は「Exploer」モジュールに入り、上のボタンからCSVファイルを開いてARFFファイルとして保存してもよい.

  •  
    C4.5
    CSVファイルと似ています.
    XLS
    ExcelのXLSファイルは、複数の2次元テーブルを異なるワークシート(Sheet)に配置することができ、ワークシートごとに異なるCSVファイルとして保存するしかありません.XLSファイルを開き、変換するワークシートに切り替え、CSVタイプとして保存し、「OK」、「Yes」のプロンプトを無視して操作を完了します.
    次に得られたCSVファイルを前述の手順でARFFに変換すればよい.
    MAT
    Matlabの2 Dテーブルはマトリクスで、このコマンドでマトリクスをCSV形式に保存します.csvwrite('filename',matrixname)
    なお、Matllabが与えたCSVファイルには属性名がないことが多い(Excelが与えたものもない可能性がある).WEKAはCSVファイルの1行目から属性名を読み込まなければならない.そうしないと、1行目の各属性値を変数名として読む.そのため、Matllabから与えられたCSVファイルをテキスト編集ソフトで開き、手動で属性名を追加する必要があります.属性名の個数は、データ属性の個数と一致し、カンマで区切られていることに注意してください.
    から取り出す
    http://wiki.wekacn.org/index.php/ARFF "
    回転元:http://wiki.wekacn.org/index.php/ARFF#.E6.96.87.E4.BB.B6.E7.BB.93.E6.9E.84
    転載:http://www.blog.edu.cn/user2/huangbo929/archives/2007/1789774.shtml