Weka専用ファイル形式——ARFF

3232 ワード

ARFF形式
ARFFはAttribute-Relation File Format(プロパティ-リレーショナルファイル形式)を表します.このファイルはASCIIテキストファイルであり、属性構造のセットを共有するインスタンスのリストを記述し、独立した無秩序なインスタンスからなり、Wekaがデータセットを表す標準的な方法であり、ARFFはインスタンス間の関係に関与しない.
Wekaインストールディレクトリの下にあるdataサブディレクトリには、weather.numeric.arffという名前の天気データファイルがあります.その内容は以下の通りです.
天気データのARFFファイル
%This is a toy example, the UCI weather dataset.

@relation weather

@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

上記コードでは、パーセンテージ%で始まる行がコメント行となります.@relation行は内部データセットの名前weatherを定義し、名前は簡潔明瞭で理解しやすい.relationも関係になります.
@attribute outlook{sunny,overcast,rainy}行はoutlookという名前の公称型覚醒を定義し、3つの取値がある.@attribute play{yes,no}行はplay公称型属性を定義します.注:最後の属性のデフォルトは、予測に使用されるカテゴリ変数またはターゲット属性です.
@attribute temperature numeric行はtemperatureという名前の数値型プロパティを定義します.
@dataフラグ後の各行がデータセットを構成します.各動作は、@attributeで定義された属性の順序と一致するカンマで区切られた値からなるインスタンスサンプルです.
属性のデータ型
  • 公称型(nominal)は、予め定義された値リストの1つしか取れない.
  • 数値型(numeric)は、実数または整数のみである.
  • 文字列型(string)、二重引用符で参照される任意の長さの文字リスト.
  • 日付型(date);
  • 関係型(relation).