OneRアルゴリズムpython実装
2163 ワード
OneRアルゴリズム(分類アプリケーション、分類に最適な特徴値を探す)データエラー率を計算し、最大クラスに属さない特徴値の個数を、各値のエラー率を加算し、エラー率が最も低い特徴を唯一の分類準則(One Rule)として選択し、次の分類に使用する.//OneR
from collections import defaultdict
from operator import itemgetter
# , , ,
def train_feature_value(X,y_true,feature_index,value):
class_counts=defaultdict(int)
for sample,y in zip(X,y_true):
if sample[feature_index]==value:
class_counts[y]+=1
sorted_class_counts=sorted(class_counts.items(),key=itemgetter(1),reverse=True)
most_frequent_class=sorted_class_counts[0][0]
incorrect_predictions=[class_count for class_value,class_count
in class_counts.items()
if class_value!=most_frequent_class]
error=sum(incorrect_predictions)
return most_frequent_class,error
def train_on_feature(X,y_true,feature_index):
values=set(X[:,feature_index])
predictors={}
errors=[]
for current_value in values:
most_frequent_class,error,error = train_feature_value(X,y_true,feature_index,current_value)
predictors[current_value]=most_frequent_class
errors.append(error)
total_error=sum(errors)
return predictors,total_error