OneRアルゴリズムpython実装


OneRアルゴリズム(分類アプリケーション、分類に最適な特徴値を探す)データエラー率を計算し、最大クラスに属さない特徴値の個数を、各値のエラー率を加算し、エラー率が最も低い特徴を唯一の分類準則(One Rule)として選択し、次の分類に使用する.//OneR
from collections import defaultdict
from operator import itemgetter
#        ,    ,        ,   
def train_feature_value(X,y_true,feature_index,value):
    class_counts=defaultdict(int)
    for sample,y in zip(X,y_true):
        if sample[feature_index]==value:
            class_counts[y]+=1
    sorted_class_counts=sorted(class_counts.items(),key=itemgetter(1),reverse=True)
    most_frequent_class=sorted_class_counts[0][0]
    incorrect_predictions=[class_count for class_value,class_count
                       in class_counts.items()
                       if class_value!=most_frequent_class]
    error=sum(incorrect_predictions)
    return most_frequent_class,error

def train_on_feature(X,y_true,feature_index):
    values=set(X[:,feature_index])
    predictors={}
    errors=[]
    for current_value in values:
        most_frequent_class,error,error = train_feature_value(X,y_true,feature_index,current_value)
        predictors[current_value]=most_frequent_class
        errors.append(error)
    total_error=sum(errors)
    return predictors,total_error