K-近隣アルゴリズム
24218 ワード
一、基本原理k-近隣アルゴリズム(KNN)は最も簡単な機械学習アルゴリズムの一つであり、その基本構想は「近朱者赤、近墨者黒」の原理と類似しており、未分類サンプルを分類する際、まず分類サンプルとの特徴類似度を判断し、その後、多くの分類サンプルが属するカテゴリに分類する.(K-近隣アルゴリズムは、異なる特徴値間の距離を測定する方法で分類する)単純に言えば、1つのサンプルデータの集合、すなわちトレーニングサンプルの集合が存在し、トレーニングサンプルの集合の各データにはラベルが存在する.すなわち、サンプルの集合の各データと属する分類との対応関係を知り、ラベルのない新しいデータを入力すると、データセットの各フィーチャーをサンプルセットデータに対応するフィーチャーと比較し、サンプルセットフィーチャーが最も似ているデータの分類ラベルを抽出します.一般に、サンプルデータセットの前のk個の最も類似したデータのみを選択し、最後にk個の最も類似したデータの中で最も出現回数の多い分類を選択し、新しいデータの分類2、長所と短所の利点として、精度が高く、異常値に敏感ではなく、データ入力仮定がない.欠点:計算の複雑さが高く、空間の複雑さが高い.データ範囲の使用:数値タイプと公称タイプ.
# -*- coding: utf-8 -*-
"""
Created on Mon Apr 20 21:11:55 2020
@author: 35187
"""
#2. KNN :
import numpy as np
import matplotlib.pyplot as plt
class KNN():
#
def fit(self, x_train, y_train):
self.x_train = x_train
self.y_train = y_train
#
def inverse_weight(self,dist,num=1.0,const=0.1):
return num/(dist+const)
# 1
def predict_once(self, x_test, k, T=0): #T: /
N = self.x_train.shape[0]
x_test_ext = np.tile(x_test,[N,1])
euclidean_distance = np.sqrt(np.sum(np.power(np.subtract(x_test_ext, self.x_train),2),1))
inx = np.argsort(euclidean_distance)
if T == 0: # K
#
class_predict = np.zeros(2)
for i in range(k):
idx = inx[i]
if self.y_train[idx] == 'A':
class_predict[0] += 1
else:
class_predict[1] += 1
class_label = 'B' if np.argmax(class_predict) else 'A'
return class_label
else: # K
distance_weight = np.zeros(2) #
for i in range(k):
idx = inx[i]
if self.y_train[idx] == 'A':
distance_weight[0] += self.inverse_weight(euclidean_distance[idx])
else:
distance_weight[1] += self.inverse_weight(euclidean_distance[idx])
class_label = 'B' if np.argmax(distance_weight) else 'A'
return class_label
def predict(self, x_test, k, T=0):
class_predict = []
for i in range(len(x_test)):
class_predict.append(self.predict_once(x_test[i, :], k, T))
return class_predict
#1. :
# ( ), 7 。
# ( 4 A , 3 B )
x_train = np.array([[4, 5], [6, 7], [4.8, 7], [5.5, 8], [7, 8], [10, 11], [9, 14]])
y_train = ["A","A","A","A","B","B","B"]
# (6 )
x_test = np.array([[3.5, 7], [9, 13], [8.7, 10], [5, 6], [7.5, 8], [9.5, 12]])
#3. :
#KNN
knn = KNN()
knn.fit(x_train, y_train)
y_predict = knn.predict(x_test, 3, 0) #T=0/1
print(y_predict)
#
plt.xlabel("x"); plt.ylabel('Y'); plt.title('KNN')
plt.plot(x_train[0:4,0], x_train[0:4,1], color='red', marker='o', label='One Class (A)', linestyle="") # ”A”
plt.plot(x_train[4:7,0], x_train[4:7,1], color='blue', marker='s', label='Two Class (B)', linestyle="") # ”B”
for i in range(len(x_test)): #
if y_predict[i] == 'A':
plt.plot(x_test[i,0], x_test[i,1], color='green', marker='o')
plt.text(x_test[i,0]-0.3, x_test[i,1]+0.3, str(i) + '->A')
else:
plt.plot(x_test[i,0], x_test[i,1], color='green', marker='s')
plt.text(x_test[i,0]-0.3, x_test[i,1]+0.3, str(i) + '->B')
plt.legend(loc='upper left')
plt.grid(True)
plt.show()