クラスタリングアルゴリズム
6215 ワード
文書ディレクトリ初認識クラスタリングアルゴリズム クラスタリングアルゴリズムapi初歩 クラスタリングアルゴリズム実装フロー フィーチャー次元ダウン しょしきクラスタリングアルゴリズム
クラスタリングアルゴリズムは、典型的な監視なし学習アルゴリズムであり、主に類似したサンプルを-カテゴリに自動的に分類するために使用される.クラスタリングアルゴリズムでは,試料間の類似性に基づいて試料を異なるカテゴリに分類し,異なる類似度計算方法では異なるクラスタリング結果が得られ,よく用いられる類似度計算方法にはヨーロッパ式距離法がある.
クラスタリングアルゴリズムと分類アルゴリズムの区別クラスタリングアルゴリズムは監督のない学習アルゴリズムであり、分類アルゴリズムは監督の学習アルゴリズムに属する.
クラスタリングアルゴリズムapi初歩
クラスタリングアルゴリズム実装プロセス
K-meansクラスタリングアルゴリズム実現プロセス1.K個の特徴空間内の点を初期のクラスタリング中心2としてランダムに設定、他の各点についてK個の中心までの距離を計算し、未知の点は最も近いクラスタリング中心点をタグカテゴリ3として選択する.次にタグ付けされたクラスタリング中心に向かった後、各クラスタリングの新しい中心点(平均値)4を再計算し、計算された新しい中心点と元の中心点-様(コアが移動しない)であれば、終了し、そうでなければ第2のステップを再実行する
フィーチャーの次元ダウン
ディメンションダウンとは、特定の制限条件の下でランダム変数(フィーチャー)の個数を低減し、「非相関」主変数のセットを得るプロセスです.
次元を下げる2つの方法
1、特徴選択データには冗長または無関係の変数(または、特徴、属性、指標など)が含まれており、元の特徴から主な特徴を特定することを目的としている.
2、主成分分析高次元データを低次元データに変換する過程で、この過程で元のデータを捨て、新しい変数を創造する可能性がある●作用:データ次元圧縮であり、できるだけ元のデータの次元数(複雑度)を下げ、少量の情報を損失する.●応用:回帰分析またはクラスタリング分析中
クラスタリングアルゴリズムは、典型的な監視なし学習アルゴリズムであり、主に類似したサンプルを-カテゴリに自動的に分類するために使用される.クラスタリングアルゴリズムでは,試料間の類似性に基づいて試料を異なるカテゴリに分類し,異なる類似度計算方法では異なるクラスタリング結果が得られ,よく用いられる類似度計算方法にはヨーロッパ式距離法がある.
クラスタリングアルゴリズムと分類アルゴリズムの区別クラスタリングアルゴリズムは監督のない学習アルゴリズムであり、分類アルゴリズムは監督の学習アルゴリズムに属する.
クラスタリングアルゴリズムapi初歩
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import calinski_harabaz_score
x, y = make_blobs(n_samples=1000, n_features=2, centers=[[-1,-1],[0,0],[1,1],[2,2]], cluster_std=[0.4,0.2,0.2,0.2], random_state=9)
plt.scatter(x[:, 0], x[:, 1], marker="o")
plt.show()
# kmeans , . =2
y_pre = KMeans(n_clusters=2, random_state=9).fit_predict(x)
plt.scatter(x[:,0],x[:,1],c=y_pre)
plt.show()
# ch_score
print(calinski_harabaz_score(x, y_pre))
クラスタリングアルゴリズム実装プロセス
K-meansクラスタリングアルゴリズム実現プロセス1.K個の特徴空間内の点を初期のクラスタリング中心2としてランダムに設定、他の各点についてK個の中心までの距離を計算し、未知の点は最も近いクラスタリング中心点をタグカテゴリ3として選択する.次にタグ付けされたクラスタリング中心に向かった後、各クラスタリングの新しい中心点(平均値)4を再計算し、計算された新しい中心点と元の中心点-様(コアが移動しない)であれば、終了し、そうでなければ第2のステップを再実行する
フィーチャーの次元ダウン
ディメンションダウンとは、特定の制限条件の下でランダム変数(フィーチャー)の個数を低減し、「非相関」主変数のセットを得るプロセスです.
次元を下げる2つの方法
1、特徴選択データには冗長または無関係の変数(または、特徴、属性、指標など)が含まれており、元の特徴から主な特徴を特定することを目的としている.
2、主成分分析高次元データを低次元データに変換する過程で、この過程で元のデータを捨て、新しい変数を創造する可能性がある●作用:データ次元圧縮であり、できるだけ元のデータの次元数(複雑度)を下げ、少量の情報を損失する.●応用:回帰分析またはクラスタリング分析中