Clustering

1419 ワード

Scree Plots



適切な主成分数のグラフを理解する
累計割合は70~80%が望ましい

Machine Learning

  • サポートラーニング:トレーニングデータに回答(ラベル)がある場合は
  • を使用できます.
  • 分類:分類アルゴリズムは、所与のデータのカテゴリまたはクラス予測に使用される
  • 回帰(Prediction):連続データに基づく結果予測のための回帰アルゴリズム
  • 指導なし学習
  • クラスタ:データの関連付けフィーチャーに基づいて類似グループを作成する
  • 次元ダウン:
  • 高次元データセットの使用方法、フィーチャー選択/抽出などによる次元ダウンの低減
  • 関連ルール学習:データセットのフィーチャー間の関係をどのように発見するか
  • 強化学習:機械学習の一種であり、機械の良い行為を奨励することによって、悪い行為を罰するフィードバックによって行為を学習する.

    Clustering


    クラスタリングの目的は、所与のデータの類似度を理解することです.
    与えられたデータセットをまとめ、整理する非常に有効な方法
    (正確な答えは保証されず、生産レベルや予測のモデリングには使用されず、EDAに使用されます)
  • クラス
  • 高度:Agglomerative(単一の点から開始し、その後徐々に増大する)/disive(大きなクラスタから開始し、その後徐々に縮小する)
  • ポイント割付:開始時にクラスタ数を決定し、クラスタ内の
  • にデータを1つずつ割り当てる.
  • Hard VS Softクラスタ:一般的にHardクラスタをクラスタ
  • と呼ぶ.
  • Hardでは、データは1つのクラスタ
  • にのみ割り当てられる.
  • Softにおいて、データが複数のクラスタに割り当てられる確率は
  • である.

    K-Means Clustering


  • カリキュラム(n次元データ用)
  • K個のランダムデータをクラスタの中心点
  • に設定する.
  • は、クラスタに近いデータをクラスタ
  • に割り当てる.
  • で変更されたクラスタに対して中心点
  • を再計算する
    を2~3回繰り返し、
  • クラスタに変化がないまで繰り返します.
    from sklearn.cluster import KMeans 
    
    kmeans = KMeans(n_clusters = 3)    # 3개의 cluster
    kmeans.fit(x)
    labels = kmeans.labels_