DBSCANの注意事項
1431 ワード
DBSCANは3つの入力データ:データセットDを含み、与えられた点が近傍でコアオブジェクトとなる最小近傍点数:MinPts、近傍半径:Epsであり、EpsとMinPtsは具体的な応用者によって設定する必要がある.
(1)Epsの値は、k-距離曲線(k-distance graph)を描く方法を用いて適切であり、k-距離曲線図の明らかな曲げ位置に対応するパラメータである.パラメータの設定が小さすぎると、ほとんどのデータはクラスタリングできません.パラメータが大きすぎると、複数のクラスタとほとんどのオブジェクトが同じクラスタに集約されます.
K-距離:K距離の定義DBSCANアルゴリズムの原文で詳細に説明した.K近傍パラメータkが与えられ、データ中の各点について、対応するk番目の近傍距離を計算し、データセットのすべての点に対応する近傍距離を降順に並べ替え、この図を並べ替えたk距離図と呼ぶ.この図の最初の谷値点位置に対応するk距離値をEpsに設定します.一般的にk値を4に設定します.
MinPtsの選択には、クラスタ化されるデータの次元を表すdim≧dim+1のガイドライン(a rule of thumb)がある.MinPtsを1に設定するのは合理的ではありません.1に設定すると、各独立点がクラスタになります.MinPts≦2の場合、階層距離が最も近い隣接領域の結果と同じになります.そのため、MinPtsは3以上の値を選択する必要があります.この値が小さすぎると、疎クラスタの結果はMinPtsよりも密度が小さいため、境界点がクラスのさらなる拡張に使用されないと考えられる.この値が大きすぎると、密度の大きい2つの隣接クラスタが同じクラスタに結合される可能性があります.したがって、この値が適切に設定されているかどうかは、クラスタリング結果に大きな影響を及ぼします.
DBSCAN原理疑似コード:
転入先https://blog.csdn.net/zhouxianen1987/article/details/68945844
(1)Epsの値は、k-距離曲線(k-distance graph)を描く方法を用いて適切であり、k-距離曲線図の明らかな曲げ位置に対応するパラメータである.パラメータの設定が小さすぎると、ほとんどのデータはクラスタリングできません.パラメータが大きすぎると、複数のクラスタとほとんどのオブジェクトが同じクラスタに集約されます.
K-距離:K距離の定義DBSCANアルゴリズムの原文で詳細に説明した.K近傍パラメータkが与えられ、データ中の各点について、対応するk番目の近傍距離を計算し、データセットのすべての点に対応する近傍距離を降順に並べ替え、この図を並べ替えたk距離図と呼ぶ.この図の最初の谷値点位置に対応するk距離値をEpsに設定します.一般的にk値を4に設定します.
MinPtsの選択には、クラスタ化されるデータの次元を表すdim≧dim+1のガイドライン(a rule of thumb)がある.MinPtsを1に設定するのは合理的ではありません.1に設定すると、各独立点がクラスタになります.MinPts≦2の場合、階層距離が最も近い隣接領域の結果と同じになります.そのため、MinPtsは3以上の値を選択する必要があります.この値が小さすぎると、疎クラスタの結果はMinPtsよりも密度が小さいため、境界点がクラスのさらなる拡張に使用されないと考えられる.この値が大きすぎると、密度の大きい2つの隣接クラスタが同じクラスタに結合される可能性があります.したがって、この値が適切に設定されているかどうかは、クラスタリング結果に大きな影響を及ぼします.
DBSCAN原理疑似コード:
(1) D
(2) for( D p) do
(3) if (p ) then
(4) continue;
(5) else
(6) p Eps NEps(p) ;
(7) if (NEps(p) MinPts) then
(8) p ;
(9) else
(10) p , C, p C
(11) for (NEps(p) q) do
(12) Eps NEps(q), NEps(q) MinPts , NEps(q) C;
(13) end for
(14) end if
(15) end if
(16) end for
転入先https://blog.csdn.net/zhouxianen1987/article/details/68945844