古詩詞大全網 - 成語用法 - 有哪幾種聚類算法?

有哪幾種聚類算法?

聚類分析的計算方法主要有層次法、劃分法、基於密度法、基於網格法、基於模型法等。其中,前兩種算法使用統計學定義的距離來度量。

k-means算法的工作過程描述如下:首先從N個數據對象中隨機選取K個對象作為初始聚類中心;而對於剩余對象,根據它們與這些聚類中心的相似性(距離),將它們分別分配到與它們最相似的聚類(由聚類中心表示);然後計算每個新聚類的聚類中心(該聚類中所有對象的平均值);重復這個過程,直到標準測量函數開始收斂。通常,均方差被用作標準測量函數。k簇有以下特點:每個簇本身盡可能緊湊,每個簇盡可能獨立。

流程如下:

(1)從n個數據對象中隨機選取k個對象作為初始聚類中心;

(2)根據每個聚類對象的平均值(中心對象),計算每個對象與這些中心對象之間的距離;並根據最小距離重新劃分對應的對象;

(3)重新計算每個(改變的)聚類的平均值(中心對象);

(4)循環(2)和(3)直到每個簇不再變化(標準測量函數收斂)。

優點:該算法確定的K個劃分的平方誤差最小。當聚類比較密集,類間差異比較明顯時,效果更好。對於處理大數據集,這種算法是相對可擴展和高效的,計算復雜度為O(NKt),其中N是數據對象的數量,T是叠代次數。

缺點:

1.k是事先給定的,但是很難選擇;

2.初始聚類中心的選擇對聚類結果有很大影響。