古詩詞大全網 - 成語故事 - 聚類是什麽意思

聚類是什麽意思

聚類是指事先沒有“標簽”而通過某種成團分析找出事物之間存在聚集性原因的過程。

聚類和分類的區別

分類(Categorization or Classification)就是按照某種標準給對象貼標簽(label),再根據標簽來區分歸類。簡單地說,聚類是指事先沒有“標簽”而通過某種成團分析找出事物之間存在聚集性原因的過程。

區別是,分類是事先定義好類別,類別數不變。分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。聚類則沒有事先預定的類別,類別數不確定。

聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;

聚類則適合不存在分類體系、類別數不確定的場合,壹般作為某些應用的前端,比如多文檔文摘、搜索引擎結果後聚類(元搜索)等。

分類的目的是學會壹個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某壹個類中。要構造分類器,需要有壹個訓練樣本數據集作為輸入。

訓練集由壹組數據庫記錄或元組構成,每個元組是壹個由有關字段(又稱屬性或特征)值組成的特征向量,此外,訓練樣本還有壹個類別標記。壹個具體樣本的形式可表示為:(v1,v2,...,vn;c);

其中vi表示字段值,c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網絡方法等等。

聚類(clustering)是指根據“物以類聚”原理,將本身沒有類別的樣本聚集成不同的組,這樣的壹組數據對象的集合叫做簇,並且對每壹個這樣的簇進行描述的過程。

它的目的是使得屬於同壹個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麽樣的組,也不知道根據哪些空間區分規則來定義組。

其目的旨在發現空間實體的屬性間的函數關系,挖掘的知識用以屬性名為變量的數學方程來表示。

聚類技術正在蓬勃發展,涉及範圍包括數據挖掘、統計學、機器學習、空間數據庫技術、生物學以及市場營銷等領域,聚類分析已經成為數據挖掘研究領域中壹個非常活躍的研究課題。

常見的聚類算法包括:K-均值聚類算法、K-中心點聚類算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。