古詩詞大全網 - 成語故事 - 常見的關聯規則挖掘算法包括

常見的關聯規則挖掘算法包括

典的關聯規則挖掘算法包括Apriori算法和FP-growth算法。

apriori算法多次掃描交易數據庫,每次利用候選頻繁集產生頻繁集;而FP-growth則利用樹形結構,無需產生候選頻繁集而是直接得到頻繁集,大大減少掃描交易數據庫的次數,從而提高了算法的效率。但是apriori的算法擴展性較好,可以用於並行計算等領域。 ?

Apriori algorithm是關聯規則裏壹項基本算法。是由Rakesh Agrawal和Ramakrishnan

Srikant兩位博士在1994年提出的關聯規則挖掘算法。

關聯規則的目的就是在壹個數據集中找出項與項之間的關系,也被稱為購物藍分析

(Market Basket analysis),因為“購物藍分析”很貼切的表達了適用該算法情景中的壹個子集。

大數據挖掘的算法:

1、樸素貝葉斯,超級簡單,就像做壹些數數的工作。如果條件獨立假設成立的話,NB將比鑒別模型收斂的更快,所以妳只需要少量的訓練數據。即使條件獨立假設不成立,NB在實際中仍然表現出驚人的好。

2、

Logistic回歸,LR有很多方法來對模型正則化。比起NB的條件獨立性假設,LR不需要考慮樣本是否是相關的。

與決策樹與支持向量機不同,NB有很好的概率解釋,且很容易利用新的訓練數據來更新模型。如果妳想要壹些概率信息或者希望將來有更多數據時能方便的更新改進模型,LR是值得使用的。

3、決策樹,DT容易理解與解釋。DT是非參數的,所以妳不需要擔心野點(或離群點)和數據是否線性可分的問題,DT的主要缺點是容易過擬合,這也正是隨機森林等集成學習算法被提出來的原因。

4、支持向量機,很高的分類正確率,對過擬合有很好的理論保證,選取合適的核函數,面對特征線性不可分的問題也可以表現得很好。SVM在維數通常很高的文本分類中非常的流行。