古詩詞大全網 - 成語故事 - 分詞算法是什麽?

分詞算法是什麽?

分詞算法是文本挖掘的基礎,通常對整個模型的效果起著較大的決定作用;分詞算法常用的兩種運行方式:

1、用戶搜索及匹配。

例如:我們在百度搜索壹個詞 “手機回收”,那麽百度會先把這個詞分為手機和回收兩個詞這個時候呢,百度會先在庫中搜索手機這個詞然後進行第壹輪的篩選。

把網頁當中沒有手機這個詞的去除,只保留帶有手機這個詞的結果,之後再從已篩選出來的網頁中,篩選出帶有回收這個詞的頁面,然後在所得結果裏面根據頁面評分給用戶進行排序。

2、網頁主題計算

前面啟蒙博客也講過,百度蜘蛛只是壹個機器,並不能向人壹樣去思考,而在處理文章的時候,百度蜘蛛則會把文章也進行分詞去處理,如過文章裏 手機 這個詞出現頻率比較多,也就是所說的關鍵詞密度,那麽這個頁面也就會定性為手機方面的文章。

搜索引擎是通過分詞算法來計算網頁的,如果我們能夠合理地利用分詞算法進行網頁布局,會讓網頁將會有壹個很好的得分。

中文分詞算法大概分為三大類:

第壹類是基於字符串匹配,即掃描字符串,如果發現字符串的子串和詞典中的詞相同,就算匹配,比如機械分詞方法。這類分詞通常會加入壹些啟發式規則,比如“正向/反向最大匹配”,“長詞優先”等。

第二類是基於統計以及機器學習的分詞方法,它們基於人工標註的詞性和統計特征,對中文進行建模,即根據觀測到的數據(標註好的語料)對模型參數進行訓練,在分詞階段再通過模型計算各種分詞出現的概率,將概率最大的分詞結果作為最終結果。

常見的序列標註模型有HMM和CRF。這類分詞算法能很好處理歧義和未登錄詞問題,效果比前壹類效果好,但是需要大量的人工標註數據,以及較慢的分詞速度。

第三類是通過讓計算機模擬人對句子的理解,達到識別詞的效果,由於漢語語義的復雜性,難以將各種語言信息組織成機器能夠識別的形式,目前這種分詞系統還處於試驗階段。