1、TF-IDF (Term Frequency-Inverse Document Frequency):這是壹種常用於信息檢索和文本挖掘的加權技術。通過計算壹個詞在文檔中的出現頻率以及該詞在語料庫中的出現頻率,來確定該詞對文檔的重要程度。
2、PageRank:這是Google搜索引擎使用的壹種算法,用於確定網頁的重要性。基於網頁之間的鏈接關系,通過計算每個網頁的PageRank值,來確定查詢結果的相關性和重要性。
3、BM25:這是壹種改進的TF-IDF算法,考慮文檔的長度和詞的頻率,可以更好地處理長文檔和短文檔的情況。