HITS算法是由康奈爾大學( Cornell University ) 的Jon Kleinberg 博士於1997 年首先提出的,為IBM 公司阿爾馬登研究中心( IBM Almaden Research Center) 的名為“CLEVER”的研究項目中的壹部分。
TrustRank算法TrustRank算法最初來自於2004年斯坦福大學和雅虎的壹項聯合研究,用來檢測垃圾網站,並且於2006年申請專利。TrustRank算法發明人還發表了壹份專門的PDF文件,說明TrustRank算法的應用。感興趣的讀者可以在下面這個網址下載PDF文件:
TrustRank算法並不是由Google提出的,不過由於Google所占市場份額最大,而且TrustRank在Google排名中也是壹個非常重要的因素,所以有些人誤以為TrustRank是Google提出的。更讓人糊塗的是,Google曾經把TrustRank申請為商標,但是TrustRank商標中的TrustRank指的是Google檢測含有惡意代碼網站的方法,而不是指排名算法中的信任指數。
基於這個假設,如果能挑選出可以百分百信任的網站,這些網站的TrustRank評為最高,這些trustrank最高的網站所連接的網站信任指數稍微降低,但也會很高。與此類似,第二層別信任的網站鏈接出去的第三層網站,信任度繼續下降。由於種種原因,好的網站也不可避免的會接到壹些垃圾網站,不過離第壹層網站點擊距離越近,所傳遞的信任指數就越高,第壹級網站點擊距離越遠,信任指數將依次下降。這樣trustrank算法,就能給所有網站計算出相應的信任指數,離第壹層網站越遠,成為垃圾網真的可能性就越大。
PageRankPageRank,即網頁排名,是Google用來標識網頁的等級或重要性的壹種算法。
最早的搜索引擎采用的是 分類目錄 的方法,即通過人工對網頁進行分類並整理出高質量的網站。
隨著網頁數目的急劇增大,這種方法顯然無法實施。於是,搜索引擎進入了 文本檢索 的時代,即通過計算用戶的查詢語句與網頁內容的相關程度來返回搜索結果。比如通過向量空間模型將輸入的檢索詞和文件轉換成向量,通過計算兩個向量的夾角偏差程度(壹般采用余弦距離)來衡量相關性。這種方法雖然能處理大量網頁,但是效果卻並不是很好,比如存在壹些作弊行為:某些網頁重復倒騰某些關鍵詞從而使自己的搜索排名靠前。
於是,谷歌的兩位創始人,當時還是美國斯坦福大學研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 開始了對網頁排序問題的研究。他們受學術界對學術論文重要性的評估方法(論文引用次數)的啟發,提出了PageRank算法。
PageRank的核心思想其實十分簡單,概括如下:
如果壹個網頁被很多其它網頁鏈接到,說明這個網頁很重要,它的PageRank值也會相應較高;
如果壹個PageRank值很高的網頁鏈接到另外某個網頁,那麽那個網頁的PageRank值也會相應地提高。
HillTop算法
HillTop,是壹項搜索引擎結果排序的專利,是Google的壹個工程師Bharat在2001年獲得的專利。Google的排序規則經常在變化,但變化最大的壹次也就是基於HillTop算法進行了優化。