1.網絡機器人技術
機器人又稱蜘蛛、蠕蟲或隨機,其核心目的是獲取互聯網上的信息。壹般定義為“在網絡上搜索文件,自動跟蹤文件的超文本結構並循環搜索所有引用文件的軟件”。機器人使用主頁中的超文本鏈接來遍歷WWW,並通過U-toe引用從壹個HTML文檔爬行到另壹個HTML文檔。在線機器人收集的信息可以用於多種用途,例如索引、驗證HIML文件的合法性、驗證和確認uRL鏈接點、監控和獲取更新信息、站點鏡像等等。
機器人在互聯網上爬行,需要建立壹個URL列表來記錄訪問的軌跡。它使用超文本,指向其他文檔的URL隱藏在文檔中,需要分析提取。機器人通常用於生成索引數據庫。所有WWW搜索程序都有以下工作步驟:
(1)機器人從初始URL列表中取URL,從網上讀取其指向的內容;
(2)從每個文檔中提取壹些信息(如關鍵詞)放入索引數據庫;
(3)從文檔中提取指向其他文檔的URL,並將其添加到URL列表中;
(4)重復上述三個步驟,直到沒有新的URL出現或超過某些限制(時間或磁盤空間);
(5)在索引數據庫中添加檢索接口,並發布給在線用戶或提供給用戶檢索。
搜索算法壹般有兩種基本的搜索策略:深度優先和廣度優先。機器人通過訪問URL列表確定搜索策略:先入先出,形成廣度優先搜索。當初始列表包含大量WWW服務器地址時,廣度優先搜索會產生很好的初始結果,但很難深入到服務器;先進先出,形成深度優先搜索,可以產生更好的文檔分布,更容易找到文檔的結構,即找到最大數量的交叉引用。也可以使用遍歷搜索法,即直接改變32位IP地址,逐個搜索整個互聯網。
搜索引擎是壹個高科技的網絡應用系統。它包括網絡技術、數據庫技術、動態索引技術、檢索技術、自動分類技術、機器學習等人工智能技術。
2.索引技術
索引技術是搜索引擎的核心技術之壹。搜索引擎要對收集到的信息進行整理、分類、索引,產生索引數據庫,而中文搜索引擎的核心就是分詞技術。分詞技術是利用壹定的規則和詞庫對壹個句子中的詞進行切分,為自動標引做準備。目前,非聚類法在標引中應用最多,這與語言文字知識有很大關系,具體如下:
(1)存儲語法庫,配合詞匯庫對句子中的單詞進行切分;
(2)存儲詞匯庫,應同時存儲詞匯的使用頻率和常用搭配方法;
(3)詞匯量廣,可分為不同的專業庫,方便專業文檔的處理;
(4)對於不能切分的句子,把每個單詞都當成壹個單詞。
索引器生成從關鍵字到URL的關系索引表。索引表壹般使用某種形式的倒排表(1nversionUst),即通過索引項搜索對應的URL。索引表還應記錄索引項在文檔中的位置,以便檢索者計算出索引項之間的相鄰關系或緊密關系,並以特定的數據結構存儲在硬盤上。
不同的搜索引擎系統可以采用不同的索引方法。比如Webcrawler利用全文檢索技術,對網頁中的每壹個詞進行索引;Lycos只索引頁面名稱、標題以及最重要的100註釋詞等可選詞;Infoseek提供概念檢索和短語檢索,支持and、or、near和not等布爾運算。搜索引擎的標引方式大致可以分為三類:自動標引、手動標引和用戶登錄。
3.檢索器和結果處理技術
檢索器的主要功能是根據用戶輸入的關鍵詞,在索引器形成的倒排表中進行搜索,同時完成頁面與檢索之間的相關性評估,對要輸出的結果進行排序,並實現壹定的用戶相關性反饋機制。
搜索引擎獲得的檢索結果往往有上百個。為了得到有用的信息,常用的方法是根據網頁的重要性或相關性對網頁進行排序,並根據相關性進行排序。這裏的相關度是指搜索關鍵詞在文檔中出現的數量。當配額較高時,認為該文檔更相關。可見度也是常用的度量之壹。網頁的可見性是指網頁的門戶中超鏈接的數量。可視性方法是基於這樣的觀點,即壹個網頁被其他網頁引用得越多,它就越有價值。特別是越重要的網頁越重要。結果處理技術可以概括如下:
(1)按頻率排序壹般來說,壹個頁面包含的關鍵詞越多,其搜索目標的相關性應該越好,這是壹個非常合理的解決方案。
(2)按頁面被訪問的程度排序在這種方法中,搜索引擎會記錄頁面被訪問的頻率。人們經常訪問的頁面通常應該包含更多的信息或者有其他吸引人的優點。這種解決方案適用於壹般的搜索用戶,而且由於大部分搜索引擎都不是專業用戶,所以這種解決方案也適用於壹般的搜索引擎。
(3)二次搜索進壹步提純結果(與flne相比),根據壹定條件優化搜索結果,可以選擇類別和相關詞進行二次搜索。
因為現在的搜索引擎並不智能,除非妳知道妳要找的文檔的標題,否則排名第壹的結果不壹定是“最好”的結果。所以有些文檔雖然相關性很高,但不壹定是用戶最需要的文檔。
搜索引擎技術的工業應用;
搜索引擎的行業應用壹般是指類似KW通信提供的多種搜索引擎行業和產品應用模式,壹般分為以下幾種形式:
1,政府機構行業應用
n實時跟蹤和收集與業務工作相關的信息來源。
n充分滿足內部員工對互聯網信息的全球觀察需求。
n及時解決政府外網和政府內網的信息來源問題,實現動態發布。
n快速解決政府主網站對本地子網站的信息獲取需求。
n全面整合信息,實現政府內部跨地區、跨部門的信息資源共享和有效溝通。
n節省信息收集的人力、物力和時間,提高辦公效率。
2、企業行業應用
n實時、準確地監控和跟蹤競爭對手的動態,是企業獲取競爭情報的利器。
n及時獲取競爭對手的公開信息,研究同行業的發展和市場需求。
n為企業決策部門和管理層提供便捷、多渠道的企業戰略決策工具。
n大幅度提高獲取和利用信息的效率,節省收集、存儲和挖掘信息的相關費用,是提高企業核心競爭力的關鍵。
它是提高企業整體分析研究能力、快速市場反應能力和建立以知識管理為核心的競爭情報數據倉庫的神經中樞。
3.新聞傳媒產業應用
n快速準確地跟蹤采集成千上萬的網絡媒體信息,擴展新聞線索,提高采集速度。
n支持每天有效抓取數萬條新聞。監控範圍的深度和廣度可以自行設定。
n支持所需內容的智能提取和審核。
n實現互聯網信息內容采集、瀏覽、編輯、管理、發布壹體化。
4、行業網站應用
n實時跟蹤和收集與網站相關的信息來源。
n及時跟蹤行業信息源網站,自動快速更新網站信息。動態更新信息。
n實現互聯網信息內容采集、瀏覽、編輯、管理、發布壹體化。
n提出了商業網站的業務管理模式,大大提高了行業網站的業務應用需求。
針對信息網站分類目錄的生成,提出了用戶生成網站分類結構。並且可以實時添加和更新分類結構。不受系列限制。從而大大提高了行業的適用性。
n提供專業的搜索引擎SEO優化服務,快速提升行業網站推廣。
n與CCDC來電搜索引擎提供廣告合作。建立行業網站聯盟,提高行業網站的知名度。
5)網絡信息的監控和監測
網絡輿情系統。如“千瓦通信-網絡輿情雷達監測系統”
n網站信息和內容監測監控系統,如“KW通信-網站信息和內容監測監控系統(站內偵探)”
隨著互聯網的飛速發展和WEB信息的增加,用戶不得不在信息的海洋中尋找信息,猶如大海撈針。
就像針壹樣,搜索引擎技術正好解決了這個問題(它可以為用戶提供信息檢索服務)。目前,
搜索引擎技術正在成為計算機行業和學術界研究和開發的對象。
隨著WEB信息的急劇增加,搜索引擎從1995開始逐漸發展起來。
技術。據《科學》雜誌7月號1999發表的文章《網絡信息的可訪問性》估計,目前全球
網頁超過8億,有效數據超過9T,而且還在每四個月翻壹倍。用戶應該在如此廣闊的
在韓的信息海洋中尋找信息,註定是“大海撈針”的徒勞。搜索引擎正是為了解決這壹“跋涉”
“問題和技術的出現。搜索引擎使用某些策略來收集、發現和理解互聯網上的信息。
、提取、組織和加工,並為用戶提供檢索服務,從而達到信息導航的目的。搜索引擎提供
我們的導航服務已經成為互聯網上非常重要的網絡服務,搜索引擎站點也被稱為“網絡門戶”。
。搜索引擎技術因此成為計算機行業和學術界研究和開發的對象。本文的目的是研究
簡要介紹了該引擎的關鍵技術,以引起更多的關註。
分類
根據信息收集和服務提供方法的不同,搜索引擎系統可以分為三類:
1.目錄搜索引擎:人工或半自動地收集信息,在編輯查看信息後,人們
努力形成信息摘要,並將信息放入預定的分類框架中。大多數信息是面向網站的,並提供目錄瀏覽。
瀏覽服務和直接檢索服務。這種搜索引擎因為加入了人的智能,所以信息準確,導航質量高。
缺點是人工幹預,維護量大,信息量少,信息更新不及時。這種搜索引擎的代表是
:雅虎、LookSmart、OpenDirectory、GoGuide等。
2.機器人搜索引擎:壹個叫做Spider的機器人程序,按照壹定的策略自動與對方進行交互。
信息是在聯網中收集和發現的,索引器為收集到的信息建立索引,檢索器根據用戶的查詢輸入。
搜索索引數據庫並將查詢結果返回給用戶。服務模式為網頁全文檢索服務。這種搜索
有線引擎的優點是信息量大,更新及時,不需要人工幹預,缺點是返回的無關消息太多。
信息,用戶必須從結果中過濾。這類搜索引擎的代表是AltaVista和NorthernLigh。
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google國內代表有:《天網》、悠遊、o。
PenFind等
3.元搜索引擎:這種搜索引擎沒有自己的數據,而是同時搜索多個用戶的查詢請求。
搜索引擎提交返回的結果,經過反復剔除和重新排序後,作為自己的結果返回。
家用的。服務模式是面向web的全文檢索。這種搜索引擎的好處是返回的信息多,信息量大。
所有,缺點是妳不能充分利用妳使用的搜索引擎的功能,用戶需要做更多的篩選。這種搜索引用
青的代表有網絡爬蟲、InfoMarket等。
性能指標
我們可以把WEB信息的搜索看作是壹個信息檢索問題,即在由網頁組成的文檔庫中進行搜索。
打印與用戶查詢相關的文檔。因此我們可以衡量傳統信息檢索系統的性能參數——查全率(R
Ecall)和精度衡量搜索引擎的性能。
查全率是檢索到的相關文檔數與文檔庫中所有相關文檔數的比值,衡量檢索系統。
系統(搜索引擎)的召回率;準確率是檢索到的相關文檔數與檢索到的文檔總數的比值,是壹種度量。
目的是檢索系統(搜索引擎)的精度。對於壹個檢索系統來說,召回率和準確率是不可能兼顧的。
它的妙處:召回率高的時候準確率低,準確率高的時候召回率低。所以我們經常用11的召回率和1的精度。
平均值(即11點平均精度)來衡量壹個檢索系統的精度。對於搜索引擎系統,因為沒有
有壹個搜索引擎系統可以收集所有網頁,所以召回率很難計算。目前的搜索引擎部門
大家都很在意準確性。
影響搜索引擎系統性能的因素有很多,其中最重要的是信息檢索模型,包括文檔和查詢。
的表示方法、評估文檔與用戶查詢相關性的匹配策略、查詢結果的排序方法以及用戶之間的比較。
海關反饋機制。
主要技術
搜索引擎由四部分組成:搜索器、索引器、檢索器和用戶界面。
1.檢查官
搜索者的功能是在互聯網上漫遊,尋找和收集信息。它經常是壹個電腦程序,不分晝夜。
繼續跑。它應該盡可能多、盡可能快地收集各種新的信息,同時,因為互聯網上的信件。
信息更新快,已經收集的舊信息要定期更新,避免死連接和無效連接。目前有
收集信息的兩種策略:
●從壹組初始URL開始,跟隨這些URL中的超鏈接,優先考慮寬度和深度。
在互聯網上循環查找信息的度優先或啟發式方法。這些開始URL可以是任意的URL,但是通常
是壹些有很多鏈接的非常受歡迎的網站(比如Yahoo!)。
●網頁空間以域名、IP地址或國家域名劃分,每個搜索者負責窮盡壹個子空間。
搜索。搜索者收集各種類型的信息,包括HTML、XML、新聞組文章、FTP文件,
文字處理文檔、多媒體信息。搜索器通常由分布式和並行計算技術實現,以改進信息。
發現和更新的速度。商業搜索引擎的信息發現量每天可達數百萬網頁。
2.分度器
索引器的作用是理解搜索器搜索到的信息,從中提取索引項,用來表示文檔和學生。
文檔庫索引表。
索引項有兩種:客觀項與文檔的語義內容無關,如作者姓名,
網址,更新時間,編碼,長度,鏈接流行度等。內容索引條目用於
反映文檔的內容,如關鍵詞及其權重、短語、單詞等。內容索引項可以分為單個索引項和
多重索引項(或短語索引項)有兩種。單個索引項是英語的英文單詞,相對容易提取。
因為單詞之間有天然的分隔符(空格);對於有連續書寫的語言,比如漢語,必須進行切詞。
分。在搜索引擎中,通常需要給單個索引項分配壹個權重,以指示索引項和文檔之間的差異。
度,並用於計算查詢結果的相關性。使用的方法壹般包括統計學、信息論和概率論。短的
語言指標項的提取方法有統計學、概率論和語言學。
索引表壹般使用某種形式的倒排表,即按索引項搜索對應的文檔。
。索引表還可以記錄索引項在文檔中出現的位置,以便搜索者可以計算索引項之間的相鄰位置。
接近度(Proximity)。
索引器可以使用集中式索引算法或分布式索引算法。當數據量很大時,必須是實時的。
InstantIndexing,不然跟不上信息的快速增加。索引器的索引算法
性能(比如大規模峰值查詢的響應速度)影響很大。搜索引擎非常有效。
程度取決於指數的質量。
3.檢索器(Retriever)檢索器的功能是根據用戶的查詢,在索引庫中快速檢出文檔,並對文檔進行相互比較。
評估查詢的相關性,對要輸出的結果進行排序,實現壹些用戶相關性反饋機制。
檢索者常用的信息檢索模型有四種:集合論模型、代數模型、概率模型和混合模型。
4.用戶界面
用戶界面的功能是輸入用戶查詢,顯示查詢結果,並提供用戶相關反饋機制。主要的
目的是方便用戶使用搜索引擎,從搜索引擎中高效、多途徑地獲取有效、及時的信息。
用戶界面的設計和實現采用人機交互的理論和方法,充分適應人類的思維習慣。
用戶輸入界面可以分為簡單界面和復雜界面。
簡單界面只提供壹個文本框供用戶輸入查詢字符串;復雜的界面允許用戶限制查詢,例如
邏輯運算(與、或、非;+、-)、鄰近性(相鄰、近)、域名範圍(如。edu。com)。
、位置(如標題、內容)、信息時間、長度等。目前,壹些公司和機構正在考慮制定。
查詢選項的條件。
未來趨勢
搜索引擎已經成為壹個新的研發領域。因為它需要信息檢索,需要人工智能,需要計算。
計算機網絡、分布式處理、數據庫、數據挖掘、數字圖書館、自然語言處理等領域的理論和
技術,所以很全面,也很有挑戰性。並且由於搜索引擎擁有大量的用戶,具有很好的經濟價值。
它引起了全世界計算機科學和信息產業界的極大關註,目前其研究和開發非常活躍。
出現了許多值得註意的趨勢。
1.非常註重提高信息查詢結果的準確性和檢索的有效性。
在查詢信息時,我們並不太關註返回結果的數量,而是看結果是否符合自己的需求。作為其中壹個
壹個查詢,傳統的搜索引擎往往會返回幾十萬、幾百萬個文檔,用戶必須在結果中進行篩選。解決
目前解決查詢結果過多的方法有以下幾種:壹是通過各種方法獲取用戶不在查詢的句子。
本文表達的真實用途包括使用智能代理跟蹤用戶的檢索行為和分析用戶模型。使用相關性
度反饋機制使用戶能夠告訴搜索引擎哪些文檔與自己的需求相關(及其相關度),哪些文檔與自己的需求相關。
不相關,通過多次互動逐漸細化。二是利用文本分類技術對結果進行分類。
類,利用可視化技術顯示分類結構,用戶只能瀏覽自己感興趣的類別。三是開展現場課。
聚類或內容聚類減少了信息總量。
2.基於智能代理的信息過濾和個性化服務。
信息智能代理是另壹種使用互聯網信息的機制。它使用自動獲得的領域模型(例如We
b知識、信息處理、與用戶興趣相關的信息資源、領域組織結構)、用戶模型(如用戶背景)
、興趣、行為、風格)知識進行信息收集、索引、過濾(包括興趣過濾和不良信息過濾)。
,並自動提交用戶感興趣的、對用戶有用的信息。智能代理具有不斷學習、適應性強的特點
動態改變信息和用戶興趣的能力,從而提供個性化服務。智能代理可以在用戶端完成。
也可以在服務器端運行。
3.使用分布式架構提高系統規模和性能。
搜索引擎的實現可以采用集中式架構和分布式架構,兩種方式各有優勢。但是
當系統的規模達到壹定程度(例如網頁數量達到1億)時,不可避免地要采用壹些分布式的方法來改進
系統性能。除了用戶界面,搜索引擎的所有組件都可以是分布式的:搜索者可以
在多臺機器上協作分工進行信息發現,提高信息發現和更新的速度;索引器可以
將索引分布在不同的機器上,以降低索引對機器的要求;檢索器可以在不同的機器上。