信息采集技術包括對象數據采集和元數據采集。
1)對象數據采集主要包括文本信息采集和圖像信息采集。文本信息收集主要是指原始紙質文獻的數字化。僅僅依靠手工輸入和手工校對是遠遠不夠的。要將大量文本信息數字化,需要可靠的掃描技術和OCR(光學字符識別)識別技術。圖像信息的獲取需要應用掃描技術,重要的現場圖像可以通過數碼相機、數碼攝像機等工具獲取,而原本存儲在錄像帶等介質中的圖像數據可以通過相應的技術進行數字化。目前文獻壹般都提供數字版本,只要按照集成數字圖書館系統的要求進行加工、存儲和組織即可。
2)元數據是關於數據的數據。元數據最基本的用途是管理數據,從而實現查詢、閱讀、交換和* * *享受。元數據收集技術是指從數據庫系統、文件系統和HTML文件中收集元數據,從而形成本地元數據倉庫的技術。
第二,信息處理技術
信息處理技術包括對象數據處理技術和元數據處理技術。
(1)對象數據處理技術是指將采集的對象數據按照元數據標準和描述規範進行索引和分類。
(2)元數據處理技術采集元數據,然後將采集到的數據按照元數據標準和描述規範進行轉換和清洗,即對元數據進行標準化和規範化,剔除不合格的元數據。
(3)自動標引和手工標引主要涉及主題標引和分類標引,是信息資源加工的重要環節。自動標引技術是基於敘詞表和分類表,為標引人員自動生成主題詞和分類。
第三,信息存儲技術
目前,圖書館書目信息主要存儲在不同環境的數據庫中。由於異構數據庫不兼容,往往需要編寫壹些轉換程序,大大降低了信息共享的效率。同時,為了在互聯網上開展圖書館信息的快速、準確的查詢服務,現有的圖書館書目信息數據庫已不能滿足這壹要求,必須增加其他數字化信息。由於目錄信息是非結構化的,不適合用現有的數據庫來表示。因此,圖書館中的壹些數字信息可以用XML來表示和存儲。用戶的檢索請求通過Web服務器的調用程序傳送到相應的系統內部服務器。在系統中,所有的信息處理工作都是圍繞XML文件系統進行的。當然,前提是將數據庫中的信息轉換成XML文檔,通過相應的工具將圖書目錄信息生成XML文檔,傳輸到用戶的瀏覽器進行顯示,或者傳輸到其他Web服務器上實現信息共享。
信息存儲、信息檢索、信息分析都要使用數據庫技術。傳統數據庫技術經歷了網狀數據庫、層次數據庫和關系數據庫三個階段。基於信息集成的數字圖書館提供的信息資源不僅包括普通的結構化電子文本,還包括圖像、音頻、視頻、軟件等各種類型的信息。這種多媒體信息的存在和網絡的發展促進了數據庫技術的發展。面向對象數據庫技術、非結構化數據庫技術和多媒體數據庫技術日趨成熟。這個數據庫的記錄長度是不確定的,可以存儲各種信息,所以可以輕松處理多媒體信息。基於信息集成的數字圖書館系統的功能不僅提供壹次信息,還提供經過加工的二次信息,還可以對信息資源進行加工和信息分析,提供決策服務。因此,支持管理決策過程的面向主題的、集成的、穩定的、時變的數據存儲技術也是建設數字圖書館不可或缺的技術之壹。
第四,信息檢索技術
信息檢索技術發展非常迅速,尤其是基於web的檢索方式正在成為壹種常見的檢索方式,並構成了當今信息檢索的基本方法。它融合了超文本技術、網絡技術和多媒體技術。萬維網的瀏覽器/服務器模式具有優化的結構和強大的功能,基於Web的搜索模式體現在各種搜索引擎的應用中。搜索引擎是互聯網上具有查詢功能的網頁的總稱,目前有數百種。包括WebSearChEngine(萬維網搜索引擎)、FTP Search Engine(文件搜索引擎)、Email/Whitepage搜索引擎(電子郵件/白頁搜索引擎)、YellwPageSearehEngine(黃頁搜索引擎)、UsenetsearehEngine(新聞論壇搜索引擎)、Meta-seare Engine等。萬維網是互聯網上最先進的網絡信息檢索系統,也是最受搜索者歡迎的信息檢索系統之壹。
將人工智能領域的Agent技術應用於互聯網智能信息檢索,給出了壹種新的互聯網智能檢索技術。智能軟件代理是能夠為用戶執行特定任務的軟件程序,具有壹定程度的智能以允許用戶自主執行某些任務,並以適當的方式與環境進行交互。Agent技術具有主動性、智能性、協作性和移動性。通過建立模糊關系,學習用戶的個性化思維,進行模糊推理,為用戶提供高效完整的信息服務。將Agent技術與模糊信息處理相結合,可以得到壹種更有效的解決信息檢索問題的方法。
動詞 (verb的縮寫)信息服務技術
1)索引技術:壹般有內容索引、結構索引和鏈索引。這些索引的建立涉及到索引的結構、索引的擴展性和分布特性、索引生成的並行化等技術問題。
2)開放式URL連接系統:由於壹個連接系統需要與多個源數據庫進行通信,所以需要規劃連接系統與源數據庫之間的通信方式。提議的標準被稱為開放URL,用於在URL中傳輸元數據。與open URL兼容的連接系統稱為open URL連接系統。開放式連接為鏈接器提供了壹個獨立的系統。在從源點接收到元數據之後,連接系統根據其自身數據庫中的數據來確定要提供給用戶的目標數據。
3)數據挖掘技術:網絡信息挖掘技術,又稱數據庫中的知識發現,是從大量數據中提取以前未知的、完整的、可信的、新穎的、有效的信息的高級處理過程。它基於已知的數據樣本,通過歸納學習、機器學習和統計分析獲得數據對象的內部特征,並據此利用信息過濾技術提取網絡中用戶感興趣的信息或更高層次的知識和規則。信息挖掘包括數據挖掘和文本挖掘。它使用先進的技術來分析信息資源。
4)信息推送技術:信息推送技術是指按照用戶指定的時間間隔或根據事件將用戶選擇的數據自動推送給用戶的壹種計算機數據發布技術。推送技術的發展方向將是組播和組播內容交付。RSS技術是信息推送技術之壹。RSS是壹種XML(可擴展標記語言)格式,用於為內容集成客戶端提供選擇性和摘要網頁內容。更準確地說,它是壹個可移植、可擴展的元數據集,描述了基於XML和RDF的資源集合(尤其是網絡資源)。RSS作為壹種描述和同步網站內容的格式,是目前應用最廣泛的XML應用。
5)多語種技術:我們可以通過多語種瀏覽功能和機器翻譯功能為用戶提供各種服務。
6)音視頻播放技術:利用互聯網播放MPEG、MP3、WAVE等高質量音頻文件和AVI等視頻文件。