古詩詞大全網 - 成語經典 - Lucene+nutch搜索引擎開發的目錄 內核揭秘篇

Lucene+nutch搜索引擎開發的目錄 內核揭秘篇

4.1 網絡蜘蛛原理

4.1.1 體系結構設計

4.1.2 訪問策略與算法

4.1.3 效率優化與更新

4.1.4 蜘蛛訪問規範

4.1.5 開源蜘蛛簡介

4.2 Nutch網絡蜘蛛

4.2.1 Nutch網絡蜘蛛概述

4.2.2 Nutch抓取模式分類

4.2.3 抓取測試站點建立

4.3 Nutch局域網抓取

4.3.1 本地下載準備

4.3.2 啟動下載過程

4.3.3 下載過程解析

4.3.4 下載多個網站

4.4 Nutch互聯網抓取

4.4.1 下載列表獲取

4.4.2 下載大量網站

4.5 Nutch抓取比較

4.6 Nutch結果檢測

4.6.1 網頁內容檢索

4.6.2 使用Readdb獲取摘要

4.6.3 使用SegRead讀取分段

4.6.4 Luke工具使用

4.7 Nutch配置文件解析

4.8 Heritrix網絡蜘蛛

4.8.1 Heritrix概述

4.8.2 Heritrix體系結構

4.8.3 Heritrix安裝與使用

4.9 小結 5.1 文檔索引原理

5.1.1 索引概述

5.1.2 索引基本結構

5.1.3 倒排索引原理

5.1.4 索引分類

5.1.5 高性能索引

5.2 Lucene索引器

5.2.1 Lucene索引介紹

5.2.2 Lucene索引結構

5.2.3 多文件索引結構

5.2.4 復合索引結構

5.3 Lucene索引實例

5.3.1 索引創建代碼解析

5.3.2 索引創建器(IndexWriter)

5.3.3 索引管理器(IndexReader)

5.3.4 索引修改器(IndexModifier)

5.3.5 索引分析器(Analyzer)

5.4 Lucene索引操作

5.4.1 添加文本文件索引

5.4.2 創建Lucene增量索引

5.4.3 使用索引項刪除文檔

5.4.4 使用編號刪除文檔

5.4.5 壓縮文檔編號

5.4.6 索引文檔更新

5.5 Lucene索引高級特性

5.5.1 選擇索引域類型

5.5.2 索引參數優化

5.5.3 使用磁盤索引

5.5.4 使用內存索引

5.5.5 同步與鎖機制

5.6 Lucene高級應用實例

5.6.1 創建本地搜索的索引

5.6.2 索引數據庫記錄

5.6.3 索引優化與合並

5.7 Nutch中的Lucene索引

5.8 小結 6.1 信息查詢原理

6.1.1 信息查詢概述

6.1.2 查詢基本流程

6.1.3 查詢結果顯示

6.1.4 高性能查詢

6.2 Lucene查詢概述

6.2.1 Lucene查詢操作基礎

6.2.2 Lucene查詢實例入門

6.2.3 查詢工具IndexSearcher類

6.2.4 查詢封裝Query類

6.2.5 查詢分析器QueryParser類

6.2.6 查詢結果集Hits類

6.3 Lucene基本查詢

6.3.1 Lucene查詢Query對象

6.3.2 最小項查詢TermQuery

6.3.3 區間範圍搜索RangeQuery

6.3.4 邏1/4組合搜索BooleanQuery

6.3.5 字串前綴搜索PrefixQuery

6.3.6 短語搜索PhraseQuery

6.3.7 模糊搜索FuzzyQuery

6.3.8 通配符搜索WildcardQuery

6.3.9 位置跨度搜索SpanQuery

6.4 Lucene高級查詢

6.4.1 索引內存檢索

6.4.2 多關鍵字跨域檢索

6.4.3 多檢索器跨索引檢索

6.5 Nutch中的Lucene查詢

6.6 小結 7.1 搜索引擎文檔排序原理

7.1.1 傳統檢索排序技術

7.1.2 向量模型排序局限

7.1.3 搜索引擎相關性排序

7.1.4 鏈接分析PageRank原理

7.1.5 搜索引擎排序流程

7.2 Lucene檢索排序

7.2.1 Lucene相關性因素

7.2.2 Lucene相關排序流程

7.2.3 Lucene排序計算體系

7.2.4 Lucene排序控制方法

7.3 文檔Boost加權排序

7.3.1 Lucene中Boost介紹

7.3.2 Boost值全文檔排序

7.3.3 Boost值文檔域排序

7.3.4 BoostingTermQuery排序

7.4 Sort對象檢索排序

7.4.1 Sort對象概述

7.4.2 Sort對象相關性排序

7.4.3 Sort對象文檔編號排序

7.4.4 Sort對象獨立域排序

7.4.5 Sort對象聯合域排序

7.4.6 Sort對象逆向排序

7.5 Lucene相關性公式

7.5.1 Lucene評分結果分析

7.5.2 Lucene排序公式

7.5.3 其他動態排序因子

7.6 Lucene自定義排序

7.6.1 自定義排序比較接口

7.6.2 自定義排序接口類實例

7.6.3 自定義排序結果測試實例

7.6.4 自定義排序測試結果

7.7 Nutch中的結果排序

7.7.1 Nutch排序因素

7.7.2 Nutch鏈接分析

7.7.3 Nutch相關度計算

7.8 小結 8.1 文檔分析與中文分詞原理

8.1.1 文檔分析預處理概述

8.1.2 文檔分析基本流程

8.1.3 中文分析處理中的分詞

8.2 Lucene分析器內核原理

8.2.1 Lucene分析器原理

8.2.2 Analysis包簡介

8.2.3 Analyzer類的組合結構

8.2.4 JavaCC構造分析器

8.2.5 StopAnalyzer內核代碼分析

8.2.6 StandardAnalyzer內核代碼分析

8.3 Lucene分析器應用模式

8.3.1 使用默認分析器建立索引

8.3.2 使用多種分析器建立索引

8.3.3 使用分析器檢索查詢

8.4 Lucene主要分析器應用實例

8.4.1 停用詞分析器StopAnalyzer

8.4.2 標準分析器StandardAnalyzer

8.4.3 簡單分析器SimpleAnalyzer

8.4.4 空格分析器WhitespaceAnalyzer

8.4.5 關鍵字分析器KeywordAnalyzer

8.5 TokenStream分詞器內核分析

8.5.1 Tokenizer分詞器

8.5.2 標準分詞器StandardTokenizer

8.5.3 字符分詞器CharTokenizer

8.5.4 空格分詞器WhiteSpaceTokenizer

8.5.5 字母分詞器LetterTokenizer

8.5.6 小寫分詞器LowerCaseTokenizer

8.6 TokenStream過濾器內核分析

8.6.1 TokenFilter過濾器

8.6.2 標準過濾器StandardFilter

8.6.3 停用詞過濾器StopFilter

8.6.4 小寫過濾器LowerCaseFilter

8.6.5 長度過濾器LengthFilter

8.6.6 詞幹過濾器PorterStemFilter

8.7 Lucene中文分詞

8.7.1 中文分詞基本原理方法

8.7.2 StandardAnalyzer分析器中文處理

8.7.3 CJKAnalyzer中文分析器

8.7.4 ChineseAnalyzer中文分析器

8.7.5 IK_CAnalyzer中文分析器

8.7.6 中科院ICTCLAS中文分詞

8.7.7 JE中文分詞

8.7.8 中文分詞問題

8.8 Nutch分詞和預處理

8.8.1 Nutch分析器

8.8.2 Nutch中文分詞

8.9 小結 9.1 非結構化文本簡介

9.1.1 非結構化文本概述

9.1.2 非結構化文本檢索

9.2 HTML文檔分析

9.2.1 主流HTML文檔分析器

9.2.2 HTMLParser安裝配置

9.2.3 HTMLParser的框架結構

9.3 HTMLParser應用實例

9.3.1 HTMLParser功能模式

9.3.2 HTMLParser內容解析方式

9.3.3 Visitor模式正文解析

9.3.4 Filter模式簡單鏈接提取

9.3.5 Filter模式搜索鏈接提取

9.3.6 Lexer模式遍歷文檔

9.4 PDF文檔分析

9.4.1 常用的PDF處理包

9.4.2 PDFBox安裝配置

9.5 PDFBox應用實例

9.5.1 PDFBox提取文檔內容

9.5.2 PDFBox文檔內容索引

9.6 Office文檔分析

9.6.1 常用Office文檔處理包

9.6.2 使用POI安裝與配置

9.6.3 POI原理與接口介紹

9.7 POI分析Office文檔實例

9.7.1 POI處理Excel文檔

9.7.2 POI處理Word文檔

9.8 XML文檔分析

9.8.1 主流XML文檔分析器

9.8.2 JDOM分析器安裝配置

9.8.3 xerces分析器安裝配置

9.9 XML解析應用實例

9.9.1 使用JDOM分析XML 文檔

9.9.2 使用xerces分析XML 文檔

9.10 Nutch文檔處理

9.11 小結 10.1 分布式檢索與緩存

10.1.1 分布式搜索引擎現狀

10.1.2 分布式搜索引擎原理

10.1.3 搜索引擎緩存現狀

10.1.4 搜索引擎緩存原理

10.2 Nutch與分布式檢索

10.2.1 Google分布式文件系統

10.2.2 MapReduce系統介紹

10.2.3 Hadoop分布式文件系統

10.2.4 Nutch分布式文件系統

10.2.5 Nutch分布式檢索概述

10.2.6 Nutch分布式檢索器

10.3 Lucene分布式檢索

10.3.1 Socket通信基礎

10.3.2 Lucene索引服務器

10.4 Nutch與搜索緩存

10.5 開源系統緩存系統

10.6 小結