| 摘要 | 第1-5页 |
| ABSTRACT | 第5-8页 |
| 第一章绪论 | 第8-12页 |
| ·搜索引擎简介 | 第8页 |
| ·搜索引擎工作原理简介 | 第8-9页 |
| ·搜索引擎产生的背景和发展历史 | 第9-10页 |
| ·搜索引擎的分类 | 第10-11页 |
| ·论文主要工作 | 第11页 |
| ·论文章节安排 | 第11-12页 |
| 第二章 Lucene核心原理祥析 | 第12-34页 |
| ·Lucene 简介 | 第12页 |
| ·索引(Indexing)分析 | 第12-23页 |
| ·索引过程分析 | 第12-14页 |
| ·转换成文本 | 第13页 |
| ·将分析过后的数据写入索引 | 第13-14页 |
| ·控制索引过程 | 第14-23页 |
| ·搜索(Searching)分析 | 第23-33页 |
| ·搜索核心API IndexSearcher | 第23-24页 |
| ·搜索结果集Hits | 第24-27页 |
| ·Lucene评分机制 | 第27-28页 |
| ·Lucene 内建的Query 对象分析 | 第28-33页 |
| ·本章小结 | 第33-34页 |
| 第三章网络爬虫Heritrix 祥析 | 第34-50页 |
| ·网络爬虫简介 | 第34-35页 |
| ·Heritrix 架构分析 | 第35-49页 |
| ·CrawlOrder 抓取任务控制 | 第36页 |
| ·CrawController 中央控制器 | 第36-38页 |
| ·Frontier 链接制造工厂 | 第38-40页 |
| ·Heritrix 的多线程ToeThread 和ToePool | 第40-45页 |
| ·处理链和Processor | 第45-49页 |
| ·本章小结 | 第49-50页 |
| 第四章 搜索引擎示例的设计实现 | 第50-76页 |
| ·搜索引擎示例的总体结构介绍 | 第50-51页 |
| ·网页抓取器的设计实现 | 第51-62页 |
| ·定制 Extractor | 第51-57页 |
| ·扩展FrontierScheduler 过滤下载内容 | 第57-59页 |
| ·取消robots.txt 的限制 | 第59-60页 |
| ·Heritrix 对网页的抓取实现 | 第60-62页 |
| ·索引模块的设计实现 | 第62-68页 |
| ·文件内容分析器设计实现 | 第62-66页 |
| ·索引器的设计与实现 | 第66-68页 |
| ·搜索模块的设计实现 | 第68-73页 |
| ·搜索器的设计实现 | 第68-69页 |
| ·用户界面search.jsp 的设计实现 | 第69-73页 |
| ·搜索引擎示例的运行演示 | 第73-75页 |
| ·本章小结 | 第75-76页 |
| 第五章 搜索引擎示例的搜索优化 | 第76-89页 |
| ·Lucene 搜索结果排序调整 | 第76-79页 |
| ·使用Lucene 的Sort 类对搜索结果排序 | 第76-79页 |
| ·使用Filter(过滤器)缩小示例搜索引擎的搜索结果集 | 第79-83页 |
| ·使用QueryFilter 在搜索结果中再次搜索 | 第79-83页 |
| ·Lucene 排序算法的改进实现 | 第83-88页 |
| ·本章小结 | 第88-89页 |
| 第六章 结束语 | 第89-90页 |
| 附录:Lucene 分析器和中文分词 | 第90-107页 |
| 致谢 | 第107-108页 |
| 个人简历,攻硕期间发表的学术论文 | 第108-109页 |
| 参考文献 | 第109-112页 |