摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
第一章绪论 | 第8-12页 |
·搜索引擎简介 | 第8页 |
·搜索引擎工作原理简介 | 第8-9页 |
·搜索引擎产生的背景和发展历史 | 第9-10页 |
·搜索引擎的分类 | 第10-11页 |
·论文主要工作 | 第11页 |
·论文章节安排 | 第11-12页 |
第二章 Lucene核心原理祥析 | 第12-34页 |
·Lucene 简介 | 第12页 |
·索引(Indexing)分析 | 第12-23页 |
·索引过程分析 | 第12-14页 |
·转换成文本 | 第13页 |
·将分析过后的数据写入索引 | 第13-14页 |
·控制索引过程 | 第14-23页 |
·搜索(Searching)分析 | 第23-33页 |
·搜索核心API IndexSearcher | 第23-24页 |
·搜索结果集Hits | 第24-27页 |
·Lucene评分机制 | 第27-28页 |
·Lucene 内建的Query 对象分析 | 第28-33页 |
·本章小结 | 第33-34页 |
第三章网络爬虫Heritrix 祥析 | 第34-50页 |
·网络爬虫简介 | 第34-35页 |
·Heritrix 架构分析 | 第35-49页 |
·CrawlOrder 抓取任务控制 | 第36页 |
·CrawController 中央控制器 | 第36-38页 |
·Frontier 链接制造工厂 | 第38-40页 |
·Heritrix 的多线程ToeThread 和ToePool | 第40-45页 |
·处理链和Processor | 第45-49页 |
·本章小结 | 第49-50页 |
第四章 搜索引擎示例的设计实现 | 第50-76页 |
·搜索引擎示例的总体结构介绍 | 第50-51页 |
·网页抓取器的设计实现 | 第51-62页 |
·定制 Extractor | 第51-57页 |
·扩展FrontierScheduler 过滤下载内容 | 第57-59页 |
·取消robots.txt 的限制 | 第59-60页 |
·Heritrix 对网页的抓取实现 | 第60-62页 |
·索引模块的设计实现 | 第62-68页 |
·文件内容分析器设计实现 | 第62-66页 |
·索引器的设计与实现 | 第66-68页 |
·搜索模块的设计实现 | 第68-73页 |
·搜索器的设计实现 | 第68-69页 |
·用户界面search.jsp 的设计实现 | 第69-73页 |
·搜索引擎示例的运行演示 | 第73-75页 |
·本章小结 | 第75-76页 |
第五章 搜索引擎示例的搜索优化 | 第76-89页 |
·Lucene 搜索结果排序调整 | 第76-79页 |
·使用Lucene 的Sort 类对搜索结果排序 | 第76-79页 |
·使用Filter(过滤器)缩小示例搜索引擎的搜索结果集 | 第79-83页 |
·使用QueryFilter 在搜索结果中再次搜索 | 第79-83页 |
·Lucene 排序算法的改进实现 | 第83-88页 |
·本章小结 | 第88-89页 |
第六章 结束语 | 第89-90页 |
附录:Lucene 分析器和中文分词 | 第90-107页 |
致谢 | 第107-108页 |
个人简历,攻硕期间发表的学术论文 | 第108-109页 |
参考文献 | 第109-112页 |