基于Lucene的产品比价搜索系统的研究与设计

摘要	第1-6页
Abstract	第6-10页
第一章绪论	第10-17页
·搜索引擎发展历史	第10-11页
·垂直搜索引擎的特征及其关键技术	第11-13页
·垂直搜索引擎的特征	第11-12页
·垂直搜索引擎的关键技术	第12-13页
·研究的背景与意义	第13-14页
·研究的背景	第13页
·研究的意义	第13-14页
·国内外研究现状	第14-15页
·本文的研究工作以及组织结构	第15-17页
第二章系统实现的核心技术	第17-27页
·网络爬虫	第17-21页
·爬虫抓取策略	第17-19页
·网络爬虫的基本结构	第19-20页
·垂直爬虫的架构	第20-21页
·页面解析技术	第21-24页
·HTML 介绍	第22页
·使用 HTMLParser 抽取网页中的内容	第22-24页
·使用 Lucene 进行索引与搜索	第24-26页
·Lucene 建立索引	第25页
·Lucene 进行搜索	第25-26页
·本章小结	第26-27页
第三章中文分词的研究	第27-46页
·中文分词常用的方法	第27-33页
·字符串匹配法	第27-32页
·基于统计的分词法	第32-33页
·Lucene 自带的分词算法	第33-35页
·Lucene 切分原理	第33-34页
·Token Stream 剖析	第34页
·Lucene 中文分词的研究	第34-35页
·中文分词的难点与解决方法	第35-37页
·中文分词的难点	第35-36页
·解决方法	第36-37页
·改进的正向匹配算法	第37-41页
·具体的算法描述如下	第38页
·实验分析	第38-41页
·拼写检查技术	第41-45页
·技术实现	第41-43页
·编辑距离技术	第43-45页
·本章总结	第45-46页
第四章产品比价搜索系统的实现	第46-62页
·网页的抓取与解析	第47-52页
·使用 Heritrix 进行网页抓取	第47-50页
·使用 HTMLParser 提取网页中的内容	第50-52页
·系统的实现	第52-61页
·系统设计目标	第52-53页
·各模块的实现	第53-58页
·系统运行	第58-61页
·本章小结	第61-62页
第五章总结与展望	第62-64页
·本文总结	第62页
·工作展望	第62-64页
致谢	第64-65页
参考文献	第65-68页
作者在攻读硕士学位期间公开发表的论文	第68页