基于Herixtrix和Lucene的Web站内搜索系统

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-15页
·概念	第7页
·起源及发展	第7-9页
·工作原理及方式	第9-10页
·抓取网页	第9页
·处理网页	第9页
·提供检索服务	第9-10页
·发展趋势	第10-11页
·提高搜索引擎对用户检索提问的理解	第10页
·对检索结果进行处理	第10-11页
·提高针对性	第11页
·分类	第11-12页
·全文索引	第11页
·目录索引	第11-12页
·元搜索引擎	第12页
·垂直搜索引擎	第12页
·论文的主要工作和章节安排	第12-15页
第二章网页抓取技术及具体实现	第15-33页
·基本原理	第15-17页
·使用及注意事项	第17-21页
·网络蜘蛛的访问控制	第17-19页
·网络蜘蛛的内容提取	第19-21页
·网络蜘蛛的更新周期	第21页
·网络蜘蛛的选择	第21-22页
·使用网络蜘蛛抓取网站内容	第22-33页
·构建下载逻辑	第22-27页
·下载和运行	第27-28页
·创建抓取任务	第28-30页
·设计更新算法	第30-33页
第三章网页解析及实现	第33-47页
·网页噪声	第33-34页
·网页解析	第34-36页
·利用HTML 标记分布规律进行解析	第34-35页
·利用HTML 标记间的关系进行解析	第35页
·利用页面的视觉特征进行解析	第35页
·利用TABLE 标记的布局特性进行解析	第35-36页
·实现网页解析	第36-47页
·对结果的构想	第36-37页
·设计	第37-44页
·结果测试	第44-47页
第四章全文检索系统及其索引的建立	第47-67页
·什么是全文检索与全文检索系统	第47-48页
·中文分词	第48-53页
·中文分词的概念	第49页
·中文分词技术	第49页
·现有分词简介	第49-50页
·构建产品信息词库	第50-53页
·基于Lucene 的索引及其实现	第53-67页
·什么是Lucene	第53-54页
·Lucene 的特点及优势	第54-55页
·Lucene 系统结构分析	第55-58页
·Lucene 索引文件格式	第58-59页
·Lucene 索引构建逻辑模块	第59-60页
·索引的实现	第60-65页
·结果测试	第65-67页
第五章搜索系统的WEB 部分	第67-73页
·配置文件和各种Beans 类	第67-68页
·执行搜索功能的类	第68-70页
·页面设计	第70-73页
第六章结论和展望	第73-75页
致谢	第75-77页
参考文献	第77-79页