基于Herixtrix和Lucene的Web站内搜索系统
摘要 | 第1-4页 |
Abstract | 第4-7页 |
第一章 绪论 | 第7-15页 |
·概念 | 第7页 |
·起源及发展 | 第7-9页 |
·工作原理及方式 | 第9-10页 |
·抓取网页 | 第9页 |
·处理网页 | 第9页 |
·提供检索服务 | 第9-10页 |
·发展趋势 | 第10-11页 |
·提高搜索引擎对用户检索提问的理解 | 第10页 |
·对检索结果进行处理 | 第10-11页 |
·提高针对性 | 第11页 |
·分类 | 第11-12页 |
·全文索引 | 第11页 |
·目录索引 | 第11-12页 |
·元搜索引擎 | 第12页 |
·垂直搜索引擎 | 第12页 |
·论文的主要工作和章节安排 | 第12-15页 |
第二章 网页抓取技术及具体实现 | 第15-33页 |
·基本原理 | 第15-17页 |
·使用及注意事项 | 第17-21页 |
·网络蜘蛛的访问控制 | 第17-19页 |
·网络蜘蛛的内容提取 | 第19-21页 |
·网络蜘蛛的更新周期 | 第21页 |
·网络蜘蛛的选择 | 第21-22页 |
·使用网络蜘蛛抓取网站内容 | 第22-33页 |
·构建下载逻辑 | 第22-27页 |
·下载和运行 | 第27-28页 |
·创建抓取任务 | 第28-30页 |
·设计更新算法 | 第30-33页 |
第三章 网页解析及实现 | 第33-47页 |
·网页噪声 | 第33-34页 |
·网页解析 | 第34-36页 |
·利用HTML 标记分布规律进行解析 | 第34-35页 |
·利用HTML 标记间的关系进行解析 | 第35页 |
·利用页面的视觉特征进行解析 | 第35页 |
·利用TABLE 标记的布局特性进行解析 | 第35-36页 |
·实现网页解析 | 第36-47页 |
·对结果的构想 | 第36-37页 |
·设计 | 第37-44页 |
·结果测试 | 第44-47页 |
第四章 全文检索系统及其索引的建立 | 第47-67页 |
·什么是全文检索与全文检索系统 | 第47-48页 |
·中文分词 | 第48-53页 |
·中文分词的概念 | 第49页 |
·中文分词技术 | 第49页 |
·现有分词简介 | 第49-50页 |
·构建产品信息词库 | 第50-53页 |
·基于Lucene 的索引及其实现 | 第53-67页 |
·什么是Lucene | 第53-54页 |
·Lucene 的特点及优势 | 第54-55页 |
·Lucene 系统结构分析 | 第55-58页 |
·Lucene 索引文件格式 | 第58-59页 |
·Lucene 索引构建逻辑模块 | 第59-60页 |
·索引的实现 | 第60-65页 |
·结果测试 | 第65-67页 |
第五章 搜索系统的WEB 部分 | 第67-73页 |
·配置文件和各种Beans 类 | 第67-68页 |
·执行搜索功能的类 | 第68-70页 |
·页面设计 | 第70-73页 |
第六章 结论和展望 | 第73-75页 |
致谢 | 第75-77页 |
参考文献 | 第77-79页 |