基于Herixtrix和Lucene的Web站内搜索系统
| 摘要 | 第1-4页 |
| Abstract | 第4-7页 |
| 第一章 绪论 | 第7-15页 |
| ·概念 | 第7页 |
| ·起源及发展 | 第7-9页 |
| ·工作原理及方式 | 第9-10页 |
| ·抓取网页 | 第9页 |
| ·处理网页 | 第9页 |
| ·提供检索服务 | 第9-10页 |
| ·发展趋势 | 第10-11页 |
| ·提高搜索引擎对用户检索提问的理解 | 第10页 |
| ·对检索结果进行处理 | 第10-11页 |
| ·提高针对性 | 第11页 |
| ·分类 | 第11-12页 |
| ·全文索引 | 第11页 |
| ·目录索引 | 第11-12页 |
| ·元搜索引擎 | 第12页 |
| ·垂直搜索引擎 | 第12页 |
| ·论文的主要工作和章节安排 | 第12-15页 |
| 第二章 网页抓取技术及具体实现 | 第15-33页 |
| ·基本原理 | 第15-17页 |
| ·使用及注意事项 | 第17-21页 |
| ·网络蜘蛛的访问控制 | 第17-19页 |
| ·网络蜘蛛的内容提取 | 第19-21页 |
| ·网络蜘蛛的更新周期 | 第21页 |
| ·网络蜘蛛的选择 | 第21-22页 |
| ·使用网络蜘蛛抓取网站内容 | 第22-33页 |
| ·构建下载逻辑 | 第22-27页 |
| ·下载和运行 | 第27-28页 |
| ·创建抓取任务 | 第28-30页 |
| ·设计更新算法 | 第30-33页 |
| 第三章 网页解析及实现 | 第33-47页 |
| ·网页噪声 | 第33-34页 |
| ·网页解析 | 第34-36页 |
| ·利用HTML 标记分布规律进行解析 | 第34-35页 |
| ·利用HTML 标记间的关系进行解析 | 第35页 |
| ·利用页面的视觉特征进行解析 | 第35页 |
| ·利用TABLE 标记的布局特性进行解析 | 第35-36页 |
| ·实现网页解析 | 第36-47页 |
| ·对结果的构想 | 第36-37页 |
| ·设计 | 第37-44页 |
| ·结果测试 | 第44-47页 |
| 第四章 全文检索系统及其索引的建立 | 第47-67页 |
| ·什么是全文检索与全文检索系统 | 第47-48页 |
| ·中文分词 | 第48-53页 |
| ·中文分词的概念 | 第49页 |
| ·中文分词技术 | 第49页 |
| ·现有分词简介 | 第49-50页 |
| ·构建产品信息词库 | 第50-53页 |
| ·基于Lucene 的索引及其实现 | 第53-67页 |
| ·什么是Lucene | 第53-54页 |
| ·Lucene 的特点及优势 | 第54-55页 |
| ·Lucene 系统结构分析 | 第55-58页 |
| ·Lucene 索引文件格式 | 第58-59页 |
| ·Lucene 索引构建逻辑模块 | 第59-60页 |
| ·索引的实现 | 第60-65页 |
| ·结果测试 | 第65-67页 |
| 第五章 搜索系统的WEB 部分 | 第67-73页 |
| ·配置文件和各种Beans 类 | 第67-68页 |
| ·执行搜索功能的类 | 第68-70页 |
| ·页面设计 | 第70-73页 |
| 第六章 结论和展望 | 第73-75页 |
| 致谢 | 第75-77页 |
| 参考文献 | 第77-79页 |