摘要 | 第1-4页 |
ABSTRACT | 第4-8页 |
1 绪论 | 第8-12页 |
·研究的背景与意义 | 第8-9页 |
·垂直搜索引擎的研究现状 | 第9-10页 |
·本论文的主要工作 | 第10-12页 |
2 面向垂直搜索引擎的技术分析 | 第12-34页 |
·搜索引擎概述 | 第12-14页 |
·搜索引擎的体系结构 | 第14-15页 |
·垂直搜索引擎与通用搜索引擎的比较 | 第15-16页 |
·垂直搜索引擎的关键技术 | 第16-26页 |
·主题相关度的判断 | 第16-19页 |
·中文分词技术 | 第19-23页 |
·网页排名技术 | 第23-26页 |
·Lucene 索引技术研究 | 第26-33页 |
·Lucene 简介 | 第26-27页 |
·Lucene 的结构组织 | 第27-28页 |
·Lucene 的索引文件格式 | 第28-31页 |
·Lucene 全文索引与数据库全文索引的比较 | 第31-33页 |
·本章小结 | 第33-34页 |
3 威客任务信息垂直搜索引擎的设计 | 第34-49页 |
·系统的功能和目标 | 第34页 |
·威客任务信息垂直搜索引擎总体结构设计 | 第34-35页 |
·主题蜘蛛的设计 | 第35-40页 |
·主题相关度的判断 | 第35-36页 |
·种子站点的选择方案 | 第36页 |
·URL 的搜索策略 | 第36-40页 |
·信息提取模块的设计 | 第40-42页 |
·利用正则表达式提取网页中的信息 | 第40-41页 |
·利用HTML Parser 提取网页中的信息 | 第41-42页 |
·索引和检索模块的设计 | 第42-47页 |
·索引模块的设计方案 | 第42-45页 |
·检索模块的设计方案 | 第45-47页 |
·本章小结 | 第47-49页 |
4 威客任务信息垂直搜索引擎的实现 | 第49-66页 |
·主题蜘蛛的实现 | 第49-58页 |
·主题蜘蛛的工作流程 | 第49-50页 |
·种子站点的选择 | 第50页 |
·页面相关度的分析 | 第50-52页 |
·多线程的实现 | 第52页 |
·主题蜘蛛的主要类设计 | 第52-56页 |
·主题蜘蛛Vertical Search 功能介绍 | 第56-58页 |
·信息提取模块的实现 | 第58-61页 |
·对索引操作的封装 | 第61-62页 |
·搜索界面的设计与实现 | 第62-64页 |
·索引信息更新 | 第64-65页 |
·种子站点的更新 | 第64-65页 |
·索引数据的更新 | 第65页 |
·本章小结 | 第65-66页 |
5 结论 | 第66-67页 |
·工作总结 | 第66页 |
·研究展望 | 第66-67页 |
致谢 | 第67-68页 |
参考文献 | 第68-71页 |
附录 | 第71页 |