基于Lucene的垂直搜索引擎关键技术的研究应用
| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 第1章 绪论 | 第8-18页 |
| ·本课题的研究背景 | 第8页 |
| ·通用搜索引擎 | 第8-13页 |
| ·通用搜索引擎的发展史 | 第8-10页 |
| ·通用搜索引擎的分类和工作流程 | 第10-11页 |
| ·通用搜索引擎的局限性和发展趋势 | 第11-13页 |
| ·垂直搜索引擎 | 第13-16页 |
| ·垂直搜索引擎的系统结构 | 第13-15页 |
| ·垂直搜索引擎的优势 | 第15-16页 |
| ·垂直搜索引擎发展现状 | 第16页 |
| ·本文的主要工作及创新 | 第16-17页 |
| ·论文的结构 | 第17-18页 |
| 第2章 垂直搜索引擎的关键技术 | 第18-38页 |
| ·中文分词 | 第18-24页 |
| ·基于字符串匹配的分词方法 | 第19-22页 |
| ·基于统计的分词方法 | 第22-24页 |
| ·基于理解的分词方法 | 第24页 |
| ·三种分词方法的比较 | 第24页 |
| ·主题相关度预测 | 第24-28页 |
| ·PageRank算法的原理 | 第25页 |
| ·PageRank算法的缺陷及改进 | 第25-26页 |
| ·基于概率的改进PageRank算法设计 | 第26-28页 |
| ·主题爬虫 | 第28-37页 |
| ·网络爬虫的基本原理与结构 | 第28-30页 |
| ·主题爬行策略 | 第30-31页 |
| ·主题爬虫新策略的核心思想 | 第31-33页 |
| ·主题爬虫新策略的实现方案 | 第33-36页 |
| ·试验 | 第36-37页 |
| ·本章小结 | 第37-38页 |
| 第3章 检索框架Lucene的分析研究 | 第38-48页 |
| ·Lucene的框架分析 | 第38-44页 |
| ·Lucene的应用特点的分析研究 | 第38-40页 |
| ·Lucene的系统结构组织的剖析 | 第40-41页 |
| ·Lucene数据流的分析 | 第41-42页 |
| ·Lucene索引文件格式分析 | 第42-44页 |
| ·对Lucene框架的总结说明 | 第44-47页 |
| ·本章小结 | 第47-48页 |
| 第4章 垂直搜索引擎原型系统的设计和实现 | 第48-60页 |
| ·系统总体设计 | 第48-49页 |
| ·信息采集子系统的设计与实现 | 第49-54页 |
| ·选用Heritrix框架的原因 | 第49页 |
| ·基于Heritrix框架的信息采集的实现 | 第49-50页 |
| ·信息整理的实现 | 第50-54页 |
| ·索引子系统的设计与实现 | 第54-56页 |
| ·中文分词分析器的设计 | 第54页 |
| ·基于Lucene框架的索引构建 | 第54-56页 |
| ·查询子系统的设计与实现 | 第56-59页 |
| ·MVC模式 | 第56-57页 |
| ·基于MVC模式的查询子系统的设计与实现 | 第57-58页 |
| ·系统的实现 | 第58-59页 |
| ·本章小结 | 第59-60页 |
| 第5章 总结与展望 | 第60-62页 |
| 参考文献 | 第62-66页 |
| 致谢 | 第66-67页 |
| 攻读硕士学位期间发表的论文情况 | 第67页 |