基于Lucene的垂直搜索引擎关键技术的研究应用
摘要 | 第1-5页 |
Abstract | 第5-8页 |
第1章 绪论 | 第8-18页 |
·本课题的研究背景 | 第8页 |
·通用搜索引擎 | 第8-13页 |
·通用搜索引擎的发展史 | 第8-10页 |
·通用搜索引擎的分类和工作流程 | 第10-11页 |
·通用搜索引擎的局限性和发展趋势 | 第11-13页 |
·垂直搜索引擎 | 第13-16页 |
·垂直搜索引擎的系统结构 | 第13-15页 |
·垂直搜索引擎的优势 | 第15-16页 |
·垂直搜索引擎发展现状 | 第16页 |
·本文的主要工作及创新 | 第16-17页 |
·论文的结构 | 第17-18页 |
第2章 垂直搜索引擎的关键技术 | 第18-38页 |
·中文分词 | 第18-24页 |
·基于字符串匹配的分词方法 | 第19-22页 |
·基于统计的分词方法 | 第22-24页 |
·基于理解的分词方法 | 第24页 |
·三种分词方法的比较 | 第24页 |
·主题相关度预测 | 第24-28页 |
·PageRank算法的原理 | 第25页 |
·PageRank算法的缺陷及改进 | 第25-26页 |
·基于概率的改进PageRank算法设计 | 第26-28页 |
·主题爬虫 | 第28-37页 |
·网络爬虫的基本原理与结构 | 第28-30页 |
·主题爬行策略 | 第30-31页 |
·主题爬虫新策略的核心思想 | 第31-33页 |
·主题爬虫新策略的实现方案 | 第33-36页 |
·试验 | 第36-37页 |
·本章小结 | 第37-38页 |
第3章 检索框架Lucene的分析研究 | 第38-48页 |
·Lucene的框架分析 | 第38-44页 |
·Lucene的应用特点的分析研究 | 第38-40页 |
·Lucene的系统结构组织的剖析 | 第40-41页 |
·Lucene数据流的分析 | 第41-42页 |
·Lucene索引文件格式分析 | 第42-44页 |
·对Lucene框架的总结说明 | 第44-47页 |
·本章小结 | 第47-48页 |
第4章 垂直搜索引擎原型系统的设计和实现 | 第48-60页 |
·系统总体设计 | 第48-49页 |
·信息采集子系统的设计与实现 | 第49-54页 |
·选用Heritrix框架的原因 | 第49页 |
·基于Heritrix框架的信息采集的实现 | 第49-50页 |
·信息整理的实现 | 第50-54页 |
·索引子系统的设计与实现 | 第54-56页 |
·中文分词分析器的设计 | 第54页 |
·基于Lucene框架的索引构建 | 第54-56页 |
·查询子系统的设计与实现 | 第56-59页 |
·MVC模式 | 第56-57页 |
·基于MVC模式的查询子系统的设计与实现 | 第57-58页 |
·系统的实现 | 第58-59页 |
·本章小结 | 第59-60页 |
第5章 总结与展望 | 第60-62页 |
参考文献 | 第62-66页 |
致谢 | 第66-67页 |
攻读硕士学位期间发表的论文情况 | 第67页 |