摘要 | 第1-5页 |
Abstract | 第5-8页 |
1 绪论 | 第8-16页 |
·项目的研究背景与意义 | 第8-10页 |
·搜索引擎 | 第10-12页 |
·搜索引擎的发展历史和现状 | 第10-12页 |
·搜索引擎的分类 | 第12页 |
·垂直搜索引擎 | 第12-14页 |
·垂直搜索引擎的简介 | 第12页 |
·国内外垂直搜索引擎的相关研究 | 第12-13页 |
·垂直搜索引擎的发展趋势 | 第13-14页 |
·论文的结构安排以及主要的研究工作 | 第14-16页 |
·文章的结构安排 | 第14-15页 |
·文章的主要研究工作,以及这些工作的作用和意义 | 第15-16页 |
2 网络爬虫 Heritrix 及在电子信息搜索引擎中的改进与应用 | 第16-23页 |
·网络爬虫以及 Heritrix | 第16-18页 |
·网络爬虫 heritrix 的框架结构 | 第18-20页 |
·任务抓取 CrawlOrder | 第18-19页 |
·中央控制器 CrawlController | 第19-20页 |
·Frontier 链接 | 第20页 |
·多线程 ToeThread 和 ToePool | 第20页 |
·heritrix 在电子信息搜索引擎中的改进与应用 | 第20-23页 |
·定制 Queue‐assignment‐policy 继承 QueueAssignmentPolicy类 | 第20-21页 |
·扩展 FrontierScheduler 来抓取特定的内容 | 第21-22页 |
·在 Prefetcher 中取消 robots.txt 的限制 | 第22-23页 |
3 lucene 的索引机制和电子信息搜索引擎中 lucene | 第23-32页 |
·lucene 的框架结构 | 第23-24页 |
·lucene 的索引机制 | 第24-27页 |
·lucene 的文本分析 | 第24页 |
·lucene 的索引方式和索引文件 | 第24-26页 |
·lucene 的检索以及检索的主要流程 | 第26-27页 |
·电子信息搜索平台中对 lucene 的优化处理 | 第27-32页 |
·索引参数的优化 | 第27-28页 |
·索引域类型的选择 | 第28页 |
·lucene 索引模式的选择 | 第28-29页 |
·lucene 的同步 | 第29页 |
·lucene 索引的合并和优化 | 第29-30页 |
·lucene 本地搜索索引的建立 | 第30-32页 |
4 电子信息垂直搜索引擎中的其他关键技术 | 第32-51页 |
·网页信息的提取技术 | 第32-37页 |
·网页信息的分析技术原理 | 第32-33页 |
·电子信息垂直搜索引擎的网页分析设计和实现 | 第33-37页 |
·电子信息搜索引擎中的 lucene 分词技术的改进 | 第37-44页 |
·lucene 分词分析器以及第三方分析器 | 第38-39页 |
·电子信息垂直搜索引擎中的中文分词技术难点 | 第39页 |
·电子信息垂直搜索引擎的中文分词算法设计 | 第39-44页 |
·相关度排序技术 | 第44-51页 |
·搜索引擎排序原理 | 第44-46页 |
·lucene 排序计算机制 | 第46-48页 |
·电子信息垂直搜索引擎中 lucene 自定义排序 | 第48-51页 |
5 电子信息垂直搜索引擎的测试 | 第51-63页 |
·电子信息搜索引擎检索测试以及与通用搜索引擎作比较 | 第51-58页 |
·heritrix 网络爬虫的测试 | 第58-60页 |
·lucene 中文分词与改进中文分词算法的测试 | 第60-63页 |
6 系统的总结与展望 | 第63-65页 |
参考文献 | 第65-68页 |
攻读硕士学位期间发表的论文及科研成果 | 第68-69页 |
致谢 | 第69-70页 |