基于网页去重的垂直搜索引擎设计与实现
摘要 | 第1-5页 |
Abstract | 第5-9页 |
1 绪论 | 第9-18页 |
·课题研究背景 | 第9页 |
·国内外研究现状 | 第9-12页 |
·垂直搜索引擎的用户情况 | 第10页 |
·国内外典型的垂直搜索引擎 | 第10-11页 |
·垂直搜索引擎的未来发展 | 第11-12页 |
·垂直搜索引擎的关键技术 | 第12-16页 |
·搜索引擎的体系结构 | 第12-13页 |
·主题爬虫 | 第13-14页 |
·全文检索 | 第14-16页 |
·论文的相关工作及组织结构 | 第16-18页 |
2 网页去重概述 | 第18-25页 |
·网页去重简介 | 第18-21页 |
·网页重复的原因 | 第18-19页 |
·网页重复的类型 | 第19-21页 |
·网页去重的意义 | 第21页 |
·现有的网页去重策略 | 第21-24页 |
·基于Shingling的网页去重算法 | 第22-23页 |
·基于LSH的网页去重算法 | 第23-24页 |
·本章小结 | 第24-25页 |
3 垂直搜索引擎中的网页去重研究 | 第25-38页 |
·现有网页去重策略的缺陷 | 第25-26页 |
·现有网页去重流程的缺陷 | 第25-26页 |
·现有网页去重时机的缺陷 | 第26页 |
·垂直搜索引擎中网页去重的特殊性 | 第26-31页 |
·现有主题爬行策略分析 | 第26-28页 |
·主题爬虫抓取网页的特殊性 | 第28-30页 |
·优先级队列的特殊性 | 第30-31页 |
·垂直搜索引擎中的网页去重策略 | 第31-34页 |
·基于关键词的网页去重算法 | 第31-32页 |
·加入网页去重后的主题爬虫 | 第32-33页 |
·加入网页去重的主题爬虫优势分析 | 第33-34页 |
·实验分析 | 第34-37页 |
·实验评估方法 | 第34页 |
·实验设置 | 第34-35页 |
·实验结果 | 第35-37页 |
·本章小结 | 第37-38页 |
4 “中药材”垂直搜索引擎的设计与实现 | 第38-51页 |
·系统开发概述 | 第38-40页 |
·“中药材”搜索引擎的简介 | 第38页 |
·系统需求分析 | 第38-39页 |
·系统总体结构图 | 第39-40页 |
·系统开发环境 | 第40页 |
·加入网页去重的主题爬虫 | 第40-47页 |
·传统爬虫Crawler4j | 第40-41页 |
·爬虫Crawler4j的改进 | 第41-43页 |
·“中药材”初始种子的选择 | 第43-44页 |
·“中药材”主题词典的获取 | 第44-45页 |
·网页解析的处理 | 第45-46页 |
·中文分词的选择 | 第46-47页 |
·企业级搜索应用服务器Solr | 第47-49页 |
·Solr服务器概述 | 第47-48页 |
·Solr的索引操作 | 第48页 |
·Solr的查询操作 | 第48-49页 |
·系统界面展示 | 第49-50页 |
·本章小结 | 第50-51页 |
结论 | 第51-52页 |
参考文献 | 第52-55页 |
攻读硕士学位期间发表学术论文情况 | 第55页 |
攻读硕士学位期间参与科硏项目情况 | 第55-56页 |
致谢 | 第56-57页 |