首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于网页去重的垂直搜索引擎设计与实现

摘要第1-5页
Abstract第5-9页
1 绪论第9-18页
   ·课题研究背景第9页
   ·国内外研究现状第9-12页
     ·垂直搜索引擎的用户情况第10页
     ·国内外典型的垂直搜索引擎第10-11页
     ·垂直搜索引擎的未来发展第11-12页
   ·垂直搜索引擎的关键技术第12-16页
     ·搜索引擎的体系结构第12-13页
     ·主题爬虫第13-14页
     ·全文检索第14-16页
   ·论文的相关工作及组织结构第16-18页
2 网页去重概述第18-25页
   ·网页去重简介第18-21页
     ·网页重复的原因第18-19页
     ·网页重复的类型第19-21页
     ·网页去重的意义第21页
   ·现有的网页去重策略第21-24页
     ·基于Shingling的网页去重算法第22-23页
     ·基于LSH的网页去重算法第23-24页
   ·本章小结第24-25页
3 垂直搜索引擎中的网页去重研究第25-38页
   ·现有网页去重策略的缺陷第25-26页
     ·现有网页去重流程的缺陷第25-26页
     ·现有网页去重时机的缺陷第26页
   ·垂直搜索引擎中网页去重的特殊性第26-31页
     ·现有主题爬行策略分析第26-28页
     ·主题爬虫抓取网页的特殊性第28-30页
     ·优先级队列的特殊性第30-31页
   ·垂直搜索引擎中的网页去重策略第31-34页
     ·基于关键词的网页去重算法第31-32页
     ·加入网页去重后的主题爬虫第32-33页
     ·加入网页去重的主题爬虫优势分析第33-34页
   ·实验分析第34-37页
     ·实验评估方法第34页
     ·实验设置第34-35页
     ·实验结果第35-37页
   ·本章小结第37-38页
4 “中药材”垂直搜索引擎的设计与实现第38-51页
   ·系统开发概述第38-40页
     ·“中药材”搜索引擎的简介第38页
     ·系统需求分析第38-39页
     ·系统总体结构图第39-40页
     ·系统开发环境第40页
   ·加入网页去重的主题爬虫第40-47页
     ·传统爬虫Crawler4j第40-41页
     ·爬虫Crawler4j的改进第41-43页
     ·“中药材”初始种子的选择第43-44页
     ·“中药材”主题词典的获取第44-45页
     ·网页解析的处理第45-46页
     ·中文分词的选择第46-47页
   ·企业级搜索应用服务器Solr第47-49页
     ·Solr服务器概述第47-48页
     ·Solr的索引操作第48页
     ·Solr的查询操作第48-49页
   ·系统界面展示第49-50页
   ·本章小结第50-51页
结论第51-52页
参考文献第52-55页
攻读硕士学位期间发表学术论文情况第55页
攻读硕士学位期间参与科硏项目情况第55-56页
致谢第56-57页

论文共57页,点击 下载论文
上一篇:结构相似性图像质量评价方法研究
下一篇:车牌定位与识别的研究