首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题搜索引擎网络爬虫的设计与实现

摘要第1-6页
ABSTRACT第6-10页
第一章 绪论第10-12页
   ·搜索引擎发展介绍与研究意义第10-11页
   ·本文主要内容与组织结构第11-12页
第二章 相关技术分析第12-34页
   ·主题爬虫技术分析第12-20页
     ·主题页面分布特征第12-13页
     ·基于主题的页面信息采集分类第13-14页
     ·主题爬虫搜索策略第14-19页
     ·Heritrix介绍第19-20页
   ·文本分类介绍第20-24页
   ·基于PageRank算法的网页等级标识第24-25页
   ·搜索引擎技术简介第25-32页
     ·搜索引擎的简介与分类第25-27页
     ·通用爬虫介绍第27-29页
     ·索引器与检索器介绍第29-32页
   ·小结第32-34页
第三章 系统概要设计第34-42页
   ·系统需求第34页
   ·系统概要设计第34-37页
   ·系统总体架构第37-38页
   ·系统模块设计第38-41页
     ·爬虫设计第38-39页
     ·结构化数据提取设计第39-40页
     ·文本分类引擎设计第40-41页
   ·小结第41-42页
第四章 系统实现与测试第42-64页
   ·爬虫的详细设计思路第42-43页
   ·爬虫详细设计与实现第43-51页
     ·基于Heritrix的网络爬虫的配置和运行第43-47页
     ·可配置的URL链接抽取组件第47-49页
     ·结构化信息提取第49-51页
   ·朴素贝叶斯第51-57页
   ·结构化数据存储第57-58页
   ·主题爬虫运行结果第58-61页
     ·爬虫运行结果第58-60页
     ·文本分类运行结果第60-61页
   ·结果分析第61-62页
   ·小结第62-64页
第五章 总结第64-68页
   ·工作总结第64-65页
   ·不足与改进方法第65-66页
   ·垂直搜索技术未来展望第66-68页
致谢第68-69页
参考文献第69-70页

论文共70页,点击 下载论文
上一篇:基于网络评论的倾向性分析研究
下一篇:基于多模态策略的网络视频聚类方法研究