首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--自动化系统论文--数据处理、数据处理系统论文

基于聚焦爬虫的web信息采集技术研究

摘要第1-5页
Abstract第5-9页
1 绪论第9-13页
   ·课题研究的背景第9-11页
     ·WWW的发展第9页
     ·搜索引擎的发展第9-11页
   ·课题研究的意义第11页
   ·本文的研究内容第11页
   ·本文的组织安排第11-13页
2 搜索引擎技术概述第13-21页
   ·搜索引擎基本描述第13页
   ·搜索引擎的基本原理和工作流程第13-14页
   ·搜索引擎的体系结构第14-17页
     ·网络爬虫第15-16页
     ·网页索引第16页
     ·检索查询第16页
     ·人机接口第16-17页
   ·搜索引擎的性能指标第17-18页
   ·垂直搜索引擎基本描述第18-19页
     ·垂直搜索引擎产生的背景第18页
     ·垂直搜索引擎与通用搜索引擎的区别第18-19页
   ·面向主题的信息采集第19-21页
3 网络爬虫技术原理第21-30页
   ·网络爬虫在搜索引擎中的地位第21-22页
   ·通用爬虫工作流程第22-23页
   ·通用爬虫的结构第23页
   ·聚焦爬虫概述第23-24页
   ·聚焦爬虫的工作流程第24-26页
   ·聚焦爬虫的结构第26-27页
   ·聚焦爬虫与通用爬虫爬行的区别第27-28页
   ·聚焦爬虫的研究现状第28-29页
   ·本文的研究重点第29-30页
4 聚焦爬虫关键技术研究第30-40页
   ·主题WEB页面分布特性第30-32页
     ·中心页面特性第30-31页
     ·主题关联特性第31页
     ·站点主题聚集特性第31页
     ·隧道特性第31-32页
   ·页面的主题相关度评价第32-34页
   ·聚焦爬虫爬行策略第34-39页
     ·基于内容评价的搜索第34-37页
     ·基于链结结构的搜索第37-39页
   ·链接价值的评价第39-40页
5 技术实现和实验结果第40-52页
   ·系统体系结构第40页
   ·网页信息解析第40-44页
     ·超链接的抽取第41-43页
     ·正文内容提取第43-44页
   ·页面过滤第44-45页
     ·主题特征词库构建第44页
     ·页面特征向量计算第44-45页
     ·页面主题相关度计算第45页
   ·URL的主题相关性预测TPR算法第45-48页
     ·URL相关度分值预测第45-47页
     ·URL综合价值计算TPR(Topical PageRank)第47-48页
     ·基于TPR的URL主题剪枝算法第48页
   ·系统运行第48-49页
     ·软硬件和网络环境第48-49页
     ·系统运行截图第49页
   ·实验结果与分析第49-52页
     ·针对主题过滤的评测第50页
     ·基于URL综合价值计算TPR的综合爬行策略评测第50-52页
6 总结和展望第52-54页
   ·本文工作的总结第52-53页
   ·展望第53-54页
参考文献第54-58页
附录:硕士在读期间发表的论文第58-59页
致谢第59页

论文共59页,点击 下载论文
上一篇:电子秤功能的实现与应用
下一篇:基于ARM的视频服务器研究与设计