首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于Hadoop的分布式网络爬虫技术

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-16页
   ·课题来源第9页
   ·课题研究背景及意义第9-12页
   ·本文主要工作及内容第12-13页
   ·本文的主要组织和结构第13-16页
第2章 相关技术研究第16-29页
   ·云计算相关知识第16-19页
     ·云计算定义第16-17页
     ·云计算基本原理第17-18页
     ·云计算的体系结构第18-19页
   ·Hadoop 分布式平台相关知识第19-24页
     ·分布式文件系统第20-23页
     ·Map/Reduce 分布式计算模型第23-24页
   ·网络爬虫原理第24-27页
     ·网络爬虫系统的工作原理第25页
     ·网络爬虫系统的基本结构第25-26页
     ·分布式网络爬虫的工作原理第26-27页
   ·分布式网络爬虫研究现状第27-28页
   ·本章小结第28-29页
第3章 功能分析与结构设计第29-48页
   ·分布式网络爬虫的设计需求第29-30页
   ·系统布局第30-32页
   ·爬虫系统基本结构第32-37页
     ·爬虫基本流程设计第32-35页
     ·爬虫系统的框架设计第35-37页
   ·功能模块的Map/Reduce 设计第37-47页
     ·CrawlerDriver 模块设计第37-39页
     ·ParserDriver 模块设计第39-41页
     ·OptimizerDriver 模块设计第41-43页
     ·MergeDriver 模块设计第43-45页
     ·HtmlToXMLDriver 模块设计第45-47页
   ·本章小结第47-48页
第4章 分布式爬虫具体实现第48-62页
   ·存储结构的实现第48-50页
     ·待抓取URL 库第48页
     ·原始网页库第48-49页
     ·链出URL 库第49-50页
     ·XML 库第50页
   ·爬虫总体数据结构第50-52页
   ·功能模块的实现第52-61页
     ·CrawlerDriver 模块第52-54页
     ·ParserDriver 模块第54-56页
     ·OptimizerDriver 模块第56-58页
     ·MergeDriver 模块第58-59页
     ·HtmlToXMLDriver 模块第59-61页
   ·本章小结第61-62页
第5章 性能分析与评价第62-70页
   ·系统运行展示第62-67页
   ·数据统计与分析第67-68页
   ·与非分布式爬虫的比较第68-69页
   ·本章小结第69-70页
结论第70-71页
附录一 抓取数据统计表第71-74页
参考文献第74-77页
攻读学位期间发表的学术论文第77-79页
致谢第79页

论文共79页,点击 下载论文
上一篇:基于复述的问题扩展技术研究
下一篇:分布式全文检索中缓存系统研究与实现