基于Hadoop的分布式网络爬虫技术

摘要	第1-5页
Abstract	第5-9页
第1章绪论	第9-16页
·课题来源	第9页
·课题研究背景及意义	第9-12页
·本文主要工作及内容	第12-13页
·本文的主要组织和结构	第13-16页
第2章相关技术研究	第16-29页
·云计算相关知识	第16-19页
·云计算定义	第16-17页
·云计算基本原理	第17-18页
·云计算的体系结构	第18-19页
·Hadoop 分布式平台相关知识	第19-24页
·分布式文件系统	第20-23页
·Map/Reduce 分布式计算模型	第23-24页
·网络爬虫原理	第24-27页
·网络爬虫系统的工作原理	第25页
·网络爬虫系统的基本结构	第25-26页
·分布式网络爬虫的工作原理	第26-27页
·分布式网络爬虫研究现状	第27-28页
·本章小结	第28-29页
第3章功能分析与结构设计	第29-48页
·分布式网络爬虫的设计需求	第29-30页
·系统布局	第30-32页
·爬虫系统基本结构	第32-37页
·爬虫基本流程设计	第32-35页
·爬虫系统的框架设计	第35-37页
·功能模块的Map/Reduce 设计	第37-47页
·CrawlerDriver 模块设计	第37-39页
·ParserDriver 模块设计	第39-41页
·OptimizerDriver 模块设计	第41-43页
·MergeDriver 模块设计	第43-45页
·HtmlToXMLDriver 模块设计	第45-47页
·本章小结	第47-48页
第4章分布式爬虫具体实现	第48-62页
·存储结构的实现	第48-50页
·待抓取URL 库	第48页
·原始网页库	第48-49页
·链出URL 库	第49-50页
·XML 库	第50页
·爬虫总体数据结构	第50-52页
·功能模块的实现	第52-61页
·CrawlerDriver 模块	第52-54页
·ParserDriver 模块	第54-56页
·OptimizerDriver 模块	第56-58页
·MergeDriver 模块	第58-59页
·HtmlToXMLDriver 模块	第59-61页
·本章小结	第61-62页
第5章性能分析与评价	第62-70页
·系统运行展示	第62-67页
·数据统计与分析	第67-68页
·与非分布式爬虫的比较	第68-69页
·本章小结	第69-70页
结论	第70-71页
附录一抓取数据统计表	第71-74页
参考文献	第74-77页
攻读学位期间发表的学术论文	第77-79页
致谢	第79页