基于hadoop的分布式网络爬虫研究与实现

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-13页
·课题研究背景和意义	第7-9页
·国内外研究现状	第9页
·论文主要工作	第9-10页
·论文结构	第10-13页
第二章相关理论与技术	第13-27页
·云计算相关知识	第13-16页
·云计算原理与结构	第13-15页
·典型云计算的平台	第15-16页
·Hadoop 分布式平台技术	第16-21页
·HDFS 分布式文件系统	第17-19页
·Map/Reduce 分布式计算模型	第19-21页
·网络爬虫原理	第21-23页
·网络爬虫系统的基本结构	第22-23页
·分布式网络爬虫	第23页
·相关工具软件	第23-24页
·HttpClient	第23-24页
·HTMLParser	第24页
·Log4j	第24页
·Cygwin	第24页
·本章小结	第24-27页
第三章系统分析与设计	第27-39页
·分布式网络爬虫的设计需求	第27-28页
·分布式网络爬虫关键技术分析	第28-31页
·DNS 解析扩展	第28-29页
·URL 消重技术	第29-30页
·页面爬行策略	第30-31页
·系统布局	第31-33页
·分布式搜索引擎的系统架构	第31-32页
·分布式搜索引擎的模块划分	第32-33页
·分布式网络爬虫框架结构设计	第33-37页
·分布式网络爬虫的物理框架设计	第33-34页
·分布式网络爬虫的逻辑框架设计	第34-35页
·爬虫的基本流程和模块设计	第35-37页
·本章小结	第37-39页
第四章分布式爬虫实现	第39-51页
·存储结构的实现	第39-40页
·爬虫总体设计结构	第40-41页
·各功能模块的实现	第41-49页
·URL 分割注入模块	第41-42页
·网页获取模块	第42-43页
·网页解析模块	第43-46页
·链接去重过滤模块	第46-48页
·数据存储更新模块	第48-49页
·本章小结	第49-51页
第五章性能分析与评价	第51-57页
·测试环境	第51-52页
·软硬件环境	第51页
·分布式开发环境的搭建	第51-52页
·系统测试方案	第52-54页
·功能测试方案	第53页
·性能测试方案	第53-54页
·系统可扩展性测试方案	第54页
·系统测试结果分析	第54-56页
·系统功能测试结果	第54页
·系统性能测试结果	第54-55页
·系统可扩展性测试结果	第55-56页
·本章小结	第56-57页
第六章总结与展望	第57-59页
·论文总结	第57页
·研究展望	第57-59页
致谢	第59-61页
参考文献	第61-65页
读研期间研究成果	第65-66页