基于Hadoop的分布式爬虫及其实现

摘要	第1-5页
ABSTRACT	第5-10页
第一章绪论	第10-15页
·背景	第10-12页
·研究工作	第12-13页
·文章组织结构	第13-15页
第二章相关技术研究	第15-37页
·云计算	第15-20页
·云计算体系结构	第16-17页
·计算服务层次	第17-18页
·云计算技术层次	第18-19页
·典型云计算平台	第19-20页
·HADOOP分布式平台结构	第20-31页
·HADOOP分布式文件系统	第21-25页
·MAPREDUCE分布式计算	第25-30页
·HADOOP的硬件布局	第30-31页
·网络爬虫原理	第31-37页
·搜索引擎基本技术	第31-32页
·网络爬虫基本原理	第32-33页
·分布式网络爬虫NUTCH	第33-37页
第三章分布式爬虫的设计方案	第37-60页
·系统布局	第37-39页
·分布式平台的系统架构	第37-38页
·分布式搜索引擎的模块划分	第38-39页
·网络爬虫采集原理	第39-45页
·ROBOTS EXCLUSION PROTOCOL	第41-42页
·网页抓取	第42-43页
·文档解析	第43-44页
·网页消重	第44-45页
·爬虫的基本结构设计	第45-51页
·爬虫的基本流程设计	第45-47页
·爬虫的框架设计	第47-48页
·爬虫的MAPREDUCE设计	第48-51页
·爬虫模块的分布式改造	第51-57页
·INJECT模块	第51-53页
·GENERATE模块	第53-55页
·FETCH模块	第55-56页
·UPDATE模块	第56-57页
·分布式爬虫的功能完善	第57-60页
第四章分布式爬虫的具体实现	第60-72页
·总数据结构的设计	第60-61页
·数据格式信息	第61-64页
·URL状态信息	第61-62页
·原始网页库	第62页
·未抓取URL库	第62-63页
·周期更新URL库	第63页
·超时URL库	第63页
·解析网页库	第63-64页
·各分模块数据结构的设计	第64-72页
·主类:CRAWL2和RECRAWL2	第65-66页
·流程重组相关类:FROMFETCHCRAWL2、FROMUPDATECRAWL2、	第66页
·更新抓取初始化类:UPDATECRAWLDBINIT	第66-67页
·功能类	第67-69页
·辅助功能类	第69-72页
第五章系统相关测试	第72-84页
·软件和硬件环境	第72-75页
·硬件/软件环境	第72页
·软件环境搭建	第72-73页
·可调参数设置	第73-74页
·系统查看命令	第74-75页
·系统测试	第75-76页
·功能测试	第75页
·可扩展性测试	第75-76页
·性能测试	第76页
·测试结果分析	第76-81页
·测试数据	第77-79页
·测试结果分析	第79-81页
·测试总结	第81-84页
第六章总结与展望	第84-86页
·工作总结	第84页
·下一步的研究工作	第84-86页
参考文献	第86-88页
术语缩略语	第88-89页
致谢	第89-90页
作者攻读硕士学位期间发表的学术论文目录	第90页