分布式并行环境下的网络爬虫研究

摘要	第3-5页
ABSTRACT	第5-6页
第一章绪论	第13-17页
1.1 背景	第13-14页
1.2 研究的意义	第14页
1.3 研究动态	第14-15页
1.4 主要工作与论文结构	第15-17页
第二章爬虫相关理论	第17-28页
2.1 通用爬虫与主题爬虫	第18-20页
2.1.1 通用爬虫	第18-19页
2.1.2 主题爬虫	第19-20页
2.2 网页的抓取策略	第20-22页
2.2.1 深度优先策略	第20页
2.2.2 广度优先策略	第20-21页
2.2.3 最佳优先策略	第21页
2.2.4 增量搜索策略	第21-22页
2.2.5 礼貌策略	第22页
2.3 网页分析算法	第22-24页
2.3.1 PageRank算法	第22-23页
2.3.2 HITS算法	第23-24页
2.4 网络爬虫结构分析	第24-28页
第三章分布式爬虫系统分析设计	第28-39页
3.1 分布式技术	第28-31页
3.1.1 Hadoop分布式文件系统	第29-30页
3.1.2 MapReduce工作原理	第30-31页
3.2 分布式爬虫分析设计	第31-39页
3.2.1 分布式爬虫分析	第32-33页
3.2.2 分布式爬虫架构及工作流程	第33-35页
3.2.3 分布式爬虫模块设计	第35-39页
第四章关键技术	第39-47页
4.1 URL队列设计与去重	第39-42页
4.2 并行抓取	第42-43页
4.3 动态网页解析与内嵌文档内容抽取	第43-45页
4.4 爬虫陷进与网页更新	第45-47页
第五章分布式网络爬虫系统实现	第47-54页
5.1 平台环境	第47页
5.2 系统实现	第47-54页
5.2.1 爬虫总体结构	第48-49页
5.2.2 核心类的实现	第49-54页
第六章测试分析	第54-60页
6.1 节点扩展测试	第54-58页
6.2 抓取效率对比	第58-60页
第七章总结与展望	第60-61页
参考文献	第61-64页
致谢	第64-65页
攻读学位期间发表的学术论文目录	第65页