基于Webmagic的动态网页爬虫的研究与优化

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-15页
1.1 研究背景	第9-11页
1.1.1 选题背景	第9-10页
1.1.2 研究意义	第10-11页
1.2 研究现状	第11-13页
1.3 论文主要内容	第13页
1.4 论文的组织结构	第13-15页
第二章网络爬虫相关技术介绍	第15-23页
2.1 网络爬虫的分类	第15-17页
2.2 超文本传输协议HTTP	第17-18页
2.3 Ajax在动态网页实现中的作用以及给网页爬虫带来的新挑战	第18-20页
2.3.1 Ajax技术在动态网页实现中的作用	第18-19页
2.3.2 Ajax技术对网络爬虫的影响	第19-20页
2.4 其他技术介绍	第20-22页
2.4.1 Redis数据库	第20页
2.4.2 ZeroMQ介绍	第20-22页
2.5 本章总结	第22-23页
第三章 Dis-Dyn Crawler爬虫系统的整体架构	第23-33页
3.1 分布式网络爬虫的工作原理	第23-24页
3.2 现有动态网络爬虫系统缺陷分析	第24-25页
3.3 Dis-Dyn Crawler架构设计及简介	第25-31页
3.3.1 动态页面解析的优化	第25-27页
3.3.2 异步页面下载	第27-29页
3.3.3 系统架构	第29页
3.3.4 模块介绍	第29-30页
3.3.5 系统的工作流程简介	第30-31页
3.4 本章总结	第31-33页
第四章 Dis-Dyn Crawler爬虫系统具体实现	第33-47页
4.1 Dis-Dyn Crawler爬虫系统工作流程	第33-36页
4.1.1 Dis-Dyn Crawler详细设计图	第33-34页
4.1.2 Dis-Dyn Crawler工作流程	第34-36页
4.2 爬虫模块	第36-39页
4.2.1 爬虫模块的内部实现	第36-37页
4.2.2 异步页面下载器的实现	第37-38页
4.2.3 页面信息提取器的实现	第38-39页
4.3 路由模块	第39-41页
4.3.1 路由模块的内部实现	第39-40页
4.3.2 负载均衡算法策略	第40-41页
4.4 动态页面解析模块	第41-45页
4.5 本章总结	第45-47页
第五章 Dis-Dyn Crawler爬虫系统实验分析	第47-51页
5.1 实验环境	第47页
5.2 Dis-Dyn Crawler实验分析	第47-50页
5.2.1 Dis-Dyn Crawler的测试方案设计	第48页
5.2.2 实验数据与分析	第48-50页
5.4 本章总结	第50-51页
第六章总结与展望	第51-53页
6.1 本文工作总结	第51页
6.2 进一步研究方向	第51-53页
参考文献	第53-57页
致谢	第57-59页
攻读学位期间发表的学术论文	第59页