| 摘要 | 第1-5页 |
| ABSTRACT | 第5-9页 |
| 第一章 绪论 | 第9-16页 |
| ·论文研究背景与意义 | 第9-10页 |
| ·网络爬虫研究现状 | 第10-14页 |
| ·网络爬虫相关概念 | 第10-13页 |
| ·分布式网络爬虫研究现状 | 第13-14页 |
| ·研究目标 | 第14页 |
| ·论文的组织结构 | 第14-16页 |
| 第二章 分布式网络爬虫的关键技术 | 第16-32页 |
| ·URL | 第16-21页 |
| ·URL正规化 | 第17-20页 |
| ·URL消重 | 第20-21页 |
| ·字符编码标准 | 第21-25页 |
| ·非关系型数据库 | 第25-27页 |
| ·SQL和NoSQL | 第26-27页 |
| ·Redis | 第27页 |
| ·分布式系统 | 第27-31页 |
| ·MapReduce分布式计算架构 | 第28-30页 |
| ·Mincemeat.py分布式计算框架 | 第30-31页 |
| ·本章小结 | 第31-32页 |
| 第三章 DWCS系统总体架构设计 | 第32-49页 |
| ·DWCS系统设计目标 | 第32页 |
| ·DWCS系统总体结构设计 | 第32-35页 |
| ·MASTER节点模块详细设计 | 第35-41页 |
| ·Mincemeat.py(服务器端模块) | 第36-40页 |
| ·URL Normalizer and Filter模块 | 第40-41页 |
| ·WORKER节点模块详细设计 | 第41-48页 |
| ·Mincemeat.py(客户端模块) | 第41-43页 |
| ·Crawler模块 | 第43-48页 |
| ·REDIS SERVER | 第48页 |
| ·本章小结 | 第48-49页 |
| 第四章 DWCS系统实现 | 第49-67页 |
| ·DWCS系统实现说明 | 第49页 |
| ·MASTER模块的实现 | 第49-60页 |
| ·Server类 | 第49-51页 |
| ·Protocol类 | 第51-53页 |
| ·ServerChannel类 | 第53-55页 |
| ·TaskManager类 | 第55-58页 |
| ·URLNF类 | 第58-60页 |
| ·WORKER模块的实现 | 第60-66页 |
| ·Client类 | 第60-63页 |
| ·Crawler类 | 第63-66页 |
| ·本章小结 | 第66-67页 |
| 第五章 DWCS系统测试 | 第67-77页 |
| ·分模块测试 | 第67-72页 |
| ·URLNomalizer模块测试 | 第67-68页 |
| ·URLFilter模块测试 | 第68-69页 |
| ·URLReader模块测试 | 第69-71页 |
| ·PageParser模块测试 | 第71-72页 |
| ·DWCS系统测试 | 第72-75页 |
| ·单机单Worker爬虫测试 | 第72-73页 |
| ·单机2Worker测试 | 第73页 |
| ·双机4Worker测试 | 第73-74页 |
| ·测试结果分析 | 第74-75页 |
| ·本章小结 | 第75-77页 |
| 第六章 总结和展望 | 第77-78页 |
| ·本论文的工作总结 | 第77页 |
| ·进一步的研究工作 | 第77页 |
| ·本章小结 | 第77-78页 |
| 致谢 | 第78-79页 |
| 参考文献 | 第79-82页 |
| 攻硕期间取得的研究成果 | 第82页 |