动态页面数据采集方法的研究与分布式实现
致谢 | 第1-6页 |
中文摘要 | 第6-7页 |
ABSTRACT | 第7-10页 |
1 绪论 | 第10-14页 |
·论文背景 | 第10-11页 |
·动态页面数据采集研究现状 | 第11-12页 |
·主要工作 | 第12-13页 |
·论文组织结构 | 第13-14页 |
2 动态页面解析与分布式计算 | 第14-29页 |
·动态页面数据采集 | 第14-18页 |
·动态页面与静态页面的区别 | 第14-15页 |
·常用脚本解析工具 | 第15-18页 |
·Hadoop分布式计算环境 | 第18-26页 |
·云计算与分布式计算 | 第18-20页 |
·MapReduce编程模式 | 第20-22页 |
·HDFS分布式文件系统 | 第22-26页 |
·HDFS性能阐述 | 第26页 |
·Nutch结构分析 | 第26-28页 |
·Nutch | 第26-27页 |
·Nutch数据抓取流程 | 第27-28页 |
·本章小结 | 第28-29页 |
3 动态页面脚本自动解析任务分析与解析环境构建 | 第29-43页 |
·动态页面脚本自动解析 | 第29-30页 |
·解析任务队列算法设计 | 第30-33页 |
·Hadoop常用调度算法分析 | 第30-32页 |
·JavaScript解析调度算法 | 第32-33页 |
·脚本解析环境的构建 | 第33-40页 |
·脚本解析流程 | 第33-35页 |
·脚本提取算法设计 | 第35-37页 |
·常用DOM对象解析设计 | 第37-40页 |
·AJAX解析算法 | 第40-42页 |
·本章小结 | 第42-43页 |
4 动态页面数据采集 | 第43-54页 |
·数据文件存储结构 | 第43-45页 |
·数据格式信息 | 第45-47页 |
·提取URL链接库 | 第45-46页 |
·原始网页库 | 第46页 |
·JavaScript文件库 | 第46-47页 |
·静态网页库 | 第47页 |
·脚本解析模块的MapReduce实现 | 第47-53页 |
·脚本解析的分布式流程设计 | 第47-48页 |
·MapReduce程序设计 | 第48-50页 |
·脚本解析模块的分布式改造 | 第50-53页 |
·本章小结 | 第53-54页 |
5 测试与结果分析 | 第54-60页 |
·测试环境搭建 | 第54-55页 |
·软/硬件环境 | 第54-55页 |
·软件环境搭建 | 第55页 |
·系统测试及结果分析 | 第55-58页 |
·系统测试 | 第55-57页 |
·测试结果分析 | 第57-58页 |
·与传统网络爬虫比较 | 第58-59页 |
·本章小结 | 第59-60页 |
6 总结与展望 | 第60-62页 |
·本文总结 | 第60页 |
·展望 | 第60-62页 |
参考文献 | 第62-64页 |
作者简历 | 第64-66页 |
学位论文数据集 | 第66页 |