动态页面数据采集方法的研究与分布式实现

致谢	第1-6页
中文摘要	第6-7页
ABSTRACT	第7-10页
1 绪论	第10-14页
·论文背景	第10-11页
·动态页面数据采集研究现状	第11-12页
·主要工作	第12-13页
·论文组织结构	第13-14页
2 动态页面解析与分布式计算	第14-29页
·动态页面数据采集	第14-18页
·动态页面与静态页面的区别	第14-15页
·常用脚本解析工具	第15-18页
·Hadoop分布式计算环境	第18-26页
·云计算与分布式计算	第18-20页
·MapReduce编程模式	第20-22页
·HDFS分布式文件系统	第22-26页
·HDFS性能阐述	第26页
·Nutch结构分析	第26-28页
·Nutch	第26-27页
·Nutch数据抓取流程	第27-28页
·本章小结	第28-29页
3 动态页面脚本自动解析任务分析与解析环境构建	第29-43页
·动态页面脚本自动解析	第29-30页
·解析任务队列算法设计	第30-33页
·Hadoop常用调度算法分析	第30-32页
·JavaScript解析调度算法	第32-33页
·脚本解析环境的构建	第33-40页
·脚本解析流程	第33-35页
·脚本提取算法设计	第35-37页
·常用DOM对象解析设计	第37-40页
·AJAX解析算法	第40-42页
·本章小结	第42-43页
4 动态页面数据采集	第43-54页
·数据文件存储结构	第43-45页
·数据格式信息	第45-47页
·提取URL链接库	第45-46页
·原始网页库	第46页
·JavaScript文件库	第46-47页
·静态网页库	第47页
·脚本解析模块的MapReduce实现	第47-53页
·脚本解析的分布式流程设计	第47-48页
·MapReduce程序设计	第48-50页
·脚本解析模块的分布式改造	第50-53页
·本章小结	第53-54页
5 测试与结果分析	第54-60页
·测试环境搭建	第54-55页
·软/硬件环境	第54-55页
·软件环境搭建	第55页
·系统测试及结果分析	第55-58页
·系统测试	第55-57页
·测试结果分析	第57-58页
·与传统网络爬虫比较	第58-59页
·本章小结	第59-60页
6 总结与展望	第60-62页
·本文总结	第60页
·展望	第60-62页
参考文献	第62-64页
作者简历	第64-66页
学位论文数据集	第66页