首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

动态页面数据采集方法的研究与分布式实现

致谢第1-6页
中文摘要第6-7页
ABSTRACT第7-10页
1 绪论第10-14页
   ·论文背景第10-11页
   ·动态页面数据采集研究现状第11-12页
   ·主要工作第12-13页
   ·论文组织结构第13-14页
2 动态页面解析与分布式计算第14-29页
   ·动态页面数据采集第14-18页
     ·动态页面与静态页面的区别第14-15页
     ·常用脚本解析工具第15-18页
   ·Hadoop分布式计算环境第18-26页
     ·云计算与分布式计算第18-20页
     ·MapReduce编程模式第20-22页
     ·HDFS分布式文件系统第22-26页
     ·HDFS性能阐述第26页
   ·Nutch结构分析第26-28页
     ·Nutch第26-27页
     ·Nutch数据抓取流程第27-28页
   ·本章小结第28-29页
3 动态页面脚本自动解析任务分析与解析环境构建第29-43页
   ·动态页面脚本自动解析第29-30页
   ·解析任务队列算法设计第30-33页
     ·Hadoop常用调度算法分析第30-32页
     ·JavaScript解析调度算法第32-33页
   ·脚本解析环境的构建第33-40页
     ·脚本解析流程第33-35页
     ·脚本提取算法设计第35-37页
     ·常用DOM对象解析设计第37-40页
   ·AJAX解析算法第40-42页
   ·本章小结第42-43页
4 动态页面数据采集第43-54页
   ·数据文件存储结构第43-45页
   ·数据格式信息第45-47页
     ·提取URL链接库第45-46页
     ·原始网页库第46页
     ·JavaScript文件库第46-47页
     ·静态网页库第47页
   ·脚本解析模块的MapReduce实现第47-53页
     ·脚本解析的分布式流程设计第47-48页
     ·MapReduce程序设计第48-50页
     ·脚本解析模块的分布式改造第50-53页
   ·本章小结第53-54页
5 测试与结果分析第54-60页
   ·测试环境搭建第54-55页
     ·软/硬件环境第54-55页
     ·软件环境搭建第55页
   ·系统测试及结果分析第55-58页
     ·系统测试第55-57页
     ·测试结果分析第57-58页
   ·与传统网络爬虫比较第58-59页
   ·本章小结第59-60页
6 总结与展望第60-62页
   ·本文总结第60页
   ·展望第60-62页
参考文献第62-64页
作者简历第64-66页
学位论文数据集第66页

论文共66页,点击 下载论文
上一篇:基于QoS的铁路Web服务选择模型与算法研究
下一篇:基于SNMP网络管理系统的设计和实现