首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Hadoop分布式网络爬虫技术的研究

摘要第1-6页
Abstract第6-11页
1 绪论第11-15页
   ·课题研究背景第11-12页
   ·课题的研究意义第12页
   ·国内外研究现状第12-14页
     ·Hadoop相关技术的国内外研究现状第12-13页
     ·分布式爬虫研究现状第13-14页
   ·本文的主要组织和结构第14-15页
2 网络爬虫与分布式系统相关技术研究第15-23页
   ·Hadoop分布式平台第15-19页
     ·分布式文件系统HDFS第15-17页
     ·Map/Reduce分布式计算模型第17-19页
   ·网络爬虫原理第19-22页
     ·网络爬虫的物理结构第19页
     ·网络爬虫的基本结构第19-21页
     ·分布式网络爬虫第21-22页
   ·本章小结第22-23页
3 分布式网络爬虫设计第23-37页
   ·分布式网络爬虫架构设计第23-27页
     ·单线程网络爬虫第23-25页
     ·分布式网络爬虫结构设计第25-27页
   ·分布式网络爬虫的核心算法第27-32页
     ·网页多线程抓取机制第27-28页
     ·改进的网页权重评估算法第28-29页
     ·DNS缓存第29-31页
     ·URL去重算法第31-32页
     ·网页更新算法第32页
   ·分布式网络爬虫模块设计第32-35页
     ·URL初始化功能模块化设计第32-33页
     ·分布式爬虫循环抓取模块设计第33-35页
   ·分布式网络爬虫数据存储设计第35页
   ·本章小结第35-37页
4 分布式爬虫具体实现第37-47页
   ·Hadoop环境搭建第37-38页
     ·Hadoop硬件环境和物理结构第37页
     ·Hadoop集群实践环境第37-38页
   ·分布式网络爬虫控制界面实现第38-39页
   ·分布式网络爬虫各模块的具体实现第39-46页
     ·种子URL插入模块实现第40-42页
     ·URL任务列表生成模块实现第42-43页
     ·网页抓取模块实现第43-45页
     ·数据更新模块实现第45-46页
     ·分布式爬虫抓取结果第46页
   ·本章小结第46-47页
5 性能测试分析第47-53页
   ·网络爬虫线程性能测试与分析第47-48页
   ·DNS缓存技术性能测试与分析第48页
   ·URL权重计算算法比较测试与分析第48-49页
   ·爬虫节点的性能测试与分析第49-51页
   ·爬虫对比测试与分析第51页
   ·本章小结第51-53页
结论和展望第53-55页
参考文献第55-57页
致谢第57-59页
作者简介及读研期间主要科研成果第59页

论文共59页,点击 下载论文
上一篇:Hadoop平台下的作业调度算法研究及应用
下一篇:MR-SAS与EPS变论域模糊PID集成控制