首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Hadoop的分布式网络爬虫设计与实现

摘要第4-5页
ABSTRACT第5-6页
符号对照表第7-11页
第一章 绪论第11-17页
    1.1 研究背景与意义第11-12页
    1.2 国内外研究现状第12-14页
    1.3 论文主要内容第14页
    1.4 论文组织结构第14-17页
第二章 相关技术介绍第17-29页
    2.1 网络爬虫技术第17-19页
        2.1.1 网络爬虫基本原理第17-18页
        2.1.2 网页搜索策略第18-19页
    2.2 Hadoop分布式技术第19-28页
        2.2.1 HDFS分布式文件系统第19-22页
        2.2.2 YARN资源管理系统第22-24页
        2.2.3 MapReduce分布式计算框架第24-26页
        2.2.4 ZooKeeper分布式协调服务第26页
        2.2.5 HadoopHA高可用第26-28页
    2.3 本章小结第28-29页
第三章 URL去重算法研究第29-45页
    3.1 常见URL去重算法介绍第29-31页
    3.2 基于SimHash的网页去重算法第31-35页
        3.2.1 SimHash算法介绍第31-32页
        3.2.2 基于SimHash算法进行网页去重第32-35页
    3.3 基于SimHash的分布式URL去重算法第35-44页
        3.3.1 算法基本原理第35-36页
        3.3.2 算法分布式实现第36-44页
    3.4 本章小结第44-45页
第四章 分布式网络爬虫系统设计与实现第45-63页
    4.1 分布式网络爬虫需求分析第45-46页
    4.2 分布式网络爬虫总体设计第46-51页
        4.2.1 分布式网络爬虫系统架构设计第46-47页
        4.2.2 分布式网络爬虫工作流程设计第47-49页
        4.2.3 分布式网络爬虫功能结构设计第49-50页
        4.2.4 分布式网络爬虫分布式存储设计第50-51页
    4.3 分布式网络爬虫详细设计与实现第51-62页
        4.3.1 初始化URL种子模块第51-53页
        4.3.2 待抓取URL队列生成模块第53-55页
        4.3.3 网页抓取模块第55-58页
        4.3.4 网页解析模块第58-59页
        4.3.5 URL网页去重模块第59-61页
        4.3.6 系统总调度模块各功能类说明第61-62页
    4.4 本章小结第62-63页
第五章 系统测试与结果分析第63-75页
    5.1 系统测试环境第63-67页
        5.1.1 系统软硬件环境第63-64页
        5.1.2 搭建HadoopHA高可用分布式集群系统环境第64-67页
    5.2 系统测试第67-74页
        5.2.1 系统功能测试第67-68页
        5.2.2 系统性能测试第68-70页
        5.2.3 系统可扩展性测试第70-71页
        5.2.4 系统高可用性测试第71-73页
        5.2.5 URL去重算法比较测试第73-74页
    5.3 本章小结第74-75页
总结与展望第75-77页
参考文献第77-81页
致谢第81-83页
攻读硕士学位期间取得的科研成果第83-84页

论文共84页,点击 下载论文
上一篇:基于发布/订阅的CCN网络与IPv6网络融合设计与实现
下一篇:柔性机械臂用超弹性材料制备及性能研究