首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

分布式并行环境下的网络爬虫研究

摘要第3-5页
ABSTRACT第5-6页
第一章 绪论第13-17页
    1.1 背景第13-14页
    1.2 研究的意义第14页
    1.3 研究动态第14-15页
    1.4 主要工作与论文结构第15-17页
第二章 爬虫相关理论第17-28页
    2.1 通用爬虫与主题爬虫第18-20页
        2.1.1 通用爬虫第18-19页
        2.1.2 主题爬虫第19-20页
    2.2 网页的抓取策略第20-22页
        2.2.1 深度优先策略第20页
        2.2.2 广度优先策略第20-21页
        2.2.3 最佳优先策略第21页
        2.2.4 增量搜索策略第21-22页
        2.2.5 礼貌策略第22页
    2.3 网页分析算法第22-24页
        2.3.1 PageRank算法第22-23页
        2.3.2 HITS算法第23-24页
    2.4 网络爬虫结构分析第24-28页
第三章 分布式爬虫系统分析设计第28-39页
    3.1 分布式技术第28-31页
        3.1.1 Hadoop分布式文件系统第29-30页
        3.1.2 MapReduce工作原理第30-31页
    3.2 分布式爬虫分析设计第31-39页
        3.2.1 分布式爬虫分析第32-33页
        3.2.2 分布式爬虫架构及工作流程第33-35页
        3.2.3 分布式爬虫模块设计第35-39页
第四章 关键技术第39-47页
    4.1 URL队列设计与去重第39-42页
    4.2 并行抓取第42-43页
    4.3 动态网页解析与内嵌文档内容抽取第43-45页
    4.4 爬虫陷进与网页更新第45-47页
第五章 分布式网络爬虫系统实现第47-54页
    5.1 平台环境第47页
    5.2 系统实现第47-54页
        5.2.1 爬虫总体结构第48-49页
        5.2.2 核心类的实现第49-54页
第六章 测试分析第54-60页
    6.1 节点扩展测试第54-58页
    6.2 抓取效率对比第58-60页
第七章 总结与展望第60-61页
参考文献第61-64页
致谢第64-65页
攻读学位期间发表的学术论文目录第65页

论文共65页,点击 下载论文
上一篇:基于Hadoop的分布式计算系统的设计与实现
下一篇:基于负载预测的OpenStack虚拟机智能管理