首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

分布式爬虫任务调度与AJAX页面抓取研究

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第11-17页
    1.1 研究背景及意义第11-12页
    1.2 国内外研究现状第12-15页
        1.2.1 分布式爬虫任务调度研究现状第12-14页
        1.2.2 Ajax页面抓取研究现状第14-15页
    1.3 主要研究内容第15-16页
    1.4 章节安排第16-17页
第二章 相关技术介绍第17-30页
    2.1 分布式爬虫关键技术第17-23页
        2.1.1 分布式爬虫系统架构第18-20页
        2.1.2 任务调度策略第20-23页
        2.1.3 更新调度策略第23页
    2.2 Ajax爬虫关键技术第23-29页
        2.2.1 Ajax动态加载技术第23-24页
        2.2.2 Ajax网站建模与抓取策略第24-27页
        2.2.3 动态脚本解析第27-29页
            2.2.3.1 JavaScript引擎第27-28页
            2.2.3.2 嵌入式浏览器第28-29页
    2.3 本章小结第29-30页
第三章 基于主从式架构的任务调度策略第30-45页
    3.1 一致性哈希算法第30-35页
        3.1.1 一致性哈希的基本概念第30-31页
        3.1.2 分布式缓存Memcached的一致性哈希算法实现第31-33页
        3.1.3 一致性哈希算法存在的不足第33-35页
    3.2 基于一致性哈希的均分负载空间算法第35-38页
    3.3 基于均分负载空间算法的任务调度策略第38-41页
        3.3.1 任务划分策略第38-39页
        3.3.2 任务调度策略第39-41页
    3.4 分布式爬虫负载均衡性能实验第41-44页
        3.4.1 实验设置第41页
        3.4.2 实验结果与分析第41-44页
    3.5 本章小结第44-45页
第四章 基于状态流图的Ajax页面抓取第45-62页
    4.1 状态流图模型第45-51页
        4.1.1 状态流图定义第45-46页
        4.1.2 基于状态流图的深度优先抓取算法第46-49页
        4.1.3 算法存在的主要不足第49-51页
    4.2 算法改进第51-55页
        4.2.1 基于网页主体内容的重复状态检测第51-53页
            4.2.1.1 网页主体内容提取第51-53页
            4.2.1.2 重复状态检测第53页
        4.2.2 有效元素的XPath特征训练第53-55页
            4.2.2.1 页面元素的XPath特征第53-54页
            4.2.2.2 基于主体内容变化的有效元素XPath特征训练第54-55页
    4.3 优化后的算法第55-57页
    4.4 实验比较第57-61页
        4.4.1 实验设置第57页
        4.4.2 实验结果与分析第57-61页
    4.5 本章小结第61-62页
第五章 分布式爬虫系统设计与实现第62-74页
    5.1 总体设计第62页
    5.2 中心节点的设计方案第62-66页
        5.2.1 种子URLs管理模块第63页
        5.2.2 心跳监测模块第63-64页
        5.2.3 任务调度模块第64-66页
    5.3 爬行节点的设计方案第66-70页
        5.3.1 数据抓取模块第66-69页
            5.3.1.1 静态页面抓取模块第67-68页
            5.3.1.2 动态页面抓取模块第68页
            5.3.1.3 非爬取范围内的页面处理模块第68-69页
        5.3.2 任务调整模块第69-70页
            5.3.2.1 任务转移模块第69-70页
            5.3.2.2 任务添加模块第70页
        5.3.3 更新调度模块第70页
    5.4 系统运行展示第70-71页
    5.5 系统应用第71-73页
    5.6 本章小结第73-74页
第六章 总结与展望第74-76页
    6.1 总结第74页
    6.2 展望第74-76页
致谢第76-77页
参考文献第77-81页
攻读硕士学位期间取得的成果第81-82页

论文共82页,点击 下载论文
上一篇:激光位移传感器安装位置标定及其应用研究
下一篇:微博用户的兴趣及性格分析