首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

分布式爬虫的动态负载均衡方法研究

摘要第4-5页
ABSTRACT第5页
第1章 绪论第8-15页
    1.1 研究背景和意义第8-9页
    1.2 国内外相关研究和综述第9-13页
        1.2.1 网络爬虫第9-10页
        1.2.2 负载均衡的实现机制第10页
        1.2.3 负载均衡的实现技术第10-12页
        1.2.4 存在的问题第12-13页
    1.3 本文研究内容第13页
    1.4 本文的结构安排第13-15页
第2章 分布式爬虫系统的相关技术第15-23页
    2.1 引言第15页
    2.2 分布式系统第15-17页
        2.2.1 分布式系统的优点第15-16页
        2.2.2 分布式系统的缺点第16页
        2.2.3 分布式系统的任务调度第16-17页
    2.3 网络爬虫第17-19页
        2.3.1 通用Web爬虫第17-18页
        2.3.2 聚焦Web爬虫第18-19页
    2.4 爬行策略第19-21页
        2.4.1 广度优先策略第20页
        2.4.2 深度优先策略第20-21页
        2.4.3 最佳优先策略第21页
    2.5 布隆过滤器第21-22页
    2.6 本章小结第22-23页
第3章 基于在线反馈的站点规模动态预测算法第23-37页
    3.1 引言第23页
    3.2 站点规模第23-24页
    3.3 站点增长比第24-27页
    3.4 在线反馈信息第27-28页
    3.5 站点规模预测模型训练第28-33页
        3.5.1 损失函数第28页
        3.5.2 模型的参数训练第28-31页
        3.5.3 训练数据及方法第31-33页
    3.6 实验及结果分析第33-36页
    3.7 本章小结第36-37页
第4章 基于站点规模预测的分布式爬虫动态负载均衡方法第37-50页
    4.1 引言第37页
    4.2 动态负载均衡算法的权衡因素第37-38页
        4.2.1 任务负荷的评估第37页
        4.2.2 任务迁移的代价第37页
        4.2.3 系统的鲁棒性和可扩展性第37-38页
    4.3 爬行器负荷当量的计算第38-39页
    4.4 负载均衡的衡量——负载系数第39-40页
    4.5 任务调度的策略第40-41页
    4.6 通信开销问题第41-42页
    4.7 对比实验及结果分析第42-49页
        4.7.1 实验环境第42页
        4.7.2 实验结果及分析第42-49页
    4.8 本章小结第49-50页
第5章 分布式爬虫系统设计与实现第50-56页
    5.1 分布式爬虫的整体架构第50-51页
    5.2 分布式爬虫系统模块功能设计与实现第51-55页
        5.2.1 爬行模块第51-52页
        5.2.2 服务器模块第52-53页
        5.2.3 负载均衡模块第53-54页
        5.2.4 系统的鲁棒性和扩展性模块第54-55页
    5.3 本章小结第55-56页
结论第56-57页
参考文献第57-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:基于矩阵分解的并行协同过滤算法研究
下一篇:卫星姿轨控地面测试软件系统的设计与实现