首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Webmagic的动态网页爬虫的研究与优化

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第9-15页
    1.1 研究背景第9-11页
        1.1.1 选题背景第9-10页
        1.1.2 研究意义第10-11页
    1.2 研究现状第11-13页
    1.3 论文主要内容第13页
    1.4 论文的组织结构第13-15页
第二章 网络爬虫相关技术介绍第15-23页
    2.1 网络爬虫的分类第15-17页
    2.2 超文本传输协议HTTP第17-18页
    2.3 Ajax在动态网页实现中的作用以及给网页爬虫带来的新挑战第18-20页
        2.3.1 Ajax技术在动态网页实现中的作用第18-19页
        2.3.2 Ajax技术对网络爬虫的影响第19-20页
    2.4 其他技术介绍第20-22页
        2.4.1 Redis数据库第20页
        2.4.2 ZeroMQ介绍第20-22页
    2.5 本章总结第22-23页
第三章 Dis-Dyn Crawler爬虫系统的整体架构第23-33页
    3.1 分布式网络爬虫的工作原理第23-24页
    3.2 现有动态网络爬虫系统缺陷分析第24-25页
    3.3 Dis-Dyn Crawler架构设计及简介第25-31页
        3.3.1 动态页面解析的优化第25-27页
        3.3.2 异步页面下载第27-29页
        3.3.3 系统架构第29页
        3.3.4 模块介绍第29-30页
        3.3.5 系统的工作流程简介第30-31页
    3.4 本章总结第31-33页
第四章 Dis-Dyn Crawler爬虫系统具体实现第33-47页
    4.1 Dis-Dyn Crawler爬虫系统工作流程第33-36页
        4.1.1 Dis-Dyn Crawler详细设计图第33-34页
        4.1.2 Dis-Dyn Crawler工作流程第34-36页
    4.2 爬虫模块第36-39页
        4.2.1 爬虫模块的内部实现第36-37页
        4.2.2 异步页面下载器的实现第37-38页
        4.2.3 页面信息提取器的实现第38-39页
    4.3 路由模块第39-41页
        4.3.1 路由模块的内部实现第39-40页
        4.3.2 负载均衡算法策略第40-41页
    4.4 动态页面解析模块第41-45页
    4.5 本章总结第45-47页
第五章 Dis-Dyn Crawler爬虫系统实验分析第47-51页
    5.1 实验环境第47页
    5.2 Dis-Dyn Crawler实验分析第47-50页
        5.2.1 Dis-Dyn Crawler的测试方案设计第48页
        5.2.2 实验数据与分析第48-50页
    5.4 本章总结第50-51页
第六章 总结与展望第51-53页
    6.1 本文工作总结第51页
    6.2 进一步研究方向第51-53页
参考文献第53-57页
致谢第57-59页
攻读学位期间发表的学术论文第59页

论文共59页,点击 下载论文
上一篇:基于机器学习的网络安全态势预测方法的研究与实现
下一篇:基于单目视觉的障碍物测距算法研究