首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

分布式在线图书爬虫系统的设计与实现

致谢第5-6页
摘要第6-7页
ABSTRACT第7页
1 引言第11-19页
    1.1 研究背景第11-13页
        1.1.1 爬虫介绍第12-13页
        1.1.2 爬虫和在线图书结合的意义第13页
    1.2 国内外研究现状第13-16页
        1.2.1 传统搜索引擎和垂直搜索引擎对比第13-15页
        1.2.2 开源爬虫发展研究第15-16页
    1.3 本论文研究内容和论文组织结构第16-17页
    1.4 本章小结第17-19页
2 相关技术介绍第19-31页
    2.1 爬取策略第19页
    2.2 Scrapy框架第19-21页
        2.2.1 Scrapy的组成第19页
        2.2.2 Scrapy数据处理流程第19-20页
        2.2.3 Scrapy架构的扩展第20-21页
    2.3 Redis数据库第21-24页
        2.3.1 Redis数据类型第22-23页
        2.3.2 Redis持久化第23-24页
    2.4 MongoDB数据库第24-27页
        2.4.1 Mon-DB分片第25-26页
        2.4.2 GridFS第26-27页
    2.5 Xpath第27页
    2.6 Graphite第27-28页
    2.7 Keepalived第28-29页
    2.8 本章小结第29-31页
3 分布式爬虫系统需求分析第31-39页
    3.1 爬虫的需求分析综述第31-32页
        3.1.1 产品特点分析第31页
        3.1.2 用户特征分析第31-32页
    3.2 系统功能性需求第32-36页
        3.2.1 调度器模块第32-33页
        3.2.2 URL爬取模块第33-34页
        3.2.3 流水线模块第34-35页
        3.2.4 监控模块第35-36页
    3.3 系统非功能性需求第36页
    3.4 爬虫系统的总体需求第36-37页
    3.5 本章小结第37-39页
4 分布式爬虫概要设计第39-47页
    4.1 设计目标第39页
    4.2 系统总体功能结构第39-40页
    4.3 系统技术实现架构第40-41页
    4.4 数据存储及使用第41-43页
    4.5 系统接口设计第43-45页
    4.6 本章小结第45-47页
5 分布式爬虫系统详细设计及实现第47-67页
    5.1 调度器模块设计和实现第47-55页
        5.1.1 URL去重子模块设计和实现第47-49页
        5.1.2 调度子模块设计和实现第49-55页
    5.2 URL爬取模块设计和实现第55-58页
        5.2.1 下载子模块设计和实现第55-57页
        5.2.2 解析子模块设计和实现第57-58页
    5.3 流水线模块设计和实现第58-63页
        5.3.1 文件流水线设计和实现第59-61页
        5.3.2 图片流水线设计和实现第61-62页
        5.3.3 详细信息流水线设计和实现第62-63页
    5.4 监控模块设计和实现第63-65页
        5.4.1 爬虫状态监控设计和实现第64页
        5.4.2 设备状态监控设计和实现第64-65页
    5.5 本章小结第65-67页
6 系统测试第67-71页
    6.1 单元测试第67页
    6.2 系统功能测试第67-68页
    6.3 性能测试第68-71页
7 结论第71-73页
    7.1 全文总结第71页
    7.2 不足和展望第71-73页
参考文献第73-75页
附录A第75-77页
附录B第77-79页
附录C第79-81页
附录D第81-83页
附录E第83-85页
附录F第85-87页
附录G第87-89页
附录H第89-91页
附录I第91-93页
作者简历第93-97页
学位论文数据集第97页

论文共97页,点击 下载论文
上一篇:基于个人电脑的比特币数据统计系统
下一篇:基于深度学习的图像分类算法研究