首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

定向互联网站点数据爬虫及应用服务接口的设计与实现

摘要第5-6页
Abstract第6页
第一章 引言第12-20页
    1.1 项目背景第12页
    1.2 开发背景第12-13页
    1.3 本人工作第13页
    1.4 本文的解决方案第13-19页
        1.4.1 线程安全第13-14页
        1.4.2 双端队列第14-15页
        1.4.3 数据耦合第15-16页
        1.4.4 动态代理第16页
        1.4.5 定向爬虫第16-17页
        1.4.6 生产者-消费者模式第17-18页
        1.4.7 定期切库第18-19页
    1.5 本文的组织结构第19-20页
第二章 技术综述第20-27页
    2.1 爬虫模块第20-22页
        2.1.1 BeautifulSoup第20-21页
        2.1.2 Requests第21页
        2.1.3 Python threading第21-22页
        2.1.4 Python logging第22页
    2.2 Mysql数据库第22-23页
    2.3 后端服务模块第23-26页
        2.3.1 RESTful Webservice第23-24页
        2.3.2 Json第24页
        2.3.3 Gson第24-25页
        2.3.4 Tomcat第25页
        2.3.5 CXF Framework第25-26页
    2.4 本章小结第26-27页
第三章 系统分析与设计第27-42页
    3.1 项目总体规划第27页
    3.2 需求分析第27-29页
        3.2.1 爬虫模块需求第27-28页
        3.2.2 后端服务模块需求第28-29页
    3.3 系统总体设计第29-30页
    3.4 爬虫模块整体设计第30-36页
        3.4.1 定向设计第32-33页
        3.4.2 多线程第33页
        3.4.3 网络请求第33页
        3.4.4 代理队列第33-34页
        3.4.5 网页解析第34页
        3.4.6 两级爬虫体系第34-35页
        3.4.7 异常处理第35页
        3.4.8 数据持久化第35页
        3.4.9 定期切库第35-36页
        3.4.10 日志第36页
    3.5 后端服务模块整体设计第36-38页
        3.5.1 整体设计第36-37页
        3.5.2 商户API第37页
        3.5.3 雷达API第37-38页
        3.5.4 天气API第38页
        3.5.5 其他API第38页
    3.6 数据库设计第38-41页
        3.6.1 商户表第39-40页
        3.6.2 代理表第40页
        3.6.3 切库状态表第40-41页
    3.7 本章小结第41-42页
第四章 系统实现第42-66页
    4.1 爬虫模块具体实现第42-55页
        4.1.1 多线程第42-43页
        4.1.2 线程交互数据结构第43-44页
        4.1.3 网络请求第44-45页
        4.1.4 全局数据结构第45-47页
        4.1.5 网页解析第47-49页
        4.1.6 数据持久化第49-50页
        4.1.7 一级爬虫具体实现第50-52页
        4.1.8 二级爬虫具体实现第52-53页
        4.1.9 其他实现第53-54页
        4.1.10 模块启动入口第54-55页
    4.2 后端服务模块具体实现第55-65页
        4.2.1 商户API具体实现第56-58页
        4.2.2 雷达API具体实现第58页
        4.2.3 天气API具体实现第58-59页
        4.2.4 其他API具体实现第59-60页
        4.2.5 后端向外部信息源请求数据第60-61页
        4.2.6 缓存实现第61-63页
        4.2.7 切库实现第63-65页
    4.3 本章小结第65-66页
第五章 系统性能与优化第66-72页
    5.1 爬虫模块性能参数第66页
    5.2 后端服务模块性能参数第66-67页
    5.3 爬虫模块优化方案第67-70页
        5.3.1 线程数量配比合理化第67-68页
        5.3.2 拟人化的用户操作模拟第68页
        5.3.3 完善代码结构第68页
        5.3.4 断点继续第68-69页
        5.3.5 分布式爬虫第69-70页
    5.4 后端服务模块优化方案第70页
        5.4.1 框架选择第70页
        5.4.2 缓存服务器第70页
        5.4.3 安全性第70页
    5.5 本章小结第70-72页
第六章 总结与展望第72-73页
    6.1 总结第72页
    6.2 进一步工作展望第72-73页
参考文献第73-75页
致谢第75-76页
版权及论文原创性说明第76-77页

论文共77页,点击 下载论文
上一篇:东胜气田上古生界有利储层控制因素研究
下一篇:硫磺矿硫化叶菌Sso0660和Sso0661基因的表达与功能研究