首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于分布式爬虫的顶尖学者人才库系统的设计与实现

摘要第4-5页
Abstract第5-6页
第一章 绪论第15-25页
    1.1 研究背景第15-16页
        1.1.1 互联网中的学者信息第15-16页
        1.1.2 互联网中的学者人才库第16页
    1.2 网络爬虫研究现状第16-22页
        1.2.1 爬虫技术的研究第17-18页
        1.2.2 分布式爬虫的研究第18-19页
        1.2.3 高性能分布式爬虫的研究第19-20页
        1.2.4 增量型分布式爬虫的研究第20-22页
    1.3 研究的意义及贡献第22-23页
    1.4 论文结构安排第23-24页
    1.5 小结第24-25页
第二章 系统相关分布式爬虫技术第25-33页
    2.1 礼貌抓取,关于爬虫协议的研究第25-27页
        2.1.1 Robots协议的产生第25-26页
        2.1.2 Robots协议的遵守方式第26-27页
        2.1.3 Robots协议实践分析第27页
    2.2 分布式系统第27-32页
        2.2.1 分布式系统协同工作的方式第28-30页
        2.2.2 CAP问题第30-31页
        2.2.3 Zookeeper的节点管理第31-32页
    2.3 小结第32-33页
第三章 顶尖学者人才库系统需求分析与系统架构第33-43页
    3.1 顶尖学者人才库系统项目需求说明第33页
    3.2 顶尖学者人才库系统需求分析第33-35页
        3.2.1 学者数据的组成第33-34页
        3.2.2 学者数据收集方案第34-35页
        3.2.3 顶尖学者人才库系统第35页
    3.3 顶尖学者人才库系统总体架构设计第35-42页
        3.3.1 学者人才库系统架构图第35-37页
        3.3.2 学者人才库系统逻辑架构第37-38页
        3.3.3 学者人才库系统物理架构第38-39页
        3.3.4 学者人才库系统业务流程第39-42页
    3.4 小结第42-43页
第四章 顶尖学者人才库系统的模块设计与实现第43-73页
    4.1 系统模块介绍第43页
    4.2 配置模块第43-45页
        4.2.1 Zookeeper配置管理第43-44页
        4.2.2 SpringBoot自动化配置第44-45页
    4.3 下载模块第45-60页
        4.3.1 下载模块流程第45-46页
        4.3.2 多线程和线程池的使用第46-49页
        4.3.3 Kafka分布式消息队列第49-51页
        4.3.4 Kafka分区和重平衡机制下的爬虫任务第51-53页
        4.3.5 数据丢失和重复消费问题第53-54页
        4.3.6 哈希与布隆过滤器的对比第54-56页
        4.3.7 基于Redis数据库的去重方案第56-58页
        4.3.8 Redis数据库和多维布隆过滤器去重策略的使用第58-60页
    4.4 解析模块第60-62页
        4.4.1 数据解析第60-61页
        4.4.2 Jsoup的使用第61-62页
    4.5 存储模块第62-71页
        4.5.1 Redis内存数据库的使用第63页
        4.5.2 Redis数据库字段设计第63-65页
        4.5.3 MongoDB分布式存储数据库的使用第65-68页
        4.5.4 MongoDB数据库字段设计第68-71页
    4.6 前端展示模块第71页
    4.7 小结第71-73页
第五章 顶尖学者人才库系统的实验设计与结果第73-81页
    5.1 实验环境第73-75页
        5.1.1 环境参数第73-75页
    5.2 去重策略对内存占用率的影响实验与分析第75-78页
        5.2.1 冲突率测试第75-77页
        5.2.2 内存占用率测试第77-78页
        5.2.3 误判率测试第78页
    5.3 最优爬取排序方式实验第78-79页
    5.4 小结第79-81页
第六章 总结与展望第81-83页
    6.1 总结第81-82页
    6.2 展望第82-83页
参考文献第83-87页
攻读硕士学位期间发表论文及科研情况第87-89页
致谢第89页

论文共89页,点击 下载论文
上一篇:基于深度卷积神经网络的鲁棒人脸识别算法研究
下一篇:基于全卷积神经网络的人脸检测方法研究