基于分布式爬虫的顶尖学者人才库系统的设计与实现

摘要	第4-5页
Abstract	第5-6页
第一章绪论	第15-25页
1.1 研究背景	第15-16页
1.1.1 互联网中的学者信息	第15-16页
1.1.2 互联网中的学者人才库	第16页
1.2 网络爬虫研究现状	第16-22页
1.2.1 爬虫技术的研究	第17-18页
1.2.2 分布式爬虫的研究	第18-19页
1.2.3 高性能分布式爬虫的研究	第19-20页
1.2.4 增量型分布式爬虫的研究	第20-22页
1.3 研究的意义及贡献	第22-23页
1.4 论文结构安排	第23-24页
1.5 小结	第24-25页
第二章系统相关分布式爬虫技术	第25-33页
2.1 礼貌抓取,关于爬虫协议的研究	第25-27页
2.1.1 Robots协议的产生	第25-26页
2.1.2 Robots协议的遵守方式	第26-27页
2.1.3 Robots协议实践分析	第27页
2.2 分布式系统	第27-32页
2.2.1 分布式系统协同工作的方式	第28-30页
2.2.2 CAP问题	第30-31页
2.2.3 Zookeeper的节点管理	第31-32页
2.3 小结	第32-33页
第三章顶尖学者人才库系统需求分析与系统架构	第33-43页
3.1 顶尖学者人才库系统项目需求说明	第33页
3.2 顶尖学者人才库系统需求分析	第33-35页
3.2.1 学者数据的组成	第33-34页
3.2.2 学者数据收集方案	第34-35页
3.2.3 顶尖学者人才库系统	第35页
3.3 顶尖学者人才库系统总体架构设计	第35-42页
3.3.1 学者人才库系统架构图	第35-37页
3.3.2 学者人才库系统逻辑架构	第37-38页
3.3.3 学者人才库系统物理架构	第38-39页
3.3.4 学者人才库系统业务流程	第39-42页
3.4 小结	第42-43页
第四章顶尖学者人才库系统的模块设计与实现	第43-73页
4.1 系统模块介绍	第43页
4.2 配置模块	第43-45页
4.2.1 Zookeeper配置管理	第43-44页
4.2.2 SpringBoot自动化配置	第44-45页
4.3 下载模块	第45-60页
4.3.1 下载模块流程	第45-46页
4.3.2 多线程和线程池的使用	第46-49页
4.3.3 Kafka分布式消息队列	第49-51页
4.3.4 Kafka分区和重平衡机制下的爬虫任务	第51-53页
4.3.5 数据丢失和重复消费问题	第53-54页
4.3.6 哈希与布隆过滤器的对比	第54-56页
4.3.7 基于Redis数据库的去重方案	第56-58页
4.3.8 Redis数据库和多维布隆过滤器去重策略的使用	第58-60页
4.4 解析模块	第60-62页
4.4.1 数据解析	第60-61页
4.4.2 Jsoup的使用	第61-62页
4.5 存储模块	第62-71页
4.5.1 Redis内存数据库的使用	第63页
4.5.2 Redis数据库字段设计	第63-65页
4.5.3 MongoDB分布式存储数据库的使用	第65-68页
4.5.4 MongoDB数据库字段设计	第68-71页
4.6 前端展示模块	第71页
4.7 小结	第71-73页
第五章顶尖学者人才库系统的实验设计与结果	第73-81页
5.1 实验环境	第73-75页
5.1.1 环境参数	第73-75页
5.2 去重策略对内存占用率的影响实验与分析	第75-78页
5.2.1 冲突率测试	第75-77页
5.2.2 内存占用率测试	第77-78页
5.2.3 误判率测试	第78页
5.3 最优爬取排序方式实验	第78-79页
5.4 小结	第79-81页
第六章总结与展望	第81-83页
6.1 总结	第81-82页
6.2 展望	第82-83页
参考文献	第83-87页
攻读硕士学位期间发表论文及科研情况	第87-89页
致谢	第89页