基于Hadoop的图书采集与存储应用系统的设计与实现

中文摘要	第10-11页
ABSTRACT	第11-12页
第一章绪论	第13-19页
1.1 课题研究背景及意义	第13-14页
1.2 国内外研究现状	第14-15页
1.2.1 网络爬虫技术研究现状	第14-15页
1.2.2 Hadoop平台研究现状	第15页
1.3 研究的主要内容	第15-16页
1.4 研究成果	第16页
1.5 论文结构	第16-19页
第二章图书采集与存储应用系统相关理论与技术研究	第19-27页
2.1 网络爬虫相关技术介绍	第19-21页
2.1.1 网络爬虫的工作原理	第19-20页
2.1.2 Web页面构成介绍	第20页
2.1.3 DOM树介绍	第20-21页
2.2 Hadoop平台介绍	第21-26页
2.2.1 分布式文件系统HDFS	第21-25页
2.2.2 并行编程模型MapReduce	第25-26页
2.3 本章小结	第26-27页
第三章系统需求分析	第27-31页
3.1 系统目标	第27页
3.2 系统功能需求	第27-30页
3.2.1 系统功能模块	第27-28页
3.2.2 系统用例分析	第28-30页
3.3 系统非功能性需求	第30页
3.3.1 系统性能需求	第30页
3.3.2 系统易用性需求	第30页
3.4 本章小结	第30-31页
第四章系统设计	第31-51页
4.1 系统总体设计	第31-32页
4.2 基于Jsoup的图书采集模块设计	第32-43页
4.2.1 URL结构分析	第32-35页
4.2.2 网页去噪	第35-37页
4.2.3 图书信息采集规则定义	第37页
4.2.4 数据清洗设计	第37-40页
4.2.5 图书信息抽取执行设计	第40-41页
4.2.6 图书信息整合设计	第41-43页
4.3 分布式图书管理模块设计	第43-45页
4.3.1 HDFS的启动设计	第43-44页
4.3.2 状态信息	第44页
4.3.3 心跳协议	第44-45页
4.3.4 数据存储策略设计	第45页
4.4 个人书房管理模块设计	第45-46页
4.5 数据库设计	第46-50页
4.5.1 概念结构设计	第46-48页
4.5.2 物理结构设计	第48-50页
4.6 本章小结	第50-51页
第五章系统实现	第51-61页
5.1 系统开发环境	第51页
5.2 集群运行环境配置	第51-53页
5.3 系统功能模块实现	第53-57页
5.3.1 图书采集模块	第53-55页
5.3.2 分布式图书管理模块	第55页
5.3.3 个人书房管理模块	第55-57页
5.4 系统测试	第57-59页
5.4.1 测试方法	第57-58页
5.4.2 功能测试	第58页
5.4.3 性能测试	第58-59页
5.5 本章小结	第59-61页
第六章总结与展望	第61-63页
6.1 总结	第61页
6.2 展望	第61-63页
参考文献	第63-65页
攻读学位期间取得的研究成果	第65-67页
致谢	第67-69页
个人简况及联系方式	第69-73页