面向工业大数据的分布式ETL系统的设计与实现

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第9-13页
1.1 研究背景和意义	第9-10页
1.2 国内外研究现状	第10-11页
1.3 论文研究的主要内容	第11-12页
1.4 论文组织结构	第12-13页
第二章相关技术研究	第13-22页
2.1 MapReduce简介	第13-15页
2.1.1 MapReduce体系结构	第13页
2.1.2 MapReduce工作流程	第13-15页
2.1.3 MapReduce容错机制	第15页
2.2 HDFS简介	第15-16页
2.2.1 HDFS的体系结构	第15-16页
2.2.2 HDFS的容错机制	第16页
2.3 Hive简介	第16-18页
2.3.1 Hive简介	第16-17页
2.3.2 Hive数据管理	第17-18页
2.4 Spark简介	第18-19页
2.4.1 Spark简介	第18页
2.4.2 Spark Streaming简介	第18-19页
2.5 Redis简介	第19-20页
2.5.1 Redis简介	第19页
2.5.2 Redis特性	第19页
2.5.3 Redis的Pub/Sub功能	第19-20页
2.6 ETL	第20-21页
2.6.1 数据抽取	第20-21页
2.6.2 数据转换	第21页
2.6.3 数据加载	第21页
2.7 本章小结	第21-22页
第三章分布式ETL系统的设计	第22-40页
3.1 分布式ETL系统的设计目标	第22-23页
3.2 分布式ETL系统的整体架构	第23-25页
3.3 数据抽取模块	第25-31页
3.3.1 变更数据的捕获	第25-27页
3.3.2 差异数据的同步	第27-28页
3.3.3 实时数据的抽取	第28-29页
3.3.4 数据抽取器	第29-31页
3.4 数据转换模块	第31-36页
3.4.1 批处理层	第31-35页
3.4.2 加速层	第35-36页
3.5 数据加载模块	第36-39页
3.5.1 Sqoop数据导出	第36页
3.5.2 HDFS客户端导出文件	第36-37页
3.5.3 数据加载器	第37-39页
3.6 本章小结	第39-40页
第四章分布式ETL系统的实现	第40-58页
4.1 数据抽取模块的实现	第40-48页
4.1.1 抽取方案	第40-45页
4.1.2 抽取器的实现	第45-48页
4.2 数据转换模块的实现	第48-50页
4.3 数据加载模块的实现	第50-57页
4.3.1 加载工具	第50-54页
4.3.2 加载器的实现	第54-57页
4.4 本章小结	第57-58页
第五章分布式ETL系统的实验与分析	第58-65页
5.1 测试方案	第58页
5.2 测试环境	第58-60页
5.2.1 硬件配置	第58-60页
5.2.2 软件配置	第60页
5.3 功能测试	第60-61页
5.4 性能测试	第61-64页
5.5 本章小结	第64-65页
结束语	第65-66页
参考文献	第66-68页
发表文章	第68-69页
致谢	第69页