多源数据采集与分析系统的设计与实现

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第10-16页
1.1 研究的重要性	第10-11页
1.2 数据分析系统的国内外研究现状	第11-14页
1.3 自己做的主要工作	第14页
1.4 本文组织结构	第14-16页
第二章系统调研与技术规划	第16-25页
2.1 目标数据分析的现状	第16-18页
2.1.1 原始数据样例	第16-17页
2.1.2 业务现状调查	第17-18页
2.2 需求分析	第18-19页
2.3 技术选型与系统架构	第19-24页
2.3.1 CAP定理	第20-23页
2.3.1.1 CA分布式系统	第20-22页
2.3.1.2 CP分布式系统	第22-23页
2.3.1.3 AP分布式系统	第23页
2.3.2 复合数据架构	第23-24页
2.4 本章小结	第24-25页
第三章多源数据的ETL设计和实现	第25-59页
3.1 设计前的准备	第25-30页
3.1.1 多源数据的逻辑结构	第25-26页
3.1.2 数据仓库和ETL	第26-28页
3.1.3 HADOOP框架分析	第28-30页
3.2 原始数据的ETL	第30-47页
3.2.1 采集原始数据	第30-31页
3.2.2 原始数据的五元组模型	第31-33页
3.2.3 原始数据装载到HADOOP	第33-36页
3.2.3.1 用FILESYSTEM API装载原始文件到HDFS	第33-35页
3.2.3.2 用HIVEQL装载原始数据到HIVE	第35-36页
3.2.4 用MAP-REDUCE实现五元组模型	第36-40页
3.2.5 五元组数据装载到SQL SERVER	第40-47页
3.2.5.1 SQL SERVER的大容量导入	第40-41页
3.2.5.2 文件发现和装载	第41-43页
3.2.5.3 优化BULK INSERT	第43-45页
3.2.5.4 冷热数据分区	第45-47页
3.3 IP地址库数据的ETL	第47-58页
3.3.1 三层IP地址库数据模型	第47-52页
3.3.1.1 IP地址定位原理	第47-48页
3.3.1.2 地理元数据库	第48-49页
3.3.1.3 三层IP地址库模型	第49-52页
3.3.2 全球IP库的ETL	第52-55页
3.3.3 分布式级联IP地理信息采集	第55-58页
3.4 本章小结	第58-59页
第四章数据呈现与业务系统	第59-67页
4.1 用户的数据权限和功能权限	第59-61页
4.2 数据的二次分析	第61-63页
4.2.1 二次数据归并	第61-62页
4.2.2 输出报告	第62页
4.2.3 IP仲裁	第62-63页
4.3 数据可视化	第63-66页
4.4 本章小结	第66-67页
第五章全文总结与展望	第67-69页
5.1 全文总结	第67-68页
5.2 未来展望	第68-69页
致谢	第69-70页
参考文献	第70页