基于Hive的离线数据处理方法与实现
摘要 | 第5-6页 |
Abstract | 第6页 |
本论文缩略词表 | 第9-10页 |
第1章 绪论 | 第10-18页 |
1.1 研究背景 | 第10-11页 |
1.2 研究目的及意义 | 第11-12页 |
1.3 国内外研究现状 | 第12-16页 |
1.4 研究内容 | 第16页 |
1.5 论文内容组织 | 第16-18页 |
第2章 定时任务触发下的任务模板执行框架 | 第18-23页 |
2.1 采用定时任务触发数据处理作业 | 第18页 |
2.2 建立并发控制组解决作业间的数据依赖问题 | 第18-19页 |
2.3 抽象任务模板简化数据处理流程 | 第19-21页 |
2.4 引入数据静止时间消除数据处理误差 | 第21-22页 |
2.5 本章小结 | 第22-23页 |
第3章 基于Hive的离线数据处理方法设计 | 第23-41页 |
3.1 总体架构设计 | 第23-25页 |
3.2 概要设计 | 第25-27页 |
3.2.1 源数据采集与预处理 | 第25页 |
3.2.2 数据处理模板 | 第25-26页 |
3.2.3 数据提炼与配置刷新 | 第26页 |
3.2.4 恶意欺诈行为分析 | 第26页 |
3.2.5 更新适配 | 第26-27页 |
3.3 源数据采集与预处理详细设计 | 第27-29页 |
3.3.1 Flume安装与配置 | 第27-28页 |
3.3.2 采集结果预处理 | 第28-29页 |
3.4 数据处理模板详细设计 | 第29-35页 |
3.4.1 流程框架设计 | 第29-33页 |
3.4.2 模板的归纳与设计 | 第33-34页 |
3.4.3 数据依赖和并发控制 | 第34-35页 |
3.5 数据提炼与配置刷新详细设计 | 第35-36页 |
3.5.1 过期数据清理 | 第35页 |
3.5.2 物化视图刷新 | 第35-36页 |
3.5.3 分区表扩展 | 第36页 |
3.6 恶意欺诈行为分析详细设计 | 第36-39页 |
3.6.1 神经网络模型的确立 | 第36-37页 |
3.6.2 训练数据集的获取 | 第37-38页 |
3.6.3 初始化学习 | 第38页 |
3.6.4 定期再学习 | 第38-39页 |
3.7 更新适配详细设计 | 第39-40页 |
3.8 本章小结 | 第40-41页 |
第4章 基于Hive的离线数据处理方法实现 | 第41-55页 |
4.1 环境部署 | 第41-42页 |
4.2 源数据采集与预处理的配置实现 | 第42-43页 |
4.3 数据处理模板执行的编码实现 | 第43-46页 |
4.3.1 数据库实现 | 第43页 |
4.3.2 定时任务和模板处理的实现 | 第43-46页 |
4.4 数据提炼与配置刷新的编码实现 | 第46-48页 |
4.5 恶意欺诈行为分析的编码实现 | 第48-49页 |
4.5.1 初始化学习过程的实现 | 第48页 |
4.5.2 周期性再学习的实现 | 第48-49页 |
4.6 更新适配实现 | 第49-50页 |
4.7 引入论文方法后对系统性能的提升分析 | 第50-54页 |
4.7.1 查询等待时间缩短 | 第51-53页 |
4.7.2 数据空间占用效率提升 | 第53-54页 |
4.8 本章小结 | 第54-55页 |
第5章 总结与展望 | 第55-57页 |
5.1 总结 | 第55页 |
5.2 展望 | 第55-57页 |
致谢 | 第57-58页 |
参考文献 | 第58-59页 |