基于Spark的海量数据计算平台设计与实现

摘要	第4-5页
Abstract	第5页
1 绪论	第9-15页
1.1 平台技术背景	第9-11页
1.1.1 海量数据计算技术背景	第9-10页
1.1.2 Webx框架技术背景	第10-11页
1.2 平台技术现状	第11-13页
1.2.1 Hadoop和Spark技术现状	第11-12页
1.2.2 Web框架技术现状	第12-13页
1.2.3 海量数据计算平台技术现状	第13页
1.3 本文的组织结构	第13-14页
1.4 本文的主要工作	第14-15页
2 相关技术和工具	第15-24页
2.1 分布式计算框架Spark	第15-18页
2.1.1 分布式文件系统HDFS	第15-16页
2.1.2 弹性分布式数据集RDD	第16-18页
2.1.3 机器学习算法库MLlib	第18页
2.2 Webx技术原理	第18-22页
2.2.1 SpringExt	第19-20页
2.2.2 Webx Framework	第20-22页
2.2.3 Webx Turbine	第22页
2.3 Secure Shell	第22-24页
3 需求分析	第24-29页
3.1 设计目标	第24-25页
3.2 功能需求	第25-27页
3.2.1 Spark图形化操作	第26页
3.2.2 海量数据存储管理	第26页
3.2.3 传统机器学习算法迁移	第26页
3.2.4 算法自定义	第26页
3.2.5 结果可视化分析	第26页
3.2.6 留言板反馈Bug	第26-27页
3.3 安全需求	第27-28页
3.3.1 权限机制	第27页
3.3.2 数据安全	第27-28页
3.4 性能需求	第28页
3.4.1 平台稳定性	第28页
3.4.2 平台处理速度	第28页
3.5 可行性分析	第28-29页
4 平台设计	第29-42页
4.1 总体设计	第29-31页
4.1.1 平台处理流程	第29-30页
4.1.2 平台逻辑结构	第30-31页
4.2 平台功能模块设计	第31-32页
4.3 数据库设计	第32-36页
4.3.1 概念设计	第32-33页
4.3.2 逻辑视图	第33-35页
4.3.3 XML文档设计	第35-36页
4.4 详细设计	第36-42页
4.4.1 算法信息模块	第36-37页
4.4.2 海量数据存储模块	第37-38页
4.4.3 海量数据运算模块	第38-40页
4.4.4 可视化分析模块	第40-42页
5 平台实现与测试	第42-58页
5.1 平台开发环境	第42-43页
5.2 平台实现	第43-52页
5.2.1 算法信息模块	第43-46页
5.2.2 海量数据存储模块	第46-48页
5.2.3 海量数据运算模块	第48-51页
5.2.4 可视化分析模块	第51-52页
5.3 平台测试	第52-58页
5.3.1 自定义算法测试	第52-53页
5.3.2 数据上传测试	第53-54页
5.3.3 算法运行测试	第54-55页
5.3.4 可视化分析测试	第55-56页
5.3.5 平台计算性能测试	第56-58页
结论	第58-60页
参考文献	第60-62页
致谢	第62-63页