基于Spark的机器学习模型分析与研究

摘要	第5-7页
Abstract	第7-8页
第一章绪论	第12-20页
1.1 研究背景	第12-14页
1.2 研究现状	第14-17页
1.3 课题研究目的及意义	第17页
1.4 本文主要工作及文章结构	第17-20页
第二章数据处理与DStreams模型	第20-36页
2.1 RDD与Spark	第20-21页
2.2 流数据处理	第21-26页
2.3 离散流-DStreams	第26-34页
2.3.1 计算模型	第26-29页
2.3.2 时序方面的考虑	第29-30页
2.3.3 DStream API	第30-32页
2.3.4 一致性语义	第32页
2.3.5 批处理与交互式处理的统一	第32-34页
2.4 本章小结	第34-36页
第三章模型整体研究与设计	第36-44页
3.1 HA (High Available)平台	第36页
3.2 Spark架构思路	第36-38页
3.3 Spark Streaming流式计算框架	第38-42页
3.4 模型整体设计	第42-43页
3.5 本章小结	第43-44页
第四章机器学习模型设计与实现	第44-58页
4.1 HA平台配置	第44-47页
4.1.1 基于QJM(Quorum Journal Manager)配置HA原理	第44-45页
4.1.2 环境配置说明	第45-46页
4.1.3 修改Zookeeper配置过程	第46-47页
4.2 模型设计原则	第47页
4.2.1 实用性	第47页
4.2.2 并行优化	第47页
4.3 基于Spark的并行KMeans聚类模型	第47-52页
4.3.1 KMeans算法	第48页
4.3.2 KMeans算法的并行化	第48-52页
4.4 基于Spark Streaming的在线KMeans聚类模型	第52-54页
4.4.1 KMeans聚类算法原理	第52-53页
4.4.2 基于Spark Streaming的在线KMeans模型实现	第53-54页
4.5 基于Spark的ALS协同过滤模型研究	第54-57页
4.5.1 ALS协同过滤算法	第55-56页
4.5.2 基于Spark的ALS协同过滤算法并行化实现	第56-57页
4.6 本章小结	第57-58页
第五章机器学习模型评估	第58-70页
5.1 模型评估指标	第58-60页
5.1.1 平均运行时间	第58页
5.1.2 加速比	第58-59页
5.1.3 可扩展性	第59页
5.1.4 吞吐量	第59-60页
5.2 实验环境	第60页
5.3 模型评估	第60-67页
5.3.1 基于Spark的并行KMeans聚类模型评估	第60-63页
5.3.2 基于Spark Streaming的在线KMeans聚类模型评估	第63-65页
5.3.3 基于Spark的ALS协同过滤模型评估	第65-67页
5.4 本章小结	第67-70页
第六章总结与展望	第70-72页
6.1 总结	第70页
6.2 展望	第70-72页
致谢	第72-74页
参考文献	第74-80页
附录A: 攻读硕士学位期间发表论文	第80-82页
附录B: 攻读硕士学位期间参与科研项目	第82页