基于Spark的分布式协同过滤及工具研究
摘要 | 第4-6页 |
Abstract | 第6-7页 |
1 绪论 | 第12-22页 |
1.1 研究背景 | 第13页 |
1.2 国内外研究现状 | 第13-19页 |
1.2.1 分布式计算 | 第14-17页 |
1.2.2 推荐算法 | 第17-19页 |
1.3 本文工作与内容组织 | 第19-22页 |
2 相关技术 | 第22-44页 |
2.1 分布式计算技术 | 第22-33页 |
2.1.1 Hadoop分布式文件系统 | 第23-27页 |
2.1.2 Hadoop MapReduce框架 | 第27-31页 |
2.1.3 Spark计算引擎 | 第31-33页 |
2.2 协同过滤算法 | 第33-43页 |
2.2.1 基于内存的协同过滤 | 第34-40页 |
2.2.2 基于矩阵分解的协同过滤 | 第40-42页 |
2.2.3 推荐算法的性能指标 | 第42-43页 |
2.3 本章小结 | 第43-44页 |
3 基于Spark的分布式协同过滤 | 第44-60页 |
3.1 Spark算法复杂度分析 | 第44-48页 |
3.1.1 现有工作 | 第44-47页 |
3.1.2 基于Spark的复杂性度量指标 | 第47-48页 |
3.2 基于内存的协同过滤算法 | 第48-52页 |
3.3 基于矩阵分解的协同过滤算法 | 第52-56页 |
3.3.1 基于奇异值分解的模型 | 第52-54页 |
3.3.2 基于ALS矩阵分解的模型 | 第54-56页 |
3.4 对比分析 | 第56-59页 |
3.4.1 复杂性分析 | 第56-57页 |
3.4.2 实验分析 | 第57-59页 |
3.5 本章小结 | 第59-60页 |
4 基于Spark的分布式数据挖掘工具箱 | 第60-76页 |
4.1 需求与目标 | 第60-61页 |
4.2 架构设计 | 第61-72页 |
4.2.1 组件定义模块 | 第63-65页 |
4.2.2 组件发现模块 | 第65-67页 |
4.2.3 Spark组件模块 | 第67页 |
4.2.4 挖掘算法模块 | 第67-69页 |
4.2.5 作业定义模块 | 第69-70页 |
4.2.6 作业运行模块 | 第70页 |
4.2.7 主模块 | 第70-72页 |
4.3 协同过滤应用示例 | 第72-73页 |
4.3.1 组件化 | 第72页 |
4.3.2 作业定义与运行 | 第72-73页 |
4.4 关键技术 | 第73-75页 |
4.5 本章小结 | 第75-76页 |
5 总结与展望 | 第76-78页 |
5.1 总结 | 第76-77页 |
5.2 展望 | 第77-78页 |
参考文献 | 第78-84页 |
致谢 | 第84-86页 |
简历与科研成果 | 第86-87页 |