摘要 | 第4-6页 |
ABSTRACT | 第6-8页 |
第一章 绪论 | 第18-39页 |
1.1 研究背景与概况 | 第18-26页 |
1.1.1 大数据技术发展背景 | 第18-19页 |
1.1.2 大数据处理技术概述 | 第19-21页 |
1.1.3 大数据处理技术的发展历史 | 第21-26页 |
1.2 大数据处理关键技术及其发展现状 | 第26-34页 |
1.2.1 大数据处理技术栈及其处理框架 | 第26-28页 |
1.2.2 大数据分布式存储管理技术与系统 | 第28-31页 |
1.2.3 大数据并行化计算技术与系统 | 第31-33页 |
1.2.4 大数据分析方法、算法与系统 | 第33-34页 |
1.3 大数据处理技术存在的问题与不足 | 第34-35页 |
1.4 本文的研究内容和主要工作 | 第35-37页 |
1.4.1 大数据分布式存储技术与系统研究 | 第36页 |
1.4.2 主流大数据并行计算系统性能优化研究 | 第36页 |
1.4.3 并行化分析方法与算法研究 | 第36-37页 |
1.4.4 大数据机器学习与数据分析编程模型与系统研究 | 第37页 |
1.5 本文组织结构 | 第37-39页 |
第二章 大数据分布式存储技术与系统研究 | 第39-82页 |
2.1 研究背景与内容概述 | 第39-40页 |
2.2 分层式大数据存储系统缓存调度策略与性能优化 | 第40-56页 |
2.2.1 研究背景与问题 | 第40-42页 |
2.2.2 数据访问模式与缓存调度框架 | 第42-45页 |
2.2.3 缓存调度策略的设计与实现 | 第45-50页 |
2.2.4 缓存调度策略性能评估 | 第50-55页 |
2.2.5 相关工作 | 第55-56页 |
2.2.6 小结 | 第56页 |
2.3 通用化分布式文件系统性能测试方法与系统 | 第56-66页 |
2.3.1 研究背景与问题 | 第56-57页 |
2.3.2 性能测试框架与系统 | 第57-61页 |
2.3.3 实验与性能评估 | 第61-66页 |
2.3.4 相关工作 | 第66页 |
2.3.5 小结 | 第66页 |
2.4 大规模RDF语义数据存储管理技术与系统 | 第66-81页 |
2.4.1 研究背景与问题 | 第66-67页 |
2.4.2 背景知识 | 第67-69页 |
2.4.3 RDF数据索引机制与索引数据存放策略 | 第69-72页 |
2.4.4 系统架构设计与查询处理流程 | 第72-76页 |
2.4.5 实验与性能评估 | 第76-80页 |
2.4.6 相关工作 | 第80页 |
2.4.7 小结 | 第80-81页 |
2.5 本章小结 | 第81-82页 |
第三章 主流大数据并行计算系统性能优化研究 | 第82-105页 |
3.1 研究背景与内容概述 | 第82页 |
3.2 Hadoop MapReduce短作业执行性能优化 | 第82-100页 |
3.2.1 研究背景与问题 | 第82-83页 |
3.2.2 Hadoop作业调度和执行流程分析 | 第83-87页 |
3.2.3 MapReduce作业与任务调度和执行机制优化 | 第87-90页 |
3.2.4 性能评估 | 第90-98页 |
3.2.5 相关工作 | 第98-99页 |
3.2.6 小结 | 第99-100页 |
3.3 Spark RDD内存存储机制优化方法研究与实现 | 第100-103页 |
3.3.1 研究背景与问题 | 第100-101页 |
3.3.2 基于JVM堆外存储技术的Spark RDD内存存储机制优化 | 第101-102页 |
3.3.3 优化效果验证 | 第102-103页 |
3.3.4 小结 | 第103页 |
3.4 本章小结 | 第103-105页 |
第四章 大数据分析并行化算法研究 | 第105-141页 |
4.1 研究背景与内容概述 | 第105页 |
4.2 大规模神经网络训练并行化算法与计算平台 | 第105-119页 |
4.2.1 研究背景与问题 | 第105-106页 |
4.2.2 神经网络训练算法 | 第106-108页 |
4.2.3 神经网络并行化训练方法与计算框架 | 第108-111页 |
4.2.4 系统总体设计与实现 | 第111-113页 |
4.2.5 性能评估 | 第113-118页 |
4.2.6 相关工作 | 第118页 |
4.2.7 小结 | 第118-119页 |
4.3 基于K-Means直方图近似的大规模GBRT并行化训练算法 | 第119-130页 |
4.3.1 研究背景与问题 | 第119页 |
4.3.2 基于K-Means直方图近似的GBRT并行化训练算法 | 第119-124页 |
4.3.3 性能评估 | 第124-128页 |
4.3.4 相关工作 | 第128-129页 |
4.3.5 小结 | 第129-130页 |
4.4 大规模语义网的并行化推理算法与系统 | 第130-140页 |
4.4.1 研究背景与问题 | 第130页 |
4.4.2 基于Spark的并行化RDFS规则推理技术和算法 | 第130-132页 |
4.4.3 基于Spark的并行化OWL推理技术和算法 | 第132-134页 |
4.4.4 性能评估 | 第134-139页 |
4.4.5 相关工作 | 第139-140页 |
4.4.6 小结 | 第140页 |
4.5 本章小结 | 第140-141页 |
第五章 大数据机器学习与数据分析编程模型与系统 | 第141-176页 |
5.1 研究背景与问题 | 第141-146页 |
5.1.1 研究背景 | 第141-142页 |
5.1.2 大数据机器学习的基本特征 | 第142-143页 |
5.1.3 主要研究问题 | 第143-144页 |
5.1.4 主要研究现状 | 第144-145页 |
5.1.5 本章主要研究工作 | 第145-146页 |
5.2 大数据机器学习与数据分析编程模型与系统框架 | 第146-148页 |
5.2.1 基于矩阵模型的统一编程模型与接口 | 第146页 |
5.2.2 统一大数据机器学习系统模型与编程框架 | 第146-148页 |
5.3 基于分布式平台的大规模矩阵并行化运算 | 第148-156页 |
5.3.1 分布式矩阵乘法执行策略 | 第148-151页 |
5.3.2 分布式矩阵并行化乘法优化 | 第151-153页 |
5.3.3 实验设计与结果分析 | 第153-156页 |
5.4 矩阵计算流图优化与底层计算平台选择 | 第156-167页 |
5.4.1 矩阵计算流图的构建与计算 | 第156-157页 |
5.4.2 矩阵计算流图的等价转换优化 | 第157-160页 |
5.4.3 多计算平台的调度与选择优化 | 第160-162页 |
5.4.4 性能评估 | 第162-167页 |
5.5 跨平台统一大数据机器学习与数据分析系统的设计与实现 | 第167-174页 |
5.5.1 系统总体构架 | 第167-168页 |
5.5.2 系统主要功能与模块设计实现 | 第168-170页 |
5.5.3 系统基本操作使用与编程示例 | 第170-173页 |
5.5.4 Octopus系统技术特征总结 | 第173-174页 |
5.6 相关工作 | 第174页 |
5.7 本章小结 | 第174-176页 |
第六章 总结与展望 | 第176-178页 |
6.1 工作总结 | 第176-177页 |
6.2 进一步的工作与研究展望 | 第177-178页 |
参考文献 | 第178-187页 |
致谢 | 第187-189页 |
攻读博士期间发表及录用文章列表 | 第189-190页 |
攻读博士期间对主流开源或业界大数据系统重要贡献 | 第190-191页 |
攻读博士期间参研项目列表 | 第191页 |
攻读博士期间获奖情况列表 | 第191-192页 |