首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

单GPU及GPU异构集群的若干关键技术研究

目录第3-6页
图目录第6-9页
表目录第9-10页
摘要第10-12页
Abstract第12-14页
第1章 绪论第15-27页
    1.1 引言第15-17页
    1.2 研究背景及研究现状第17-21页
        1.2.1 流媒体处理应用领域的三大特性第17-19页
        1.2.2 数据级并行及其主流平台GPU成为程序设计新趋势第19-20页
        1.2.3 GPU异构集群成为分布式计算的新趋势第20-21页
    1.3 本文的主要研究内容第21-23页
    1.4 本文研究工作的创新点第23-24页
    1.5 本文组织结构第24-27页
第2章 单GPU及GPU异构集群概述第27-71页
    2.1 引言第27页
    2.2 单GPU的软硬件体系结构及其若干关键应用领域第27-66页
        2.2.1 GPU软硬件体系结构的演变历史第28-37页
        2.2.2 AMD GPU体系结构及AMD OpenCL编程框架第37-43页
        2.2.3 NVIDIA GPU硬件体系结构及其CUDA编程框架第43-53页
        2.2.4 两种GPU的软硬件体系结构对比第53-62页
        2.2.5 若干关键应用领域的数据级并行算法设计及实现概述第62-66页
    2.3 GPU异构集群的软硬件体系结构第66-71页
        2.3.1 传统集群编程框架第66页
        2.3.2 GPU异构集群的系统架构第66-68页
        2.3.3 GPU异构集群主流的底层混合编程框架第68-71页
第3章 数据级并行的奇偶合并和基数排序第71-97页
    3.1 引言第71-72页
    3.2 相关工作第72-73页
    3.3 桶划分预处理第73-76页
    3.4 奇偶合并排序算法及其数据级并行算法的设计与实现第76-86页
        3.4.1 奇偶合并排序概述第76-81页
        3.4.2 串行迭代算法直接实现为GPU内核程序时的问题第81-82页
        3.4.3 由主机程序控制迭代过程的并行化实现第82-84页
        3.4.4 基于桶划分预处理技术的并行化实现第84-86页
    3.5 基数排序算法及其数据级并行算法的设计与实现第86-92页
        3.5.1 基数排序概述第87页
        3.5.2 计数排序概述第87-92页
    3.6 实验结果与性能分析第92-96页
        3.6.1 实验的软硬件环境概述第92-93页
        3.6.2 奇偶合并排序第93-94页
        3.6.3 基数排序第94-96页
    3.7 总结与展望第96-97页
第4章 数据级并行的前条件和时序分析第97-117页
    4.1 引言第97-98页
    4.2 相关工作第98-99页
        4.2.1 并行化稀疏矩阵乘操作第98页
        4.2.2 并行化前条件操作第98-99页
        4.2.3 并行化SSTA算法第99页
    4.3 前条件和统计静态时序分析概述第99-102页
        4.3.1 矩阵条件数和前条件技术概述第99-101页
        4.3.2 统计静态时序分析第101-102页
    4.4 ELLH和ELLV稀疏矩阵存储格式第102-104页
        4.4.1 ELLH格式第102-103页
        4.4.2 ELLV格式第103-104页
    4.5 并行化CS操作第104-106页
    4.6 并行化BCS操作第106-109页
    4.7 实验结果与性能分析第109-114页
        4.7.1 基于ELLH格式和ELLV格式的CS操作第110-112页
        4.7.2 基于CPU和GPU的BCS操作的性能比较第112-114页
    4.8 总结与展望第114-117页
第5章 数据级并行的带状矩阵向量乘操作第117-129页
    5.1 引言第117页
    5.2 相关工作第117-118页
    5.3 带状矩阵结构及其压缩存储格式概述第118-119页
        5.3.1 带状矩阵结构第118-119页
        5.3.2 内存空间有效的压缩存储格式第119页
        5.3.3 带状矩阵和值矩阵之间的元素映射第119页
    5.4 带状矩阵向量乘操作的数据级并行化算法的设计及实现第119-123页
        5.4.1 BpMV操作的通用描述第119-120页
        5.4.2 基于压缩存储方案的串行BpMV算法第120页
        5.4.3 基于压缩存储方案和反对角顺序的并行BpMV算法第120-123页
    5.5 分支指令消除优化技术第123-125页
        5.5.1 带状矩阵及其压缩存储方案讨论第123-124页
        5.5.2 消除判定数组下标越界优化技术第124-125页
    5.6 实验结果与性能分析第125-126页
    5.7 总结与展望第126-129页
第6章 GPU异构集群的系统级任务调度第129-165页
    6.1 引言第129-130页
    6.2 相关工作第130-132页
        6.2.1 GPU异构集群的系统架构设计第130页
        6.2.2 GPU能够支持多个内核程序同时执行第130-131页
        6.2.3 任务调度策略第131-132页
    6.3 GPU异构集群的系统级模型第132-133页
        6.3.1 系统级模型第132-133页
    6.4 任务分类及其系统级数据结构第133-139页
        6.4.1 任务分类第134-137页
        6.4.2 系统级的任务及其数据结构第137-139页
    6.5 系统级任务调度策略及相应辅助算法第139-162页
        6.5.1 系统级任务调度策略概述第140页
        6.5.2 两个评估任务调度结果的参数定义第140-141页
        6.5.3 相应的任务打包和任务调度算法第141-162页
    6.6 系统级任务调度实例第162-164页
        6.6.1 GPU异构集群的实例及其节点信息第162页
        6.6.2 系统级任务数据级结构及任务调度过程第162-164页
    6.7 总结和展望第164-165页
第7章 DISPAR编程框架的设计及实现第165-193页
    7.1 引言第165页
    7.2 DISPAR顶层编程框架的研究背景第165-166页
    7.3 DISPAR顶层编程框架的基本思想和设计哲学第166-169页
        7.3.1 对程序设计和开发人员的易用性第167页
        7.3.2 应用程序性能的可扩展性和可移植性第167-168页
        7.3.3 应用程序代码的可重用性第168-169页
    7.4 DISPAR顶层编程框架的设计及实现第169-180页
        7.4.1 DISPAR顶层编程框架的系统模型第169-171页
        7.4.2 DISPAR顶层编程框架的自定义基本数据结构第171-174页
        7.4.3 DISPAR顶层编程框架工具集和相应的算法第174-180页
    7.5 相关工作第180-181页
    7.6 实验结果与性能分析第181-191页
        7.6.1 所部署的GPU异构集群的节点信息第181-182页
        7.6.2 VNODE的打包和调度过程第182-186页
        7.6.3 VNODE的分配结果与性能分析第186-191页
    7.7 总结与展望第191-193页
第8章 总结和展望第193-195页
    8.1 总结第193-194页
    8.2 展望第194-195页
参考文献第195-206页
致谢第206-208页
攻读博士期间发表(录用)论文情况第208-209页

论文共209页,点击 下载论文
上一篇:跨媒介使用中的女性文化传播--罗曼史网络社区文化现象研究
下一篇:长风社区中老年人群动脉粥样硬化及相关因素分析