摘要 | 第1-10页 |
ABSTRACT | 第10-11页 |
第一章 绪论 | 第11-18页 |
·课题背景及意义 | 第11-14页 |
·国内外研究现状及通用GPU数据处理模型 | 第14-16页 |
·研究现状 | 第14-15页 |
·通用 GPU 数据处理模式 | 第15-16页 |
·课题研究内容与成果 | 第16-17页 |
·本文结构 | 第17-18页 |
第二章 GPU体系结构及CUDA编程平台介绍 | 第18-34页 |
·引言 | 第18-21页 |
·GPU发展历程 | 第18-19页 |
·GPU计算模型 | 第19-20页 |
·GPU专业术语 | 第20-21页 |
·NVIDIA GPU体系结构介绍 | 第21-28页 |
·G80/GT200 体系结构介绍 | 第21-26页 |
·下一代体系结构Fermi前瞻 | 第26-28页 |
·CUDA编程平台概述 | 第28-32页 |
·CUDA编程模型 | 第29-30页 |
·CUDA存储模型 | 第30-32页 |
·CUDA 执行模型 | 第32页 |
·算法性能测试平台 | 第32-33页 |
·本章总结 | 第33-34页 |
第三章 基于CUDA的排序算法研究 | 第34-48页 |
·数组倒序问题 | 第34-36页 |
·局部排序 | 第36-42页 |
·奇偶排序算法 | 第36-38页 |
·枚举排序算法 | 第38-39页 |
·双调排序 | 第39-42页 |
·全局排序 | 第42-44页 |
·算法优化技术 | 第44-47页 |
·体冲突消除技术 | 第44-46页 |
·循环展开技术 | 第46-47页 |
·本章总结 | 第47-48页 |
第四章 基于CUDA的矩阵乘研究 | 第48-61页 |
·矩阵-向量乘法 | 第48-49页 |
·矩阵-向量算法介绍及其串行算法 | 第48页 |
·矩阵-向量乘法的并行实现 | 第48-49页 |
·矩阵乘算法应用映射 | 第49-58页 |
·适用GPU矩阵乘算法介绍 | 第50-51页 |
·矩阵乘纹理映射 | 第51-53页 |
·增大计算量对矩阵乘的性能影响 | 第53-54页 |
·矩阵乘算法改进 | 第54-55页 |
·预取技术对矩阵乘性能影响 | 第55-56页 |
·CUDA Visual Profiler矩阵乘分析 | 第56-58页 |
·异构任务划分模式的设计与实现 | 第58-60页 |
·本节小结 | 第60-61页 |
第五章 模拟器验证 | 第61-66页 |
·GPGPU-Sim模拟器介绍 | 第61-62页 |
·模拟器模拟 | 第62-65页 |
·SIMD分支处理模式 | 第62-63页 |
·CUDA分支处理模式 | 第63-64页 |
·矩阵乘改进技术模拟器模拟 | 第64-65页 |
·本章小结 | 第65-66页 |
第六章 结束语与工作展望 | 第66-68页 |
·课题工作总结 | 第66页 |
·工作展望 | 第66-68页 |
致谢 | 第68-69页 |
参考文献 | 第69-72页 |
作者在学期间取得的学术成果 | 第72页 |