摘要 | 第1-14页 |
Abstract | 第14-16页 |
第一章 绪论 | 第16-38页 |
·研究背景 | 第16-21页 |
·多(众)核处理器的发展趋势 | 第16-18页 |
·GPU 在通用计算领域中的应用和发展 | 第18-21页 |
·课题来源 | 第21页 |
·课题动机 | 第21-26页 |
·GPGPU 为高性能计算领域带来的机遇 | 第21-24页 |
·GPGPU 在高性能计算领域中面临的挑战 | 第24-26页 |
·国内外相关研究工作 | 第26-34页 |
·多(众)核体系结构设计探索 | 第26-30页 |
·GPGPU 应用映射及性能优化技术研究 | 第30-31页 |
·GPU 编程语言及编译技术研究 | 第31-34页 |
·研究内容 | 第34-38页 |
·主要工作及技术创新 | 第34-35页 |
·论文结构 | 第35-38页 |
第二章 GPGPU 体系结构及开发平台 | 第38-56页 |
·图形处理器发展历程 | 第38-39页 |
·基于 GPU 的通用计算技术研究 | 第39-42页 |
·基于可编程 GPU 的 GPGPU 应用研究 | 第39-41页 |
·基于统一架构 GPU 的 GPGPU 应用研究 | 第41-42页 |
·统一架构 GPU 体系结构 | 第42-48页 |
·NVIDIA 统一架构 GPU 体系结构 | 第42-45页 |
·AMD 统一架构 GPU 体系结构 | 第45-47页 |
·Intel 统一架构 GPU 体系结构 | 第47-48页 |
·GPGPU 开发平台 | 第48-55页 |
·CUDA | 第48-51页 |
·AMD Stream SDK | 第51-52页 |
·OpenCL | 第52-55页 |
·小结 | 第55-56页 |
第三章 面向 GPU 的众线程编程模型 | 第56-68页 |
·面向多核(众核)架构的编程模型及编译技术研究 | 第56-59页 |
·基于 MPI 的并行编程模型 | 第57页 |
·基于 OpenMP/OpenTM 的并行编程模型 | 第57-58页 |
·基于 UPC 的并行编程模型 | 第58页 |
·基于流的并行编程模型 | 第58-59页 |
·ab-Stream 众线程体系结构及编程模型 | 第59-62页 |
·众线程体系结构 | 第59-60页 |
·ab-Stream 众线程编程模型 | 第60-62页 |
·ab-Stream 编程模型支撑技术 | 第62-67页 |
·ab-Stream 编程语言扩展 | 第62-64页 |
·面向众线程体系结构的应用映射方法 | 第64-65页 |
·众线程体系结构存储优化技术 | 第65-66页 |
·众线程异构系统负载均衡策略 | 第66-67页 |
·小结 | 第67-68页 |
第四章 GPGPU 应用映射计算粒度并行方法 | 第68-88页 |
·并行计算粒度概述 | 第68-69页 |
·基于 CUDA 的片段级并行 | 第69-72页 |
·片段级并行应用映射方法研究 | 第69-70页 |
·面向链式依赖结构的片段级并行松弛模型 | 第70-72页 |
·面向众线程 GPU 的像素级并行 | 第72-75页 |
·像素级并行研究 | 第73页 |
·面向 2D 数据结构的像素级映射 | 第73-75页 |
·基于 Fermi 架构的任务级并行 | 第75-77页 |
·任务级并行方法研究 | 第75-76页 |
·基于 Fermi 架构的任务级并行映射策略 | 第76-77页 |
·实验测试与分析 | 第77-86页 |
·面向链式依赖结构的片段级并行松弛模型验证与分析 | 第77-81页 |
·面向众线程 GPU 的像素级并行实验测试 | 第81-84页 |
·基于 Fermi 架构的任务级并行实验测试 | 第84-86页 |
·三种计算粒度的比较分析 | 第86页 |
·小结 | 第86-88页 |
第五章 基于 CUDA 存储层次的优化技术 | 第88-108页 |
·CUDA 存储结构 | 第88-90页 |
·面向 CUDA 的存储布局优化技术 | 第90-94页 |
·基于 CUDA 存储结构的存储优化技术概述 | 第90-91页 |
·基于分类方法的存储布局优化 | 第91-94页 |
·面向 Strided data 的传输优化技术 | 第94-101页 |
·Strided data 数据结构 | 第94-95页 |
·CUDA 数据传输模型 | 第95-96页 |
·面向 Strided data 数据结构的传输优化 | 第96-101页 |
·实验测试与分析 | 第101-106页 |
·面向 CUDA 存储结构的数据分类存储实验测试与分析 | 第101-103页 |
·Strided data 数据传输优化实验验证与分析 | 第103-106页 |
·小结 | 第106-108页 |
第六章 GPGPU 负载均衡计算协作框架 | 第108-122页 |
·异构系统中的负载均衡策略研究 | 第108-109页 |
·面向计算密集型应用的计算协作优化框架 | 第109-117页 |
·GPU+CPU 异构系统负载分析 | 第110页 |
·GPU+CPU 异构系统中的流水并行负载均衡策略 | 第110-111页 |
·GPU+CPU 负载均衡计算框架 | 第111-116页 |
·零加载与缓存加载优化技术 | 第116-117页 |
·实验测试与分析 | 第117-121页 |
·小结 | 第121-122页 |
第七章 ab-Stream 原型系统的设计与实现 | 第122-136页 |
·SUIF2 编译系统简介 | 第122-127页 |
·Hoof 编程简介 | 第124-125页 |
·Pass 编程简介 | 第125-127页 |
·ab-Stream 众线程原型系统实现 | 第127-131页 |
·ab-Stream 节点扩展 | 第127-128页 |
·功能优化模块扩展 | 第128-130页 |
·编译器后端扩展 | 第130-131页 |
·ab-Stream 原型系统功能验证与性能评估 | 第131-135页 |
·实验环境 | 第131-132页 |
·实验测试与分析 | 第132-135页 |
·小结 | 第135-136页 |
第八章 结论与展望 | 第136-140页 |
·工作总结 | 第136-137页 |
·研究展望 | 第137-140页 |
致谢 | 第140-142页 |
参考文献 | 第142-152页 |
作者在学期间取得的学术成果 | 第152-154页 |
作者在学期间参与的科研课题 | 第154页 |