PTX程序性能分析与建模

摘要	第1-6页
Abstract	第6-11页
第1章绪论	第11-18页
·课题研究背景及意义	第11-12页
·GPU 通用计算	第12-15页
·GPU 发展历程	第12-13页
·GPGPU	第13-14页
·GPU 通用计算的特点	第14页
·GPU 通用计算平台	第14-15页
·GPU 体系及编程模型	第15-16页
·GPU 体系	第15页
·CUDA 软件编程接口	第15-16页
·论文的主要内容	第16-18页
第2章背景材料	第18-29页
·GPGPU	第18-22页
·GPGPU 简介	第18-19页
·GPU 通用计算原理	第19-20页
·Fermi 架构	第20-22页
·CUDA 并行计算概述	第22-25页
·一种通用并行计算架构	第22-23页
·一种可扩展的编程模型	第23-24页
·NVCC—NVIDIA CUDA 编译驱动器	第24-25页
·PTX（Parallel Thread Execution）	第25-29页
·PTX 简介	第25-26页
·PTX 编程模型	第26-29页
第3章 PTX 指令统计程序	第29-41页
·指令统计程序的意义	第29页
·创建 CUDA 编程环境	第29-31页
·编写向量加程序	第31-32页
·CUDA C	第31页
·编写向量加程序	第31-32页
·通过 NVCC 编译器得到 PTX 指令	第32-37页
·编写 PTX 指令统计程序	第37-41页
第4章 PTX 指令性能分析	第41-50页
·CUDA pipeline	第41-45页
·GPU 的基本结构	第43页
·执行过程	第43-44页
·SM（shared memory）	第44页
·奇偶 warp 调度器	第44-45页
·调度器中的指令延迟（latency）	第45页
·PTX 指令延迟	第45-48页
·PTX 指令在硬件中的编译过程	第45-46页
·指令延迟计算公式及创新点	第46-48页
·指令性能分析之 IADD	第48-50页
第5章总结及展望	第50-52页
·相关工作	第50-51页
·全文总结	第51-52页
参考文献	第52-54页
致谢	第54页