面向应用的GPU并行计算关键技术研究

摘要	第1-14页
ABSTRACT	第14-17页
第一章绪论	第17-39页
·课题背景	第18-29页
·基于GPU的高性能计算系统	第18-25页
·GPU并行计算可能面临的技术挑战	第25-29页
·相关研究	第29-33页
·基于GPU的并行程序设计相关研究	第29-31页
·性能分析预测模型相关研究	第31-32页
·异构体系结构间可移植性相关研究	第32-33页
·本文主要研究内容及创新点	第33-36页
·论文结构	第36-39页
第二章基于GPU的高效并行视频编码框架与实现	第39-67页
·引言	第39-41页
·相关研究	第41-43页
·并行H.264 编码框架	第43-46页
·H.264/AVC编码器结构剖析	第43-44页
·以帧为单位的循环分割	第44页
·数组结构到结构数组的转换，提高带宽利用率	第44-45页
·全应用GPU并行，开发生产者消费者局域性	第45-46页
·帧间预测: 可扩展多分辨率多窗口算法	第46-49页
·非规则算法的高效并行实现方案	第49-59页
·多级并行帧内预测	第49-51页
·分量并行CAVLC	第51-56页
·方向优先的去块滤波	第56-59页
·实验评估与分析	第59-66页
·实验设置和测试序列	第59页
·率失真性能评估	第59-60页
·加速性能分析	第60-64页
·时间分布分析	第64-66页
·小结	第66-67页
第三章基于CPU-GPU异构系统的高效双岩沉降模拟解决方案	第67-89页
·引言	第67-68页
·数学模型和数值方法	第68-71页
·并行实现设计	第71-78页
·基于MPI的CPU-only实现	第71页
·GPU-only实现	第71-75页
·CPU-GPU混合实现	第75-78页
·实验评估与分析	第78-86页
·实验设置和结果	第78-80页
·单GPU性能比较与分析	第80-81页
·扩展性评测	第81-84页
·时间分布	第84-86页
·小结	第86-89页
第四章基于数据传输的Stencil计算GPU性能预测模型	第89-119页
·引言	第89-90页
·NVIDIA GPU体系结构	第90-92页
·量化性能分析	第92-100页
·Stencil计算	第92-93页
·L1 cache以及线程块形状对Stencil性能的影响	第93-95页
·Padding的影响	第95-97页
·空间分块技术	第97-100页
·时间分块技术	第100页
·性能模型	第100-109页
·寄存器和片上存储器之间数据传输量模型	第101-102页
·片上存储器和L2 cache之间数据传输量模型	第102-104页
·L2 cache和全局存储器之间数据传输量模型	第104-105页
·模型示例说明	第105页
·模型扩展	第105-109页
·局限性	第109页
·实验评估	第109-117页
·实验设置	第109-110页
·基于基本实现的模型评估	第110-113页
·基于 3D分块优化实现程序的模型评估	第113-117页
·相关研究	第117-118页
·小结	第118-119页
第五章 Open CL Stencil计算在CPU-GPU之间的性能可移植性研究	第119-135页
·引言	第119-120页
·Open CL编程	第120-122页
·Stencil计算的Open CL实现与优化	第122-127页
·基本实现	第122-123页
·基于数据分块的性能增强	第123-124页
·面向GPU的优化：基于寄存器重用的 3D分块	第124-126页
·使用本地存储器	第126页
·时间分块技术	第126-127页
·实验评测	第127-133页
·3D Stencil计算	第127-128页
·实验设置	第128-129页
·GPU上的性能评测	第129-132页
·CPU上的性能评估	第132-133页
·相关研究	第133-134页
·小结	第134-135页
第六章结论与展望	第135-139页
·工作总结	第135-137页
·未来的研究方向	第137-139页
致谢	第139-141页
参考文献	第141-157页
作者在学期间取得的学术成果	第157-160页
学术论文	第157-159页
学术专著	第159页
专利	第159页
软件著作权	第159-160页
作者在学期间参与的科研工作	第160页