模板计算代码自动生成与性能优化

摘要	第5-7页
Abstract	第7-8页
第1章绪论	第14-31页
1.1 研究背景及意义	第14-21页
1.1.1 高性能计算硬件瓶颈	第14-17页
1.1.2 高性能计算软件瓶颈	第17-21页
1.2 科学计算应用体系结构特征分析	第21-23页
1.3 研究问题	第23-27页
1.3.1 GPU模板规范与模板编译器	第23页
1.3.2 模板计算代码自动生成	第23-26页
1.3.3 模板计算的存储带宽的优化	第26-27页
1.4 研究内容与贡献	第27-28页
1.4.1 研究内容	第27-28页
1.4.2 论文的主要贡献	第28页
1.5 论文的组织	第28-31页
第2章循环的编译优化与调制优化	第31-39页
2.1 本章引言	第31-32页
2.2 循环优化	第32-35页
2.2.1 编译器优化类型	第32-33页
2.2.2 数据关联	第33-35页
2.3 循环的并行化、偏移(SKEWING)和分块(TILING)	第35-36页
2.4 循环分块优化	第36-37页
2.5 自动调制优化	第37-38页
2.6 本章小结	第38-39页
第3章模板编译器	第39-47页
3.1 本章引言	第39页
3.2 模版网格(STENCILGRIDS)	第39-41页
3.3 基于GPGPUS的模板编译工具	第41-46页
3.3.1 模板编译器	第41-46页
3.3.2 模板规范实例	第46页
3.4 本章小结	第46-47页
第4章边缘重叠的循环分块GPU代码生成	第47-63页
4.1 本章引言	第47-48页
4.2 冗余分块代码生成	第48-51页
4.3 GPU核代码生成	第51-54页
4.4 主机控制代码	第54-55页
4.5 实验分析与评价	第55-60页
4.5.1 模板编译器生成代码性能评价	第56-57页
4.5.2 参数敏感性分析	第57-59页
4.5.3 实例：Rician3D去噪模板编译代码生成与性能分析	第59-60页
4.6 本章小结	第60-63页
第5章加速模板计算的存储器映射策略	第63-81页
5.1 本章引言	第63-64页
5.2 基于GPU的模板计算	第64-68页
5.3 利用GPU的寄存器资源加速模版计算	第68-70页
5.4 存储器映射机制与优化	第70-74页
5.4.1 经典的存储映射机制	第70-71页
5.4.2 GPU的存储器映射机制建模	第71-72页
5.4.3 新的存储映射机制	第72-74页
5.5 软件预取机制	第74页
5.6 性能评价	第74-80页
5.6.1 无ghost区开销的存储器带宽测试	第75-76页
5.6.2 新的存储器映射机制的带宽测试	第76-77页
5.6.3 单精度浮点模板计算的性能	第77-79页
5.6.4 双精度浮点模板性能	第79-80页
5.7 本章小结	第80-81页
结论与展望	第81-83页
参考文献	第83-94页
致谢	第94-95页
附录A 攻读学位期间所完成的论文	第95-96页
附录B 2DJacobi5点模板规范和生成的CUDA代码	第96-102页