基于GPGPU系统的GRAPES-GLOBAL长波辐射过程并行设计与优化

摘要	第1-5页
Abstract	第5-9页
第一章引言	第9-17页
·选题的目的和意义	第9-13页
·GRAPES数值预报模式	第9-10页
·GPGPU 和 CUDA 简介	第10-11页
·GPGPU 系统架构介绍及将其运用于 GRAPES 模式的可行性分析	第11-13页
·基于 GPGPU 系统通用计算的国内外研究进展	第13-14页
·本文研究内容和创新点	第14-16页
·本文研究内容	第14-15页
·本文研究的创新点	第15-16页
·论文的结构	第16-17页
第二章 CUDA 编程模型和存储器模型	第17-23页
·CUDA 编程模型	第17-20页
·主机与设备	第17-18页
·线程组织结构	第18-19页
·Warp	第19-20页
·SIMT 编程模型	第20页
·CUDA 存储器模型	第20-22页
·寄存器与本地存储器	第20-21页
·共享存储器	第21页
·全局存储器	第21-22页
·常数存储器和纹理存储器	第22页
·本章小结	第22-23页
第三章长波辐射方案及细粒度并行模型	第23-34页
·GRAPES 全球模式中的长波辐射物理模型	第23-24页
·GRAPES 模式的并行框架分析	第24-25页
·基于 GPGPU 系统的 GRAPES 模式并行框架分析	第25-27页
·长波辐射方案的细粒度并行模型	第27-30页
·CUDA FORTRAN 程序实现	第30-33页
·CUDA FORTRAN 介绍	第30-31页
·基于 GPGPU 系统的长波辐射方案程序实现	第31-33页
·本章小结	第33-34页
第四章初期试验结果分析	第34-43页
·Tesla C1060 试验	第34-39页
·试验环境和参数	第34页
·试验结果分析	第34-37页
·试验结果验证	第37-39页
·Tesla C2050 试验	第39-42页
·试验环境和参数	第39页
·试验结果分析	第39-40页
·单个 block 内线程数量变化对性能的影响	第40-42页
·本章小结	第42-43页
第五章 CUDA 程序优化	第43-53页
·CUDA 程序优化概述	第43-44页
·本试验中的 CUDA 程序分析	第44-45页
·Pinned memory	第45-46页
·异步执行	第46-48页
·异步执行程序演示	第48-49页
·数据流异步执行模型	第49-50页
·试验结果及分析	第50-52页
·本章小结	第52-53页
第六章总结与讨论	第53-58页
·总结	第53-54页
·讨论	第54-58页
参考文献	第58-60页
致谢	第60-61页
个人简介	第61页