| 摘要 | 第5-6页 |
| ABSTRACT | 第6页 |
| 第一章 绪论 | 第9-17页 |
| 1.1 电磁粒子模拟概述 | 第9-10页 |
| 1.2 GPU概述 | 第10-14页 |
| 1.2.1 GPU通用计算的发展 | 第12页 |
| 1.2.2 GPU计算的软硬件构架简介 | 第12-14页 |
| 1.3 论文立题背景及主要工作 | 第14-16页 |
| 1.4 论文的主要安排 | 第16-17页 |
| 第二章 基于Fortran的GPU并行程序设计 | 第17-33页 |
| 2.1 OpenACC简介 | 第17-20页 |
| 2.1.1 OpenACC构件 | 第17-19页 |
| 2.1.2 OpenACC执行模型 | 第19-20页 |
| 2.2 CUDA概述 | 第20-26页 |
| 2.2.1 CUDA编译过程及相关工具 | 第20-22页 |
| 2.2.2 CUDA编程模型 | 第22-25页 |
| 2.2.3 PGI编译器与CUDA Fortran | 第25-26页 |
| 2.3 Intel编译器与PGI编译器代码移植 | 第26-27页 |
| 2.4 GPU应用程序实现及优化 | 第27-28页 |
| 2.5 矩阵乘法测试与加速性能对比 | 第28-32页 |
| 2.6 小结 | 第32-33页 |
| 第三章 基于GPU的电磁模拟并行计算 | 第33-46页 |
| 3.1 FDTD算法基础 | 第33-35页 |
| 3.2 FDTD的GPU并行化实现 | 第35-39页 |
| 3.2.1 电场迭代部分 | 第36-37页 |
| 3.2.2 磁场迭代部分 | 第37页 |
| 3.2.3 实际器件的模拟结论与分析 | 第37-39页 |
| 3.3 对于GPU并行计算的改进 | 第39-45页 |
| 3.3.1 电场迭代部分的修改 | 第40-41页 |
| 3.3.2 磁场迭代部分的修改 | 第41-42页 |
| 3.3.3 改进后的运算结果 | 第42-45页 |
| 3.4 小结 | 第45-46页 |
| 第四章 基于GPU的粒子模拟并行计算 | 第46-53页 |
| 4.1 EM-PIC算法基础 | 第46-49页 |
| 4.1.1 EM-PIC算法优化 | 第47-48页 |
| 4.1.2 EM-PIC算法的GPU模型 | 第48-49页 |
| 4.2 GPU运算结果 | 第49-51页 |
| 4.3 解决方案 | 第51-52页 |
| 4.4 小结 | 第52-53页 |
| 第五章 总结 | 第53-54页 |
| 致谢 | 第54-55页 |
| 参考文献 | 第55-57页 |
| 附录 | 第57-65页 |
| GPU实现矩阵乘法主程序 | 第57-60页 |
| 使用OpenACC的优化函数与串行函数 | 第60-61页 |
| CUDA并行部分的函数 | 第61-65页 |