| 摘要 | 第1-6页 |
| ABSTRACT | 第6-11页 |
| 第一章 绪论 | 第11-15页 |
| ·国内外研究现状 | 第11-12页 |
| ·多层周期结构光栅衍射模拟算法的研究现状 | 第11-12页 |
| ·对多层周期结构光栅衍射模拟算法加速的研究现状 | 第12页 |
| ·本文的选题意义及研究内容 | 第12-15页 |
| ·选题意义 | 第12-13页 |
| ·研究内容 | 第13-15页 |
| 第二章 多层周期结构光栅衍射模拟算法 RCWA 和 SAM | 第15-26页 |
| ·麦克斯韦方程组 | 第15页 |
| ·RCWA 算法简介 | 第15-19页 |
| ·SAM 算法简介 | 第19-25页 |
| ·理论推导 | 第19-23页 |
| ·层吸收过程 | 第23-25页 |
| ·本章小结 | 第25-26页 |
| 第三章 GPU 加速原理 | 第26-37页 |
| ·GPU 概况 | 第26-29页 |
| ·GPU 的发展历程 | 第26页 |
| ·GPU 用于通用计算 | 第26-28页 |
| ·GPU 与 CPU 的比较 | 第28-29页 |
| ·CUDA 简介 | 第29-34页 |
| ·CPU+GPU 的异构并行计算模型 | 第29页 |
| ·CUDA 编程模型 | 第29-33页 |
| ·CUDA 存储器模型 | 第33-34页 |
| ·CUDA 与其他方法的结合 | 第34-36页 |
| ·CUDA 与 OpenMP | 第34-35页 |
| ·CUDA 与 MPI | 第35页 |
| ·CUDA 与 MATLAB | 第35-36页 |
| ·本章小结 | 第36-37页 |
| 第四章 GPU 并行计算加速 | 第37-68页 |
| ·数据存储方式 | 第37-38页 |
| ·GPU 初始化 | 第38-39页 |
| ·矩阵运算的 GPU 实现 | 第39-49页 |
| ·矩阵乘法 | 第39-42页 |
| ·LU 分解 | 第42-45页 |
| ·矩阵求逆 | 第45-47页 |
| ·求矩阵特征值和特征向量 | 第47-49页 |
| ·CUDA 内核优化 | 第49-52页 |
| ·任务划分 | 第49-50页 |
| ·并行缩减 | 第50-51页 |
| ·存储器优化 | 第51页 |
| ·合理使用 CUDA 指令 | 第51-52页 |
| ·CUDA 编译及调试工具 | 第52-53页 |
| ·NVCC 编译器 | 第52页 |
| ·Parallel Nsight 双机调试工具 | 第52-53页 |
| ·Compute Visual Profiler 性能分析工具 | 第53页 |
| ·软硬件环境 | 第53-55页 |
| ·两种接口 | 第55页 |
| ·SAM 的实现 | 第55-58页 |
| ·加速效果 | 第58-62页 |
| ·RCWA 加速效果 | 第58-60页 |
| ·SAM 加速效果 | 第60-62页 |
| ·针对 SAM 做的优化 | 第62-65页 |
| ·GPU 并行计算在两种算法应用上的异同 | 第65-66页 |
| ·待改进之处 | 第66页 |
| ·本章小结 | 第66-68页 |
| 第五章 结论 | 第68-69页 |
| ·本文的主要贡献 | 第68页 |
| ·下一步的工作展望 | 第68-69页 |
| 致谢 | 第69-70页 |
| 参考文献 | 第70-73页 |
| 攻硕期间取得的研究成果 | 第73-74页 |