多层周期结构光栅衍射模拟算法的GPU加速研究

摘要	第1-6页
ABSTRACT	第6-11页
第一章绪论	第11-15页
·国内外研究现状	第11-12页
·多层周期结构光栅衍射模拟算法的研究现状	第11-12页
·对多层周期结构光栅衍射模拟算法加速的研究现状	第12页
·本文的选题意义及研究内容	第12-15页
·选题意义	第12-13页
·研究内容	第13-15页
第二章多层周期结构光栅衍射模拟算法 RCWA 和 SAM	第15-26页
·麦克斯韦方程组	第15页
·RCWA 算法简介	第15-19页
·SAM 算法简介	第19-25页
·理论推导	第19-23页
·层吸收过程	第23-25页
·本章小结	第25-26页
第三章 GPU 加速原理	第26-37页
·GPU 概况	第26-29页
·GPU 的发展历程	第26页
·GPU 用于通用计算	第26-28页
·GPU 与 CPU 的比较	第28-29页
·CUDA 简介	第29-34页
·CPU+GPU 的异构并行计算模型	第29页
·CUDA 编程模型	第29-33页
·CUDA 存储器模型	第33-34页
·CUDA 与其他方法的结合	第34-36页
·CUDA 与 OpenMP	第34-35页
·CUDA 与 MPI	第35页
·CUDA 与 MATLAB	第35-36页
·本章小结	第36-37页
第四章 GPU 并行计算加速	第37-68页
·数据存储方式	第37-38页
·GPU 初始化	第38-39页
·矩阵运算的 GPU 实现	第39-49页
·矩阵乘法	第39-42页
·LU 分解	第42-45页
·矩阵求逆	第45-47页
·求矩阵特征值和特征向量	第47-49页
·CUDA 内核优化	第49-52页
·任务划分	第49-50页
·并行缩减	第50-51页
·存储器优化	第51页
·合理使用 CUDA 指令	第51-52页
·CUDA 编译及调试工具	第52-53页
·NVCC 编译器	第52页
·Parallel Nsight 双机调试工具	第52-53页
·Compute Visual Profiler 性能分析工具	第53页
·软硬件环境	第53-55页
·两种接口	第55页
·SAM 的实现	第55-58页
·加速效果	第58-62页
·RCWA 加速效果	第58-60页
·SAM 加速效果	第60-62页
·针对 SAM 做的优化	第62-65页
·GPU 并行计算在两种算法应用上的异同	第65-66页
·待改进之处	第66页
·本章小结	第66-68页
第五章结论	第68-69页
·本文的主要贡献	第68页
·下一步的工作展望	第68-69页
致谢	第69-70页
参考文献	第70-73页
攻硕期间取得的研究成果	第73-74页