摘要 | 第3-4页 |
ABSTRACT | 第4-5页 |
第1章 绪论 | 第9-14页 |
1.1 问题提出 | 第9-10页 |
1.2 研究背景 | 第10-11页 |
1.3 研究意义 | 第11-12页 |
1.4 主要研究内容 | 第12-13页 |
1.5 论文的组织结构 | 第13-14页 |
第2章 Krylov子空间和GPU概述 | 第14-24页 |
2.1 Krylov子空间概述 | 第14-16页 |
2.1.1 Krylov子空间基本原理介绍 | 第14-15页 |
2.1.2 预处理技术 | 第15页 |
2.1.3 Bi-CGSTAB算法 | 第15-16页 |
2.2 GPU概述 | 第16-23页 |
2.2.1 CPU+GPU异构结构 | 第17页 |
2.2.2 CPU+GPU通信模式 | 第17-19页 |
2.2.3 CUDA理论基础 | 第19-20页 |
2.2.4 CUDA设备存储器模型 | 第20页 |
2.2.5 CUDA编程框架 | 第20-23页 |
2.3 本章小结 | 第23-24页 |
第3章 稀疏线性方程组的CUDA求解 | 第24-38页 |
3.1 稀疏矩阵存储格式 | 第24-27页 |
3.1.1 稠密存储法 | 第24-25页 |
3.1.2 坐标存储法 | 第25-26页 |
3.1.3 行压缩存储法 | 第26-27页 |
3.2 CUDA并行化策略 | 第27-30页 |
3.2.1 线程分配和调度 | 第27-29页 |
3.2.2 数据访问模型 | 第29-30页 |
3.3 向量加减运算的算法实现 | 第30页 |
3.4 向量内积算法实现 | 第30-34页 |
3.5 SPMV算法的实现 | 第34-36页 |
3.6 Bi-CGSTAB算法的具体实现 | 第36-37页 |
3.7 本章小结 | 第37-38页 |
第4章 GPU的稀疏线程方程组求解的相关优化 | 第38-44页 |
4.1 合理分配线程 | 第38-39页 |
4.2 使用共享存储器减少访问延迟 | 第39-40页 |
4.3 使用纹理内存加速访问 | 第40-41页 |
4.4 程序结构优化 | 第41-42页 |
4.5 寄存器使用的优化 | 第42页 |
4.6 全局存储器访问的优化 | 第42-43页 |
4.7 本章小结 | 第43-44页 |
第5章 ISPH单螺杆挤出三维模型系统的设计与实现 | 第44-58页 |
5.1 ISPH基本原理概述 | 第44-50页 |
5.1.1 SPH方法的基本理论 | 第44页 |
5.1.2 核函数近似法 | 第44-46页 |
5.1.3 Navier-Stokes方程 | 第46-48页 |
5.1.4 ISPH算法的基本理论 | 第48页 |
5.1.5 ISPH-DF算法 | 第48-49页 |
5.1.6 ISPH-DI算法 | 第49页 |
5.1.7 压力泊松方程求解 | 第49-50页 |
5.2 ISPH单螺杆挤出三维模型 | 第50-51页 |
5.3 系统的设计 | 第51-54页 |
5.3.1 ISPH单螺杆挤出三维模型主要功能结构 | 第52-53页 |
5.3.2 Bi-CGSTAB算法文件结构 | 第53-54页 |
5.4 模拟系统设计结构 | 第54-56页 |
5.4.1 Bi-CGSTAB算法的参数初始化 | 第55-56页 |
5.4.2 Bi-CGSTAB算法的内存分配与释放 | 第56页 |
5.4.3 Bi-CGSTAB算法的调试 | 第56页 |
5.5 本章小结 | 第56-58页 |
第6章 实验与分析 | 第58-65页 |
6.1 实验环境 | 第58-59页 |
6.2 向量内积的性能测试 | 第59-60页 |
6.3 稀疏矩阵向量乘(SPMV)的性能测试 | 第60-61页 |
6.4 使用纹理内存的性能测试 | 第61页 |
6.5 系统的运行效果与分析 | 第61-64页 |
6.6 本章小结 | 第64-65页 |
第7章 全文总结 | 第65-67页 |
7.1 研究成果及结论 | 第65-66页 |
7.2 下一步的工作 | 第66-67页 |
致谢 | 第67-68页 |
参考文献 | 第68-71页 |
攻读学位期间的研究成果 | 第71页 |