摘要 | 第1-7页 |
ABSTRACT | 第7-9页 |
目录 | 第9-11页 |
第一章 绪论 | 第11-15页 |
·研究背景 | 第11-13页 |
·研究现状 | 第13-14页 |
·本论文结构安排 | 第14-15页 |
第二章 CUDA 概述 | 第15-31页 |
·引言 | 第15-16页 |
·GPU 硬件架构 | 第16-22页 |
·GPU 芯片架构 | 第16-17页 |
·存储器层次结构 | 第17-20页 |
·全局内存访问 | 第20-22页 |
·CUDA 软件构架 | 第22-27页 |
·计算统一设备架构 | 第22页 |
·内核函数 | 第22-24页 |
·线程结构 | 第24页 |
·执行模型 | 第24-25页 |
·CUDA 编程模型 | 第25-27页 |
·CUDA 程序优化 | 第27-30页 |
·内存优化 | 第27-28页 |
·执行配置优化 | 第28-29页 |
·指令优化 | 第29-30页 |
·小结 | 第30-31页 |
第三章 稀疏矩阵与线性方程组迭代算法 | 第31-43页 |
·引言 | 第31页 |
·稀疏矩阵存储格式 | 第31-35页 |
·坐标存储法 (Coordinate Storage Scheme) | 第31-32页 |
·对角存储法 (Diagonal Storage Scheme) | 第32-33页 |
·Ellpack-Itpack 存储法 (Ellpack-Itpack Storage Scheme) | 第33页 |
·CSR 存储法 (Compressed Row Storage Scheme) | 第33-35页 |
·稀疏矩阵分块的实现 | 第35-37页 |
·预条件共轭梯度法 | 第37-41页 |
·共轭梯度法 | 第37-40页 |
·预条件共轭梯度法 | 第40-41页 |
·Kahan 累加求和 | 第41-42页 |
·小结 | 第42-43页 |
第四章 预条件共轭梯度法的 GPU 移植 | 第43-57页 |
·引言 | 第43页 |
·并行计算的一般设计策略 | 第43-44页 |
·共轭梯度法 GPU 移植 | 第44-54页 |
·稀疏矩阵矢量乘的 GPU 实现 | 第44-50页 |
·矢量内积的 GPU 移植 | 第50-54页 |
·其他操作的 GPU 移植 | 第54页 |
·基于 GPU 实现的方程组求解器算法流程 | 第54-56页 |
·小结 | 第56-57页 |
第五章 计算结果与分析 | 第57-73页 |
·GPU 实验环境 | 第57-58页 |
·测试数据说明 | 第58-59页 |
·性能测试及分析 | 第59-72页 |
·SpMV 性能测试 | 第59-65页 |
·矢量内积性能测试 | 第65-66页 |
·方程组求解性能测试 | 第66-72页 |
·小结 | 第72-73页 |
第六章 总结与展望 | 第73-75页 |
致谢 | 第75-76页 |
参考文献 | 第76-79页 |
硕士期间取得的研究成果 | 第79-80页 |