GPU加速PQMRCGSTAB算法研究

摘要	第1-11页
ABSTRACT	第11-13页
第一章引言	第13-20页
·课题背景	第13-15页
·GPU 计算	第13-15页
·GPU 上加速稀疏线性系统	第15页
·相关工作	第15-16页
·面临的挑战	第16-17页
·本文研究内容和创新	第17-19页
·本文结构	第19-20页
第二章 GPU 和PQMRCGSTAB 算法	第20-28页
·NVIDIA GPU	第20-23页
·GT200 体系结构	第20-21页
·编程模型	第21-23页
·AMD GPU	第23-25页
·Radeon R700 体系结构	第23-24页
·编程模型	第24-25页
·PQMRCGSTAB 算法	第25-28页
·PQMRCGSTAB 算法介绍	第25-27页
·QMRCGSTAB 算法加速研究	第27-28页
第三章 PQMRCGSTAB 算法在单GPU 平台上的移植	第28-43页
·数据处理方法	第28-31页
·稀疏矩阵处理方法	第28-29页
·文中带状稀疏矩阵处理方法	第29-31页
·任务分配方法	第31-32页
·计算核心的划分方法	第32-34页
·计算核心启动开销统计方法	第32页
·计算核心开销对性能的影响	第32-33页
·计算核心划分方法	第33-34页
·归约操作在NVIDIA GPU 上的高效实现	第34-40页
·全在CPU 上实现的归约	第34-35页
·全在GPU 上实现的归约	第35-38页
·CPU+GPU 混合归约方法	第38-40页
·与平台相关的优化方法	第40-42页
·高速存储部件的利用	第40-42页
·数据结构的优化	第42页
·本章小结	第42-43页
第四章 PQMRCGSTAB 算法在多GPU 平台上的移植	第43-50页
·多GPU 加速技术	第43-46页
·SLI 技术介绍	第43-44页
·CrossFire 介绍	第44页
·相关研究	第44-46页
·多GPU 之间的数据共享	第46-49页
·任务分配	第46页
·数据共享	第46-49页
·本章小结	第49-50页
第五章性能评测	第50-55页
·实验环境	第50-51页
·单GPU 平台上的测试结果	第51-52页
·NVIDIA GPU	第51-52页
·AMD GPU	第52页
·多GPU 平台上测试结果	第52-55页
·4 核CPU+NVIDIA S1070 性能	第53页
·2 核CPU+Radeon HD 4870 X2 性能	第53-54页
·通信开销统计	第54-55页
第六章结束语	第55-57页
·工作总结	第55-56页
·展望	第56-57页
致谢	第57-58页
参考文献	第58-61页
作者在读期间取得的学术成果	第61页