首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

Krylov子空间方法的GPU加速算法研究

摘要第1-10页
ABSTRACT第10-12页
第一章 绪论第12-19页
   ·课题背景第12-14页
     ·GPU 发展概述第12-14页
     ·GPU 上加速稀疏线性系统第14页
   ·相关工作第14-16页
   ·面临的挑战第16-17页
   ·本文研究内容和创新第17-18页
   ·本文结构第18-19页
第二章 GPU 和 Krylov 子空间方法第19-29页
   ·NVIDIA GPU第19-21页
     ·GT200 体系结构第19-20页
     ·Fermi(GT300)体系结构第20-21页
   ·CUDA 编程模型第21-26页
     ·主机与设备第22-23页
     ·存储层次结构第23-25页
     ·线程层次结构第25-26页
   ·Krylov 子空间方法第26-29页
     ·Krylov 子空间方法介绍第26-27页
     ·Krylov 子空间方法加速研究第27-29页
第三章 稀疏对角矩阵向量乘在GPU 上的实现第29-38页
   ·数据处理方法第29-32页
     ·稀疏矩阵处理方法第29-31页
     ·CDIA 压缩存储格式第31-32页
   ·稀疏对角矩阵向量乘的GPU 加速实现第32-34页
   ·稀疏对角矩阵向量乘的优化第34-37页
     ·多线程并行与减少线程切换开销第35页
     ·优化存储合并访问第35-36页
     ·使用shared Memory第36-37页
   ·本章小结第37-38页
第四章 Krylov 子空间方法在GPU 上的实现第38-49页
   ·计算任务的划分第38-41页
     ·任务划分的原则第38-39页
     ·任务划分的方法第39-41页
   ·计算核心的划分第41-42页
     ·计算核心第41页
     ·计算核心的划分方法第41-42页
   ·Krylov 子空间方法的实现第42-46页
     ·稀疏对角矩阵向量乘的GPU 加速实现第42页
     ·内积操作在GPU 上的加速实现第42-44页
     ·Grid 和Block 的维度设计第44-46页
   ·Krylov 子空间方法的相关优化第46-48页
     ·程序结构优化第46页
     ·主机与设备的通信优化第46-47页
     ·存储器优化第47-48页
   ·本章小结第48-49页
第五章 性能评测第49-54页
   ·实验环境第49页
   ·矩阵向量乘的测试结果第49-51页
     ·CDIA 格式在GPU 上的性能测试第49-50页
     ·稀疏对角矩阵向量乘的性能测试第50-51页
   ·内积操作的测试结果第51-52页
   ·Krylov 子空间方法的测试结果第52-54页
第六章 结束语第54-56页
   ·工作总结第54-55页
   ·展望第55-56页
致谢第56-58页
参考文献第58-61页
作者在读期间取得的学术成果第61页

论文共61页,点击 下载论文
上一篇:基于事件的分布式系统行为分析框架的设计与实现
下一篇:基于元信息的文本分类与优化技术研究与实现