首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--模式识别与装置论文

基于GPU的BLAS库的设计和实现

摘要第1-5页
ABSTRACT第5-6页
目录第6-8页
图目录第8-9页
表目录第9-10页
第1章 绪论第10-24页
   ·BLAS 库第10-15页
     ·BLAS 的构成第10页
     ·BLAS 函数介绍第10-13页
     ·BLAS 主要参数第13页
     ·BLAS 关键函数第13-14页
     ·BLAS 优化现状第14-15页
   ·GPU 的介绍第15-22页
     ·GPU 发展简介第16页
     ·GPU 与CPU 的差异第16-19页
     ·GPU 实现第19-20页
     ·GPU 的着色器模型第20-22页
   ·本文的研究内容第22-23页
   ·本文结构第23-24页
第2章 CUDA 介绍第24-36页
   ·CUDA 编程模型第24-28页
     ·主机和设备第24-26页
     ·内核函数第26-27页
     ·线程层次结构第27-28页
   ·存储器层次结构第28-30页
   ·CUDA 软件栈第30-32页
   ·CUDA 程序第32-34页
     ·程序框架第32页
     ·CUDA C 语言第32-34页
     ·通信机制第34页
   ·常用的优化方法第34-35页
   ·小结第35-36页
第3章 GPU 上矩阵乘法的设计与实现第36-47页
   ·矩阵乘法回顾第36-37页
   ·用CUDA 在GPU 上实现矩阵乘法的分析第37-41页
     ·矩阵乘法分块分析第37-40页
     ·CUDA 上的矩阵乘法分块分析第40-41页
   ·CUDA 上矩阵乘法的设计与实现第41-46页
     ·普通实现第41-42页
     ·优化实现第42-43页
     ·实验结果第43-44页
     ·大规模矩阵乘法的算法设计第44-46页
   ·小结第46-47页
第4章 矩阵向量乘法的设计与实现第47-55页
   ·矩阵向量乘法概述第47页
   ·矩阵向量乘法的分析和实现第47-49页
     ·非转置形式第47-48页
     ·转置形式第48-49页
   ·实验结果和分析第49-55页
     ·参数确定第49-51页
     ·性能分析第51页
     ·性能测试第51-53页
     ·小结第53-55页
第5章 总结和展望第55-57页
   ·本文总结第55页
   ·存在问题和研究展望第55-57页
参考文献第57-61页
致谢第61-62页
在读期间发表的学术论文与取得的研究成果第62页

论文共62页,点击 下载论文
上一篇:一种出具证明编译器中汇编级断言和证明的生成方法
下一篇:出具证明编译器中两项重要课题的研究