基于GPU的BLAS库的设计和实现

摘要	第1-5页
ABSTRACT	第5-6页
目录	第6-8页
图目录	第8-9页
表目录	第9-10页
第1章绪论	第10-24页
·BLAS 库	第10-15页
·BLAS 的构成	第10页
·BLAS 函数介绍	第10-13页
·BLAS 主要参数	第13页
·BLAS 关键函数	第13-14页
·BLAS 优化现状	第14-15页
·GPU 的介绍	第15-22页
·GPU 发展简介	第16页
·GPU 与CPU 的差异	第16-19页
·GPU 实现	第19-20页
·GPU 的着色器模型	第20-22页
·本文的研究内容	第22-23页
·本文结构	第23-24页
第2章 CUDA 介绍	第24-36页
·CUDA 编程模型	第24-28页
·主机和设备	第24-26页
·内核函数	第26-27页
·线程层次结构	第27-28页
·存储器层次结构	第28-30页
·CUDA 软件栈	第30-32页
·CUDA 程序	第32-34页
·程序框架	第32页
·CUDA C 语言	第32-34页
·通信机制	第34页
·常用的优化方法	第34-35页
·小结	第35-36页
第3章 GPU 上矩阵乘法的设计与实现	第36-47页
·矩阵乘法回顾	第36-37页
·用CUDA 在GPU 上实现矩阵乘法的分析	第37-41页
·矩阵乘法分块分析	第37-40页
·CUDA 上的矩阵乘法分块分析	第40-41页
·CUDA 上矩阵乘法的设计与实现	第41-46页
·普通实现	第41-42页
·优化实现	第42-43页
·实验结果	第43-44页
·大规模矩阵乘法的算法设计	第44-46页
·小结	第46-47页
第4章矩阵向量乘法的设计与实现	第47-55页
·矩阵向量乘法概述	第47页
·矩阵向量乘法的分析和实现	第47-49页
·非转置形式	第47-48页
·转置形式	第48-49页
·实验结果和分析	第49-55页
·参数确定	第49-51页
·性能分析	第51页
·性能测试	第51-53页
·小结	第53-55页
第5章总结和展望	第55-57页
·本文总结	第55页
·存在问题和研究展望	第55-57页
参考文献	第57-61页
致谢	第61-62页
在读期间发表的学术论文与取得的研究成果	第62页