基于GPU的BLAS库的设计和实现
| 摘要 | 第1-5页 |
| ABSTRACT | 第5-6页 |
| 目录 | 第6-8页 |
| 图目录 | 第8-9页 |
| 表目录 | 第9-10页 |
| 第1章 绪论 | 第10-24页 |
| ·BLAS 库 | 第10-15页 |
| ·BLAS 的构成 | 第10页 |
| ·BLAS 函数介绍 | 第10-13页 |
| ·BLAS 主要参数 | 第13页 |
| ·BLAS 关键函数 | 第13-14页 |
| ·BLAS 优化现状 | 第14-15页 |
| ·GPU 的介绍 | 第15-22页 |
| ·GPU 发展简介 | 第16页 |
| ·GPU 与CPU 的差异 | 第16-19页 |
| ·GPU 实现 | 第19-20页 |
| ·GPU 的着色器模型 | 第20-22页 |
| ·本文的研究内容 | 第22-23页 |
| ·本文结构 | 第23-24页 |
| 第2章 CUDA 介绍 | 第24-36页 |
| ·CUDA 编程模型 | 第24-28页 |
| ·主机和设备 | 第24-26页 |
| ·内核函数 | 第26-27页 |
| ·线程层次结构 | 第27-28页 |
| ·存储器层次结构 | 第28-30页 |
| ·CUDA 软件栈 | 第30-32页 |
| ·CUDA 程序 | 第32-34页 |
| ·程序框架 | 第32页 |
| ·CUDA C 语言 | 第32-34页 |
| ·通信机制 | 第34页 |
| ·常用的优化方法 | 第34-35页 |
| ·小结 | 第35-36页 |
| 第3章 GPU 上矩阵乘法的设计与实现 | 第36-47页 |
| ·矩阵乘法回顾 | 第36-37页 |
| ·用CUDA 在GPU 上实现矩阵乘法的分析 | 第37-41页 |
| ·矩阵乘法分块分析 | 第37-40页 |
| ·CUDA 上的矩阵乘法分块分析 | 第40-41页 |
| ·CUDA 上矩阵乘法的设计与实现 | 第41-46页 |
| ·普通实现 | 第41-42页 |
| ·优化实现 | 第42-43页 |
| ·实验结果 | 第43-44页 |
| ·大规模矩阵乘法的算法设计 | 第44-46页 |
| ·小结 | 第46-47页 |
| 第4章 矩阵向量乘法的设计与实现 | 第47-55页 |
| ·矩阵向量乘法概述 | 第47页 |
| ·矩阵向量乘法的分析和实现 | 第47-49页 |
| ·非转置形式 | 第47-48页 |
| ·转置形式 | 第48-49页 |
| ·实验结果和分析 | 第49-55页 |
| ·参数确定 | 第49-51页 |
| ·性能分析 | 第51页 |
| ·性能测试 | 第51-53页 |
| ·小结 | 第53-55页 |
| 第5章 总结和展望 | 第55-57页 |
| ·本文总结 | 第55页 |
| ·存在问题和研究展望 | 第55-57页 |
| 参考文献 | 第57-61页 |
| 致谢 | 第61-62页 |
| 在读期间发表的学术论文与取得的研究成果 | 第62页 |