向量SIMD DSP上高效矩阵运算技术研究

摘要	第11-13页
Abstract	第13-14页
第一章绪论	第15-39页
1.1 研究背景	第15-21页
1.1.1 高性能计算的矩阵运算需求	第15-16页
1.1.2 DSP解决高性能计算问题的优势	第16-19页
1.1.3 SIMD技术成为高性能DSP的主流	第19-21页
1.2 基于SIMD DSP的矩阵运算面临的问题和思考	第21-27页
1.2.1 矩阵运算的基本问题	第21-23页
1.2.2 实际性能与峰值性能的鸿沟	第23-27页
1.3 研究现状	第27-35页
1.3.1 现有计算平台对高性能矩阵运算的支持	第27-30页
1.3.2 稠密线性方程组求解加速	第30-31页
1.3.3 稀疏线性方程组求解加速	第31-33页
1.3.4 高性能嵌入式领域矩阵乘法的加速	第33-35页
1.4 研究内容与创新点	第35-36页
1.5 论文结构	第36-39页
第二章 SIMD DSP上的GEMM性能模型及其体系结构设计权衡	第39-59页
2.1 相关研究	第39-41页
2.2 面向高效GEMM的高性能DSP基本框架	第41-43页
2.3 SIMD DSP上的GEMM性能模型	第43-50页
2.3.1 GEMM算法映射	第43-45页
2.3.2 GEBP的实现	第45-47页
2.3.3 GEMM性能模型	第47-50页
2.4 体系结构设计权衡	第50-56页
2.4.1 Local-Memory容量对性能的影响	第51-52页
2.4.2 Local-Memory容量和片上带宽的关系	第52-53页
2.4.3 Shared-Memory容量和片外带宽的关系	第53-54页
2.4.4 流水线深度对性能的影响	第54-55页
2.4.5 设计权衡实例	第55-56页
2.5 本章小结	第56-59页
第三章细粒度流水的LU分解算法及快速数据共享技术	第59-77页
3.1 研究背景	第59-61页
3.2 相关工作	第61-62页
3.3 基本LU分解算法的瓶颈分析	第62-65页
3.3.1 基本SIMD结构	第62-63页
3.3.2 数据相关	第63-65页
3.3.3 访存分析	第65页
3.4 细粒度流水的LU分解	第65-71页
3.4.1 算法设计	第66-68页
3.4.2 快速数据共享	第68-70页
3.4.3 算法映射	第70-71页
3.5 实验与评测	第71-75页
3.5.1 实验环境设置	第71页
3.5.2 性能分析	第71-73页
3.5.3 存储开销分析	第73-74页
3.5.4 硬件开销	第74-75页
3.6 本章小结	第75-77页
第四章突破性能瓶颈的软硬件协同SpMV优化	第77-99页
4.1 研究背景	第77-79页
4.2 相关研究	第79-81页
4.3 SpMV在SIMD处理器上的性能瓶颈	第81-85页
4.3.1 SIMD单元利用率低	第81-84页
4.3.2 索引寻址	第84页
4.3.3 访存带宽利用率低	第84-85页
4.4 基于SCT压缩格式的SpMV	第85-89页
4.4.1 SCT压缩格式	第85-87页
4.4.2 基于SCT格式的SpMV	第87-89页
4.4.3 分块SpMV算法	第89页
4.5 向量写缓冲技术	第89-92页
4.5.1 VWB的结构设计	第90-91页
4.5.2 VWB的工作协议	第91-92页
4.6 实验与评测	第92-97页
4.6.1 实验环境设置	第92页
4.6.2 性能评测	第92-93页
4.6.3 SIMD宽度对性能的影响	第93-94页
4.6.4 存储体分体数对性能的影响	第94-96页
4.6.5 VWB性能和硬件开销评估	第96-97页
4.7 本章小结	第97-99页
第五章面向嵌入式领域高效矩阵运算的多粒度矩阵寄存器文件	第99-117页
5.1 研究背景	第99-100页
5.2 相关研究	第100-101页
5.3 多粒度矩阵寄存器文件体系结构	第101-103页
5.4 多粒度访问模式	第103-109页
5.4.1 一路访问模式	第104-105页
5.4.2 两路访问模式	第105-106页
5.4.3 四路访问模式	第106-108页
5.4.4 MIMO解码算法映射实例	第108-109页
5.5 实验与评测	第109-112页
5.5.1 实验环境设置	第109-110页
5.5.2 性能分析	第110-111页
5.5.3 硬件开销	第111-112页
5.6 全定制设计	第112-116页
5.6.12 位宽MMRF设计	第112-115页
5.6.2 MMRF版图设计	第115页
5.6.3 性能分析	第115-116页
5.7 本章小结	第116-117页
第六章结论与展望	第117-121页
6.1 主要工作和创新点	第117-119页
6.2 下一步的研究工作	第119-121页
致谢	第121-123页
参考文献	第123-133页
作者在学期间取得的学术成果	第133-135页