摘要 | 第11-13页 |
Abstract | 第13-14页 |
第一章 绪论 | 第15-39页 |
1.1 研究背景 | 第15-21页 |
1.1.1 高性能计算的矩阵运算需求 | 第15-16页 |
1.1.2 DSP解决高性能计算问题的优势 | 第16-19页 |
1.1.3 SIMD技术成为高性能DSP的主流 | 第19-21页 |
1.2 基于SIMD DSP的矩阵运算面临的问题和思考 | 第21-27页 |
1.2.1 矩阵运算的基本问题 | 第21-23页 |
1.2.2 实际性能与峰值性能的鸿沟 | 第23-27页 |
1.3 研究现状 | 第27-35页 |
1.3.1 现有计算平台对高性能矩阵运算的支持 | 第27-30页 |
1.3.2 稠密线性方程组求解加速 | 第30-31页 |
1.3.3 稀疏线性方程组求解加速 | 第31-33页 |
1.3.4 高性能嵌入式领域矩阵乘法的加速 | 第33-35页 |
1.4 研究内容与创新点 | 第35-36页 |
1.5 论文结构 | 第36-39页 |
第二章 SIMD DSP上的GEMM性能模型及其体系结构设计权衡 | 第39-59页 |
2.1 相关研究 | 第39-41页 |
2.2 面向高效GEMM的高性能DSP基本框架 | 第41-43页 |
2.3 SIMD DSP上的GEMM性能模型 | 第43-50页 |
2.3.1 GEMM算法映射 | 第43-45页 |
2.3.2 GEBP的实现 | 第45-47页 |
2.3.3 GEMM性能模型 | 第47-50页 |
2.4 体系结构设计权衡 | 第50-56页 |
2.4.1 Local-Memory容量对性能的影响 | 第51-52页 |
2.4.2 Local-Memory容量和片上带宽的关系 | 第52-53页 |
2.4.3 Shared-Memory容量和片外带宽的关系 | 第53-54页 |
2.4.4 流水线深度对性能的影响 | 第54-55页 |
2.4.5 设计权衡实例 | 第55-56页 |
2.5 本章小结 | 第56-59页 |
第三章 细粒度流水的LU分解算法及快速数据共享技术 | 第59-77页 |
3.1 研究背景 | 第59-61页 |
3.2 相关工作 | 第61-62页 |
3.3 基本LU分解算法的瓶颈分析 | 第62-65页 |
3.3.1 基本SIMD结构 | 第62-63页 |
3.3.2 数据相关 | 第63-65页 |
3.3.3 访存分析 | 第65页 |
3.4 细粒度流水的LU分解 | 第65-71页 |
3.4.1 算法设计 | 第66-68页 |
3.4.2 快速数据共享 | 第68-70页 |
3.4.3 算法映射 | 第70-71页 |
3.5 实验与评测 | 第71-75页 |
3.5.1 实验环境设置 | 第71页 |
3.5.2 性能分析 | 第71-73页 |
3.5.3 存储开销分析 | 第73-74页 |
3.5.4 硬件开销 | 第74-75页 |
3.6 本章小结 | 第75-77页 |
第四章 突破性能瓶颈的软硬件协同SpMV优化 | 第77-99页 |
4.1 研究背景 | 第77-79页 |
4.2 相关研究 | 第79-81页 |
4.3 SpMV在SIMD处理器上的性能瓶颈 | 第81-85页 |
4.3.1 SIMD单元利用率低 | 第81-84页 |
4.3.2 索引寻址 | 第84页 |
4.3.3 访存带宽利用率低 | 第84-85页 |
4.4 基于SCT压缩格式的SpMV | 第85-89页 |
4.4.1 SCT压缩格式 | 第85-87页 |
4.4.2 基于SCT格式的SpMV | 第87-89页 |
4.4.3 分块SpMV算法 | 第89页 |
4.5 向量写缓冲技术 | 第89-92页 |
4.5.1 VWB的结构设计 | 第90-91页 |
4.5.2 VWB的工作协议 | 第91-92页 |
4.6 实验与评测 | 第92-97页 |
4.6.1 实验环境设置 | 第92页 |
4.6.2 性能评测 | 第92-93页 |
4.6.3 SIMD宽度对性能的影响 | 第93-94页 |
4.6.4 存储体分体数对性能的影响 | 第94-96页 |
4.6.5 VWB性能和硬件开销评估 | 第96-97页 |
4.7 本章小结 | 第97-99页 |
第五章 面向嵌入式领域高效矩阵运算的多粒度矩阵寄存器文件 | 第99-117页 |
5.1 研究背景 | 第99-100页 |
5.2 相关研究 | 第100-101页 |
5.3 多粒度矩阵寄存器文件体系结构 | 第101-103页 |
5.4 多粒度访问模式 | 第103-109页 |
5.4.1 一路访问模式 | 第104-105页 |
5.4.2 两路访问模式 | 第105-106页 |
5.4.3 四路访问模式 | 第106-108页 |
5.4.4 MIMO解码算法映射实例 | 第108-109页 |
5.5 实验与评测 | 第109-112页 |
5.5.1 实验环境设置 | 第109-110页 |
5.5.2 性能分析 | 第110-111页 |
5.5.3 硬件开销 | 第111-112页 |
5.6 全定制设计 | 第112-116页 |
5.6.12 位宽MMRF设计 | 第112-115页 |
5.6.2 MMRF版图设计 | 第115页 |
5.6.3 性能分析 | 第115-116页 |
5.7 本章小结 | 第116-117页 |
第六章 结论与展望 | 第117-121页 |
6.1 主要工作和创新点 | 第117-119页 |
6.2 下一步的研究工作 | 第119-121页 |
致谢 | 第121-123页 |
参考文献 | 第123-133页 |
作者在学期间取得的学术成果 | 第133-135页 |