首页--工业技术论文--无线电电子学、电信技术论文--通信论文--通信理论论文--信号处理论文

向量SIMD DSP上高效矩阵运算技术研究

摘要第11-13页
Abstract第13-14页
第一章 绪论第15-39页
    1.1 研究背景第15-21页
        1.1.1 高性能计算的矩阵运算需求第15-16页
        1.1.2 DSP解决高性能计算问题的优势第16-19页
        1.1.3 SIMD技术成为高性能DSP的主流第19-21页
    1.2 基于SIMD DSP的矩阵运算面临的问题和思考第21-27页
        1.2.1 矩阵运算的基本问题第21-23页
        1.2.2 实际性能与峰值性能的鸿沟第23-27页
    1.3 研究现状第27-35页
        1.3.1 现有计算平台对高性能矩阵运算的支持第27-30页
        1.3.2 稠密线性方程组求解加速第30-31页
        1.3.3 稀疏线性方程组求解加速第31-33页
        1.3.4 高性能嵌入式领域矩阵乘法的加速第33-35页
    1.4 研究内容与创新点第35-36页
    1.5 论文结构第36-39页
第二章 SIMD DSP上的GEMM性能模型及其体系结构设计权衡第39-59页
    2.1 相关研究第39-41页
    2.2 面向高效GEMM的高性能DSP基本框架第41-43页
    2.3 SIMD DSP上的GEMM性能模型第43-50页
        2.3.1 GEMM算法映射第43-45页
        2.3.2 GEBP的实现第45-47页
        2.3.3 GEMM性能模型第47-50页
    2.4 体系结构设计权衡第50-56页
        2.4.1 Local-Memory容量对性能的影响第51-52页
        2.4.2 Local-Memory容量和片上带宽的关系第52-53页
        2.4.3 Shared-Memory容量和片外带宽的关系第53-54页
        2.4.4 流水线深度对性能的影响第54-55页
        2.4.5 设计权衡实例第55-56页
    2.5 本章小结第56-59页
第三章 细粒度流水的LU分解算法及快速数据共享技术第59-77页
    3.1 研究背景第59-61页
    3.2 相关工作第61-62页
    3.3 基本LU分解算法的瓶颈分析第62-65页
        3.3.1 基本SIMD结构第62-63页
        3.3.2 数据相关第63-65页
        3.3.3 访存分析第65页
    3.4 细粒度流水的LU分解第65-71页
        3.4.1 算法设计第66-68页
        3.4.2 快速数据共享第68-70页
        3.4.3 算法映射第70-71页
    3.5 实验与评测第71-75页
        3.5.1 实验环境设置第71页
        3.5.2 性能分析第71-73页
        3.5.3 存储开销分析第73-74页
        3.5.4 硬件开销第74-75页
    3.6 本章小结第75-77页
第四章 突破性能瓶颈的软硬件协同SpMV优化第77-99页
    4.1 研究背景第77-79页
    4.2 相关研究第79-81页
    4.3 SpMV在SIMD处理器上的性能瓶颈第81-85页
        4.3.1 SIMD单元利用率低第81-84页
        4.3.2 索引寻址第84页
        4.3.3 访存带宽利用率低第84-85页
    4.4 基于SCT压缩格式的SpMV第85-89页
        4.4.1 SCT压缩格式第85-87页
        4.4.2 基于SCT格式的SpMV第87-89页
        4.4.3 分块SpMV算法第89页
    4.5 向量写缓冲技术第89-92页
        4.5.1 VWB的结构设计第90-91页
        4.5.2 VWB的工作协议第91-92页
    4.6 实验与评测第92-97页
        4.6.1 实验环境设置第92页
        4.6.2 性能评测第92-93页
        4.6.3 SIMD宽度对性能的影响第93-94页
        4.6.4 存储体分体数对性能的影响第94-96页
        4.6.5 VWB性能和硬件开销评估第96-97页
    4.7 本章小结第97-99页
第五章 面向嵌入式领域高效矩阵运算的多粒度矩阵寄存器文件第99-117页
    5.1 研究背景第99-100页
    5.2 相关研究第100-101页
    5.3 多粒度矩阵寄存器文件体系结构第101-103页
    5.4 多粒度访问模式第103-109页
        5.4.1 一路访问模式第104-105页
        5.4.2 两路访问模式第105-106页
        5.4.3 四路访问模式第106-108页
        5.4.4 MIMO解码算法映射实例第108-109页
    5.5 实验与评测第109-112页
        5.5.1 实验环境设置第109-110页
        5.5.2 性能分析第110-111页
        5.5.3 硬件开销第111-112页
    5.6 全定制设计第112-116页
        5.6.12 位宽MMRF设计第112-115页
        5.6.2 MMRF版图设计第115页
        5.6.3 性能分析第115-116页
    5.7 本章小结第116-117页
第六章 结论与展望第117-121页
    6.1 主要工作和创新点第117-119页
    6.2 下一步的研究工作第119-121页
致谢第121-123页
参考文献第123-133页
作者在学期间取得的学术成果第133-135页

论文共135页,点击 下载论文
上一篇:从“新科学”到“新启蒙”--论维柯的历史诗学
下一篇:基于信息集成的企业运营监控体系研究