基于FPGA的大规模浮点矩阵乘加速器研究

摘要	第9-10页
ABSTRACT	第10页
第一章绪论	第12-19页
1.1 论文研究背景	第12-13页
1.1.1 选题背景	第12-13页
1.1.2 研究意义	第13页
1.2 国内外研究现状	第13-17页
1.2.1 浮点运算部件研究现状	第13-14页
1.2.2 矩阵乘法硬件加速	第14-17页
1.3 本文主要工作及创新点	第17-18页
1.4 论文结构	第18-19页
第二章基于FPGA的矩阵乘并行加速基础	第19-31页
2.1 矩阵乘分块算法	第19-22页
2.1.1 矩阵乘算法概述	第19-20页
2.1.2 串行分块算法	第20-21页
2.1.3 并行分块算法	第21-22页
2.2 矩阵乘并行结构	第22-25页
2.2.1 Systolic阵列结构	第22-23页
2.2.2 基于总线广播的并行结构	第23-24页
2.2.3 基于Systolic的拓展并行结构	第24-25页
2.3 加速器通信模式	第25-27页
2.3.1 基本通信模式	第25-26页
2.3.2 AXI总线通信协议	第26-27页
2.4 可编程片上系统	第27-30页
2.4.1 可编程片上系统技术发展与特点	第28-29页
2.4.2 可编程片上系统设计流程	第29-30页
2.5 本章小结	第30-31页
第三章基于FPGA的浮点矩阵乘加速器系统设计与优化	第31-42页
3.1 矩阵乘法加速方案及结构设计	第31-32页
3.2 浮点乘法累加器结构设计	第32-37页
3.2.1 工作流程	第32-33页
3.2.2 模块设计	第33-37页
3.3 DMA访存模块结构设计	第37-41页
3.3.1 读通道	第38-40页
3.3.2 写通道	第40-41页
3.4 本章小结	第41-42页
第四章面向应用的优化分块技术	第42-54页
4.1 非均匀矩阵乘应用背景	第42-43页
4.2 优化分块技术实现	第43-49页
4.2.1 确定可优化条件	第44-45页
4.2.2 建立目标函数	第45-48页
4.2.3 求解最优分块	第48-49页
4.3 优化分块技术硬件支持	第49-53页
4.3.1 可变分块值的支持	第50-51页
4.3.2 阶段同步模块	第51-53页
4.4 本章小结	第53-54页
第五章矩阵乘加速器实现与性能评测	第54-65页
5.1 实验环境	第54-55页
5.1.1 软件平台	第54页
5.1.2 硬件平台	第54-55页
5.2 硬件资源开销	第55-57页
5.2.1 DMA访存模块	第55-56页
5.2.2 浮点乘累加器	第56-57页
5.3 性能分析	第57-64页
5.3.1 DMA访存模块	第57-58页
5.3.2 浮点乘法累加器	第58-59页
5.3.3 矩阵乘加速器	第59-63页
5.3.4 优化分块技术	第63-64页
5.4 本章小结	第64-65页
第六章结束语	第65-67页
6.1 工作总结	第65-66页
6.2 研究展望	第66-67页
致谢	第67-69页
参考文献	第69-73页
作者在学期间取得的学术成果	第73页