基于FPGA的BLAS加速系统的设计与研究
摘要 | 第1-5页 |
Abstract | 第5-8页 |
第一章 绪论 | 第8-11页 |
·研究意义 | 第8页 |
·研究现状与研究背景 | 第8-9页 |
·BLAS数学库的应用 | 第8页 |
·国内外BLAS数学库的研究现状 | 第8-9页 |
·课题来源和研究方法 | 第9页 |
·本文内容和章节安排 | 第9-11页 |
第二章 BLAS和乘加器的研究 | 第11-27页 |
·几种BLAS数学库的性能分析 | 第11页 |
·BLAS数学库的核心分析 | 第11-12页 |
·可加速部分的分析 | 第12页 |
·乘法器和加法器的研究 | 第12-27页 |
·乘法定义 | 第13页 |
·乘法器的分类 | 第13-16页 |
·迭代乘法器 | 第13-14页 |
·线性阵列乘法器 | 第14-15页 |
·并行乘法器 | 第15-16页 |
·乘法器编码算法 | 第16-17页 |
·乘法器拓扑结构 | 第17-22页 |
·加法器 | 第22-25页 |
·全加器 | 第22-23页 |
·行波进位加法器 | 第23页 |
·超前进位加法器 | 第23-25页 |
·选择进位加法器 | 第25页 |
·进位保留加法器 | 第25页 |
·乘加器研究总结 | 第25-27页 |
第三章 加速系统设计思想和方案 | 第27-33页 |
·加速系统整体架构设计 | 第27页 |
·加速系统结构设计 | 第27-30页 |
·加速系统硬件结构 | 第27-28页 |
·加速系统软件结构 | 第28-30页 |
·加速系统设计分析 | 第30-33页 |
·加速系统硬件分析 | 第30-31页 |
·加速系统软件分析 | 第31-33页 |
第四章 BLAS加速系统的实现 | 第33-52页 |
·数学库的设计实现 | 第33-39页 |
·数学库计算范围的确定 | 第33-34页 |
·任务分配以及作业调度 | 第34-39页 |
·负载均衡及其优化实现 | 第39页 |
·加速卡硬件的设计实现 | 第39-52页 |
·PCI-E控制模块的实现 | 第40-43页 |
·矩阵数据写入QDR2控制模块 | 第41-42页 |
·矩阵数据写入运算单元控制模块 | 第42-43页 |
·运算单元将矩阵数据写入PCIE控制模块 | 第43页 |
·SRAM读写控制器模块的实现 | 第43-50页 |
·QDRⅡ控制模块的外部接口 | 第44-46页 |
·QDRⅡ SRAM的总线 | 第46页 |
·与QDRⅡ SRAM写操作相关物理接口 | 第46-48页 |
·与QDRⅡ SRAM读操作相关物理接口 | 第48-50页 |
·运算阵列模块的实现 | 第50-52页 |
第五章 实验、分析及结论 | 第52-55页 |
·测试方案设计 | 第52页 |
·测试环境 | 第52页 |
·测试结果和结果分析 | 第52-55页 |
第六章 总结和展望 | 第55-57页 |
·本文的工作 | 第55页 |
·研究成果 | 第55-56页 |
·研究展望 | 第56-57页 |
参考文献 | 第57-60页 |
致谢 | 第60-61页 |
发表的学术论文和参与的科研活动 | 第61-62页 |
附录1 DGEMM详细介绍 | 第62-63页 |