摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第1章 绪论 | 第17-35页 |
1.1 卷积神经网络简介 | 第18-27页 |
1.1.1 卷积神经网络的发展历史 | 第18-19页 |
1.1.2 卷积神经网络的应用领域 | 第19-22页 |
1.1.3 卷积神经网络的层级组成 | 第22-27页 |
1.2 卷积神经网络的硬件加速以及软硬件特征失配问题 | 第27-32页 |
1.2.1 卷积神经网络的硬件加速方法 | 第27-30页 |
1.2.2 卷积神经网络硬件加速中的软、硬件特征失配问题 | 第30-32页 |
1.3 主要研究内容和贡献 | 第32-34页 |
1.4 本文的组织结构 | 第34-35页 |
第2章 相关工作 | 第35-45页 |
2.1 基于ASIC的神经网络硬件加速器 | 第35-39页 |
2.1.1 面向普适性硬件架构设计的ASIC加速器 | 第35-37页 |
2.1.2 面向特定神经网络计算特性的ASIC加速器 | 第37-39页 |
2.2 基于FPGA的神经网络硬件加速器 | 第39-43页 |
2.2.1 FPGA上卷积神经网络加速器的设计和优化 | 第39-42页 |
2.2.2 基于FPGA的神经网络加速器设计框架 | 第42-43页 |
2.3 现有软硬件特征失配问题的解决方案 | 第43-44页 |
2.4 本章小结 | 第44-45页 |
第3章 片上固化全网络层的异构多核加速方法 | 第45-70页 |
3.1 背景和动机 | 第45页 |
3.2 加速器的整体架构 | 第45-47页 |
3.3 计算映射与并行策略 | 第47-51页 |
3.3.1 网络的直接映射策略 | 第47-49页 |
3.3.2 基于层间融合的映射策略 | 第49-51页 |
3.4 整体访存优化 | 第51-54页 |
3.4.1 全连接层的平衡剪枝 | 第51-53页 |
3.4.2 层间流水中的半批处理 | 第53-54页 |
3.5 加速器部署的设计空间搜索策略 | 第54-63页 |
3.5.1 设计空间搜索整体思路 | 第54-56页 |
3.5.2 面向Roofline模型的组合优化模型 | 第56-63页 |
3.6 实验方法和实验结果 | 第63-69页 |
3.6.1 实验方法 | 第63-64页 |
3.6.2 实验结果 | 第64-67页 |
3.6.3 讨论 | 第67-69页 |
3.7 本章小结 | 第69-70页 |
第4章 面向层级特征的异构多核加速方法 | 第70-87页 |
4.1 背景和动机 | 第70-71页 |
4.2 面向层级特征的多核硬件架构 | 第71-72页 |
4.3 多核结构中的层级计算划分 | 第72-75页 |
4.3.1 粗粒度网络层划分和硬件部署方式 | 第72-74页 |
4.3.2 细粒度网络层划分 | 第74-75页 |
4.4 加速器部署的设计空间搜索策略 | 第75-81页 |
4.5 实验方法和实验结果 | 第81-86页 |
4.5.1 实验方法 | 第81-82页 |
4.5.2 实验结果 | 第82-86页 |
4.6 本章小结 | 第86-87页 |
第5章 面向动态重构场景的异构多核加速方法 | 第87-103页 |
5.1 背景和动机 | 第87-88页 |
5.2 层内计算划分 | 第88-89页 |
5.3 硬件加速系统的整体结构 | 第89-91页 |
5.3.1 硬件部分 | 第89-90页 |
5.3.2 软件部分 | 第90-91页 |
5.4 面向特定网络模型的硬件加速部署 | 第91-97页 |
5.4.1 计算核心设计 | 第91-93页 |
5.4.2 运行时计算核心重构策略 | 第93-97页 |
5.5 实验方法和实验结果 | 第97-101页 |
5.5.1 实验方法 | 第97-98页 |
5.5.2 实验结果 | 第98-101页 |
5.6 本章小结 | 第101-103页 |
第6章 总结与展望 | 第103-106页 |
6.1 本文工作总结 | 第103-104页 |
6.2 未来研究展望 | 第104-106页 |
参考文献 | 第106-118页 |
致谢 | 第118-119页 |
在读期间发表的学术论文与取得的研究成果 | 第119页 |