深度学习卷积神经网络VLIW加速器设计与实现

中文摘要	第4-5页
abstract	第5-6页
第一章引言	第9-11页
1.1 研究背景	第9页
1.2 文献综述	第9-10页
1.3 问题的提出	第10-11页
第二章卷积神经网络核心算法及优化实现	第11-20页
2.1 卷积神经网络核心算法	第11-14页
2.1.1 基本神经元模型	第11-12页
2.1.2 多层神经网络模型	第12-13页
2.1.3 权值更新与反向传播算法	第13页
2.1.4 卷积特征提取	第13页
2.1.5 Le Net-5 网络模型	第13-14页
2.2 卷积神经网络算法应用与优化	第14-20页
2.2.1 层合并算法	第14-16页
2.2.2 公路限速牌识别	第16-17页
2.2.3 车尾识别数据库搜集与网络	第17-18页
2.2.4 人脸识别与稀疏连接网络	第18-20页
第三章卷积神经网络硬件加速器算法优化	第20-34页
3.1 深度神经网络的并行化案例分析	第20-22页
3.1.1 Caffe深度学习框架	第20-21页
3.1.2 Torch深度学习框架	第21-22页
3.2 软件加速向硬件加速的转变	第22页
3.3 硬件优化的两个重点目标	第22-23页
3.4 卷积神经网络testing过程并行化分析	第23-28页
3.4.1 单维并行化分析	第23-25页
3.4.2 并行化运算单元(PE)结构	第25-26页
3.4.3 并行化方式的评估	第26-28页
3.5 存储模式的优化选择	第28-34页
3.5.1 CACTI能耗评估	第28-29页
3.5.2 两种存储模式的提出	第29-30页
3.5.3 有/无片上中间结果存储器对片外DRAM访问量影响	第30-31页
3.5.4 片上输入存储器与中间结果存储器的设置	第31-34页
第四章硬件加速器的架构设计	第34-45页
4.1 并行架构的选择	第34页
4.2 硬件加速器的主要结构	第34-36页
4.3 硬件加速器的控制方式	第36-45页
4.3.1 指令集设置	第36-38页
4.3.2 伪指令例程	第38-42页
4.3.3 地址产生器与循环控制器	第42-44页
4.3.4 汇编器实现	第44-45页
第五章硬件加速器的实现与结果比较	第45-55页
5.1 CNN加速器FPGA验证	第45-50页
5.1.1 Xilinx ZYNQ平台的介绍与选择	第45-46页
5.1.2 So C验证系统架构	第46-47页
5.1.3 So C系统上的CNN计算流程	第47-50页
5.2 CNN加速器ASIC实现	第50-51页
5.3 加速器ASIC性能指标	第51页
5.4 加速器性能比较	第51-55页
5.4.1 吞吐量对比	第52-53页
5.4.2 存储访问对比	第53-55页
第六章总结与展望	第55-56页
参考文献	第56-59页
攻读学位期间本人公开发表的论文	第59-60页