首页--工业技术论文--机械、仪表工业论文--力学量测量仪表论文--速度测量仪表论文

深度学习卷积神经网络VLIW加速器设计与实现

中文摘要第4-5页
abstract第5-6页
第一章 引言第9-11页
    1.1 研究背景第9页
    1.2 文献综述第9-10页
    1.3 问题的提出第10-11页
第二章 卷积神经网络核心算法及优化实现第11-20页
    2.1 卷积神经网络核心算法第11-14页
        2.1.1 基本神经元模型第11-12页
        2.1.2 多层神经网络模型第12-13页
        2.1.3 权值更新与反向传播算法第13页
        2.1.4 卷积特征提取第13页
        2.1.5 Le Net-5 网络模型第13-14页
    2.2 卷积神经网络算法应用与优化第14-20页
        2.2.1 层合并算法第14-16页
        2.2.2 公路限速牌识别第16-17页
        2.2.3 车尾识别数据库搜集与网络第17-18页
        2.2.4 人脸识别与稀疏连接网络第18-20页
第三章 卷积神经网络硬件加速器算法优化第20-34页
    3.1 深度神经网络的并行化案例分析第20-22页
        3.1.1 Caffe深度学习框架第20-21页
        3.1.2 Torch深度学习框架第21-22页
    3.2 软件加速向硬件加速的转变第22页
    3.3 硬件优化的两个重点目标第22-23页
    3.4 卷积神经网络testing过程并行化分析第23-28页
        3.4.1 单维并行化分析第23-25页
        3.4.2 并行化运算单元(PE)结构第25-26页
        3.4.3 并行化方式的评估第26-28页
    3.5 存储模式的优化选择第28-34页
        3.5.1 CACTI能耗评估第28-29页
        3.5.2 两种存储模式的提出第29-30页
        3.5.3 有/无片上中间结果存储器对片外DRAM访问量影响第30-31页
        3.5.4 片上输入存储器与中间结果存储器的设置第31-34页
第四章 硬件加速器的架构设计第34-45页
    4.1 并行架构的选择第34页
    4.2 硬件加速器的主要结构第34-36页
    4.3 硬件加速器的控制方式第36-45页
        4.3.1 指令集设置第36-38页
        4.3.2 伪指令例程第38-42页
        4.3.3 地址产生器与循环控制器第42-44页
        4.3.4 汇编器实现第44-45页
第五章 硬件加速器的实现与结果比较第45-55页
    5.1 CNN加速器FPGA验证第45-50页
        5.1.1 Xilinx ZYNQ平台的介绍与选择第45-46页
        5.1.2 So C验证系统架构第46-47页
        5.1.3 So C系统上的CNN计算流程第47-50页
    5.2 CNN加速器ASIC实现第50-51页
    5.3 加速器ASIC性能指标第51页
    5.4 加速器性能比较第51-55页
        5.4.1 吞吐量对比第52-53页
        5.4.2 存储访问对比第53-55页
第六章 总结与展望第55-56页
参考文献第56-59页
攻读学位期间本人公开发表的论文第59-60页

论文共60页,点击 下载论文
上一篇:高速铁路CTCS-3级虚拟仿真实验系统--CTC车站子系统的研究和应用
下一篇:柔性铰链可倾瓦轴承设计与性能研究