首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--其他计算机论文

高性能GPU系统结构的研究

摘要第4-6页
ABSTRACT第6-7页
第1章 绪论第12-26页
    1.1 GPU背景介绍第13-20页
        1.1.1 GPU的软件第13-15页
        1.1.2 GPU的硬件第15-18页
        1.1.3 片外存储器第18-20页
    1.2 本文主要工作第20-22页
        1.2.1 L1 data cache效率第21页
        1.2.2 多样分支第21-22页
        1.2.3 高带宽存储器第22页
    1.3 本文主要创新工作第22-24页
        1.3.1 一种支持细粒度和粗粒度cache-line管理的L1 data cache结构第22-23页
        1.3.2 线程-通道混洗压缩第23-24页
        1.3.3 研究高带宽存储器HBM的新特征在GPU中的应用第24页
    1.4 本文组织结构第24-26页
第2章 国内外研究现状第26-36页
    2.1 GPU的性能第26-33页
        2.1.1 Warp调度策略第26-28页
        2.1.2 L1 data cache第28-31页
        2.1.3 GPU硬件资源利用率第31-33页
    2.2 GPU的功耗第33-36页
第3章 一种支持细粒度和粗粒度Cache-Line管理的L1 Data Cache架构第36-70页
    3.1 相关背景介绍第36-41页
        3.1.1 共享存储器和L1 Data Cache第38-39页
        3.1.2 Amoeba-Cache第39-41页
    3.2 GPU片上存储器的使用情况第41-45页
        3.2.1 L1 Data Cache的使用情况分析第41-43页
        3.2.2 共享存储器的使用情况第43-45页
    3.3 Elastic-Cache结构第45-53页
        3.3.1 Chunk-tag和Common-tag第45-46页
        3.3.2 Elastic-Cache的基本操作第46-47页
        3.3.3 对共享存储器的修改第47-48页
        3.3.4 Elastic-Cache的实现方法第48-52页
        3.3.5 替换策略和cache一致性第52-53页
    3.4 实验方法第53页
    3.5 实验结果第53-68页
        3.5.1 性能第53-61页
        3.5.2 L1 Data Cache缺失率第61-63页
        3.5.3 L1 Data Cache的效率第63-65页
        3.5.4 停顿次数第65-66页
        3.5.5 代价第66-68页
        3.5.6 标签和数据的并行访问第68页
    3.6 相关工作第68-69页
    3.7 本章小结第69-70页
第4章 线程-通道混洗压缩第70-98页
    4.1 相关背景介绍第70-72页
    4.2 相关工作第72-77页
        4.2.1 多样分支和PDOM第72-74页
        4.2.2 压缩机制第74-77页
    4.3 寄存器文件的设计第77-79页
        4.3.1 PDOM中的寄存器文件第77页
        4.3.2 TBC中的寄存器文件第77-79页
    4.4 线程-通道混排压缩第79-88页
        4.4.1 TBC局限性分析第79-81页
        4.4.2 寄存器文件的改进第81-84页
        4.4.3 提前调度机制第84-86页
        4.4.4 硬件支持第86-88页
    4.5 实验方法第88页
    4.6 实验结果第88-95页
        4.6.1 SIMD通道利用率和压缩效率第89-91页
        4.6.2 空闲周期数第91-92页
        4.6.3 性能第92页
        4.6.4 对存储系统的影响第92-94页
        4.6.5 寄存器文件的bank访问代价第94页
        4.6.6 TLSC的实现代价第94-95页
    4.7 TLSC的架构兼容性分析第95-96页
    4.8 本章小结第96-98页
第5章 HBM的新特征在GPU中的应用第98-112页
    5.1 相关背景介绍第98-100页
    5.2 GDDR5和HBM的比较第100-102页
    5.3 结合GPU Cache架构探索HBM第102-103页
    5.4 实验方法第103-105页
        5.4.1 GPU性能第103-105页
        5.4.2 HBM的功耗第105页
    5.5 实验结果第105-110页
        5.5.1 GPU的性能第105-108页
        5.5.2 HBM的功耗第108-110页
    5.6 相关工作第110页
    5.7 本章小结第110-112页
第6章 总结与展望第112-116页
    6.1 本文工作总结第112-113页
    6.2 工作展望第113-116页
        6.2.1 对Elastic-cache进行扩展第113页
        6.2.2 TLSC在不同寄存器文件结构上的移植第113-114页
        6.2.3 访存请求调度策略对HBM的影响第114-116页
参考文献第116-128页
发表论文和参加科研情况说明第128-130页
致谢第130-132页

论文共132页,点击 下载论文
上一篇:行为猴视觉系统对大范围特征和局部特征的并行分化处理
下一篇:弦支组合楼盖结构力学性能分析及人致振动理论研究