首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--运算器和控制器(CPU)论文

CPU-GPGPU共享最后一级缓存架构中的数据共享优化研究

摘要第4-6页
Abstract第6-7页
第1章 绪论第16-29页
    1.1 背景介绍第16-20页
        1.1.1 GPGPU编程模型与架构第16-18页
        1.1.2 CPU-GPGPU异构多处理器系统第18-20页
    1.2 研究动机第20-23页
        1.2.1 LLC数据共享第20-21页
        1.2.2 共享数据存储布局第21-22页
        1.2.3 GPGPU中的仿射计算第22-23页
    1.3 研究框架第23-24页
    1.4 研究内容第24-27页
        1.4.1 共享数据队列第24-25页
        1.4.2 共享数据存储布局重映射第25-26页
        1.4.3 访存分离计算第26-27页
    1.5 本文组织结构第27-28页
    1.6 本章小结第28-29页
第2章 相关工作综述第29-44页
    2.1 共享LLC第29-31页
        2.1.1 CPU-GPGPU异构架构性能评估第29-30页
        2.1.2 共享LLC管理策略第30-31页
    2.2 CPU-GPGPU数据交换第31-34页
        2.2.1 共享存储实现第31-32页
        2.2.2 任务数据分发和调度第32-33页
        2.2.3 内存一致性模型和缓存一致性协议第33-34页
    2.3 数据存储布局和转换第34-37页
        2.3.1 性能评估第34-35页
        2.3.2 最优数据存储布局选择第35页
        2.3.3 数据存储布局转换第35-37页
    2.4 GPGPU数据预取第37-38页
        2.4.1 软件预取第37页
        2.4.2 硬件预取第37-38页
    2.5 冗余计算优化第38-42页
        2.5.1 指令重用第38-39页
        2.5.2 标量计算第39-41页
        2.5.3 仿射计算第41-42页
    2.6 访存分离计算第42-43页
        2.6.1 硬件预先执行和辅助线程第42页
        2.6.2 访存分离执行第42-43页
    2.7 本章小结第43-44页
第3章 共享数据队列第44-83页
    3.1 传统LLC数据共享的问题第44-47页
    3.2 元素大小受限的共享数据队列第47-49页
    3.3 基础共享数据队列第49-55页
        3.3.1 元素-原子数据组织第49-50页
        3.3.2 访问协议第50-51页
        3.3.3 基础共享数据队列管理第51-54页
        3.3.4 典型用例以及局限性第54-55页
    3.4 后备存储第55-60页
        3.4.1 总体设计第55-56页
        3.4.2 流映射第56-58页
        3.4.3 数据存储管理第58-60页
    3.5 全局同步第60-65页
        3.5.1 程序结束信号第60-62页
        3.5.2 全局同步栅栏第62-65页
    3.6 实验结果分析第65-82页
        3.6.1 实验环境第65页
        3.6.2 测试程序第65-66页
        3.6.3 元素大小受限的共享数据队列第66-69页
        3.6.4 基础共享数据队列第69-73页
        3.6.5 后备存储案例研究: N皇后问题第73-77页
        3.6.6 全局同步案例研究: 广度优先搜索(BFS)第77-81页
        3.6.7 硬件代价第81-82页
    3.7 本章小结第82-83页
第4章 共享数据存储布局重映射第83-110页
    4.1 访存模式和动机第83-88页
        4.1.1 数据存储布局第83-84页
        4.1.2 访存局部性第84-85页
        4.1.3 软件进行数据存储布局转换第85-87页
        4.1.4 动机第87-88页
    4.2 数据存储地址重映射第88-90页
        4.2.1 地址计算第88-89页
        4.2.2 地址重映射第89-90页
    4.3 LLC数据存储布局重映射第90-96页
        4.3.1 设计框架第90-91页
        4.3.2 重映射控制器第91-94页
        4.3.3 重映射程序第94-95页
        4.3.4 讨论第95-96页
    4.4 分块矩阵乘法案例研究第96-102页
        4.4.1 GPGPU kernel第96-98页
        4.4.2 重映射配置第98-99页
        4.4.3 重映射程序第99-101页
        4.4.4 性能分析第101-102页
    4.5 实验结果分析第102-109页
        4.5.1 实验环境第102页
        4.5.2 测试程序第102-104页
        4.5.3 性能分析第104-105页
        4.5.4 访存性能第105-107页
        4.5.5 与CPU存储布局转换比较第107-108页
        4.5.6 与PTTWAC比较第108-109页
        4.5.7 硬件代价第109页
    4.6 本章小结第109-110页
第5章 访存分离计算第110-131页
    5.1 仿射计算介绍第110-111页
    5.2 基于仿射计算的访存第111-113页
    5.3 访存分离计算第113-117页
        5.3.1 框架第113-115页
        5.3.2 编译时访存分离第115-117页
    5.4 仿射元组展开单元第117-121页
        5.4.1 框架第117-118页
        5.4.2 读数据仿射元组展开第118-121页
        5.4.3 写数据仿射元组展开第121页
    5.5 SM仿射数据访问第121-123页
    5.6 实验结果分析第123-129页
        5.6.1 实验环境第123-124页
        5.6.2 测试程序第124-125页
        5.6.3 性能分析第125-126页
        5.6.4 SM访存分析第126-128页
        5.6.5 LLC访存分析第128-129页
    5.7 本章小结第129-131页
第6章 总结与展望第131-134页
    6.1 总结第131-132页
    6.2 展望第132-134页
参考文献第134-164页
攻读博士学位期间主要的研究成果第164-165页
致谢第165页

论文共165页,点击 下载论文
上一篇:柴达木盆地西部富锶地层的地球化学特征及其地质意义
下一篇:抑制DJ-1蛋白二聚合抗肿瘤化合物的虚拟筛选和结构优化及抗肿瘤抑制剂靶点选择性的计算模拟研究