摘要 | 第11-13页 |
ABSTRACT | 第13-14页 |
第一章 绪论 | 第15-34页 |
1.1 研究背景 | 第15-20页 |
1.1.1 异构处理器的发展与衍生 | 第15-18页 |
1.1.2 融合式GPU在通用计算领域的应用与发展 | 第18-20页 |
1.1.3 课题来源 | 第20页 |
1.2 研究动机 | 第20-22页 |
1.2.1 CPU与GPU融合在通用计算领域带来的机遇 | 第20-21页 |
1.2.2 CPU与GPU融合在通用计算领域面临的挑战 | 第21-22页 |
1.3 国内外相关工作介绍 | 第22-27页 |
1.3.1 基于多核平台的多任务并行执行性能分析 | 第23-24页 |
1.3.2 异构处理器内核的通信开销优化 | 第24-25页 |
1.3.3 基于共享资源的任务分配策略 | 第25-26页 |
1.3.4 操作系统及运行时系统对共享资源分配的支持 | 第26-27页 |
1.4 研究内容与创新点 | 第27-33页 |
1.4.1 创新点 | 第27-28页 |
1.4.2 主要研究内容 | 第28-33页 |
1.5 论文组织结构 | 第33-34页 |
第二章 CPU&GPU融合式体系结构 | 第34-46页 |
2.1 图形处理器发展历程 | 第34-36页 |
2.2 统一架构GPU体系结构 | 第36-41页 |
2.2.1 GPU体系结构的主要特征 | 第36-38页 |
2.2.2 统一架构GPU的编程模型 | 第38-41页 |
2.3 CPU&GPU的融合—体系结构的进一步发展 | 第41-45页 |
2.3.1 AMDKaveri | 第41-43页 |
2.3.2 IntelIvyBridge | 第43-44页 |
2.3.3NvidiaTegraK1 | 第44-45页 |
2.4 小结 | 第45-46页 |
第三章 多任务并行执行的性能功耗分析与优化 | 第46-72页 |
3.1 绪论 | 第46-48页 |
3.2 实验平台与实验方法 | 第48-50页 |
3.2.1 硬件平台:处理器 | 第48-49页 |
3.2.2 软件平台:操作系统、驱动以及测试程序 | 第49-50页 |
3.2.3 计时机制 | 第50页 |
3.3 基于Intel/Windows平台的实验现象与分析 | 第50-57页 |
3.3.1 实验现象展示 | 第51-53页 |
3.3.2 实验分析1:共享存储角度 | 第53-55页 |
3.3.3 实验分析2:系统角度 | 第55-57页 |
3.4 基于AMD/Linux平台的实验现象与分析 | 第57-63页 |
3.4.1 实验分析 | 第59-61页 |
3.4.2 理解并行性能损耗的本质原因 | 第61-62页 |
3.4.3 数据传输对性能的微妙影响 | 第62-63页 |
3.5 实验现象小结 | 第63-64页 |
3.6 优化策略:减小并行程序的性能损耗 | 第64-70页 |
3.6.1 GPU主导的数据传输 | 第64-66页 |
3.6.2 计算内核合并 | 第66-67页 |
3.6.3 感知融合式GPU前提下的操作系统设计 | 第67-70页 |
3.7 小结 | 第70-72页 |
第四章 处理器预先唤醒机制 | 第72-95页 |
4.1 绪论 | 第72-75页 |
4.2 GPU程序响应的困境 | 第75-77页 |
4.2.1 GPU程序和主控线程 | 第75-76页 |
4.2.2 控制延迟、能耗效率与并行冲突三者的关系 | 第76-77页 |
4.3 GPU响应机制的优化 | 第77-84页 |
4.3.1 基本预先唤醒机制(BAW) | 第78-79页 |
4.3.2 三段式预先唤醒机制(TAW) | 第79-83页 |
4.3.3 基于内核拆分的预先唤醒机制(SAW) | 第83-84页 |
4.4 源到源编译框架 | 第84-85页 |
4.5 实验评估 | 第85-93页 |
4.5.1 实验配置 | 第85-86页 |
4.5.2 BAW和TAW | 第86-90页 |
4.5.3 SAW和自动选择机制 | 第90-93页 |
4.5.4 预先唤醒机制对同时执行程序的影响 | 第93页 |
4.6 小结 | 第93-95页 |
第五章 功耗受限条件下的任务调度算法 | 第95-115页 |
5.1 绪论 | 第95-97页 |
5.2 问题描述和定义 | 第97-99页 |
5.3 多任务并行调度示例 | 第99-100页 |
5.4 算法设计以及计算复杂性分析 | 第100-104页 |
5.4.1 计算复杂性 | 第100-101页 |
5.4.2 启发式算法 | 第101-103页 |
5.4.3 最优任务调度的性能估算 | 第103-104页 |
5.4.4 进一步讨论 | 第104页 |
5.5 性能与功耗模型 | 第104-107页 |
5.5.1 微基准程序的设计 | 第104-106页 |
5.5.2 建立并行性能空间模型 | 第106-107页 |
5.5.3 以分段插值方式使用并行性能空间模型 | 第107页 |
5.5.4 获取任务的性能与功耗指标 | 第107页 |
5.6 实验评估 | 第107-114页 |
5.6.1 实验平台 | 第107-108页 |
5.6.2 测试程序 | 第108页 |
5.6.3 评价指标 | 第108-109页 |
5.6.4 测试基准 | 第109-110页 |
5.6.5 程序和性能模型的精度 | 第110-112页 |
5.6.6 启发式算法的评估 | 第112-113页 |
5.6.7 可扩展性分析 | 第113-114页 |
5.7 小结 | 第114-115页 |
第六章 结论与展望 | 第115-118页 |
6.1 工作总结 | 第115-116页 |
6.2 研究展望 | 第116-118页 |
致谢 | 第118-120页 |
参考文献 | 第120-131页 |
作者在学期间取得的学术成果 | 第131页 |