基于CPU&GPU融合式异构众核处理器的程序特征分析和性能功耗优化

摘要	第11-13页
ABSTRACT	第13-14页
第一章绪论	第15-34页
1.1 研究背景	第15-20页
1.1.1 异构处理器的发展与衍生	第15-18页
1.1.2 融合式GPU在通用计算领域的应用与发展	第18-20页
1.1.3 课题来源	第20页
1.2 研究动机	第20-22页
1.2.1 CPU与GPU融合在通用计算领域带来的机遇	第20-21页
1.2.2 CPU与GPU融合在通用计算领域面临的挑战	第21-22页
1.3 国内外相关工作介绍	第22-27页
1.3.1 基于多核平台的多任务并行执行性能分析	第23-24页
1.3.2 异构处理器内核的通信开销优化	第24-25页
1.3.3 基于共享资源的任务分配策略	第25-26页
1.3.4 操作系统及运行时系统对共享资源分配的支持	第26-27页
1.4 研究内容与创新点	第27-33页
1.4.1 创新点	第27-28页
1.4.2 主要研究内容	第28-33页
1.5 论文组织结构	第33-34页
第二章 CPU&GPU融合式体系结构	第34-46页
2.1 图形处理器发展历程	第34-36页
2.2 统一架构GPU体系结构	第36-41页
2.2.1 GPU体系结构的主要特征	第36-38页
2.2.2 统一架构GPU的编程模型	第38-41页
2.3 CPU&GPU的融合—体系结构的进一步发展	第41-45页
2.3.1 AMDKaveri	第41-43页
2.3.2 IntelIvyBridge	第43-44页
2.3.3NvidiaTegraK1	第44-45页
2.4 小结	第45-46页
第三章多任务并行执行的性能功耗分析与优化	第46-72页
3.1 绪论	第46-48页
3.2 实验平台与实验方法	第48-50页
3.2.1 硬件平台：处理器	第48-49页
3.2.2 软件平台：操作系统、驱动以及测试程序	第49-50页
3.2.3 计时机制	第50页
3.3 基于Intel/Windows平台的实验现象与分析	第50-57页
3.3.1 实验现象展示	第51-53页
3.3.2 实验分析1：共享存储角度	第53-55页
3.3.3 实验分析2：系统角度	第55-57页
3.4 基于AMD/Linux平台的实验现象与分析	第57-63页
3.4.1 实验分析	第59-61页
3.4.2 理解并行性能损耗的本质原因	第61-62页
3.4.3 数据传输对性能的微妙影响	第62-63页
3.5 实验现象小结	第63-64页
3.6 优化策略：减小并行程序的性能损耗	第64-70页
3.6.1 GPU主导的数据传输	第64-66页
3.6.2 计算内核合并	第66-67页
3.6.3 感知融合式GPU前提下的操作系统设计	第67-70页
3.7 小结	第70-72页
第四章处理器预先唤醒机制	第72-95页
4.1 绪论	第72-75页
4.2 GPU程序响应的困境	第75-77页
4.2.1 GPU程序和主控线程	第75-76页
4.2.2 控制延迟、能耗效率与并行冲突三者的关系	第76-77页
4.3 GPU响应机制的优化	第77-84页
4.3.1 基本预先唤醒机制(BAW)	第78-79页
4.3.2 三段式预先唤醒机制(TAW)	第79-83页
4.3.3 基于内核拆分的预先唤醒机制(SAW)	第83-84页
4.4 源到源编译框架	第84-85页
4.5 实验评估	第85-93页
4.5.1 实验配置	第85-86页
4.5.2 BAW和TAW	第86-90页
4.5.3 SAW和自动选择机制	第90-93页
4.5.4 预先唤醒机制对同时执行程序的影响	第93页
4.6 小结	第93-95页
第五章功耗受限条件下的任务调度算法	第95-115页
5.1 绪论	第95-97页
5.2 问题描述和定义	第97-99页
5.3 多任务并行调度示例	第99-100页
5.4 算法设计以及计算复杂性分析	第100-104页
5.4.1 计算复杂性	第100-101页
5.4.2 启发式算法	第101-103页
5.4.3 最优任务调度的性能估算	第103-104页
5.4.4 进一步讨论	第104页
5.5 性能与功耗模型	第104-107页
5.5.1 微基准程序的设计	第104-106页
5.5.2 建立并行性能空间模型	第106-107页
5.5.3 以分段插值方式使用并行性能空间模型	第107页
5.5.4 获取任务的性能与功耗指标	第107页
5.6 实验评估	第107-114页
5.6.1 实验平台	第107-108页
5.6.2 测试程序	第108页
5.6.3 评价指标	第108-109页
5.6.4 测试基准	第109-110页
5.6.5 程序和性能模型的精度	第110-112页
5.6.6 启发式算法的评估	第112-113页
5.6.7 可扩展性分析	第113-114页
5.7 小结	第114-115页
第六章结论与展望	第115-118页
6.1 工作总结	第115-116页
6.2 研究展望	第116-118页
致谢	第118-120页
参考文献	第120-131页
作者在学期间取得的学术成果	第131页