适用于高性能计算节点的多核系统协同优化设计
致谢 | 第5-6页 |
摘要 | 第6-8页 |
Abstract | 第8-9页 |
1 绪论 | 第17-33页 |
1.1 概述 | 第18-19页 |
1.2 发展现状 | 第19-24页 |
1.3 研究现状 | 第24-29页 |
1.3.1 多核操作系统 | 第24-25页 |
1.3.2 片上存储系统 | 第25-28页 |
1.3.3 光电互连网络 | 第28-29页 |
1.4 本文解决的关键问题 | 第29-30页 |
1.5 本文主要内容和工作安排 | 第30-33页 |
2 多核调度器和接口协议 | 第33-60页 |
2.1 系统结构 | 第34-35页 |
2.2 接口协议 | 第35-43页 |
2.2.1 并行编程模型 | 第35-36页 |
2.2.2 应用程序抽象 | 第36-38页 |
2.2.3 任务分类 | 第38-40页 |
2.2.4 接口函数 | 第40-41页 |
2.2.5 协议扩展性 | 第41-43页 |
2.3 调度器与执行器 | 第43-46页 |
2.4 加速机制 | 第46-48页 |
2.5 实验方法 | 第48-50页 |
2.6 实验结果 | 第50-58页 |
2.6.1 实例分析 | 第50-53页 |
2.6.2 系统性能 | 第53-56页 |
2.6.3 硬件开销 | 第56-57页 |
2.6.4 系统扩展性 | 第57-58页 |
2.7 相关工作 | 第58-59页 |
2.8 本章小结 | 第59-60页 |
3 线程感知的自调数据预取引擎 | 第60-95页 |
3.1 预取引擎的基本结构 | 第62-66页 |
3.2 线程感知的自适应数据预取引擎 | 第66-77页 |
3.2.1 预取感知的线程分类自调 | 第66-71页 |
3.2.2 减少预取导致的共享缓存无效化 | 第71-74页 |
3.2.3 关键线程加速机制 | 第74-76页 |
3.2.4 硬件实现 | 第76-77页 |
3.3 实验方法 | 第77-81页 |
3.4 实验结果 | 第81-91页 |
3.4.1 线程分类 | 第81-82页 |
3.4.2 减少预取导致的无效化 | 第82页 |
3.4.3 攻击预取过滤 | 第82-84页 |
3.4.4 关键线程加速 | 第84-85页 |
3.4.5 系统性能 | 第85-86页 |
3.4.6 能量时延积 | 第86页 |
3.4.7 引入HPAC机制对TAP的影响 | 第86-87页 |
3.4.8 Cache分区机制的影响 | 第87-88页 |
3.4.9 存储带宽 | 第88页 |
3.4.10 存储访问请求的分布 | 第88-89页 |
3.4.11 敏感度分析 | 第89-90页 |
3.4.12 硬件开销 | 第90-91页 |
3.5 相关工作 | 第91-93页 |
3.6 本章小结 | 第93-95页 |
4 片上光电互连网络的仿真与设计 | 第95-116页 |
4.1 系统仿真概述 | 第96-97页 |
4.2 系统实现 | 第97-104页 |
4.2.1 模拟器 | 第97-99页 |
4.2.2 多线程编程 | 第99-101页 |
4.2.3 器件库 | 第101-102页 |
4.2.4 功耗计算模型 | 第102-103页 |
4.2.5 分簇方法 | 第103页 |
4.2.6 仿真规模扩展 | 第103-104页 |
4.2.7 仿真流程 | 第104页 |
4.3 实验 | 第104-113页 |
4.3.1 实验方法 | 第104-107页 |
4.3.2 实验结果分析 | 第107-113页 |
4.4 相关工作 | 第113-115页 |
4.5 本章小结 | 第115-116页 |
总结与展望 | 第116-118页 |
参考文献 | 第118-129页 |
作者攻读博士学位期间发表的论文 | 第129-130页 |
作者攻读博士学位期间参与的科研工作 | 第130页 |