异构并行系统统一编程环境关键技术研究

摘要	第10-13页
ABSTRACT	第13-15页
第一章绪论	第16-34页
1.1 课题背景	第16-20页
1.1.1 编程方法的统一 -Open CL	第17-18页
1.1.2 应对可重构系统的挑战 -BORPH	第18-20页
1.2 研究现状	第20-29页
1.2.1 加速器型异构并行系统	第20-25页
1.2.2 片上异构并行系统	第25-27页
1.2.3 多FPGA系统	第27-29页
1.3 本文主要内容及创新点	第29-32页
1.4 论文结构	第32-34页
第二章多设备的虚拟化单一视图	第34-56页
2.1 VHCD运行时总体设计	第35-36页
2.2 VHCD运行时的实现	第36-46页
2.2.1 离线负载评估和分配	第37-39页
2.2.2 定义Buffer访问模式	第39页
2.2.3 多设备间负载分布	第39-41页
2.2.4 执行分布式Kernel	第41-42页
2.2.5 软件管理虚拟分布式Cache	第42-44页
2.2.6 全过程总述	第44-46页
2.3 性能评估	第46-52页
2.3.1 测试结果	第48-51页
2.3.2 性能可移植性	第51-52页
2.4 相关工作	第52-53页
2.5 小结	第53-56页
第三章自动化细粒度分布式共享存储管理	第56-74页
3.1 DSOM设计动机	第56-58页
3.2 DSOM的设计与实现	第58-67页
3.2.1 DSOM总体简介	第58-59页
3.2.2 Buffer管理器	第59-61页
3.2.3 访问范围生成器	第61-67页
3.3 性能评估	第67-71页
3.3.1 适用性	第67页
3.3.2 性能评估	第67-71页
3.3.3 NVIDIA运行时的共享Buffer管理评估	第71页
3.4 相关工作	第71-72页
3.5 小结	第72-74页
第四章面向CPU的性能自动优化	第74-90页
4.1 面向GPU优化Open CL程序的特征	第74-75页
4.2 NOCL总体设计	第75-76页
4.3 激进Work-item串行化	第76-81页
4.3.1 数组访问分析	第76-77页
4.3.2 Local数组消除	第77-79页
4.3.3 依赖性测试	第79-81页
4.4 性能优化	第81-83页
4.4.1 自动向量化	第81-82页
4.4.2 Cache管理	第82-83页
4.5 性能评估	第83-86页
4.6 相关工作	第86-87页
4.6.1 Open CL运行时实现	第86页
4.6.2 自动性能调优	第86-87页
4.6.3 数组访问分析	第87页
4.7 小结	第87-90页
第五章可重构计算机的高效率软硬件通信	第90-104页
5.1 BORPH-N总体设计	第91-93页
5.1.1 系统层次结构	第91-92页
5.1.2 基于共享存储的进程间通信	第92-93页
5.2 基本实现	第93-94页
5.2.1 片上体系结构	第93-94页
5.2.2 软件	第94页
5.3 基于独立执行的性能优化	第94-98页
5.3.1 独立虚拟存储访问	第96-97页
5.3.2 定制同步存储单元	第97-98页
5.4 性能评测	第98-102页
5.4.1 基本实现的远程系统服务调用	第99页
5.4.2 高性能信号量操作	第99-100页
5.4.3 虚拟存储访问	第100-101页
5.4.4 性能分析	第101-102页
5.5 相关研究	第102-103页
5.6 小结	第103-104页
第六章结论与展望	第104-108页
6.1 工作总结	第104-106页
6.2 未来的研究方向	第106-108页
致谢	第108-110页
参考文献	第110-120页
作者在学期间取得的学术成果	第120-121页