GPU通用计算虚拟化方法研究
摘要 | 第1-6页 |
Abstract | 第6-8页 |
目录 | 第8-11页 |
插图索引 | 第11-12页 |
附表索引 | 第12-13页 |
第一章 绪论 | 第13-23页 |
·课题研究背景及意义 | 第13-16页 |
·国内外研究现状 | 第16-20页 |
·论文的主要工作及组织结构 | 第20-21页 |
·本章小结 | 第21-23页 |
第二章 GPU通用计算和系统虚拟化相关研究 | 第23-35页 |
·GPU通用计算 | 第23-27页 |
·基于图形API的GPU通用计算 | 第23-25页 |
·基于独立API的GPU通用计算 | 第25-27页 |
·系统级虚拟机与GPU虚拟化 | 第27-34页 |
·设备仿真法 | 第28-29页 |
·独占设备法 | 第29-30页 |
·API重定向法 | 第30-31页 |
·GPU虚拟化方案总结 | 第31-34页 |
·本章小结 | 第34-35页 |
第三章 vCUDA的设计与实现 | 第35-61页 |
·VCUDA设计 | 第35-36页 |
·VCUDA实现 | 第36-42页 |
·vCUDA库(vCUDA library) | 第37-40页 |
·虚拟GPU(vGPU) | 第40页 |
·vCUDA服务器(vCUDA stub) | 第40-42页 |
·追踪CUDA状态 | 第42-46页 |
·虚拟对象列表(VOL) | 第43-44页 |
·API虚拟化方案 | 第44-45页 |
·懒惰传输 | 第45-46页 |
·VCUDA虚拟化示例:矩阵乘法 | 第46-51页 |
·CUDA对象虚拟化 | 第48-50页 |
·CUDA对象的识别 | 第50页 |
·本地替代API | 第50页 |
·懒惰RPC | 第50-51页 |
·VCUDA对虚拟机高级特性的支持 | 第51-54页 |
·多机并发 | 第51-53页 |
·暂停/恢复 | 第53-54页 |
·实验性能 | 第54-58页 |
·基本性能 | 第55-56页 |
·懒惰RPC | 第56-57页 |
·多机并发 | 第57页 |
·暂停和恢复 | 第57-58页 |
·第三方CUDA程序 | 第58页 |
·本章小结 | 第58-61页 |
第四章 VMRPC的设计与实现 | 第61-83页 |
·设计思路 | 第61-65页 |
·传统RPC系统在虚拟环境中的缺陷 | 第61-62页 |
·本地RPC优化 | 第62页 |
·虚拟机域间通信 | 第62-63页 |
·域间通信优化 | 第63页 |
·VMRPC设计目标 | 第63-65页 |
·VMRPC实现 | 第65-70页 |
·内存映射 | 第66-67页 |
·传输通道 | 第67-68页 |
·控制通道 | 第68-69页 |
·异步通道 | 第69-70页 |
·VMRPC用户接口 | 第70-72页 |
·VMRPC与传统RPC框架的差异 | 第72-74页 |
·实验性能 | 第74-82页 |
·延迟 | 第75-76页 |
·吞吐量 | 第76-78页 |
·CPU占用率 | 第78页 |
·VMRPC与XENLOOP的比较 | 第78-79页 |
·VMRPC的应用:stfufs文件系统 | 第79-82页 |
·本章小结 | 第82-83页 |
第五章 IKC核内检查点技术的设计与实现 | 第83-105页 |
·提高GPU容错能力的必要性 | 第83-85页 |
·现有的GPU容错技术 | 第85-89页 |
·基于复制的GPU容错方法 | 第85-87页 |
·基于检查点的GPU容错方法 | 第87-89页 |
·CPU+GPU混合计算架构 | 第89-92页 |
·GPU核外检查点技术的不足 | 第92-94页 |
·GPU核内检查点技术的实现 | 第94-100页 |
·技术支撑 | 第94页 |
·实现方案 | 第94-97页 |
·整体框架 | 第97-100页 |
·性能分析 | 第100-103页 |
·运行时开销 | 第101-102页 |
·检查开销 | 第102页 |
·恢复开销 | 第102-103页 |
·本章小结 | 第103-105页 |
总结与展望 | 第105-107页 |
参考文献 | 第107-114页 |
附录 | 第114-116页 |
致谢 | 第116-117页 |