基于CUDA的简化并行编程方案设计
| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 引言 | 第8-11页 |
| 1 背景介绍 | 第11-26页 |
| ·并行计算 | 第11-12页 |
| ·CUDA并行计算架构 | 第12-24页 |
| ·GPGPU体系结构 | 第13-16页 |
| ·CUDA编程模型 | 第16-23页 |
| ·GPUDirect | 第23-24页 |
| ·任务场景 | 第24-26页 |
| 2 双层并行 | 第26-32页 |
| ·GPGPU设备内并行 | 第26-28页 |
| ·GPGPU设备间并行 | 第28-32页 |
| ·全局设备队列 | 第29页 |
| ·数据复用 | 第29-31页 |
| ·任务调度策略 | 第31-32页 |
| 3 多地址空间封装技术 | 第32-44页 |
| ·数据封装 | 第35页 |
| ·数据操作封装 | 第35-39页 |
| ·Kernel函数执行 | 第35-37页 |
| ·前处理操作 | 第37-38页 |
| ·后处理操作 | 第38页 |
| ·基础操作 | 第38-39页 |
| ·优势与劣势 | 第39-42页 |
| ·程序简化实例 | 第42-44页 |
| 4 源码转换技术 | 第44-47页 |
| 5 设计与实现 | 第47-52页 |
| ·GPGPU设备间并行的设计与实现 | 第47-50页 |
| ·通信模块 | 第47-49页 |
| ·设备队列维护模块 | 第49页 |
| ·数据复用模块 | 第49-50页 |
| ·任务调度模块 | 第50页 |
| ·任务执行模块 | 第50页 |
| ·多地址空间封装的设计与实现 | 第50-51页 |
| ·源码转换技术的设计与实现 | 第51-52页 |
| 6 实验 | 第52-58页 |
| ·实验环境 | 第52页 |
| ·实验设置 | 第52-53页 |
| ·实验结果与分析 | 第53-58页 |
| 结论 | 第58-60页 |
| 参考文献 | 第60-63页 |
| 攻读硕士学位期间发表学术论文情况 | 第63-64页 |
| 致谢 | 第64-65页 |