| 摘要 | 第1-14页 |
| ABSTRACT | 第14-17页 |
| 第一章 绪论 | 第17-39页 |
| ·课题背景 | 第18-29页 |
| ·基于GPU的高性能计算系统 | 第18-25页 |
| ·GPU并行计算可能面临的技术挑战 | 第25-29页 |
| ·相关研究 | 第29-33页 |
| ·基于GPU的并行程序设计相关研究 | 第29-31页 |
| ·性能分析预测模型相关研究 | 第31-32页 |
| ·异构体系结构间可移植性相关研究 | 第32-33页 |
| ·本文主要研究内容及创新点 | 第33-36页 |
| ·论文结构 | 第36-39页 |
| 第二章 基于GPU的高效并行视频编码框架与实现 | 第39-67页 |
| ·引言 | 第39-41页 |
| ·相关研究 | 第41-43页 |
| ·并行H.264 编码框架 | 第43-46页 |
| ·H.264/AVC编码器结构剖析 | 第43-44页 |
| ·以帧为单位的循环分割 | 第44页 |
| ·数组结构到结构数组的转换,提高带宽利用率 | 第44-45页 |
| ·全应用GPU并行,开发生产者消费者局域性 | 第45-46页 |
| ·帧间预测: 可扩展多分辨率多窗口算法 | 第46-49页 |
| ·非规则算法的高效并行实现方案 | 第49-59页 |
| ·多级并行帧内预测 | 第49-51页 |
| ·分量并行CAVLC | 第51-56页 |
| ·方向优先的去块滤波 | 第56-59页 |
| ·实验评估与分析 | 第59-66页 |
| ·实验设置和测试序列 | 第59页 |
| ·率失真性能评估 | 第59-60页 |
| ·加速性能分析 | 第60-64页 |
| ·时间分布分析 | 第64-66页 |
| ·小结 | 第66-67页 |
| 第三章 基于CPU-GPU异构系统的高效双岩沉降模拟解决方案 | 第67-89页 |
| ·引言 | 第67-68页 |
| ·数学模型和数值方法 | 第68-71页 |
| ·并行实现设计 | 第71-78页 |
| ·基于MPI的CPU-only实现 | 第71页 |
| ·GPU-only实现 | 第71-75页 |
| ·CPU-GPU混合实现 | 第75-78页 |
| ·实验评估与分析 | 第78-86页 |
| ·实验设置和结果 | 第78-80页 |
| ·单GPU性能比较与分析 | 第80-81页 |
| ·扩展性评测 | 第81-84页 |
| ·时间分布 | 第84-86页 |
| ·小结 | 第86-89页 |
| 第四章 基于数据传输的Stencil计算GPU性能预测模型 | 第89-119页 |
| ·引言 | 第89-90页 |
| ·NVIDIA GPU体系结构 | 第90-92页 |
| ·量化性能分析 | 第92-100页 |
| ·Stencil计算 | 第92-93页 |
| ·L1 cache以及线程块形状对Stencil性能的影响 | 第93-95页 |
| ·Padding的影响 | 第95-97页 |
| ·空间分块技术 | 第97-100页 |
| ·时间分块技术 | 第100页 |
| ·性能模型 | 第100-109页 |
| ·寄存器和片上存储器之间数据传输量模型 | 第101-102页 |
| ·片上存储器和L2 cache之间数据传输量模型 | 第102-104页 |
| ·L2 cache和全局存储器之间数据传输量模型 | 第104-105页 |
| ·模型示例说明 | 第105页 |
| ·模型扩展 | 第105-109页 |
| ·局限性 | 第109页 |
| ·实验评估 | 第109-117页 |
| ·实验设置 | 第109-110页 |
| ·基于基本实现的模型评估 | 第110-113页 |
| ·基于 3D分块优化实现程序的模型评估 | 第113-117页 |
| ·相关研究 | 第117-118页 |
| ·小结 | 第118-119页 |
| 第五章 Open CL Stencil计算在CPU-GPU之间的性能可移植性研究 | 第119-135页 |
| ·引言 | 第119-120页 |
| ·Open CL编程 | 第120-122页 |
| ·Stencil计算的Open CL实现与优化 | 第122-127页 |
| ·基本实现 | 第122-123页 |
| ·基于数据分块的性能增强 | 第123-124页 |
| ·面向GPU的优化:基于寄存器重用的 3D分块 | 第124-126页 |
| ·使用本地存储器 | 第126页 |
| ·时间分块技术 | 第126-127页 |
| ·实验评测 | 第127-133页 |
| ·3D Stencil计算 | 第127-128页 |
| ·实验设置 | 第128-129页 |
| ·GPU上的性能评测 | 第129-132页 |
| ·CPU上的性能评估 | 第132-133页 |
| ·相关研究 | 第133-134页 |
| ·小结 | 第134-135页 |
| 第六章 结论与展望 | 第135-139页 |
| ·工作总结 | 第135-137页 |
| ·未来的研究方向 | 第137-139页 |
| 致谢 | 第139-141页 |
| 参考文献 | 第141-157页 |
| 作者在学期间取得的学术成果 | 第157-160页 |
| 学术论文 | 第157-159页 |
| 学术专著 | 第159页 |
| 专利 | 第159页 |
| 软件著作权 | 第159-160页 |
| 作者在学期间参与的科研工作 | 第160页 |