| 摘要 | 第1-14页 |
| ABSTRACT | 第14-17页 |
| 第一章 绪论 | 第17-53页 |
| ·研究背景 | 第18-30页 |
| ·加速器增强型异构计算系统 | 第18-24页 |
| ·大规模应用对高性能计算的迫切需求 | 第24-26页 |
| ·应用领域的异构大规模并行计算面临的挑战 | 第26-30页 |
| ·研究现状 | 第30-46页 |
| ·典型大规模异构系统结构 | 第30-33页 |
| ·大规模异构系统编程模型 | 第33-38页 |
| ·基于大规模异构系统的应用 | 第38-46页 |
| ·本文研究内容和贡献 | 第46-50页 |
| ·论文结构 | 第50-53页 |
| 第二章 面向贝叶斯进化分析的大规模异构混合计算 | 第53-69页 |
| ·引言 | 第53-55页 |
| ·背景 | 第55-58页 |
| ·MrBayes概述 | 第55-56页 |
| ·同时利用CPU和GPU的挑战 | 第56-58页 |
| ·方法 | 第58-62页 |
| ·oMC3算法 | 第58-59页 |
| ·负载划分策略 | 第59-62页 |
| ·结果和讨论 | 第62-67页 |
| ·实验设置 | 第62-63页 |
| ·单计算节点上的性能 | 第63-66页 |
| ·验证负载划分策略 | 第66页 |
| ·多节点扩展性 | 第66-67页 |
| ·小结 | 第67-69页 |
| 第三章 基于GPU阵列计算的组织级心电模拟性能研究 | 第69-85页 |
| ·引言 | 第69-70页 |
| ·数学模型 | 第70页 |
| ·数值方法 | 第70-71页 |
| ·并行实现 | 第71-75页 |
| ·使用多个GPU | 第71-72页 |
| ·GPU上的计算Kernel | 第72-75页 |
| ·实验与性能分析 | 第75-83页 |
| ·模拟设置和结果 | 第75页 |
| ·单GPU性能与单CPU核性能比较 | 第75-77页 |
| ·多GPU上的性能 | 第77-81页 |
| ·通信开销的讨论 | 第81-82页 |
| ·预测时间开销 | 第82-83页 |
| ·小结 | 第83-85页 |
| 第四章 接近纳米级精度的钙动力模拟并行计算方案 | 第85-103页 |
| ·引言 | 第85-86页 |
| ·应用描述 | 第86-89页 |
| ·数学模型 | 第86-88页 |
| ·数值方法 | 第88-89页 |
| ·目标体系结构 | 第89-90页 |
| ·实现和优化 | 第90-94页 |
| ·整体策略 | 第90-91页 |
| ·单协处理器利用 | 第91-93页 |
| ·单结点利用 | 第93-94页 |
| ·多节点效率 | 第94页 |
| ·性能研究 | 第94-97页 |
| ·单协处理器性能 | 第94-95页 |
| ·单结点的性能 | 第95-96页 |
| ·弱扩展性 | 第96-97页 |
| ·强扩展性 | 第97页 |
| ·模拟结果 | 第97-100页 |
| ·小结 | 第100-103页 |
| 第五章 面向模板计算的新型异构并行编程框架 | 第103-133页 |
| ·引言 | 第103-105页 |
| ·背景 | 第105-109页 |
| ·目标体系结构 | 第105-106页 |
| ·编程模型和模式 | 第106-109页 |
| ·相关研究 | 第109-110页 |
| ·编程框架设计 | 第110-120页 |
| ·混合并行编程框架整体设计 | 第110-114页 |
| ·负载划分策略 | 第114-118页 |
| ·通信优化设计 | 第118-120页 |
| ·实现示例 | 第120-126页 |
| ·基于Pragma的实现 | 第122-123页 |
| ·基于COI和SCIF的实现 | 第123-126页 |
| ·实验和结果 | 第126-132页 |
| ·实验设置 | 第126-127页 |
| ·带宽测试 | 第127-128页 |
| ·应用性能对比测试 | 第128-130页 |
| ·负载划分测试 | 第130-132页 |
| ·小结 | 第132-133页 |
| 第六章 结论与展望 | 第133-139页 |
| ·工作总结 | 第133-135页 |
| ·研究展望 | 第135-139页 |
| 致谢 | 第139-143页 |
| 参考文献 | 第143-159页 |
| 作者在学期间取得的学术成果 | 第159-162页 |