| 摘要 | 第1-13页 |
| Abstract | 第13-15页 |
| 第一章 绪论 | 第15-37页 |
| ·研究背景 | 第15-23页 |
| ·高性能计算跨入多核时代 | 第15-18页 |
| ·MPI 仍然是应对多核系统并行程序开发的重要手段 | 第18-20页 |
| ·多核系统上MPI 通信性能优化面临的挑战 | 第20-23页 |
| ·国内外相关研究工作 | 第23-32页 |
| ·节点内点对点通信优化相关工作 | 第24-27页 |
| ·集合通信优化的相关工作 | 第27-31页 |
| ·线程MPI 的相关工作 | 第31页 |
| ·MPI 支撑软件发展情况 | 第31-32页 |
| ·本文的主要内容与创新点 | 第32-36页 |
| ·本文的研究内容 | 第32-34页 |
| ·本文的主要贡献 | 第34-36页 |
| ·论文组织结构 | 第36-37页 |
| 第二章 MPI 通信加速器设计 | 第37-67页 |
| ·MPIActor 总体结构 | 第37-44页 |
| ·MPIActor 基本思想 | 第37-40页 |
| ·MPIActor 的线程MPI 支撑结构 | 第40-44页 |
| ·MPIActor 程序的工作机制 | 第44-48页 |
| ·运行期机制 | 第45页 |
| ·编译期机制 | 第45-46页 |
| ·作业加载机制 | 第46-48页 |
| ·MPI 接口聚合原理 | 第48-52页 |
| ·问题定义 | 第48-51页 |
| ·MPI 接口分析 | 第51-52页 |
| ·点对点通信聚合技术 | 第52-56页 |
| ·通信请求分离 | 第52-53页 |
| ·节点间通信请求的转发方法 | 第53-55页 |
| ·对MPI_ANY_SOURCE 类型请求的处理方法 | 第55-56页 |
| ·通信域及进程组管理接口聚合技术 | 第56-60页 |
| ·基础知识 | 第56-58页 |
| ·进程组构造接口聚合 | 第58-59页 |
| ·通信域构造接口聚合 | 第59-60页 |
| ·基于轻量级单次内存拷贝的节点内点对点通信算法 | 第60-62页 |
| ·通信基础结构 | 第60-61页 |
| ·通信算法 | 第61-62页 |
| ·实验与结果 | 第62-65页 |
| ·实验方法 | 第62-63页 |
| ·实验结果与分析 | 第63-65页 |
| ·小结 | 第65-67页 |
| 第三章 基于MPIActor 的集合通信优化 | 第67-95页 |
| ·MPI 集合通信接口概述 | 第68-71页 |
| ·MPIActor 分级集合通信算法框架 | 第71-75页 |
| ·MPI_Allgather 算法模板:一个算法模板示例 | 第71-73页 |
| ·分级集合通信算法框架定义 | 第73-75页 |
| ·基于线程MPI 的节点内集合通信通用算法 | 第75-84页 |
| ·节点内广播算法与分散算法 | 第75-76页 |
| ·节点内收集 | 第76-78页 |
| ·节点内归约 | 第78-81页 |
| ·节点内扫描 | 第81-84页 |
| ·面向Nehalem 体系结构intra_reduce 的多级分段归约算法 | 第84-87页 |
| ·算法基本思想 | 第84-85页 |
| ·算法分析 | 第85-87页 |
| ·实验与结果 | 第87-92页 |
| ·实验方法 | 第87页 |
| ·广播(MPI_Bcast)性能研究 | 第87-89页 |
| ·多对多广播(MPI_Allgather)性能研究 | 第89-91页 |
| ·归约(MPI_Reduce)与全归约(MPI_Allreduce)性能研究 | 第91-92页 |
| ·小结 | 第92-95页 |
| 第四章 一种针对非平衡进程到达模式下MPI 广播的性能优化方法 | 第95-111页 |
| ·相关工作 | 第96页 |
| ·问题分析与竞争式流水化优化方法设计 | 第96-101页 |
| ·性能模型 | 第96-98页 |
| ·问题分析 | 第98-99页 |
| ·竞争式流水化方法 | 第99-101页 |
| ·竞争式流水化广播算法实现 | 第101-104页 |
| ·实验与结果 | 第104-109页 |
| ·微基准测试(Micro Benchmark) | 第104-108页 |
| ·应用测试 | 第108-109页 |
| ·小结 | 第109-111页 |
| 第五章 基于MPIActor 的共享内存消息传递接口优化技术 | 第111-123页 |
| ·SMPI 的基本思想 | 第112-113页 |
| ·SMPI 接口定义 | 第113-117页 |
| ·约定与数据结构 | 第114页 |
| ·点对点通信接口 | 第114-115页 |
| ·集合通信接口 | 第115-116页 |
| ·访问控制接口 | 第116-117页 |
| ·基于SMPI 接口的并行程序设计规则 | 第117-120页 |
| ·点对点通信 | 第117-119页 |
| ·集合通信 | 第119-120页 |
| ·应用算法实例与实验结果 | 第120-122页 |
| ·测试用例:矩阵乘cannon 算法 | 第120-121页 |
| ·实验结果 | 第121-122页 |
| ·小结 | 第122-123页 |
| 第六章 结论与展望 | 第123-127页 |
| ·工作总结 | 第123-124页 |
| ·工作展望 | 第124-127页 |
| 致谢 | 第127-129页 |
| 参考文献 | 第129-139页 |
| 作者在学期间以第一作者身份取得的学术成果 | 第139-141页 |
| 附件A 本文的实验平台介绍 | 第141-142页 |
| A.1 Clovertown 集群节点体系结构简介 | 第141-142页 |
| A.2 Nehalem 集群节点体系结构简介 | 第142页 |