摘要 | 第1-13页 |
Abstract | 第13-15页 |
第一章 绪论 | 第15-37页 |
·研究背景 | 第15-23页 |
·高性能计算跨入多核时代 | 第15-18页 |
·MPI 仍然是应对多核系统并行程序开发的重要手段 | 第18-20页 |
·多核系统上MPI 通信性能优化面临的挑战 | 第20-23页 |
·国内外相关研究工作 | 第23-32页 |
·节点内点对点通信优化相关工作 | 第24-27页 |
·集合通信优化的相关工作 | 第27-31页 |
·线程MPI 的相关工作 | 第31页 |
·MPI 支撑软件发展情况 | 第31-32页 |
·本文的主要内容与创新点 | 第32-36页 |
·本文的研究内容 | 第32-34页 |
·本文的主要贡献 | 第34-36页 |
·论文组织结构 | 第36-37页 |
第二章 MPI 通信加速器设计 | 第37-67页 |
·MPIActor 总体结构 | 第37-44页 |
·MPIActor 基本思想 | 第37-40页 |
·MPIActor 的线程MPI 支撑结构 | 第40-44页 |
·MPIActor 程序的工作机制 | 第44-48页 |
·运行期机制 | 第45页 |
·编译期机制 | 第45-46页 |
·作业加载机制 | 第46-48页 |
·MPI 接口聚合原理 | 第48-52页 |
·问题定义 | 第48-51页 |
·MPI 接口分析 | 第51-52页 |
·点对点通信聚合技术 | 第52-56页 |
·通信请求分离 | 第52-53页 |
·节点间通信请求的转发方法 | 第53-55页 |
·对MPI_ANY_SOURCE 类型请求的处理方法 | 第55-56页 |
·通信域及进程组管理接口聚合技术 | 第56-60页 |
·基础知识 | 第56-58页 |
·进程组构造接口聚合 | 第58-59页 |
·通信域构造接口聚合 | 第59-60页 |
·基于轻量级单次内存拷贝的节点内点对点通信算法 | 第60-62页 |
·通信基础结构 | 第60-61页 |
·通信算法 | 第61-62页 |
·实验与结果 | 第62-65页 |
·实验方法 | 第62-63页 |
·实验结果与分析 | 第63-65页 |
·小结 | 第65-67页 |
第三章 基于MPIActor 的集合通信优化 | 第67-95页 |
·MPI 集合通信接口概述 | 第68-71页 |
·MPIActor 分级集合通信算法框架 | 第71-75页 |
·MPI_Allgather 算法模板:一个算法模板示例 | 第71-73页 |
·分级集合通信算法框架定义 | 第73-75页 |
·基于线程MPI 的节点内集合通信通用算法 | 第75-84页 |
·节点内广播算法与分散算法 | 第75-76页 |
·节点内收集 | 第76-78页 |
·节点内归约 | 第78-81页 |
·节点内扫描 | 第81-84页 |
·面向Nehalem 体系结构intra_reduce 的多级分段归约算法 | 第84-87页 |
·算法基本思想 | 第84-85页 |
·算法分析 | 第85-87页 |
·实验与结果 | 第87-92页 |
·实验方法 | 第87页 |
·广播(MPI_Bcast)性能研究 | 第87-89页 |
·多对多广播(MPI_Allgather)性能研究 | 第89-91页 |
·归约(MPI_Reduce)与全归约(MPI_Allreduce)性能研究 | 第91-92页 |
·小结 | 第92-95页 |
第四章 一种针对非平衡进程到达模式下MPI 广播的性能优化方法 | 第95-111页 |
·相关工作 | 第96页 |
·问题分析与竞争式流水化优化方法设计 | 第96-101页 |
·性能模型 | 第96-98页 |
·问题分析 | 第98-99页 |
·竞争式流水化方法 | 第99-101页 |
·竞争式流水化广播算法实现 | 第101-104页 |
·实验与结果 | 第104-109页 |
·微基准测试(Micro Benchmark) | 第104-108页 |
·应用测试 | 第108-109页 |
·小结 | 第109-111页 |
第五章 基于MPIActor 的共享内存消息传递接口优化技术 | 第111-123页 |
·SMPI 的基本思想 | 第112-113页 |
·SMPI 接口定义 | 第113-117页 |
·约定与数据结构 | 第114页 |
·点对点通信接口 | 第114-115页 |
·集合通信接口 | 第115-116页 |
·访问控制接口 | 第116-117页 |
·基于SMPI 接口的并行程序设计规则 | 第117-120页 |
·点对点通信 | 第117-119页 |
·集合通信 | 第119-120页 |
·应用算法实例与实验结果 | 第120-122页 |
·测试用例:矩阵乘cannon 算法 | 第120-121页 |
·实验结果 | 第121-122页 |
·小结 | 第122-123页 |
第六章 结论与展望 | 第123-127页 |
·工作总结 | 第123-124页 |
·工作展望 | 第124-127页 |
致谢 | 第127-129页 |
参考文献 | 第129-139页 |
作者在学期间以第一作者身份取得的学术成果 | 第139-141页 |
附件A 本文的实验平台介绍 | 第141-142页 |
A.1 Clovertown 集群节点体系结构简介 | 第141-142页 |
A.2 Nehalem 集群节点体系结构简介 | 第142页 |