面向多核的系统级MPI通信优化关键技术研究

摘要	第1-13页
Abstract	第13-15页
第一章绪论	第15-37页
·研究背景	第15-23页
·高性能计算跨入多核时代	第15-18页
·MPI 仍然是应对多核系统并行程序开发的重要手段	第18-20页
·多核系统上MPI 通信性能优化面临的挑战	第20-23页
·国内外相关研究工作	第23-32页
·节点内点对点通信优化相关工作	第24-27页
·集合通信优化的相关工作	第27-31页
·线程MPI 的相关工作	第31页
·MPI 支撑软件发展情况	第31-32页
·本文的主要内容与创新点	第32-36页
·本文的研究内容	第32-34页
·本文的主要贡献	第34-36页
·论文组织结构	第36-37页
第二章 MPI 通信加速器设计	第37-67页
·MPIActor 总体结构	第37-44页
·MPIActor 基本思想	第37-40页
·MPIActor 的线程MPI 支撑结构	第40-44页
·MPIActor 程序的工作机制	第44-48页
·运行期机制	第45页
·编译期机制	第45-46页
·作业加载机制	第46-48页
·MPI 接口聚合原理	第48-52页
·问题定义	第48-51页
·MPI 接口分析	第51-52页
·点对点通信聚合技术	第52-56页
·通信请求分离	第52-53页
·节点间通信请求的转发方法	第53-55页
·对MPI_ANY_SOURCE 类型请求的处理方法	第55-56页
·通信域及进程组管理接口聚合技术	第56-60页
·基础知识	第56-58页
·进程组构造接口聚合	第58-59页
·通信域构造接口聚合	第59-60页
·基于轻量级单次内存拷贝的节点内点对点通信算法	第60-62页
·通信基础结构	第60-61页
·通信算法	第61-62页
·实验与结果	第62-65页
·实验方法	第62-63页
·实验结果与分析	第63-65页
·小结	第65-67页
第三章基于MPIActor 的集合通信优化	第67-95页
·MPI 集合通信接口概述	第68-71页
·MPIActor 分级集合通信算法框架	第71-75页
·MPI_Allgather 算法模板：一个算法模板示例	第71-73页
·分级集合通信算法框架定义	第73-75页
·基于线程MPI 的节点内集合通信通用算法	第75-84页
·节点内广播算法与分散算法	第75-76页
·节点内收集	第76-78页
·节点内归约	第78-81页
·节点内扫描	第81-84页
·面向Nehalem 体系结构intra_reduce 的多级分段归约算法	第84-87页
·算法基本思想	第84-85页
·算法分析	第85-87页
·实验与结果	第87-92页
·实验方法	第87页
·广播(MPI_Bcast)性能研究	第87-89页
·多对多广播(MPI_Allgather)性能研究	第89-91页
·归约(MPI_Reduce)与全归约(MPI_Allreduce)性能研究	第91-92页
·小结	第92-95页
第四章一种针对非平衡进程到达模式下MPI 广播的性能优化方法	第95-111页
·相关工作	第96页
·问题分析与竞争式流水化优化方法设计	第96-101页
·性能模型	第96-98页
·问题分析	第98-99页
·竞争式流水化方法	第99-101页
·竞争式流水化广播算法实现	第101-104页
·实验与结果	第104-109页
·微基准测试(Micro Benchmark)	第104-108页
·应用测试	第108-109页
·小结	第109-111页
第五章基于MPIActor 的共享内存消息传递接口优化技术	第111-123页
·SMPI 的基本思想	第112-113页
·SMPI 接口定义	第113-117页
·约定与数据结构	第114页
·点对点通信接口	第114-115页
·集合通信接口	第115-116页
·访问控制接口	第116-117页
·基于SMPI 接口的并行程序设计规则	第117-120页
·点对点通信	第117-119页
·集合通信	第119-120页
·应用算法实例与实验结果	第120-122页
·测试用例：矩阵乘cannon 算法	第120-121页
·实验结果	第121-122页
·小结	第122-123页
第六章结论与展望	第123-127页
·工作总结	第123-124页
·工作展望	第124-127页
致谢	第127-129页
参考文献	第129-139页
作者在学期间以第一作者身份取得的学术成果	第139-141页
附件A 本文的实验平台介绍	第141-142页
A.1 Clovertown 集群节点体系结构简介	第141-142页
A.2 Nehalem 集群节点体系结构简介	第142页