首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--电子数字计算机(不连续作用电子计算机)论文--运算器和控制器(CPU)论文

面向多核的系统级MPI通信优化关键技术研究

摘要第1-13页
Abstract第13-15页
第一章 绪论第15-37页
   ·研究背景第15-23页
     ·高性能计算跨入多核时代第15-18页
     ·MPI 仍然是应对多核系统并行程序开发的重要手段第18-20页
     ·多核系统上MPI 通信性能优化面临的挑战第20-23页
   ·国内外相关研究工作第23-32页
     ·节点内点对点通信优化相关工作第24-27页
     ·集合通信优化的相关工作第27-31页
     ·线程MPI 的相关工作第31页
     ·MPI 支撑软件发展情况第31-32页
   ·本文的主要内容与创新点第32-36页
     ·本文的研究内容第32-34页
     ·本文的主要贡献第34-36页
   ·论文组织结构第36-37页
第二章 MPI 通信加速器设计第37-67页
   ·MPIActor 总体结构第37-44页
     ·MPIActor 基本思想第37-40页
     ·MPIActor 的线程MPI 支撑结构第40-44页
   ·MPIActor 程序的工作机制第44-48页
     ·运行期机制第45页
     ·编译期机制第45-46页
     ·作业加载机制第46-48页
   ·MPI 接口聚合原理第48-52页
     ·问题定义第48-51页
     ·MPI 接口分析第51-52页
   ·点对点通信聚合技术第52-56页
     ·通信请求分离第52-53页
     ·节点间通信请求的转发方法第53-55页
     ·对MPI_ANY_SOURCE 类型请求的处理方法第55-56页
   ·通信域及进程组管理接口聚合技术第56-60页
     ·基础知识第56-58页
     ·进程组构造接口聚合第58-59页
     ·通信域构造接口聚合第59-60页
   ·基于轻量级单次内存拷贝的节点内点对点通信算法第60-62页
     ·通信基础结构第60-61页
     ·通信算法第61-62页
   ·实验与结果第62-65页
     ·实验方法第62-63页
     ·实验结果与分析第63-65页
   ·小结第65-67页
第三章 基于MPIActor 的集合通信优化第67-95页
   ·MPI 集合通信接口概述第68-71页
   ·MPIActor 分级集合通信算法框架第71-75页
     ·MPI_Allgather 算法模板:一个算法模板示例第71-73页
     ·分级集合通信算法框架定义第73-75页
   ·基于线程MPI 的节点内集合通信通用算法第75-84页
     ·节点内广播算法与分散算法第75-76页
     ·节点内收集第76-78页
     ·节点内归约第78-81页
     ·节点内扫描第81-84页
   ·面向Nehalem 体系结构intra_reduce 的多级分段归约算法第84-87页
     ·算法基本思想第84-85页
     ·算法分析第85-87页
   ·实验与结果第87-92页
     ·实验方法第87页
     ·广播(MPI_Bcast)性能研究第87-89页
     ·多对多广播(MPI_Allgather)性能研究第89-91页
     ·归约(MPI_Reduce)与全归约(MPI_Allreduce)性能研究第91-92页
   ·小结第92-95页
第四章 一种针对非平衡进程到达模式下MPI 广播的性能优化方法第95-111页
   ·相关工作第96页
   ·问题分析与竞争式流水化优化方法设计第96-101页
     ·性能模型第96-98页
     ·问题分析第98-99页
     ·竞争式流水化方法第99-101页
   ·竞争式流水化广播算法实现第101-104页
   ·实验与结果第104-109页
     ·微基准测试(Micro Benchmark)第104-108页
     ·应用测试第108-109页
   ·小结第109-111页
第五章 基于MPIActor 的共享内存消息传递接口优化技术第111-123页
   ·SMPI 的基本思想第112-113页
   ·SMPI 接口定义第113-117页
     ·约定与数据结构第114页
     ·点对点通信接口第114-115页
     ·集合通信接口第115-116页
     ·访问控制接口第116-117页
   ·基于SMPI 接口的并行程序设计规则第117-120页
     ·点对点通信第117-119页
     ·集合通信第119-120页
   ·应用算法实例与实验结果第120-122页
     ·测试用例:矩阵乘cannon 算法第120-121页
     ·实验结果第121-122页
   ·小结第122-123页
第六章 结论与展望第123-127页
   ·工作总结第123-124页
   ·工作展望第124-127页
致谢第127-129页
参考文献第129-139页
作者在学期间以第一作者身份取得的学术成果第139-141页
附件A 本文的实验平台介绍第141-142页
 A.1 Clovertown 集群节点体系结构简介第141-142页
 A.2 Nehalem 集群节点体系结构简介第142页

论文共142页,点击 下载论文
上一篇:面向事务存储系统的容错技术研究
下一篇:面向应用的指令集处理器关键技术研究