第一章 引言 | 第1-16页 |
·现有的并行应用程序的主要开发方法 | 第9-11页 |
·层次体系结构对并行程序设计的挑战 | 第11-14页 |
·多级并行的需求 | 第12页 |
·多级并行的实现途径 | 第12-14页 |
·论文的组织 | 第14-16页 |
第二章 多级并行的层次模型 | 第16-30页 |
·OpenMP 在 SMP 机群上的扩展及执行模式 | 第16-20页 |
·OpenMP 扩展的目标和原则 | 第16-17页 |
·OpenMP 的扩展描述 | 第17-19页 |
·DISTRIBUTE 制导 | 第17-18页 |
·ON HOME 制导 | 第18-19页 |
·可能的执行模式 | 第19-20页 |
·基于软件虚拟共享内存的方式 | 第19-20页 |
·基于SMP 机群的消息传递通信方式 | 第20页 |
·基于SMP 机群的单方通信方式 | 第20页 |
·两层并行的实现 | 第20-24页 |
·节点间并行的实现 | 第21-22页 |
·循环调度 | 第21页 |
·并行域的两种程序设计模式 | 第21-22页 |
·节点内并行性的两种实现:细粒度方式与粗粒度方式 | 第22-23页 |
·线程安全的通信库、与节点内并行性 | 第23-24页 |
·层次模型的支持技术 | 第24-27页 |
·加速比模型与节点内并行的选择 | 第24-25页 |
·profiling 对并行性选择的支持 | 第25-26页 |
·节点内并行性的初步确定 | 第26-27页 |
·多级并行的总体框架 | 第27-29页 |
·全局地址空间与局部地址空间的一致性处理技术 | 第27页 |
·层次式的编译和执行 | 第27-29页 |
·实现情况 | 第29页 |
·小结 | 第29-30页 |
第三章 节点间并行性优化 | 第30-48页 |
·引子 | 第30-31页 |
·优化通信的冗余计算分割 | 第31-40页 |
·无通信冗余计算分割的概念 | 第31-32页 |
·相对冗余向量、冗余关系图 | 第32-35页 |
·相对冗余向量 | 第33-34页 |
·规则依赖、与相对冗余向量的线性叠加 | 第34-35页 |
·冗余关系图 | 第35页 |
·冗余向量的计算 | 第35-36页 |
·相对冗余向量的优化计算 | 第36-38页 |
·冗余计算分割对通信的优化 | 第38-40页 |
·优化通信分析 | 第38页 |
·测试结果及分析 | 第38-40页 |
·基于循环合并的流水优化 | 第40-46页 |
·分割的流水循环 | 第40-41页 |
·分割循环的合并 | 第41-42页 |
·分割循环的对准 | 第42-44页 |
·发掘流水并行 | 第44-45页 |
·测试结果及分析 | 第45-46页 |
·相关工作 | 第46-47页 |
·小结 | 第47-48页 |
第四章 通信优化 | 第48-61页 |
·通信描述子的表示——ASD | 第48-51页 |
·可用section 描述ASD | 第48-49页 |
·ASD 计算中考虑冗余计算分割 | 第49-51页 |
·阴影区确定 | 第51-56页 |
·过程内阴影区确定 | 第51-53页 |
·阴影区实现中的策略选择 | 第52页 |
·过程内阴影区分析 | 第52-53页 |
·全局阴影区确定 | 第53-56页 |
·全局通信优化 | 第56-58页 |
·全局通信优化的框架 | 第56-57页 |
·冗余通信的删除、与通信放置的确定 | 第57-58页 |
·消息聚集 | 第58页 |
·过程间通信优化 | 第58-59页 |
·相关工作 | 第59-60页 |
·小结 | 第60-61页 |
第五章 节点内并行性优化 | 第61-90页 |
·并行域的合并 | 第61-66页 |
·并行域的两种生成模式 | 第61-62页 |
·并行域的变量作用域确定 | 第62-63页 |
·过程内合并中的变量作用域确定 | 第62-63页 |
·变量作用域确定的过程间问题 | 第63页 |
·并行域的构造 | 第63-65页 |
·过程间区域合并 | 第65-66页 |
·同步点优化 | 第66-68页 |
·同步优化的意义 | 第66-67页 |
·基于标量数据流和数组依赖分析的同步优化 | 第67-68页 |
·循环间依赖、与无同步偏移 | 第68-76页 |
·无同步偏移 | 第68-69页 |
·对计算分割强分离的引用点、及其无同步偏移 | 第69-72页 |
·对计算分割的系数一致的引用点、及其性质 | 第72-75页 |
·对计算分割映射分离的引用点、及其无同步偏移 | 第75-76页 |
·基于静态划分的同步消除 | 第76-84页 |
·矛盾的依赖关系与冗余计算分割 | 第76-78页 |
·偏移向量的传播 | 第78-79页 |
·计算分割偏移图 | 第79-81页 |
·相似引用点的合并 | 第79-80页 |
·计算分割偏移图 | 第80-81页 |
·同步消除算法 | 第81-84页 |
·同步优化的次序 | 第81-82页 |
·同步消除算法 | 第82-84页 |
·过程间的同步消除 | 第84-88页 |
·过程间分析技术的选择 | 第84-85页 |
·常用的过程间分析技术 | 第84-85页 |
·过程间同步优化的处理 | 第85页 |
·子程序的数据流抽象——扩展的计算分割偏移图 | 第85-86页 |
·调用点的传播、综合 | 第86-88页 |
·相关工作 | 第88页 |
·小结 | 第88-90页 |
第六章 系统的实现与试验结果 | 第90-96页 |
·系统实现的软、硬件环境 | 第90-91页 |
·原型系统的结构 | 第91-93页 |
·Autopar 静态编译的流程 | 第91-92页 |
·运行库的增强 | 第92-93页 |
·Autopar3.0 在曙光3000 上的测试结果 | 第93-96页 |
·测试用例介绍 | 第93页 |
·测试结果 | 第93-96页 |
第七章 总结和进一步的工作 | 第96-98页 |
·本文工作的总结 | 第96页 |
·进一步的工作 | 第96-98页 |
参考文献 | 第98-104页 |
致 谢 | 第104-105页 |
作者简历 | 第105页 |