摘要 | 第1-8页 |
ABSTRACT | 第8-10页 |
第1章 绪论 | 第10-18页 |
·当前主流大规模并行计算平台 | 第10-12页 |
·多核的兴起 | 第10-11页 |
·多核构架的新特性 | 第11页 |
·多核构架与主流大规模并行计算平台 | 第11-12页 |
·并行调优策略的重要性 | 第12-14页 |
·并行调优技术的困境 | 第12-13页 |
·并行调优策略的重要性 | 第13-14页 |
·并行调优策略相关技术 | 第14-16页 |
·性能建模 | 第14-15页 |
·性能预测 | 第15页 |
·自优化技术 | 第15页 |
·性能测试 | 第15-16页 |
·本文贡献与结构安排 | 第16-18页 |
第2章 实验平台 | 第18-26页 |
·体系结构概述 | 第18-23页 |
·Harpertown-Infiniband/DDR | 第19-21页 |
·Nehalem-Infiniband/DDR | 第21-22页 |
·Barcelona-Quadrics/Elan4 | 第22-23页 |
·编程模型 | 第23-24页 |
·编程环境 | 第24-25页 |
·计时方式 | 第25页 |
·性能表示方式 | 第25-26页 |
第3章 目标程序特征分析与适用优化 | 第26-41页 |
·Stencil计算 | 第26-29页 |
·MG | 第26-28页 |
·Line-Sweep计算 | 第28-29页 |
·FMM | 第29-34页 |
·N-Body问题及FMM算法 | 第29-30页 |
·PetFMM数据结构分析 | 第30-33页 |
·PetFMM算法流程分析 | 第33-34页 |
·目标应用程序常见优化 | 第34-41页 |
·寄存器分块 | 第34-35页 |
·SIMD | 第35页 |
·强度削弱 | 第35-36页 |
·NUMA内存分配 | 第36-37页 |
·软件数据预取 | 第37页 |
·高速缓存分块 | 第37-38页 |
·数组填充 | 第38-39页 |
·数组元素重排列 | 第39页 |
·循环融合 | 第39-40页 |
·内存直写 | 第40页 |
·计算与通讯覆盖 | 第40-41页 |
第4章 基于静态分析和微测试程序的并行调优策略 | 第41-46页 |
·影响程序性能的主要因素 | 第41-42页 |
·当前主流并行调优策略 | 第42页 |
·我们的并行调优策略 | 第42-46页 |
第5章 微测试程序设计与实验数据分析 | 第46-66页 |
·访存性能测试 | 第46-54页 |
·访存微测试程序Stream的缺点 | 第46-47页 |
·访存微测试程序MemPattern的设计 | 第47-49页 |
·测试结果及其分析 | 第49-54页 |
·通讯性能测试 | 第54-66页 |
·通讯微测试程序CommPattern的设计 | 第55-56页 |
·测试结果及其分析 | 第56-66页 |
第6章 Stencil计算与PetFMM并行调优 | 第66-80页 |
·MG | 第66-69页 |
·Line-Sweep计算 | 第69-75页 |
·PetFMM | 第75-80页 |
·PetFMM各阶段计算与访存特性 | 第76-77页 |
·PetFMM各阶段优化组合的静态评估 | 第77-80页 |
第7章 多重数据划分算法分析与改进 | 第80-97页 |
·基本概念 | 第80-81页 |
·通用符号 | 第80-81页 |
·数据划分 | 第81页 |
·均衡数据划分 | 第81-84页 |
·均衡数据划分生成算法 | 第84-93页 |
·目标函数 | 第84-85页 |
·确定数据划分向量 | 第85-89页 |
·确定处理机分配 | 第89-93页 |
·实例及其性能分析 | 第93-95页 |
·实验数据与分析 | 第95-97页 |
第8章 总结 | 第97-100页 |
·结论 | 第97-98页 |
·将来的工作 | 第98-100页 |
参考文献 | 第100-108页 |
发表论文目录 | 第108-109页 |
致谢 | 第109-110页 |