| 摘要 | 第1-8页 |
| ABSTRACT | 第8-10页 |
| 第1章 绪论 | 第10-18页 |
| ·当前主流大规模并行计算平台 | 第10-12页 |
| ·多核的兴起 | 第10-11页 |
| ·多核构架的新特性 | 第11页 |
| ·多核构架与主流大规模并行计算平台 | 第11-12页 |
| ·并行调优策略的重要性 | 第12-14页 |
| ·并行调优技术的困境 | 第12-13页 |
| ·并行调优策略的重要性 | 第13-14页 |
| ·并行调优策略相关技术 | 第14-16页 |
| ·性能建模 | 第14-15页 |
| ·性能预测 | 第15页 |
| ·自优化技术 | 第15页 |
| ·性能测试 | 第15-16页 |
| ·本文贡献与结构安排 | 第16-18页 |
| 第2章 实验平台 | 第18-26页 |
| ·体系结构概述 | 第18-23页 |
| ·Harpertown-Infiniband/DDR | 第19-21页 |
| ·Nehalem-Infiniband/DDR | 第21-22页 |
| ·Barcelona-Quadrics/Elan4 | 第22-23页 |
| ·编程模型 | 第23-24页 |
| ·编程环境 | 第24-25页 |
| ·计时方式 | 第25页 |
| ·性能表示方式 | 第25-26页 |
| 第3章 目标程序特征分析与适用优化 | 第26-41页 |
| ·Stencil计算 | 第26-29页 |
| ·MG | 第26-28页 |
| ·Line-Sweep计算 | 第28-29页 |
| ·FMM | 第29-34页 |
| ·N-Body问题及FMM算法 | 第29-30页 |
| ·PetFMM数据结构分析 | 第30-33页 |
| ·PetFMM算法流程分析 | 第33-34页 |
| ·目标应用程序常见优化 | 第34-41页 |
| ·寄存器分块 | 第34-35页 |
| ·SIMD | 第35页 |
| ·强度削弱 | 第35-36页 |
| ·NUMA内存分配 | 第36-37页 |
| ·软件数据预取 | 第37页 |
| ·高速缓存分块 | 第37-38页 |
| ·数组填充 | 第38-39页 |
| ·数组元素重排列 | 第39页 |
| ·循环融合 | 第39-40页 |
| ·内存直写 | 第40页 |
| ·计算与通讯覆盖 | 第40-41页 |
| 第4章 基于静态分析和微测试程序的并行调优策略 | 第41-46页 |
| ·影响程序性能的主要因素 | 第41-42页 |
| ·当前主流并行调优策略 | 第42页 |
| ·我们的并行调优策略 | 第42-46页 |
| 第5章 微测试程序设计与实验数据分析 | 第46-66页 |
| ·访存性能测试 | 第46-54页 |
| ·访存微测试程序Stream的缺点 | 第46-47页 |
| ·访存微测试程序MemPattern的设计 | 第47-49页 |
| ·测试结果及其分析 | 第49-54页 |
| ·通讯性能测试 | 第54-66页 |
| ·通讯微测试程序CommPattern的设计 | 第55-56页 |
| ·测试结果及其分析 | 第56-66页 |
| 第6章 Stencil计算与PetFMM并行调优 | 第66-80页 |
| ·MG | 第66-69页 |
| ·Line-Sweep计算 | 第69-75页 |
| ·PetFMM | 第75-80页 |
| ·PetFMM各阶段计算与访存特性 | 第76-77页 |
| ·PetFMM各阶段优化组合的静态评估 | 第77-80页 |
| 第7章 多重数据划分算法分析与改进 | 第80-97页 |
| ·基本概念 | 第80-81页 |
| ·通用符号 | 第80-81页 |
| ·数据划分 | 第81页 |
| ·均衡数据划分 | 第81-84页 |
| ·均衡数据划分生成算法 | 第84-93页 |
| ·目标函数 | 第84-85页 |
| ·确定数据划分向量 | 第85-89页 |
| ·确定处理机分配 | 第89-93页 |
| ·实例及其性能分析 | 第93-95页 |
| ·实验数据与分析 | 第95-97页 |
| 第8章 总结 | 第97-100页 |
| ·结论 | 第97-98页 |
| ·将来的工作 | 第98-100页 |
| 参考文献 | 第100-108页 |
| 发表论文目录 | 第108-109页 |
| 致谢 | 第109-110页 |