通用多核集群上的并行调优策略研究

摘要	第1-8页
ABSTRACT	第8-10页
第1章绪论	第10-18页
·当前主流大规模并行计算平台	第10-12页
·多核的兴起	第10-11页
·多核构架的新特性	第11页
·多核构架与主流大规模并行计算平台	第11-12页
·并行调优策略的重要性	第12-14页
·并行调优技术的困境	第12-13页
·并行调优策略的重要性	第13-14页
·并行调优策略相关技术	第14-16页
·性能建模	第14-15页
·性能预测	第15页
·自优化技术	第15页
·性能测试	第15-16页
·本文贡献与结构安排	第16-18页
第2章实验平台	第18-26页
·体系结构概述	第18-23页
·Harpertown-Infiniband/DDR	第19-21页
·Nehalem-Infiniband/DDR	第21-22页
·Barcelona-Quadrics/Elan4	第22-23页
·编程模型	第23-24页
·编程环境	第24-25页
·计时方式	第25页
·性能表示方式	第25-26页
第3章目标程序特征分析与适用优化	第26-41页
·Stencil计算	第26-29页
·MG	第26-28页
·Line-Sweep计算	第28-29页
·FMM	第29-34页
·N-Body问题及FMM算法	第29-30页
·PetFMM数据结构分析	第30-33页
·PetFMM算法流程分析	第33-34页
·目标应用程序常见优化	第34-41页
·寄存器分块	第34-35页
·SIMD	第35页
·强度削弱	第35-36页
·NUMA内存分配	第36-37页
·软件数据预取	第37页
·高速缓存分块	第37-38页
·数组填充	第38-39页
·数组元素重排列	第39页
·循环融合	第39-40页
·内存直写	第40页
·计算与通讯覆盖	第40-41页
第4章基于静态分析和微测试程序的并行调优策略	第41-46页
·影响程序性能的主要因素	第41-42页
·当前主流并行调优策略	第42页
·我们的并行调优策略	第42-46页
第5章微测试程序设计与实验数据分析	第46-66页
·访存性能测试	第46-54页
·访存微测试程序Stream的缺点	第46-47页
·访存微测试程序MemPattern的设计	第47-49页
·测试结果及其分析	第49-54页
·通讯性能测试	第54-66页
·通讯微测试程序CommPattern的设计	第55-56页
·测试结果及其分析	第56-66页
第6章 Stencil计算与PetFMM并行调优	第66-80页
·MG	第66-69页
·Line-Sweep计算	第69-75页
·PetFMM	第75-80页
·PetFMM各阶段计算与访存特性	第76-77页
·PetFMM各阶段优化组合的静态评估	第77-80页
第7章多重数据划分算法分析与改进	第80-97页
·基本概念	第80-81页
·通用符号	第80-81页
·数据划分	第81页
·均衡数据划分	第81-84页
·均衡数据划分生成算法	第84-93页
·目标函数	第84-85页
·确定数据划分向量	第85-89页
·确定处理机分配	第89-93页
·实例及其性能分析	第93-95页
·实验数据与分析	第95-97页
第8章总结	第97-100页
·结论	第97-98页
·将来的工作	第98-100页
参考文献	第100-108页
发表论文目录	第108-109页
致谢	第109-110页