摘要 | 第1-10页 |
ABSTRACT | 第10-12页 |
第一章 绪论 | 第12-29页 |
§1.1 引言 | 第12-17页 |
·高性能计算机体系结构 | 第12-16页 |
·科学计算面临的性能问题 | 第16-17页 |
§1.2 程序性能优化现状 | 第17-23页 |
·相关概念与术语 | 第17-19页 |
·存储优化研究现状 | 第19-21页 |
·ILP优化研究现状 | 第21页 |
·存储与ILP优化结合研究现状 | 第21-22页 |
·几个研究热点 | 第22-23页 |
·相关学术机构、刊物与会议 | 第23页 |
§1.3 程序性能测试与分析研究现状 | 第23-25页 |
·程序性能测试技术 | 第23-25页 |
·程序性能特征分析技术 | 第25页 |
·相关学术刊物与会议 | 第25页 |
§1.4 本文的研究内容与研究贡献 | 第25-27页 |
·存在问题与研究内容 | 第25-26页 |
·研究贡献 | 第26-27页 |
·几点说明 | 第27页 |
§1.5 本文内容的安排 | 第27-29页 |
第二章 基于有限执行与遗传算法的程序性能优化参数选择 | 第29-64页 |
§2.1 问题的提出 | 第29-33页 |
·循环分块 | 第29-30页 |
·数组Padding | 第30-31页 |
·循环展开 | 第31-33页 |
§2.2 已有工作及存在问题 | 第33-38页 |
·已有工作 | 第33-35页 |
·存在问题 | 第35-38页 |
§2.3 基于有限执行与遗传算法的优化参数选择框架Lega | 第38-54页 |
·问题的形式化定义 | 第39页 |
·Lega的总体框架流程 | 第39-40页 |
·参数化 | 第40-41页 |
·程序缩减变换 | 第41-49页 |
·执行驱动的参数搜索算法Edga | 第49-54页 |
§2.4 实验结果与讨论 | 第54-63页 |
·实验平台 | 第54页 |
·遗传搜索过程收敛情况 | 第54-55页 |
·平台自适应性 | 第55-57页 |
·与DAT和迭代编译在参数选择质量上的比较 | 第57-60页 |
·参数选择开销 | 第60-63页 |
§2.5 本章小结 | 第63-64页 |
·主要工作 | 第63页 |
·方法评述 | 第63-64页 |
第三章 基于硬件性能监视的程序性能测试与分析 | 第64-77页 |
§3.1 引言 | 第64-68页 |
·程序性能数据获取方法 | 第64-66页 |
·硬件性能监视原理及软硬件技术 | 第66-68页 |
§3.2 基于硬件计数器的程序性能测试与分析软件PTracker | 第68-73页 |
·P6系列处理器的硬件性能监视与WinPAPI | 第68-69页 |
·PTracker的设计思想 | 第69页 |
·PTracker的结构及实现 | 第69-70页 |
·PTracker的几种测试模式 | 第70-71页 |
·PTracker中的数据分析 | 第71-73页 |
§3.3 PTracker应用实例 | 第73-76页 |
·矩阵相乘程序优化 | 第73-75页 |
·SPEC CPU2000部分浮点程序性能特征分析 | 第75-76页 |
§3.4 本章小结 | 第76-77页 |
第四章 JACOBI迭代程序的存储局部性优化与分析 | 第77-89页 |
§4.1 引言 | 第77-78页 |
§4.2 三种优化方法概况 | 第78-82页 |
·InterNest | 第78-79页 |
·TimeSkew | 第79-80页 |
·NewTile | 第80-82页 |
§4.3 性能分析 | 第82-86页 |
·假设与标记 | 第82页 |
·开销的组成 | 第82-83页 |
·程序的cache不命中数 | 第83-84页 |
·通信开销 | 第84-85页 |
·时间开销综合 | 第85-86页 |
§4.4 实验结果与讨论 | 第86-88页 |
§4.5 本章小结 | 第88-89页 |
第五章 CFD业务程序LM3D的性能优化 | 第89-98页 |
§5.1 引言 | 第89-90页 |
§5.2 优化方法与过程 | 第90-94页 |
·程序时间Profiling | 第90-91页 |
·程序变换 | 第91-92页 |
·关键输入值嵌入 | 第92-94页 |
§5.3 实验结果及分析 | 第94-97页 |
·实验设置 | 第94页 |
·实验结果 | 第94-97页 |
§5.4 本章小结 | 第97-98页 |
第六章 基于硬件计数器的MPEG4视频应用性能特征分析 | 第98-106页 |
§6.1 引言 | 第98页 |
§6.2 相关工作 | 第98-99页 |
§6.3 方法 | 第99-101页 |
·目标平台 | 第99-100页 |
·MPEG4视频应用 | 第100页 |
·实验过程 | 第100-101页 |
§6.4 实验结果及分析 | 第101-105页 |
·指令比例 | 第101-102页 |
·指令执行速率 | 第102页 |
·cache不命中率 | 第102-103页 |
·存储带宽需求 | 第103页 |
·程序平衡 | 第103-104页 |
·分支预测 | 第104页 |
·性能影响率 | 第104-105页 |
§6.5 本章小结 | 第105-106页 |
第七章 研究工作总结与展望 | 第106-108页 |
§7.1 本文研究工作的总结 | 第106页 |
§7.2 研究展望 | 第106-108页 |
攻读博士学位期间发表的论文 | 第108页 |
攻读博士学位期间参加的科研工作 | 第108-109页 |
致谢 | 第109-110页 |
参考文献 | 第110-120页 |
附录A 本文用到的PAPI参数的含义 | 第120页 |