| 摘要 | 第1-5页 |
| Abstract | 第5-10页 |
| 第1章 研究意义 | 第10-20页 |
| ·全新的并行编程成为未来程序设计趋势 | 第10-11页 |
| ·并行模型与硬件架构、存储结构息息相关 | 第11-14页 |
| ·并行模型中的若干软件设计因素 | 第14-15页 |
| ·Streamit+GPU让问题变得简单、性能得到提升 | 第15-16页 |
| ·本文主要研究内容 | 第16-20页 |
| ·本文主要研究内容 | 第16-18页 |
| ·本文主要贡献 | 第18-19页 |
| ·论文组织与各章内容简介 | 第19-20页 |
| 第2章 Streamit研究现状 | 第20-29页 |
| ·本章引言 | 第20-21页 |
| ·Streamit开发小组的工作 | 第21-24页 |
| ·Streamit前期工作 | 第21-23页 |
| ·Streamit中期工作 | 第23-24页 |
| ·Streamit目前工作 | 第24页 |
| ·Streamit的其它工作 | 第24-28页 |
| ·面向Cell、多核以及FPGA处理器 | 第25-26页 |
| ·基于GPU的Streamit与基于GPU的优化问题 | 第26-28页 |
| ·本章小结 | 第28-29页 |
| 第3章 Streamit编程、特点及模型分析 | 第29-59页 |
| ·本章引言 | 第29-30页 |
| ·流程序介绍 | 第30-33页 |
| ·离散时间傅里叶变换DTFT | 第31-32页 |
| ·多通道滤波器设计 | 第32页 |
| ·离散余弦变换DCT | 第32页 |
| ·数据加密算法DES | 第32-33页 |
| ·视频编码标准MPEG2 | 第33页 |
| ·前端编译 | 第33-36页 |
| ·后端编译 | 第36-47页 |
| ·pop、peek与push操作 | 第37-38页 |
| ·静态流图与动态调度 | 第38-39页 |
| ·节点线性化 | 第39-40页 |
| ·Streamit调度系统与操作系统调度 | 第40-41页 |
| ·代码生成 | 第41-42页 |
| ·典型应用程序执行流图及相关数据统计 | 第42-47页 |
| ·多核与众核平台 | 第47-49页 |
| ·多核简述 | 第48页 |
| ·众核简述 | 第48页 |
| ·多核与众核关系 | 第48-49页 |
| ·checkpoint操作 | 第49页 |
| ·编译中间件 | 第49-52页 |
| ·Antlr介绍 | 第50-51页 |
| ·画图软件Dotty | 第51-52页 |
| ·模型分析 | 第52-57页 |
| ·MPI+CUDA | 第53-56页 |
| ·并行设计语言Streamit | 第56-57页 |
| ·面向异构平台的并行设计语言Streamit+GPU | 第57页 |
| ·本章小结 | 第57-59页 |
| 第4章 平台无关的数据依赖检测与分离技术 | 第59-68页 |
| ·本章引言 | 第59页 |
| ·问题提出 | 第59-60页 |
| ·问题解决 | 第60-66页 |
| ·pop、push与缓冲区映射 | 第61-62页 |
| ·其它依赖检测与并行化技术 | 第62-66页 |
| ·本章小结 | 第66-68页 |
| 第5章 方案设计与实现 | 第68-82页 |
| ·本章引言 | 第68-69页 |
| ·可选方案对比 | 第69-71页 |
| ·方案一:全节点转换 | 第69-70页 |
| ·方案二:流图转换 | 第70页 |
| ·方案三:循环语句转换 | 第70-71页 |
| ·解决方案与实现细节 | 第71-80页 |
| ·总体解决方案 | 第71-72页 |
| ·前端设计 | 第72-73页 |
| ·后端处理 | 第73-80页 |
| ·本章小结 | 第80-82页 |
| 第6章 代码转换 | 第82-96页 |
| ·本章引言 | 第82-84页 |
| ·影响代码性能的若干因素 | 第84-85页 |
| ·代码转换对比 | 第85页 |
| ·信息获取 | 第85-86页 |
| ·循环模式的代码转换方案 | 第86-91页 |
| ·循环语句的生成策略简述 | 第87-89页 |
| ·准备工作 | 第89页 |
| ·循环层数为1、步长为1时的循环语句处理 | 第89页 |
| ·循环层数为1、步长为2或者n时的循环语句处理 | 第89-90页 |
| ·循环层数为2、步长为1时的循环语句处理 | 第90-91页 |
| ·循环层数为2、步长为2或者n时的处理 | 第91页 |
| ·结尾工作 | 第91页 |
| ·代码转换优化 | 第91-94页 |
| ·存储空间优化 | 第92-94页 |
| ·函数优化 | 第94页 |
| ·本章小结 | 第94-96页 |
| 第7章 结果分析与性能改进 | 第96-119页 |
| ·本章引言 | 第96页 |
| ·实验步骤 | 第96-111页 |
| ·基于矩阵相乘的多核、GPU计算平台对比 | 第97-98页 |
| ·多核下各种流水线执行特点分析实验 | 第98-107页 |
| ·流水线优化措施与实验分析 | 第107-110页 |
| ·异构执行与多核执行性能对比 | 第110-111页 |
| ·性能改进与模型扩展 | 第111-117页 |
| ·提出背景 | 第112-114页 |
| ·基于多输入、多输出端口的扩展Streamit编程框架 | 第114-116页 |
| ·基于多输入、多输出端口的模拟实验 | 第116-117页 |
| ·本章小结 | 第117-119页 |
| 第8章 总结与进一步工作 | 第119-123页 |
| ·本文总结 | 第119-121页 |
| ·进一步工作 | 第121-123页 |
| 参考文献 | 第123-131页 |
| 致谢 | 第131-132页 |
| 个人简历、在学期间发表的学术论文与研究成果 | 第132-133页 |