摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第一章 绪论 | 第16-24页 |
1.1 背景与意义 | 第16页 |
1.2 研究现状 | 第16-22页 |
1.2.1 基于QR方法的SVD算法 | 第16-17页 |
1.2.2 基于Jacobi方法的SVD算法 | 第17-20页 |
1.2.3 基于GPU平台的并行实现 | 第20-22页 |
1.3 本文研究内容 | 第22-23页 |
1.4 本文组织结构 | 第23-24页 |
第二章 并行计算技术与开发环境 | 第24-38页 |
2.1 并行执行环境 | 第24-26页 |
2.1.1 传统并行计算系统 | 第24-25页 |
2.1.2 GPU通用计算平台 | 第25-26页 |
2.2 并行算法设计方法 | 第26-30页 |
2.2.1 传统并行算法设计方法 | 第27-28页 |
2.2.2 细粒度并行算法设计方法 | 第28-29页 |
2.2.3 并行算法性能评估 | 第29-30页 |
2.3 CUDA平台及GPU通用计算模型 | 第30-37页 |
2.3.1 CUDA平台概述 | 第30-31页 |
2.3.2 GPU通用计算模型 | 第31-37页 |
2.4 小结 | 第37-38页 |
第三章 QR迭代SVD并行算法研究 | 第38-53页 |
3.1 QR迭代SVD算法 | 第38-42页 |
3.1.1 基本算法原理 | 第38-39页 |
3.1.2 基于Householder变换的二对角化 | 第39-40页 |
3.1.3 二对角矩阵的对角化 | 第40-42页 |
3.2 QR方法的局限及改进算法 | 第42-48页 |
3.2.1 两种主要QR算法性能分析 | 第42-45页 |
3.2.2 改进的动态位移QR算法 | 第45-46页 |
3.2.3 动态位移QR算法性能分析 | 第46-48页 |
3.3 改进算法在GPU平台的并行算法设计 | 第48-52页 |
3.3.1 二对角化并行算法设计 | 第48-49页 |
3.3.2 对角化并行算法设计 | 第49-52页 |
3.4 小结 | 第52-53页 |
第四章 基于JACOBI方法的SVD并行算法研究 | 第53-72页 |
4.1 传统Jacobi算法 | 第53-57页 |
4.1.1 双边Jacobi算法 | 第53-55页 |
4.1.2 单边Jacobi算法 | 第55-57页 |
4.2 混合序列单边Jacobi算法设计 | 第57-67页 |
4.2.1 静态数据调度序列 | 第57-62页 |
4.2.2 动态序列Jacobi算法分析 | 第62-64页 |
4.2.3 改进的混合序列单边Jacobi算法 | 第64-65页 |
4.2.4 混合序列算法精度控制 | 第65-67页 |
4.3 混合序列算法性能分析 | 第67-68页 |
4.4 混合序列算法在GPU平台的并行算法设计 | 第68-71页 |
4.4.1 静态序列更新的实现优化 | 第68-69页 |
4.4.2 并行单边Jacobi旋转 | 第69-71页 |
4.5 小结 | 第71-72页 |
第五章 基于GPU平台的算法实现与性能测试 | 第72-96页 |
5.1 算法实现与测试平台 | 第72-75页 |
5.1.1 软硬件平台 | 第72-74页 |
5.1.2 测试方法 | 第74页 |
5.1.3 测试技术 | 第74-75页 |
5.2 动态位移QR迭代算法的GPU实现与性能测试 | 第75-88页 |
5.2.1 总体实现方案 | 第75-76页 |
5.2.2 原矩阵的二对角化 | 第76-80页 |
5.2.3 二对角矩阵的对角化 | 第80-84页 |
5.2.4 性能测试 | 第84-88页 |
5.3 混合序列并行单边Jacobi算法的GPU实现与性能测试 | 第88-95页 |
5.3.1 总体实现方案 | 第88-89页 |
5.3.2 调度序列更新 | 第89-90页 |
5.3.3 Jacobi旋转 | 第90-91页 |
5.3.4 性能测试 | 第91-95页 |
5.4 小结 | 第95-96页 |
第六章 总结与展望 | 第96-99页 |
6.1 本文工作总结 | 第96-97页 |
6.2 展望 | 第97-99页 |
致谢 | 第99-100页 |
参考文献 | 第100-104页 |
个人简历及攻读硕士学位期间的研究成果 | 第104-105页 |