基于通用可编程GPU的视频编解码器——架构、算法与实现

摘要	第1-3页
ABSTRACT	第3-4页
目录	第4-7页
第一章绪论	第7-18页
1．1 引言	第7-8页
1．2 视频实时编解码所面临的挑战	第8-10页
1．2．1 高清晰度视频对实时编解码提出的挑战	第8-9页
1．2．2 以PC为中心的高清晰度视频应用	第9-10页
1．3 GPU在视频编解码中的作用	第10-15页
1．3．1 硬件解码与DXVA	第11-12页
1．3．2 可编程3D引擎与GPGPU	第12-14页
1．3．3 可编程3D引擎在视频编解码领域的应用现状	第14页
1．3．4 利用3D引擎加速视频编解码的优点和难点	第14-15页
1．4 论文主要工作与章节安排	第15-18页
第二章 3D引擎工作原理与编程	第18-29页
2．1 计算机3D渲染原理	第18-19页
2．2 3D引擎的工作过程	第19-20页
2．3 可编程引擎	第20-23页
2．3．1 顶点／像素处理器的体系结构和Shader Model	第21-22页
2．3．2 图形处理器的特点	第22-23页
2．3．3 深度测试和ZBuffer	第23页
2．4 DirectX Graphics接口	第23-27页
2．4．1 高级着色器语言	第24页
2．4．2 D3D程序的基本结构	第24-26页
2．4．3 用3D引擎绘制视频	第26-27页
2．5 本章小结	第27-29页
第三章基于通用可编程GPU的MPEG2编码器	第29-63页
3．1 编码器的并行架构	第29-32页
3．1．1 传统MPEG2编码器架构	第29-30页
3．1．2 基于GPU的MPEG2编码器并行架构	第30-32页
3．2 适合于GPU的编码算法	第32-45页
3．2．1 自适应运动矢量预测算法	第33-35页
3．2．2 多通道SAD算法	第35-37页
3．2．3 运动估计中基于深度测试的提前退出算法	第37-43页
3．2．4 亚像素搜索与无限精度的运动矢量	第43-45页
3．2．5 算法的适用性	第45页
3．3 编码器的实现	第45-55页
3．3．1 双线程程序结构	第46页
3．3．2 主线程流程	第46-47页
3．3．3 子线程流程	第47-49页
3．3．4 共享缓冲区与线程同步	第49-51页
3．3．5 Multiple Render Target	第51-52页
3．3．6 GPU的输入数据结构和纹理坐标映射	第52-54页
3．3．7 2-Pass的MCSAD	第54-55页
3．4 编码器的性能分析	第55-62页
3．4．1 ATSMVP的性能分析	第55-56页
3．4．2 MCSAD的性能分析	第56-57页
3．4．3 LMES的性能分析	第57-59页
3．4．4 编码器整体性能	第59-60页
3．4．5 瓶颈与可能的解决途径	第60-62页
3．5 本章小结	第62-63页
第四章基于通用可编程GPU的MPEG2解码器	第63-89页
4．1 解码器的并行架构	第63-65页
4．1．1 传统架构	第63-64页
4．1．2 适宜于GPU+CPU的分级并行架构	第64-65页
4．2 适合于GPU的解码算法与技术	第65-79页
4．2．1 PSC与VSC	第65-68页
4．2．2 基于ZBuffer的分类算法	第68-70页
4．2．3 两步法多通道运动补偿	第70-72页
4．2．4 基于可编程GPU的IDCT算法	第72-77页
4．2．5 多通道IQ	第77-78页
4．2．6 GPU与CPU的负载均衡	第78-79页
4．3 解码器的实现	第79-82页
4．3．1 单线程实现GPU和CPU并行工作	第79-80页
4．3．2 分类的粒度	第80-81页
4．3．3 浮点运算的误差问题	第81-82页
4．4 性能分析与比较	第82-87页
4．4．1 PSC、VSC与ZBC的比较	第83-84页
4．4．2 TSMCMC与单通道MC的比较	第84页
4．4．3 GPU上的IDCT与CPU上的IDCT	第84-85页
4．4．4 解码器整体性能	第85-87页
4．5 本章小结	第87-89页
第五章结论与展望	第89-92页
5．1 结论	第89-90页
5．2 展望	第90-92页
参考文献	第92-95页
硕士在读期间发表的论文	第95-96页
致谢	第96页