面向场景理解的视、听觉媒体内容处理与分析方法研究

摘要	第4-5页
Abstract	第5-6页
第一章绪论	第11-14页
1.1 研究背景	第11-12页
1.2 研究工作	第12-13页
1.3 论文结构	第13-14页
第二章研究背景	第14-25页
2.1 音频摘要提取的相关研究	第14-18页
2.1.1 音频的内容	第14-15页
2.1.2 基于相似度的音乐摘要	第15-16页
2.1.3 基于监督学习算法的音频摘要	第16-17页
2.1.4 基于无监督学习算法的音频摘要	第17-18页
2.2 文字增强问题研究现状	第18-24页
2.2.1 基于二值化的文字增强算法	第19-21页
2.2.2 基于超像素的文字增强算法	第21-24页
2.3 本章小结	第24-25页
第三章基于检测声音事件和场景变化的多源音频摘要方法	第25-36页
3.1 算法框架描述	第25-27页
3.2 音频分割	第27-29页
3.3 基于音频事件和上下文模型的音频摘要	第29-32页
3.3.1 音频片段聚类	第29-30页
3.3.2 音频事件检测与识别	第30-31页
3.3.3 基于上下文模型的关联性分析	第31-32页
3.4 实验与讨论	第32-35页
3.5 本章小结	第35-36页
第四章基于多光谱融合的文字增强算法	第36-45页
4.1 方法概述	第36页
4.2 减少退化影响的多光谱图像	第36-38页
4.3 文字帧增强的多光谱融合	第38-40页
4.4 实验与讨论	第40-44页
4.4.1 增强图片质量评价	第40-41页
4.4.2 文字检测评估	第41-44页
4.4.3 文字识别评估	第44页
4.5 本章小结	第44-45页
第五章总结与展望	第45-47页
5.1 本文成果	第45-46页
5.2 未来展望	第46-47页
参考文献	第47-53页
简历与科研成果	第53-55页
致谢	第55-56页