音频场景检测机制的设计与实施
摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第9-13页 |
1.1 音频场景检测机制的研究背景和研究意义 | 第9页 |
1.2 音频场景检测机制的历史发展 | 第9-10页 |
1.3 论文的主要研究内容及研究成果 | 第10-11页 |
1.4 论文的组织结构 | 第11-13页 |
第二章 音频场景检测机制的相关理论 | 第13-27页 |
2.1 引言 | 第13页 |
2.2 特征提取 | 第13-16页 |
2.2.1 音频帧特征 | 第13-16页 |
2.2.2 音频段特征 | 第16页 |
2.3 模型 | 第16-19页 |
2.3.1 高斯混合模型 | 第16-18页 |
2.3.2 HMM模型 | 第18-19页 |
2.3.3 K-means算法 | 第19页 |
2.4 非负矩阵分解 | 第19-21页 |
2.4.1 代价函数与迭代规则 | 第20页 |
2.4.2 NMF在音频领域的应用 | 第20-21页 |
2.5 分类器 | 第21-24页 |
2.5.1 K近邻分类器 | 第21-22页 |
2.5.2 决策树 | 第22页 |
2.5.3 支撑向量机 | 第22-24页 |
2.6 评估指标 | 第24-26页 |
2.6.1 DER评估指标 | 第24-25页 |
2.6.2 信源分离评估指标 | 第25页 |
2.6.3 语音质量的常用评价指标 | 第25-26页 |
2.7 本章小结 | 第26-27页 |
第三章 音频场景检测机制的原理与技术 | 第27-51页 |
3.1 引言 | 第27页 |
3.2 两套场景检测基准系统 | 第27-34页 |
3.2.1 content基准系统 | 第27-28页 |
3.2.2 AS基准系统 | 第28-31页 |
3.2.3 实验结果及分析 | 第31-34页 |
3.3 参数更新 | 第34-37页 |
3.3.1 预分类语音码本更新 | 第34-35页 |
3.3.2 修正阶段语音阈值更新 | 第35-36页 |
3.3.3 实验结果及分析 | 第36-37页 |
3.4 语音检测的鲁棒性特征 | 第37-42页 |
3.4.1 SCF和LPVDR特征提取 | 第37-39页 |
3.4.2 特征辨识力实验及分析 | 第39-42页 |
3.5 音乐调性检测 | 第42-44页 |
3.5.1 基本乐理介绍及调性检测原理 | 第43-44页 |
3.5.2 实验设置及结果 | 第44页 |
3.6 基于NMF特征的语音非语音检测 | 第44-49页 |
3.6.1 特征提取与模型训练 | 第45-47页 |
3.6.2 系统性能评估 | 第47-49页 |
3.7 本章小结 | 第49-51页 |
第四章 语音增强与音频场景检测 | 第51-57页 |
4.1 引言 | 第51页 |
4.2 基于NMF的语音增强算法 | 第51-52页 |
4.3 常见语音增强算法原理及相关实验 | 第52-54页 |
4.4 语音增强与基准系统的融合 | 第54页 |
4.5 实验结果及分析 | 第54-55页 |
4.6 本章小结 | 第55-57页 |
第五章 在线音频场景检测系统 | 第57-71页 |
5.1 引言 | 第57页 |
5.2 在线话音检测 | 第57-60页 |
5.2.1 基于对数能量多高斯建模的话音检测 | 第57-58页 |
5.2.2 基于多特征流的在线话音检测 | 第58-60页 |
5.3 在线场景检测 | 第60-66页 |
5.3.1 语音与非语音分类 | 第61-65页 |
5.3.2 非语音分类 | 第65-66页 |
5.4 模型参数实时更新 | 第66-67页 |
5.5 实验结果及分析 | 第67-68页 |
5.6 本章小结 | 第68-71页 |
第六章 总结与展望 | 第71-73页 |
参考文献 | 第73-77页 |
致谢 | 第77-79页 |
攻读学位期间发表或已录用的学术论文 | 第79页 |