摘要 | 第5-6页 |
Abstract | 第6-7页 |
第一章 绪论 | 第13-23页 |
1.1 研究背景和意义 | 第13页 |
1.2 国内外研究现状 | 第13-18页 |
1.2.1 语音识别技术 | 第13-15页 |
1.2.2 语音增强算法 | 第15-17页 |
1.2.3 语音增强方法在语音识别领域的应用 | 第17-18页 |
1.3 语音质量的主客观评价标准 | 第18-20页 |
1.3.1 主观评价标准 | 第18页 |
1.3.2 客观评价标准 | 第18-20页 |
1.4 本文章节安排和组织结构 | 第20-23页 |
第二章 语音识别和语音增强相关的语音信号处理基础 | 第23-33页 |
2.1 语音信号处理的基本知识 | 第23-28页 |
2.1.1 语音信号的基本特性 | 第23页 |
2.1.2 语音信号的数学模型 | 第23-26页 |
2.1.3 语音信号的预处理及短时傅里叶变换 | 第26-27页 |
2.1.4 噪声特性 | 第27-28页 |
2.2 语音识别技术概述 | 第28-29页 |
2.2.1 语音识别系统结构 | 第28页 |
2.2.2 前端处理和解码器 | 第28页 |
2.2.3 语言模型 | 第28-29页 |
2.2.4 声学模型 | 第29页 |
2.3 常见语音增强算法介绍 | 第29-32页 |
2.3.1 谱减法 | 第29-30页 |
2.3.2 维纳滤波法 | 第30-31页 |
2.3.3 听觉掩蔽法 | 第31-32页 |
2.3.4 基于最小均方误差的语音增强算法(MMSE) | 第32页 |
2.4 本章小结 | 第32-33页 |
第三章 基于听觉掩蔽效应和谐波重构的维纳滤波语音增强算法 | 第33-49页 |
3.1 人耳的听觉掩蔽效应 | 第33-37页 |
3.1.1 人耳的听觉掩蔽效应介绍 | 第33页 |
3.1.2 掩蔽效应的阈值计算 | 第33-37页 |
3.2 噪声估计算法 | 第37-42页 |
3.2.1 最小值统计噪声估计算法 | 第37-40页 |
3.2.2 基于最小值约束的递归平均(MCRA)算法 | 第40-42页 |
3.3 基于听觉掩蔽效应与谐波重构的维纳滤波语音增强算法 | 第42-45页 |
3.4 实验分析及对比 | 第45-48页 |
3.5 本章小结 | 第48-49页 |
第四章 改进的对数域MMSE幅度谱估计器 | 第49-61页 |
4.1 基于最小均方误差(MMSE)的短时频谱幅度谱估计器 | 第49-52页 |
4.1.1 基于MMSE短时频谱幅度估计器的基本原理 | 第49-52页 |
4.1.2 基于MMSE短时频谱幅度估计器的实现步骤 | 第52页 |
4.2 对数域基于最小均方误差(LOG-MMSE)的短时频谱幅度谱估计器 | 第52-54页 |
4.3 改进的对数域MMSE短时幅度谱分析器 | 第54-59页 |
4.3.1 帧信噪比及噪声能量控制和弱频谱下限的平滑适应 | 第54-56页 |
4.3.2 实验对比及分析 | 第56-59页 |
4.4 本章小结 | 第59-61页 |
第五章 基于深度置信网络的语音增强算法 | 第61-85页 |
5.1 人工神经网络(Artificial Neural Network,ANN) | 第61-65页 |
5.1.1 神经元 | 第61页 |
5.1.2 前馈神经网络模型 | 第61-62页 |
5.1.3 前向算法 | 第62-63页 |
5.1.4 反向传播算法(back propagation,BP) | 第63-65页 |
5.2 深度神经网络的优化问题 | 第65-70页 |
5.2.1 随机梯度下降算法(stochastic gradient descent,SGD) | 第65-66页 |
5.2.2 深度神经网络的正则化 | 第66-68页 |
5.2.3 Dropout | 第68页 |
5.2.4 激活函数(activation function) | 第68-70页 |
5.3 深度置信网络(Deep Belief Network,DBN) | 第70-73页 |
5.3.1 受限玻尔兹曼机(Restricted Boltzmann Machine ,RBM) | 第70-72页 |
5.3.2 深度置信网络的结构和训练方式 | 第72-73页 |
5.4 基于深度神经网络的语音增强算法 | 第73-75页 |
5.5 深度网络的参数训练与降噪效果 | 第75-78页 |
5.5.1 深度网络的参数训练 | 第75-77页 |
5.5.2 深度神经网络降噪效果 | 第77-78页 |
5.6 深度网络语音增强算法的改进 | 第78-81页 |
5.6.1 噪声频率扰动 | 第80页 |
5.6.2 基于先验信噪比的损失函数权重因子 | 第80-81页 |
5.6.3 深度网络模型稀疏化 | 第81页 |
5.7 主流ASR识别引擎上的提升效果 | 第81-84页 |
5.7.1 CMU Sphinx语音识别系统 | 第81页 |
5.7.2 Kaldi语音识别系统 | 第81-82页 |
5.7.3 语音识别实验 | 第82-84页 |
5.8 本章小结 | 第84-85页 |
第六章 总结与展望 | 第85-87页 |
6.1 工作总结 | 第85-86页 |
6.2 研究展望 | 第86-87页 |
致谢 | 第87-89页 |
参考文献 | 第89-94页 |
作者简介 | 第94页 |