具备鲁棒性的说话人分割机制的设计与实施

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第10-14页
1.1 说话人分割机制的研究背景和研究意义	第10页
1.2 说话人分割机制的历史发展	第10-12页
1.3 说话人分割机制中存在的问题	第12页
1.4 论文的主要研究内容及研究成果	第12-13页
1.5 论文的组织结构	第13-14页
第二章说话人分割机制相关理论	第14-20页
2.1 引言	第14页
2.2 特征提取	第14-17页
2.2.1 梅尔频率倒谱系数	第14页
2.2.2 均方根能量	第14-15页
2.2.3 谐波特性	第15-16页
2.2.4 线性预测残差能量	第16页
2.2.5 谱平稳度	第16页
2.2.6 谱流量	第16-17页
2.3 距离计算	第17-18页
2.4 说话人分割机制的性能评价	第18页
2.5 本章小结	第18-20页
第三章基础性说话人分割机制的原理与架构	第20-28页
3.1 引言	第20页
3.2 基础性说话人分割机制的原理与架构	第20-25页
3.2.1 静音检测	第21-22页
3.2.2 预分割	第22-23页
3.2.3 说话人模型更新	第23-24页
3.2.4 潜在切换点确认	第24-25页
3.3 实验结果及分析	第25-26页
3.3.1 实验配置	第25页
3.3.2 实验结果与分析	第25-26页
3.4 本章小结	第26-28页
第四章说话人分割中的语音检测机制	第28-46页
4.1 引言	第28-29页
4.2 语音非语音检测	第29-42页
4.2.1 基于DNN的语音非语音检测系统	第29-32页
4.2.2 基于Combo的语音非语音检测系统	第32-34页
4.2.3 基于系统融合的两步判决语音非语音检测系统	第34-36页
4.2.4 实验结果与分析	第36-42页
4.3 基于GBDT的重叠语音检测系统	第42-43页
4.4 语音检测机制在说话人分割中的实验结果及分析	第43-44页
4.4.1 实验配置	第43页
4.4.2 实验结果与分析	第43-44页
4.5 本章小结	第44-46页
第五章说话人分割中的语音增强机制	第46-58页
5.1 引言	第46-47页
5.2 常用的基于深度学习的单声道语音增强算法	第47-49页
5.2.1 基于语音幅度谱估计的语音增强算法	第47-48页
5.2.2 基于时频掩蔽估计的语音增强算法	第48-49页
5.3 基于FFT-Mask估计的LSTM语音增强系统	第49-55页
5.3.1 基本原理	第50页
5.3.2 特征提取	第50-51页
5.3.3 网络结构和训练	第51页
5.3.4 音频重建	第51-52页
5.3.5 实验结果与分析	第52-55页
5.4 语音增强机制在说话人分割中的实验结果及分析	第55-57页
5.4.1 实验配置	第55页
5.4.2 实验结果与分析	第55-57页
5.5 本章小结	第57-58页
第六章总结与展望	第58-60页
6.1 论文工作总结	第58页
6.2 未来工作展望	第58-60页
参考文献	第60-64页
致谢	第64-66页
攻读学位期间发表或已录用的学术论文	第66页