摘要 | 第4-5页 |
Abstract | 第5-6页 |
第1章 绪论 | 第7-14页 |
1.1 说话人识别应用背景 | 第7-11页 |
1.1.1 说话人识别技术概述 | 第7-9页 |
1.1.2 说话人识别技术应用 | 第9-11页 |
1.2 说话人识别中的时变问题及研究现状 | 第11页 |
1.3 时变问题研究难点 | 第11-12页 |
1.4 论文的组织结构 | 第12-14页 |
第2章 建立适合声纹识别时变特性的数据库 | 第14-18页 |
2.1 时变数据库设计原则 | 第14-16页 |
2.1.1 整体设计原则 | 第14页 |
2.1.2 录音文本 | 第14页 |
2.1.3 录音的时间间隔 | 第14-15页 |
2.1.4 说话人 | 第15-16页 |
2.1.5 录音环境 | 第16页 |
2.2 小结 | 第16-18页 |
第3章 时变语音特征分析 | 第18-23页 |
3.1 MFCC特征 | 第18-20页 |
3.2 特征分析 | 第20-22页 |
3.3 小结 | 第22-23页 |
第4章 高斯混合模型-通用背景模型(GMM-UBM) | 第23-31页 |
4.1 基于高斯混合模型的说话人识别 | 第23-26页 |
4.1.1 高斯混合说话人模型 | 第23-24页 |
4.1.2 说话人辨认系统 | 第24-26页 |
4.2 基于高斯混合-通用背景模型的说话人识别 | 第26-27页 |
4.3 对数似然分 | 第27页 |
4.4 有效语音检测(Voice Activity Detection, VAD) | 第27-29页 |
4.5 时变实验与结果 | 第29页 |
4.6 小结 | 第29-31页 |
第5章 基于模型更新的解决方法 | 第31-42页 |
5.1 方法概述 | 第31页 |
5.2 模型更新的主要内容 | 第31-32页 |
5.3 模型更新系统的实现 | 第32-35页 |
5.4 实际场景中的模型更新 | 第35-38页 |
5.4.1 选择时间最近的识别语音进行模型更新 | 第35-36页 |
5.4.2 达到某一阈值的参与更新模型的识别语音的识别的打分 | 第36-37页 |
5.4.3 基于固定大小的语音特征进行模型更新 | 第37-38页 |
5.5 实验与结果 | 第38-41页 |
5.6 小结 | 第41-42页 |
第6章 基于概率线性判别分析的解决方法 | 第42-53页 |
6.1 i-vector | 第42-46页 |
6.1.1 联合因子分析(Joint Factor Analysis, JFA) | 第42页 |
6.1.2 前段因子分析(Front-End Factor Analysis) | 第42-44页 |
6.1.3 Cosine距离打分 | 第44页 |
6.1.4 线性判别分析(Linear Discriminant Analysis,LDA) | 第44-46页 |
6.2 概率线性判别分析(Probabilistic Linear Discriminant Analysis, PLDA) | 第46-50页 |
6.2.1 训练阶段 | 第47-48页 |
6.2.2 识别阶段 | 第48-50页 |
6.3 实验与结果 | 第50-52页 |
6.4 小结 | 第52-53页 |
第7章 总结与展望 | 第53-55页 |
7.1 论文工作总结 | 第53-54页 |
7.2 研究展望 | 第54-55页 |
致谢 | 第55-56页 |
参考文献 | 第56-60页 |
附录 | 第60-61页 |