摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第10-16页 |
1.1 课题研究背景 | 第10-11页 |
1.2 说话人识别发展脉络概述 | 第11页 |
1.3 针对压缩语音的说话人识别概述 | 第11-13页 |
1.3.1 针对压缩语音说话人识别概述 | 第11-12页 |
1.3.2 针对压缩语音说话人识别历史和研究现状 | 第12-13页 |
1.4 本文的主要研究内容以及研究成果 | 第13-14页 |
1.5 论文的组织结构 | 第14-16页 |
第二章 说话人识别相关理论基础 | 第16-32页 |
2.1 引言 | 第16页 |
2.2 说话人识别系统概述 | 第16-17页 |
2.3 语音特征提取 | 第17-19页 |
2.3.1 时域特征 | 第17-18页 |
2.3.2 频域特征 | 第18-19页 |
2.4 Ⅰ-vector说话人模型建立 | 第19-22页 |
2.4.1 Ⅰ-vector基本思想 | 第19-20页 |
2.4.2 UBM估计 | 第20-21页 |
2.4.3 总体变化空间矩阵估计 | 第21-22页 |
2.4.4 Ⅰ-vector的提取 | 第22页 |
2.5 模式匹配 | 第22-26页 |
2.5.1 余弦距离计算 | 第23页 |
2.5.2 马氏距离计算 | 第23页 |
2.5.3 PLDA模型度量 | 第23-26页 |
2.6 得分融合机器学习基础 | 第26-28页 |
2.6.1 逻辑回归 | 第26-27页 |
2.6.2 支撑向量机 | 第27-28页 |
2.7 说话人识别系统的性能评价 | 第28-31页 |
2.8 本章小结 | 第31-32页 |
第三章 基于Ⅰ-vector的说话人识别系统 | 第32-46页 |
3.1 引言 | 第32页 |
3.2 基于Ⅰ-vector的说话人识别系统架构设计 | 第32-33页 |
3.3 语音前端处理 | 第33-34页 |
3.3.1 特征提取 | 第33页 |
3.3.2 静音去除 | 第33-34页 |
3.3.3 特征后处理 | 第34页 |
3.4 Ⅰ-vector处理技术 | 第34-36页 |
3.4.1 Ⅰ-vector规整技术 | 第34-35页 |
3.4.2 Ⅰ-vector说话人模型选择 | 第35-36页 |
3.5 基于Ⅰ-vector系统信道补偿技术 | 第36-38页 |
3.5.1 线性鉴别分析 | 第36-37页 |
3.5.2 类内协方差规整技术 | 第37-38页 |
3.5.3 LDA结合WCCN技术 | 第38页 |
3.6 得分规整 | 第38-41页 |
3.6.1 Z-Norm | 第38-39页 |
3.6.2 T-Norm | 第39-40页 |
3.6.3 基于cohort的得分规整 | 第40-41页 |
3.7 基础系统性能分析 | 第41-45页 |
3.7.1 静音去除性能分析 | 第41-42页 |
3.7.2 系统UBM维度、T矩阵维度调整 | 第42-43页 |
3.7.3 模式匹配测试 | 第43页 |
3.7.4 LDA性能测试 | 第43-44页 |
3.7.5 得分规整性能测试 | 第44-45页 |
3.8 本章小结 | 第45-46页 |
第四章 针对压缩语音的说话人识别特征研究 | 第46-70页 |
4.1 引言 | 第46页 |
4.2 声码器概述 | 第46-49页 |
4.2.1 声码器原理概述 | 第46-47页 |
4.2.2 G.723.1编码器原理概述 | 第47-49页 |
4.3 短时谱特征在压缩语音环境下性能分析 | 第49-58页 |
4.3.1 PNCC特征概述 | 第49页 |
4.3.2 PNCC特征提取流程 | 第49-54页 |
4.3.3 压缩语音对不同短时谱特征的影响 | 第54-56页 |
4.3.4 PNCC、MFCC说话人识别鲁棒性分析 | 第56-58页 |
4.4 编码比特流特征用于说话人识别 | 第58-62页 |
4.4.1 G.723.1编码比特流介绍 | 第58-59页 |
4.4.2 比特流中短时谱特征的提取 | 第59-60页 |
4.4.3 比特流中激励特征的提取 | 第60-61页 |
4.4.4 比特流特征用于说话人识别系统 | 第61页 |
4.4.5 比特流特征性能分析 | 第61-62页 |
4.5 谱重心频率特征 | 第62-67页 |
4.5.1 谱重心频率特征提取 | 第62-64页 |
4.5.2 F_0特征 | 第64-65页 |
4.5.3 谱重心频率与基频结合 | 第65页 |
4.5.4 谱重心频率的性能分析 | 第65-67页 |
4.6 本章小结 | 第67-70页 |
第五章 针对压缩语音的说话人识别系统 | 第70-80页 |
5.1 引言 | 第70页 |
5.2 针对压缩语音的说话人识别系统架构 | 第70-71页 |
5.3 系统融合策略 | 第71-73页 |
5.3.1 Ⅰ-vector特征融合 | 第71-72页 |
5.3.2 得分融合 | 第72-73页 |
5.4 系统融合实验 | 第73-76页 |
5.4.1 Ⅰ-vector融合实验结果 | 第74页 |
5.4.2 得分融合实验结果 | 第74-76页 |
5.5 系统性能分析与总结 | 第76-78页 |
5.6 本章小结 | 第78-80页 |
第六章 总结与展望 | 第80-82页 |
6.1 论文工作总结 | 第80页 |
6.2 未来研究展望 | 第80-82页 |
参考文献 | 第82-86页 |
致谢 | 第86-88页 |
攻读学位期间发表的学术论文目录 | 第88页 |