基于GMM-UBM模型的说话人识别系统
摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第12-15页 |
1.1 说话人识别的研究目的与意义 | 第12页 |
1.2 说话人识别的发展历史和研究现状 | 第12-14页 |
1.3 存在的问题 | 第14页 |
1.4 本文的主要内容及安排 | 第14-15页 |
第二章 说话人识别简介 | 第15-22页 |
2.1 说话人识别分类 | 第15页 |
2.2 说话人识别的原理和结构 | 第15-16页 |
2.3 说话人识别的特征提取 | 第16-17页 |
2.3.1 特征提取的原则 | 第16页 |
2.3.2 特征提取的原则 | 第16-17页 |
2.4 说话人识别的建模方法 | 第17-19页 |
2.4.1 模板匹配 | 第17-18页 |
2.4.2 概率统计模型 | 第18页 |
2.4.3 人工神经网络 | 第18-19页 |
2.4.4 融合方法 | 第19页 |
2.5 说话人识别的性能评价指标 | 第19-22页 |
2.5.1 说话人辨认 | 第19页 |
2.5.2 说话人确认 | 第19-20页 |
2.5.3 实际应用的要求 | 第20-22页 |
第三章 语音信号处理及特征提取 | 第22-36页 |
3.1 语音信号的产生 | 第22-23页 |
3.1.1 语音信号的产生机理 | 第22-23页 |
3.1.2 语音产生的数学模型 | 第23页 |
3.2 语音信号的预处理 | 第23-26页 |
3.2.1 采样与量化 | 第23-24页 |
3.2.2 归一化 | 第24页 |
3.2.3 预加重 | 第24-25页 |
3.2.4 分帧与加窗 | 第25-26页 |
3.3 语音信号的时域分析 | 第26-29页 |
3.3.1 短时平均能量 | 第26-27页 |
3.3.2 短时平均过零率 | 第27-28页 |
3.3.3 语音信号的端点检测 | 第28-29页 |
3.4 语音信号的频域分析 | 第29-30页 |
3.4.1 短时傅立叶变换 | 第29页 |
3.4.2 语谱图 | 第29-30页 |
3.5 语音信号的同态倒谱分析 | 第30-31页 |
3.5.1 倒谱和复倒谱 | 第30页 |
3.5.2 线性预测系数 | 第30-31页 |
3.6 语音信号特征提取 | 第31-35页 |
3.6.1 线性预测倒谱系数 | 第31-32页 |
3.6.2 梅尔频率倒谱系数 | 第32-34页 |
3.6.3 短时归一化能量 | 第34页 |
3.6.4 动态特征 | 第34-35页 |
3.7 矢量特征的参数规整 | 第35-36页 |
第四章 基于GMM-UBM的说话人识别 | 第36-43页 |
4.1 GMM的基本原理 | 第36-39页 |
4.1.1 GMM模型的原理 | 第36-37页 |
4.1.2 GMM模型的参数估计 | 第37-39页 |
4.1.3 GMM模型的参数初始化 | 第39页 |
4.2 GMM-UBM模型 | 第39-43页 |
4.2.1 UBM在说话人识别中的应用 | 第39-40页 |
4.2.2 MAP算法 | 第40-41页 |
4.2.3 GMM-UBM的对数似然比 | 第41-43页 |
第五章 系统实现与实验结果 | 第43-50页 |
5.1 说话人识别系统平台 | 第43-45页 |
5.1.1 硬件平台 | 第43页 |
5.1.2 软件平台 | 第43页 |
5.1.3 系统功能与模块 | 第43-45页 |
5.2 高斯混合密度个数对系统的影响 | 第45-46页 |
5.3 语音长度对系统影响 | 第46-47页 |
5.3.1 训练语音长度对系统影响 | 第46-47页 |
5.3.2 测试语音长度对系统影响 | 第47页 |
5.4 特征维数对系统影响 | 第47-48页 |
5.5 端点检测对系统影响 | 第48-49页 |
5.6 GMM模型与GMM-UBM模型的比较 | 第49页 |
5.7 实验结果 | 第49-50页 |
第六章 总结与展望 | 第50-52页 |
6.1 主要结论 | 第50页 |
6.2 待研究的问题 | 第50-52页 |
参考文献 | 第52-55页 |
致谢 | 第55页 |