汉语语声特征的研究
摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第9-15页 |
1.1 论文选题的背景 | 第9-11页 |
1.2 论文选题的意义 | 第11-12页 |
1.3 论文工作 | 第12页 |
1.4 研究成果 | 第12-13页 |
1.5 论文的章节安排 | 第13-15页 |
第二章 汉语说话人识别相关理论 | 第15-31页 |
2.1 引言 | 第15页 |
2.2 发声系统和听觉系统 | 第15-17页 |
2.2.1 发声系统 | 第15-16页 |
2.2.2 听觉系统 | 第16-17页 |
2.3 语声特征 | 第17-22页 |
2.3.1 MFCC特征 | 第17-19页 |
2.3.2 基音周期 | 第19-20页 |
2.3.3 韵律特征 | 第20页 |
2.3.4 特征区分度的评估方法 | 第20-22页 |
2.4 汉语普通话特点 | 第22-23页 |
2.4.1 汉语特点综述 | 第22页 |
2.4.2 语音单位 | 第22-23页 |
2.5 混合高斯模型 | 第23-24页 |
2.6 n-grams模型 | 第24页 |
2.7 说话人识别简介 | 第24-27页 |
2.7.1 说话人识别的概念 | 第24-25页 |
2.7.2 说话人识别的分类 | 第25-26页 |
2.7.3 说话人识别结果评估 | 第26-27页 |
2.8 支持向量机 | 第27-30页 |
2.9 小结 | 第30-31页 |
第三章 基础特征的提取 | 第31-59页 |
3.1 引言 | 第31页 |
3.2 基音周期的提取 | 第31-37页 |
3.2.1 YIN算法提取原理 | 第31-33页 |
3.2.2 基音周期的追踪 | 第33-37页 |
3.3 短时能量与响度 | 第37-49页 |
3.3.1 短时能量的提取 | 第38页 |
3.3.2 响度的提取 | 第38-49页 |
3.4 感知能量 | 第49-57页 |
3.4.1 感知能量提取原理 | 第49-52页 |
3.4.2 感知能量与两种响度算法的比较 | 第52-55页 |
3.4.3 感知能量与两种响度的提取结果比较 | 第55-56页 |
3.4.4 感知能量的特征区分度实验 | 第56-57页 |
3.5 小结 | 第57-59页 |
第四章 韵律特征的建模 | 第59-81页 |
4.1 引言 | 第59页 |
4.2 短时韵律特征的建模 | 第59-62页 |
4.2.1 四维基本特征 | 第59-60页 |
4.2.2 UBM与目标说话人模型 | 第60页 |
4.2.3 短时能量和感知能量建模结果对比试验 | 第60-62页 |
4.3 长时韵律特征的建模 | 第62-74页 |
4.3.1 用基音周期和短时能量对韵律特征建模 | 第63-69页 |
4.3.2 韵律特征在文本依赖说话人识别中的建模 | 第69-70页 |
4.3.3 韵律特征的建模实验与数据分析 | 第70-74页 |
4.4 汉语韵律特征 | 第74-78页 |
4.4.1 汉语特征的分析 | 第74-75页 |
4.4.2 针对汉语的韵律特征建模 | 第75-77页 |
4.4.3 汉语韵律特征建模改进实验 | 第77-78页 |
4.5 小结 | 第78-81页 |
第五章 基于多特征的说话人识别系统 | 第81-97页 |
5.1 引言 | 第81页 |
5.2 系统介绍 | 第81-82页 |
5.3 基于GMM模型的子系统 | 第82-84页 |
5.3.1 使用系统前的准备 | 第82-83页 |
5.3.2 系统流程图 | 第83-84页 |
5.4 基于n-grams模型的子系统 | 第84-85页 |
5.4.1 使用系统前的准备 | 第84页 |
5.4.2 系统流程图 | 第84-85页 |
5.5 开集说话人识别 | 第85-89页 |
5.5.1 得分融合 | 第86-87页 |
5.5.2 开集说话人系统判别说话人流程 | 第87-89页 |
5.6 开集说话人识别系统性能实验 | 第89-95页 |
5.6.1 加权和得分融合的实验 | 第90-93页 |
5.6.2 SVM得分融合的实验 | 第93-94页 |
5.6.3 实验结果分析 | 第94-95页 |
5.7 小结 | 第95-97页 |
第六章 总结与展望 | 第97-99页 |
6.1 总结 | 第97页 |
6.2 展望 | 第97-99页 |
参考文献 | 第99-103页 |
致谢 | 第103-105页 |
攻读学位期间发表或已录用的学术论文 | 第105页 |