摘要 | 第5-6页 |
abstract | 第6页 |
第一章 绪论 | 第10-20页 |
1.1 研究背景及意义 | 第10-12页 |
1.2 国内外研究发展状态 | 第12-16页 |
1.2.1 说话人辨别问题 | 第13-14页 |
1.2.1.1 闭集辨识系统 | 第13页 |
1.2.1.2 开放式辨别系统 | 第13-14页 |
1.2.2 说话人确认问题 | 第14-16页 |
1.2.2.1 文本相关型说话人识别 | 第14-15页 |
1.2.2.2 文本无关型说话人识别 | 第15页 |
1.2.2.3 文本提示型说话人识别 | 第15-16页 |
1.3 研究内容及创新点 | 第16-19页 |
1.3.1 研究内容及存在的挑战 | 第16-18页 |
1.3.2 文章创新点及主要工作 | 第18-19页 |
1.4 论文章节安排 | 第19-20页 |
第二章 说话人识别的基础知识和关键技术 | 第20-36页 |
2.1 语音信号的产生和感知 | 第20-24页 |
2.1.1 语音信号的发音系统 | 第20-21页 |
2.1.2 语音信号的听觉系统 | 第21-22页 |
2.1.3 语音信号的声学特性 | 第22页 |
2.1.4 语音信号的的时域特性和频域特性 | 第22-24页 |
2.2 语音信号的数字化处理 | 第24-26页 |
2.2.1 语音信号的预加重处理 | 第24页 |
2.2.2 语音信号的加窗处理 | 第24-26页 |
2.3 语音信号的时域分析 | 第26-27页 |
2.3.1 短时能量和短时平均幅值 | 第26页 |
2.3.2 短时过零率 | 第26-27页 |
2.3.3 语音信号中的中值滤波 | 第27页 |
2.4 语音信号的频域分析 | 第27-29页 |
2.4.1 短时傅里叶变换 | 第28页 |
2.4.2 倒谱与复倒谱 | 第28-29页 |
2.5 典型的分类算法简介 | 第29-35页 |
2.5.1 高斯混合模型(Gaussian Mixture Model,简称GMM) | 第29-30页 |
2.5.2 矢量量化(Vector Quantization,简称VQ) | 第30-31页 |
2.5.3 支持向量机(Support Vector Machine,简称SVM) | 第31-33页 |
2.5.4 人工神经网络(Artifical Neural Network,简称ANN) | 第33-34页 |
2.5.5 隐马尔科夫模型(Hidden Markov Model,简称HMM) | 第34-35页 |
2.6 本章小结 | 第35-36页 |
第三章“BREATHID”的方案设计 | 第36-58页 |
3.1“BREATHID”的整体设计 | 第36-38页 |
3.2 呼吸特征的独特性研究 | 第38-43页 |
3.2.1 呼吸本身的特点 | 第38-39页 |
3.2.2 语音信号的基础模型 | 第39-41页 |
3.2.2.1 源—滤波器模型 | 第39-40页 |
3.2.2.2 源/系统模型 | 第40-41页 |
3.2.3 呼吸信号和非呼吸语音信号的比较 | 第41-43页 |
3.2.3.1 梅尔滤波器组 | 第41-42页 |
3.2.3.2 过零率,短时能量,频谱斜率 | 第42页 |
3.2.3.3 共振峰 | 第42-43页 |
3.2.3.4 正常和非正常状态下的呼吸信号的比较 | 第43页 |
3.3 呼吸边界分离 | 第43-47页 |
3.3.1 呼吸模板建立 | 第44-45页 |
3.3.2 呼吸初步检测 | 第45-47页 |
3.3.3 呼吸最终检测 | 第47页 |
3.4 特征提取和选择 | 第47-54页 |
3.4.1 特征提取 | 第48-50页 |
3.4.2 特征选择 | 第50-54页 |
3.5 特征匹配(说话人决策) | 第54-57页 |
3.5.1“Decision Maker”的算法设计 | 第54-56页 |
3.5.2“Decision Maker”的算法设计依据和复杂度分析 | 第56-57页 |
3.5.2.1 算法设计依据 | 第56页 |
3.5.2.2 复杂度分析 | 第56-57页 |
3.6 本章小结 | 第57-58页 |
第四章“BREATHID”结果测试与性能评估 | 第58-75页 |
4.1 实验准备和数据收集 | 第58-59页 |
4.1.1 实验准备 | 第58页 |
4.1.2 数据收集 | 第58-59页 |
4.2 实验总体设计和评价指标 | 第59-61页 |
4.2.1 实验总体设计 | 第59-60页 |
4.2.2 评价指标 | 第60-61页 |
4.3 评估结果和分析 | 第61-70页 |
4.3.1“BreathID”的功能评估 | 第61-68页 |
4.3.1.1 呼吸提取准确率 | 第61-62页 |
4.3.1.2 说话人辨别准确率 | 第62-64页 |
4.3.1.3 说话人确认准确率 | 第64页 |
4.3.1.4“BreathID”与其他分类算法的比较 | 第64-65页 |
4.3.1.5“BreathID”与其他说话人识别方案的比较 | 第65-68页 |
4.3.2“BreathID”的性能评估 | 第68-70页 |
4.3.2.1 训练和测试样本规模的评估 | 第68-70页 |
4.3.2.2 系统开销 | 第70页 |
4.4 实际场景下的一致性 | 第70-74页 |
4.4.1 文本无关性 | 第70-71页 |
4.4.2 运动状态 | 第71页 |
4.4.3 录音设备 | 第71-72页 |
4.4.4 录音周期 | 第72页 |
4.4.5 语言 | 第72-74页 |
4.4.6 攻击 | 第74页 |
4.5 本章小结 | 第74-75页 |
第五章 总结与展望 | 第75-77页 |
5.1 研究工作总结 | 第75页 |
5.2 不足与展望 | 第75-77页 |
致谢 | 第77-78页 |
参考文献 | 第78-84页 |
攻读硕士学位期间取得的成果 | 第84-85页 |