摘要 | 第1-4页 |
ABSTRACT | 第4-7页 |
第一章 引言 | 第7-14页 |
1.1 说话人识别和说话人检索 | 第7-9页 |
1.1.1 说话人识别 | 第7-8页 |
1.1.2 说话人检索 | 第8-9页 |
1.2 说话人检索的意义和应用 | 第9-11页 |
1.3 工作要点和本文各章说明 | 第11-14页 |
1.3.1 本文工作说明 | 第11-12页 |
1.3.2 研究生期间工作说明 | 第12-14页 |
第二章 说话人识别概述 | 第14-24页 |
2.1 基本说话人识别系统 | 第14-16页 |
2.1.1 说话人识别系统结构 | 第14-15页 |
2.1.2 性能评价标准 | 第15-16页 |
2.1.3 现有的软件平台 | 第16页 |
2.2 使用的特征和模型 | 第16-23页 |
2.2.1 线性预测倒谱系数(LPCC) | 第16-17页 |
2.2.2 美尔倒谱系数(MFCC) | 第17-19页 |
2.2.3 高斯混合模型GMM | 第19-20页 |
2.2.4 连续隐马尔可夫模型CHMM | 第20-21页 |
2.2.5 矢量量化模型(VQ-Vector Quantization) | 第21-22页 |
2.2.6 支持向量机模型(Support Vector Machine) | 第22-23页 |
2.3 本章小结 | 第23-24页 |
第三章 基准说话人检索系统 | 第24-38页 |
3.1 说话人检索的实验数据库 | 第24-27页 |
3.1.1 面向移动互联环境的说话人识别语音库(SRMC) | 第24-26页 |
3.1.2 对话语音库 | 第26-27页 |
3.1.3 新闻广播库 | 第27页 |
3.2 说话人检索的性能指标 | 第27-30页 |
3.2.1 错误接受率(FAR) | 第28页 |
3.2.2 错误拒绝率(FRR) | 第28-29页 |
3.2.3 等错误率(EER) | 第29页 |
3.2.4 其他评估标准 | 第29页 |
3.2.5 测试数据的有效性 | 第29-30页 |
3.3 说话人检索的基本结构 | 第30-37页 |
3.3.1 特征提取模块 | 第31-32页 |
3.3.2 语音检测模块 | 第32页 |
3.3.3 说话人分割模块 | 第32-35页 |
3.3.4 说话人确认模块 | 第35-37页 |
3.4 本章小结 | 第37-38页 |
第四章 说话人检索的决策机制 | 第38-46页 |
4.1 常用决策机制的局限性 | 第38-40页 |
4.1.1 阈值方式 | 第38-39页 |
4.1.2 决策函数方式 | 第39-40页 |
4.2 基于训练数据的阈值自适应算法 | 第40-43页 |
4.2.1 专家辅助的阈值自适应算法 | 第40-41页 |
4.2.2 基于训练样本的阈值统计算法 | 第41-43页 |
4.3 基于支持向量机的决策机制 | 第43-45页 |
4.4 本章小结 | 第45-46页 |
第五章 说话人检索的通道识别 | 第46-58页 |
5.1 聚类的原理和应用 | 第46-48页 |
5.1.1 聚类概述 | 第46-47页 |
5.1.2 说话人聚类 | 第47-48页 |
5.2 使用聚类算法解决通道问题 | 第48-55页 |
5.2.1 通道聚类算法说明 | 第48-50页 |
5.2.2 实验结果分析和算法优化 | 第50-55页 |
5.3 基于BIC的通道聚类算法 | 第55-56页 |
5.4 本章小结 | 第56-58页 |
第六章 说话人检索的通道补偿 | 第58-66页 |
6.1 通道补偿 | 第58-63页 |
6.1.1 通道补偿算法概述 | 第58-60页 |
6.1.2 改进和优化 | 第60-63页 |
6.2 噪音检测 | 第63-64页 |
6.3 多通道说话人检索体系 | 第64-65页 |
6.4 本章小结 | 第65-66页 |
第七章 总结与展望 | 第66-68页 |
7.1 工作总结 | 第66-67页 |
7.2 讨论和展望 | 第67-68页 |
参考文献 | 第68-72页 |
致谢 | 第72-73页 |
附录 | 第73页 |