多人会话语音中的说话人角色分析
摘要 | 第5-7页 |
ABSTRACT | 第7-9页 |
主要缩写对照表 | 第16-18页 |
第一章 绪论 | 第18-29页 |
1.1 选题背景及意义 | 第18-19页 |
1.2 国内外研究现状 | 第19-24页 |
1.3 实验数据库及实验平台 | 第24-26页 |
1.3.1 自建数据库 | 第24-25页 |
1.3.2 通用数据库 | 第25-26页 |
1.3.3 实验平台 | 第26页 |
1.4 论文主要工作及章节安排 | 第26-29页 |
1.4.1 论文主要工作 | 第26-27页 |
1.4.2 论文章节安排 | 第27-29页 |
第二章 基于模型距离的说话人谱聚类 | 第29-49页 |
2.1 谱聚类简介 | 第29-35页 |
2.1.1 谱图理论 | 第29-30页 |
2.1.2 谱图划分准则 | 第30-32页 |
2.1.3 谱聚类算法 | 第32-35页 |
2.2 基于模型距离的说话人谱聚类 | 第35-41页 |
2.2.1 GMM-UBM-MAP结构 | 第35-38页 |
2.2.2 有限长观察序列的模型对概率距离 | 第38-39页 |
2.2.3 基于模型距离的亲和矩阵 | 第39-40页 |
2.2.4 基于模型距离的说话人谱聚类方法 | 第40-41页 |
2.3 算法复杂度分析 | 第41-42页 |
2.4 实验结果及分析 | 第42-48页 |
2.4.1 实验数据 | 第42-43页 |
2.4.2 评价指标 | 第43页 |
2.4.3 结果及分析 | 第43-48页 |
2.5 本章小结 | 第48-49页 |
第三章 基于多特征组合的关键说话人估计 | 第49-61页 |
3.1 特征区分性分析 | 第49-52页 |
3.2 关键说话人估计方法 | 第52-56页 |
3.2.1 关键说话人估计 | 第52-53页 |
3.2.2 特征加权系数优化 | 第53-56页 |
3.3 实验结果及分析 | 第56-60页 |
3.3.1 实验设置 | 第56-57页 |
3.3.2 结果分析 | 第57-60页 |
3.4 本章小结 | 第60-61页 |
第四章 基于深层特征的关键说话人同源确认 | 第61-77页 |
4.1 深度学习介绍 | 第63-66页 |
4.2 深度特征提取器构建 | 第66-69页 |
4.3 深层说话人矢量构建 | 第69-70页 |
4.4 基于深层特征的关键说话人同源确认 | 第70-72页 |
4.4.1 关键说话人语音寻找 | 第71页 |
4.4.2 关键说话人同源确认 | 第71-72页 |
4.5 实验结果及分析 | 第72-76页 |
4.5.1 实验设置 | 第72-74页 |
4.5.2 结果分析 | 第74-76页 |
4.6 本章小结 | 第76-77页 |
第五章 多说话人角色聚类 | 第77-93页 |
5.1 相关聚类及距离度量方法 | 第78-80页 |
5.1.1 分层聚类 | 第78-79页 |
5.1.2 距离度量方法 | 第79-80页 |
5.2 不同角色说话人的区分性特征 | 第80-81页 |
5.3 说话人角色聚类 | 第81-87页 |
5.3.1 改进的测地距离 | 第82-85页 |
5.3.2 说话人聚类算法 | 第85-87页 |
5.4 实验结果及分析 | 第87-92页 |
5.4.1 实验设置 | 第87-89页 |
5.4.2 结果分析 | 第89-92页 |
5.5 本章小结 | 第92-93页 |
第六章 重叠语音检测 | 第93-102页 |
6.1 特征定义 | 第93-97页 |
6.1.1 传统特征 | 第93-95页 |
6.1.2 分形维数 | 第95-97页 |
6.2 重叠语音的检测 | 第97-100页 |
6.2.1 分形维数特征的提取 | 第97-98页 |
6.2.2 重叠与非重叠语音分形维数特征差异 | 第98-99页 |
6.2.3 重叠语音检测流程 | 第99-100页 |
6.3 实验结果及分析 | 第100-101页 |
6.3.1 实验设置 | 第100页 |
6.3.2 结果分析 | 第100-101页 |
6.4 本章小结 | 第101-102页 |
结论 | 第102-105页 |
研究总结 | 第102-103页 |
后续工作展望 | 第103-105页 |
参考文献 | 第105-117页 |
攻读博士学位期间取得的研究成果 | 第117-119页 |
致谢 | 第119-120页 |
附件 | 第120页 |