智能环境下基于音频和视频特征融合的多说话人识别

摘要	第1-9页
ABSTRACT	第9-11页
插图索引	第11-12页
附表索引	第12-13页
第1章绪论	第13-24页
·课题研究背景及意义	第13-15页
·说话人识别技术介绍	第13-14页
·说话人识别的优势及应用前景	第14-15页
·音视频说话人识别的国内外研究现状	第15-18页
·国外研究现状	第15-17页
·国内研究现状	第17-18页
·智能环境、会议室研究项目及语料库介绍	第18-21页
·智能环境介绍	第18-20页
·会议环境项目介绍	第20-21页
·语料库介绍	第21页
·音视频多说话人识别的关键性技术	第21-22页
·本文主要研究工作及组织结构	第22-24页
第2章多说话人识别	第24-39页
·音频特征的多说话人识别系统结构	第24-25页
·特征参数	第25-29页
·Mel倒谱系数	第25-27页
·线性预测及线性预测倒谱系数	第27-28页
·子倒谱系数	第28页
·感知线性预测系数	第28-29页
·说话人分割和聚类	第29-34页
·说话人分割	第29-31页
·说话人聚类	第31-34页
·说话人识别的主要模型	第34-37页
·高斯混合模型方法	第35-36页
·隐马尔可夫模型方法	第36-37页
·音视频多模态融合技术	第37-38页
·本章小结	第38-39页
第3章改进的说话人聚类初始化的多说话人识别	第39-47页
·说话人聚类初始化算法	第39-42页
·常用聚类初始化方法	第39-41页
·改进的聚类初始化算法	第41-42页
·改进的聚类初始化和 G M M 多说话人识别	第42-46页
·系统原理描述	第42-43页
·实验数据	第43-44页
·实验结果与分析	第44-46页
·本章小结	第46-47页
第4章音频和视频特征融合的多说话人识别	第47-60页
·常用视频特征提取	第47-49页
·压缩域视频特征提取	第47-49页
·像素域视频特征提取	第49页
·基于MFCC和运动强度聚类初始化的多说话人识别	第49-56页
·实验过程简介	第51-52页
·实验环境及数据	第52-53页
·实验结果及分析	第53-56页
·音频和视频特征融合的多说话人识别	第56-59页
·音频、视频特征参数	第56-57页
·音频视频特征模型级融合	第57-58页
·实验结果及分析	第58-59页
·本章小结	第59-60页
结论与展望	第60-62页
参考文献	第62-69页
致谢	第69-70页
附录攻读学位期间参与科研项目和发表的学术论文目录	第70页