会议室环境下基于音频视频信息融合的多说话人识别

摘要	第1-10页
ABSTRACT	第10-12页
附图索引	第12-13页
附表索引	第13-14页
第1章绪论	第14-22页
·课题的研究目的与意义	第14-15页
·课题的研究现状	第15-18页
·国外研究现状	第15-17页
·国内研究现状	第17-18页
·现有会议室环境研究项目简介	第18-19页
·Interactive Multimodal Information Management	第18页
·Computer in the Human Interaction Loop	第18页
·Augmented Multimodal Interaction	第18-19页
·其他类似研究项目	第19页
·现有仿真语料库介绍	第19-20页
·本文的主要内容和各章节安排	第20-22页
第2章基于音频信息的多说话人识别	第22-38页
·滤波与语音增强技术	第22-25页
·维纳滤波技术	第22-23页
·倒谱均值相减技术	第23页
·语音波束叠加与到达时间延迟	第23-25页
·常用音频特征简介	第25-27页
·线性预测系数	第25页
·线性预测倒谱系数	第25-26页
·Mel 频率倒谱系数	第26-27页
·语音/非语音检测技术	第27-28页
·基于能量的语音/非语音检测	第27页
·基于模型的语音/非语音检测法	第27-28页
·说话人分割	第28-31页
·基于似然度的分割技术	第29-31页
·其他分割技术	第31页
·说话人聚类	第31-35页
·自下而上的聚类技术	第32-33页
·自上而下的聚类技术	第33页
·敌友聚类	第33-35页
·现有说话人识别系统介绍	第35-36页
·本章小结	第36-38页
第3章基于视频信息的说话人检测与识别技术	第38-43页
·常见说话人视频特征简介	第38-39页
·指纹特征	第38页
·虹膜特征	第38-39页
·人脸特征	第39页
·人脸活动检测技术	第39-42页
·背景消减法	第39-40页
·帧间差分法	第40-41页
·光流检测法	第41页
·边缘检测法	第41-42页
·运动矢量法	第42页
·本章小结	第42-43页
第4章实验过程与仿真结果	第43-64页
·利用非语义特征识别多人会议中的最主要说话人	第43-50页
·引言	第43-44页
·实验数据与实验方法	第44-45页
·结果与讨论	第45-49页
·结论与展望	第49-50页
·基于GMM 的多说话人识别系统	第50-57页
·引言	第50-51页
·系统结构描述	第51-53页
·实验语料库介绍	第53页
·实验结果与讨论	第53-56页
·结论与展望	第56-57页
·基于帧差法的说话人面部活动检测技术	第57-61页
·引言	第57页
·实验过程介绍	第57-58页
·实验结果与讨论	第58-60页
·结论与展望	第60-61页
·音频视频特征的融合与多说话人的识别	第61-64页
·引言	第61页
·实验过程介绍	第61页
·实验结果与讨论	第61-63页
·总结与展望	第63-64页
总结与展望	第64-67页
总结	第64-65页
展望	第65-67页
参考文献	第67-72页
致谢	第72-73页
附录A 攻读硕士学位期间参与的科研项目与发表的学术论文	第73页