首页--工业技术论文--无线电电子学、电信技术论文--通信论文--电声技术和语音信号处理论文--语音信号处理论文--语音识别与设备论文

会议室环境下基于音频视频信息融合的多说话人识别

摘要第1-10页
ABSTRACT第10-12页
附图索引第12-13页
附表索引第13-14页
第1章 绪论第14-22页
   ·课题的研究目的与意义第14-15页
   ·课题的研究现状第15-18页
     ·国外研究现状第15-17页
     ·国内研究现状第17-18页
   ·现有会议室环境研究项目简介第18-19页
     ·Interactive Multimodal Information Management第18页
     ·Computer in the Human Interaction Loop第18页
     ·Augmented Multimodal Interaction第18-19页
     ·其他类似研究项目第19页
   ·现有仿真语料库介绍第19-20页
   ·本文的主要内容和各章节安排第20-22页
第2章 基于音频信息的多说话人识别第22-38页
   ·滤波与语音增强技术第22-25页
     ·维纳滤波技术第22-23页
     ·倒谱均值相减技术第23页
     ·语音波束叠加与到达时间延迟第23-25页
   ·常用音频特征简介第25-27页
     ·线性预测系数第25页
     ·线性预测倒谱系数第25-26页
     ·Mel 频率倒谱系数第26-27页
   ·语音/非语音检测技术第27-28页
     ·基于能量的语音/非语音检测第27页
     ·基于模型的语音/非语音检测法第27-28页
   ·说话人分割第28-31页
     ·基于似然度的分割技术第29-31页
     ·其他分割技术第31页
   ·说话人聚类第31-35页
     ·自下而上的聚类技术第32-33页
     ·自上而下的聚类技术第33页
     ·敌友聚类第33-35页
   ·现有说话人识别系统介绍第35-36页
   ·本章小结第36-38页
第3章 基于视频信息的说话人检测与识别技术第38-43页
   ·常见说话人视频特征简介第38-39页
     ·指纹特征第38页
     ·虹膜特征第38-39页
     ·人脸特征第39页
   ·人脸活动检测技术第39-42页
     ·背景消减法第39-40页
     ·帧间差分法第40-41页
     ·光流检测法第41页
     ·边缘检测法第41-42页
     ·运动矢量法第42页
   ·本章小结第42-43页
第4章 实验过程与仿真结果第43-64页
   ·利用非语义特征识别多人会议中的最主要说话人第43-50页
     ·引言第43-44页
     ·实验数据与实验方法第44-45页
     ·结果与讨论第45-49页
     ·结论与展望第49-50页
   ·基于GMM 的多说话人识别系统第50-57页
     ·引言第50-51页
     ·系统结构描述第51-53页
     ·实验语料库介绍第53页
     ·实验结果与讨论第53-56页
     ·结论与展望第56-57页
   ·基于帧差法的说话人面部活动检测技术第57-61页
     ·引言第57页
     ·实验过程介绍第57-58页
     ·实验结果与讨论第58-60页
     ·结论与展望第60-61页
   ·音频视频特征的融合与多说话人的识别第61-64页
     ·引言第61页
     ·实验过程介绍第61页
     ·实验结果与讨论第61-63页
     ·总结与展望第63-64页
总结与展望第64-67页
 总结第64-65页
 展望第65-67页
参考文献第67-72页
致谢第72-73页
附录A 攻读硕士学位期间参与的科研项目与发表的学术论文第73页

论文共73页,点击 下载论文
上一篇:基于DSP的语音识别算法研究与实现
下一篇:基于DSP的语音信号滤波技术研究