首页--工业技术论文--无线电电子学、电信技术论文--通信论文--电声技术和语音信号处理论文--语音信号处理论文--语音识别与设备论文

智能环境下基于音频和视频特征融合的多说话人识别

摘要第1-9页
ABSTRACT第9-11页
插图索引第11-12页
附表索引第12-13页
第1章 绪论第13-24页
   ·课题研究背景及意义第13-15页
     ·说话人识别技术介绍第13-14页
     ·说话人识别的优势及应用前景第14-15页
   ·音视频说话人识别的国内外研究现状第15-18页
     ·国外研究现状第15-17页
     ·国内研究现状第17-18页
   ·智能环境、会议室研究项目及语料库介绍第18-21页
     ·智能环境介绍第18-20页
     ·会议环境项目介绍第20-21页
     ·语料库介绍第21页
   ·音视频多说话人识别的关键性技术第21-22页
   ·本文主要研究工作及组织结构第22-24页
第2章 多说话人识别第24-39页
   ·音频特征的多说话人识别系统结构第24-25页
   ·特征参数第25-29页
     ·Mel倒谱系数第25-27页
     ·线性预测及线性预测倒谱系数第27-28页
     ·子倒谱系数第28页
     ·感知线性预测系数第28-29页
   ·说话人分割和聚类第29-34页
     ·说话人分割第29-31页
     ·说话人聚类第31-34页
   ·说话人识别的主要模型第34-37页
     ·高斯混合模型方法第35-36页
     ·隐马尔可夫模型方法第36-37页
   ·音视频多模态融合技术第37-38页
   ·本章小结第38-39页
第3章 改进的说话人聚类初始化的多说话人识别第39-47页
   ·说话人聚类初始化算法第39-42页
     ·常用聚类初始化方法第39-41页
     ·改进的聚类初始化算法第41-42页
   ·改进的聚类初始化和 G M M 多说话人识别第42-46页
     ·系统原理描述第42-43页
     ·实验数据第43-44页
     ·实验结果与分析第44-46页
   ·本章小结第46-47页
第4章 音频和视频特征融合的多说话人识别第47-60页
   ·常用视频特征提取第47-49页
     ·压缩域视频特征提取第47-49页
     ·像素域视频特征提取第49页
   ·基于MFCC和运动强度聚类初始化的多说话人识别第49-56页
     ·实验过程简介第51-52页
     ·实验环境及数据第52-53页
     ·实验结果及分析第53-56页
   ·音频和视频特征融合的多说话人识别第56-59页
     ·音频、视频特征参数第56-57页
     ·音频视频特征模型级融合第57-58页
     ·实验结果及分析第58-59页
   ·本章小结第59-60页
结论与展望第60-62页
参考文献第62-69页
致谢第69-70页
附录 攻读学位期间参与科研项目和发表的学术论文目录第70页

论文共70页,点击 下载论文
上一篇:甘肃省网球运动发展的现状与影响因素分析--以兰州市网球运动发展的现状为案例
下一篇:H.264/AVC视频压缩编码算法的研究及实现