首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于内容的视频检索中的音频处理

摘       要第1-4页
Abstract第4-5页
目       录第5-9页
图 目 录第9-11页
表 目 录第11-12页
第一章 引 言第12-20页
   ·主要研究方向和进展第12-15页
     ·视频分割第13-14页
     ·高层语义特征提取和视频索引第14-15页
     ·视频检索第15页
   ·视频处理和检索中的音频特征第15-18页
     ·音频帧特征第16-17页
     ·音频段特征第17-18页
   ·需要解决的问题第18-19页
   ·本文组织第19-20页
第二章 视频镜头的音频类型识别第20-46页
   ·主要研究方向和进展第20-23页
     ·基于规则的音频类型识别第21页
     ·基于学习的音频类型识别第21-22页
     ·鲁棒的音频类型识别第22-23页
     ·基于声学感知特征的音频类型识别第23页
   ·音频类型和音频特征的分析第23-29页
     ·语音、音乐、噪声的声学分析第23-24页
     ·音频特征在不同音频类型上的特点第24-29页
       ·过零率第24-25页
       ·短时能量第25-26页
       ·噪声率第26页
       ·频谱质心第26-27页
       ·频谱变迁第27页
       ·Spectral Roll-off Point第27页
       ·音调第27-28页
       ·子带谱能量第28-29页
   ·基于 Adaboost 的音频特征选择第29-33页
     ·Adaboost 算法第29-31页
     ·利用 Adaboost 算法挑选特征第31-32页
     ·弱分类器的选择第32-33页
       ·Stub 分类器第32-33页
       ·Bayes 分类器第33页
   ·基于最大熵模型的音频特征选择第33-38页
     ·最大熵模型第33-36页
       ·最大熵原理第34页
       ·已知事实的表示和模型约束第34-35页
       ·最大熵原则与最大似然估计的一致性第35-36页
     ·条件最大熵模型的训练第36页
     ·最大熵模型的特征选择第36-38页
   ·视频镜头的音频类型识别算法第38-40页
     ·特征提取第38-39页
     ·特征选择和模型训练第39-40页
       ·基于最大熵模型的分类器训练和特征选择第39页
       ·基于 Adaboost 算法的分类器训练和特征选择第39-40页
     ·识别第40页
   ·实验和分析第40-45页
     ·测试数据集第40-41页
     ·特征选择算法的比较分析第41-42页
     ·最大熵模型和其他算法的比较第42-43页
     ·TRECVID 评测第43-45页
   ·本章小结第45-46页
第三章 视频中的说话人信息分析第46-63页
   ·说话人信息分析的主要研究进展第46-48页
   ·说话人特征分析第48-51页
     ·线性预测编码第49-50页
     ·Mel 频率倒谱系数第50-51页
     ·基音频率第51页
   ·说话人的分割第51-56页
     ·候选切换点的选择第51-52页
     ·语音段相似性的度量第52-56页
       ·说话人模型的建立第52-53页
       ·混合高斯模型的相似度度量第53-55页
       ·混合高斯模型的高斯元个数第55-56页
       ·复杂音频环境下的近似 KL 距离惩罚第56页
   ·说话人的聚类第56-57页
   ·视频说话人信息分析系统的框架第57页
   ·实验和分析第57-62页
     ·实验数据和测试平台第57-58页
     ·说话人分割的评测第58-60页
     ·说话人聚类的评测第60-62页
       ·说话人聚类的评测指标:SDE第60-61页
       ·评测第61-62页
   ·本章小结第62-63页
第四章 体育视频中的特殊音频事件检测第63-79页
   ·欢呼声的检测第63-66页
     ·欢呼声的特征分析第64-65页
     ·基于基音频率的欢呼声检测算法第65-66页
   ·哨声的检测第66-68页
     ·哨声的特征分析第66-67页
     ·哨声检测算法第67-68页
   ·欢呼声检测和哨声检测的实验分析第68-69页
     ·欢呼声检测的评测第68页
     ·哨声检测的评测第68-69页
   ·基于关联规则的体育视频索引第69-78页
     ·体育视频的索引和组织第70页
     ·体育视频关联分析中用到的其他视频特征第70-72页
       ·视频镜头的分割和分类第71页
       ·视频文字的检测和识别第71页
       ·相机运动分析第71-72页
     ·体育视频的关联分析第72-76页
       ·将视频序列转换成语义特征序列第72-73页
       ·视频关联分析第73-75页
       ·视频关联的分类第75-76页
     ·视频关联分析的评测第76-78页
       ·TDT 的选择对性能的影响第76-77页
       ·视频事件分析的性能第77-78页
   ·本章小结第78-79页
第五章 音频信息在 TRECVID 评测中的应用第79-96页
   ·新闻故事分割第79-85页
     ·新闻故事分割中的音频线索第79-81页
       ·音频类型第80页
       ·说话人信息第80-81页
       ·语音文本信息第81页
     ·利用多种信息的新闻故事分割第81-83页
     ·新闻故事的分类第83页
     ·新闻故事分割及分类的评测第83-85页
       ·新闻故事分割的评测第83-84页
       ·新闻故事分类的评测第84-85页
   ·高层语义特征提取第85-89页
     ·和音频相关的高层语义特征第85-87页
       ·独白检测第85-86页
       ·性别检测第86-87页
     ·其他高层语义特征第87-89页
   ·视频检索第89-94页
     ·基于视频文本和关键词的检索第89-91页
     ·基于多种信息的视频检索第91-94页
   ·本章小结第94-96页
第六章 总结与展望第96-97页
参考文献第97-105页
攻读博士期间主要工作第105-106页
致      谢第106-108页

论文共108页,点击 下载论文
上一篇:高速可配置基2FFT处理器的FPGA实现研究
下一篇:猪脐静脉血管内皮细胞的分离培养及猪瘟病毒对其的致病变作用