摘 要 | 第1-4页 |
Abstract | 第4-5页 |
目 录 | 第5-9页 |
图 目 录 | 第9-11页 |
表 目 录 | 第11-12页 |
第一章 引 言 | 第12-20页 |
·主要研究方向和进展 | 第12-15页 |
·视频分割 | 第13-14页 |
·高层语义特征提取和视频索引 | 第14-15页 |
·视频检索 | 第15页 |
·视频处理和检索中的音频特征 | 第15-18页 |
·音频帧特征 | 第16-17页 |
·音频段特征 | 第17-18页 |
·需要解决的问题 | 第18-19页 |
·本文组织 | 第19-20页 |
第二章 视频镜头的音频类型识别 | 第20-46页 |
·主要研究方向和进展 | 第20-23页 |
·基于规则的音频类型识别 | 第21页 |
·基于学习的音频类型识别 | 第21-22页 |
·鲁棒的音频类型识别 | 第22-23页 |
·基于声学感知特征的音频类型识别 | 第23页 |
·音频类型和音频特征的分析 | 第23-29页 |
·语音、音乐、噪声的声学分析 | 第23-24页 |
·音频特征在不同音频类型上的特点 | 第24-29页 |
·过零率 | 第24-25页 |
·短时能量 | 第25-26页 |
·噪声率 | 第26页 |
·频谱质心 | 第26-27页 |
·频谱变迁 | 第27页 |
·Spectral Roll-off Point | 第27页 |
·音调 | 第27-28页 |
·子带谱能量 | 第28-29页 |
·基于 Adaboost 的音频特征选择 | 第29-33页 |
·Adaboost 算法 | 第29-31页 |
·利用 Adaboost 算法挑选特征 | 第31-32页 |
·弱分类器的选择 | 第32-33页 |
·Stub 分类器 | 第32-33页 |
·Bayes 分类器 | 第33页 |
·基于最大熵模型的音频特征选择 | 第33-38页 |
·最大熵模型 | 第33-36页 |
·最大熵原理 | 第34页 |
·已知事实的表示和模型约束 | 第34-35页 |
·最大熵原则与最大似然估计的一致性 | 第35-36页 |
·条件最大熵模型的训练 | 第36页 |
·最大熵模型的特征选择 | 第36-38页 |
·视频镜头的音频类型识别算法 | 第38-40页 |
·特征提取 | 第38-39页 |
·特征选择和模型训练 | 第39-40页 |
·基于最大熵模型的分类器训练和特征选择 | 第39页 |
·基于 Adaboost 算法的分类器训练和特征选择 | 第39-40页 |
·识别 | 第40页 |
·实验和分析 | 第40-45页 |
·测试数据集 | 第40-41页 |
·特征选择算法的比较分析 | 第41-42页 |
·最大熵模型和其他算法的比较 | 第42-43页 |
·TRECVID 评测 | 第43-45页 |
·本章小结 | 第45-46页 |
第三章 视频中的说话人信息分析 | 第46-63页 |
·说话人信息分析的主要研究进展 | 第46-48页 |
·说话人特征分析 | 第48-51页 |
·线性预测编码 | 第49-50页 |
·Mel 频率倒谱系数 | 第50-51页 |
·基音频率 | 第51页 |
·说话人的分割 | 第51-56页 |
·候选切换点的选择 | 第51-52页 |
·语音段相似性的度量 | 第52-56页 |
·说话人模型的建立 | 第52-53页 |
·混合高斯模型的相似度度量 | 第53-55页 |
·混合高斯模型的高斯元个数 | 第55-56页 |
·复杂音频环境下的近似 KL 距离惩罚 | 第56页 |
·说话人的聚类 | 第56-57页 |
·视频说话人信息分析系统的框架 | 第57页 |
·实验和分析 | 第57-62页 |
·实验数据和测试平台 | 第57-58页 |
·说话人分割的评测 | 第58-60页 |
·说话人聚类的评测 | 第60-62页 |
·说话人聚类的评测指标:SDE | 第60-61页 |
·评测 | 第61-62页 |
·本章小结 | 第62-63页 |
第四章 体育视频中的特殊音频事件检测 | 第63-79页 |
·欢呼声的检测 | 第63-66页 |
·欢呼声的特征分析 | 第64-65页 |
·基于基音频率的欢呼声检测算法 | 第65-66页 |
·哨声的检测 | 第66-68页 |
·哨声的特征分析 | 第66-67页 |
·哨声检测算法 | 第67-68页 |
·欢呼声检测和哨声检测的实验分析 | 第68-69页 |
·欢呼声检测的评测 | 第68页 |
·哨声检测的评测 | 第68-69页 |
·基于关联规则的体育视频索引 | 第69-78页 |
·体育视频的索引和组织 | 第70页 |
·体育视频关联分析中用到的其他视频特征 | 第70-72页 |
·视频镜头的分割和分类 | 第71页 |
·视频文字的检测和识别 | 第71页 |
·相机运动分析 | 第71-72页 |
·体育视频的关联分析 | 第72-76页 |
·将视频序列转换成语义特征序列 | 第72-73页 |
·视频关联分析 | 第73-75页 |
·视频关联的分类 | 第75-76页 |
·视频关联分析的评测 | 第76-78页 |
·TDT 的选择对性能的影响 | 第76-77页 |
·视频事件分析的性能 | 第77-78页 |
·本章小结 | 第78-79页 |
第五章 音频信息在 TRECVID 评测中的应用 | 第79-96页 |
·新闻故事分割 | 第79-85页 |
·新闻故事分割中的音频线索 | 第79-81页 |
·音频类型 | 第80页 |
·说话人信息 | 第80-81页 |
·语音文本信息 | 第81页 |
·利用多种信息的新闻故事分割 | 第81-83页 |
·新闻故事的分类 | 第83页 |
·新闻故事分割及分类的评测 | 第83-85页 |
·新闻故事分割的评测 | 第83-84页 |
·新闻故事分类的评测 | 第84-85页 |
·高层语义特征提取 | 第85-89页 |
·和音频相关的高层语义特征 | 第85-87页 |
·独白检测 | 第85-86页 |
·性别检测 | 第86-87页 |
·其他高层语义特征 | 第87-89页 |
·视频检索 | 第89-94页 |
·基于视频文本和关键词的检索 | 第89-91页 |
·基于多种信息的视频检索 | 第91-94页 |
·本章小结 | 第94-96页 |
第六章 总结与展望 | 第96-97页 |
参考文献 | 第97-105页 |
攻读博士期间主要工作 | 第105-106页 |
致 谢 | 第106-108页 |