首页--工业技术论文--无线电电子学、电信技术论文--通信论文--电声技术和语音信号处理论文--语音信号处理论文--语音识别与设备论文

中文课程视频字幕自动生成研究

摘要第3-4页
Abstract第4页
第1章 绪论第7-13页
    1.1 研究背景和意义第7-8页
    1.2 国内外发展与现状第8-10页
        1.2.1 国外发展与现状第8-9页
        1.2.2 国内发展与现状第9-10页
    1.3 研究目标和内容第10-11页
        1.3.1 研究目标第10页
        1.3.2 研究内容第10-11页
    1.4 本文的组织结构第11-13页
第2章 汉语语音识别第13-22页
    2.1 语音识别系统简介第13-15页
    2.2 声学模型第15-18页
        2.2.1 声学模型概述第15-16页
        2.2.2 汉语发音特点概述第16-17页
        2.2.3 特征参数提取方法介绍第17-18页
        2.2.4 声学建模的方法第18页
    2.3 语言模型第18-20页
    2.4 字典第20-21页
    2.5 本章小结第21-22页
第3章 声学模型第22-38页
    3.1 基于MFCC的特征参数提取第22-25页
        3.1.1 预加重第22-23页
        3.1.2 分帧第23页
        3.1.3 加窗第23-24页
        3.1.4 FFT变换第24页
        3.1.5 MEL频率滤波器组第24页
        3.1.6 Log(取对数)第24-25页
        3.1.7 DCT(离散余弦变换)第25页
    3.2 HMM模型第25-29页
        3.2.1 forward-backward算法第27-28页
        3.2.2 Viterbi算法第28-29页
    3.3 基于sphinx的声学模型训练第29-37页
        3.3.1 sphinx框架介绍第29-30页
        3.3.2 语料的选取及存储第30-31页
        3.3.3 训练数据的准备准备第31-34页
        3.3.4 模型的训练第34-37页
    3.4 本章小结第37-38页
第4章 语言模型第38-46页
    4.1 语言模型概述第38页
    4.2 统计语言模型第38-41页
        4.2.1 N-gram模型第38-39页
        4.2.2 平滑处理方法第39-41页
    4.3 语言模型训练第41-45页
    4.4 本章小结第45-46页
第5章 中文课程视频字幕自动生成系统的设计与实现第46-57页
    5.1 语料库的建设第46-48页
    5.2 sphinx语音识别技术研究第48-49页
    5.3 中文课程视频字幕自动生成系统的设计第49-54页
        5.3.1 系统的设计第49-51页
        5.3.2 视频处理第51页
        5.3.3 音频处理第51页
        5.3.4 语音识别第51-53页
        5.3.5 字幕的生成第53-54页
    5.4 实验及实验结果分析第54-56页
        5.4.1 不同大小的模型库对识别率的影响比对第55页
        5.4.2 不同N-gram模型对识别率的影响比对第55页
        5.4.3 字幕生成系统识别结果第55-56页
    5.5 本章小结第56-57页
第6章 总结与展望第57-59页
    6.1 全文总结第57-58页
    6.2 展望第58-59页
参考文献第59-62页
附录第62-66页
致谢第66-67页
作者简介第67页

论文共67页,点击 下载论文
上一篇:云数据中心的虚拟机放置问题研究
下一篇:星地混合网信令协议的扩展及其原型实现研究