摘要 | 第7-9页 |
Abstract | 第9-11页 |
目录 | 第12-15页 |
1 引言 | 第15-24页 |
1.1 研究背景和意义 | 第15-18页 |
1.1.1 传统方法简介 | 第15-16页 |
1.1.2 国内外研究现状 | 第16-17页 |
1.1.3 研究问题提出 | 第17-18页 |
1.2 语音识别和语音合成概述(国内外研究现状) | 第18-20页 |
1.2.1 语音识别 | 第18-19页 |
1.2.2 语音合成 | 第19-20页 |
1.3 本文的主要研究内容和问题 | 第20-22页 |
1.3.1 研究内容 | 第20-21页 |
1.3.2 主要研究问题 | 第21-22页 |
1.4 本文的组织结构 | 第22-24页 |
2 基础知识原理介绍 | 第24-29页 |
2.1 HMM 模型 | 第24-26页 |
2.1.1 隐马尔可夫模型定义 | 第24-25页 |
2.1.2 主要问题 | 第25-26页 |
2.2 HMM 基本算法 | 第26-28页 |
2.2.1 前向-后向算法(评估问题) | 第26-27页 |
2.2.2 Viterbi 算法 | 第27页 |
2.2.3 Baum-Welch 算法 | 第27-28页 |
2.3 本章小结 | 第28-29页 |
3 长篇幅多段落语音全自动切分算法 | 第29-52页 |
3.1 基于频谱参数的 HMM 和韵律参数的句子自动切分算法 | 第29-32页 |
3.1.1 全自动句子切分算法简介 | 第29-30页 |
3.1.2 HashMap Tracer 机制 | 第30-31页 |
3.1.3 最大化精确全自动标注算法的现实可行性 | 第31-32页 |
3.2 基于频谱参数的 HMM 的无标注的句子自动切分算法(ZLSS) | 第32-35页 |
3.2.1 ZLSS 算法的切分原理介绍 | 第32页 |
3.2.2 检查机制 | 第32-33页 |
3.2.3 自动切分的迭代算法 | 第33-35页 |
3.3 基于半监督学习的句子切分算法 | 第35-40页 |
3.3.1 句子切分算法原理 | 第35页 |
3.3.2 V/C/P 分类技术 | 第35-37页 |
3.3.3 特征提取 | 第37页 |
3.3.4 检错机制 | 第37-38页 |
3.3.5 基于 Co_training 的极小化标注句子切分算法 | 第38-40页 |
3.4 实验结果及数据分析 | 第40-45页 |
3.4.1 实验数据及结果分析 | 第40-41页 |
3.4.2 HAZ-SAS 系统性能评估及实验分析 | 第41-45页 |
3.5 面向语音合成的音素切分方法 | 第45-51页 |
3.5.1 音素切分(Phoneme Segmentation) | 第45页 |
3.5.2 基于 SPHINX 和 HTK 的 Phoneme-Alignment 技术 | 第45-46页 |
3.5.3 基于 Trainable TTS 的语音合成 | 第46-49页 |
3.5.4 实验结果和评估 | 第49-51页 |
3.6 本章小结 | 第51-52页 |
4 基于 GoogleVoice 的文语自动对齐技术 | 第52-62页 |
4.1 识别引擎的介绍 | 第52页 |
4.2 文语自动对齐技术提出 | 第52-58页 |
4.2.1 强制对齐(识别-原始) | 第52-55页 |
4.2.2 自动抽取算法 | 第55-56页 |
4.2.3 重校准算法的实现 | 第56-58页 |
4.3 音节检测机制 | 第58-60页 |
4.3.1 基于韵律参数的 Syllable/Pause(S/P)检测算法 | 第58-59页 |
4.3.2 基于 PRAAT 工具的音节检测 | 第59-60页 |
4.3.3 算法检测结果对照 | 第60页 |
4.4 用连续语流加强识别器和试验结果分析 | 第60-61页 |
4.5 本章小结 | 第61-62页 |
5 基于声韵拼接的中文孤立词识别系统 | 第62-76页 |
5.1 声韵母基元定义 | 第62页 |
5.2 特定词语音识别语音库设计 | 第62-66页 |
5.2.1 语音数据库的设计 | 第63页 |
5.2.2 任务语法与词典的设计 | 第63-65页 |
5.2.3 系统建模的流程 | 第65-66页 |
5.3 基于决策树的问题集设计 | 第66-67页 |
5.4 模型训练 | 第67-68页 |
5.4.1 创建单音素 HMM 模型 | 第67-68页 |
5.4.2 绑定状态的三音素 HMM 模型 | 第68页 |
5.5 基于 Triphone 模型的自动拼词识别 | 第68-69页 |
5.5.1 原理介绍 | 第68页 |
5.5.2 具体实现 | 第68-69页 |
5.6 HTK 上实现 Downsampling | 第69-71页 |
5.6.1 原理介绍 | 第69-70页 |
5.6.2 实现方法 | 第70-71页 |
5.7 倒谱均值正则化算法(CMN) | 第71-73页 |
5.8 实验结果 | 第73-75页 |
5.9 本章小结 | 第75-76页 |
6 总结和展望 | 第76-78页 |
6.1 全文工作总结 | 第76-77页 |
6.2 展望 | 第77-78页 |
6.2.1 文语对齐技术尚存在的问题 | 第77页 |
6.2.2 未来工作安排规划 | 第77-78页 |
参考文献 | 第78-83页 |
致谢 | 第83-84页 |
个人简历 | 第84页 |
硕士研究生期间发表的学术论文 | 第84页 |
科研成果 | 第84-85页 |