摘要 | 第3-6页 |
Abstract(英文摘要) | 第6-8页 |
英文缩略语列表 | 第9-16页 |
第一章 绪论 | 第16-31页 |
1.1 语音识别简介 | 第16-22页 |
1.1.1 语音识别问题 | 第16页 |
1.1.2 语音识别系统 | 第16-19页 |
1.1.2.1 前端处理 | 第17页 |
1.1.2.2 识别器 | 第17-19页 |
1.1.2.3 后处理 | 第19页 |
1.1.3 语音识别发展历史 | 第19-22页 |
1.2 汉语语音识别 | 第22-27页 |
1.2.1 汉语语音识别的特点 | 第22页 |
1.2.2 声调识别 | 第22-23页 |
1.2.3 声调特征 | 第23-25页 |
1.2.3.1 基音频率提取方法 | 第24页 |
1.2.3.2 基音频率的归一化 | 第24-25页 |
1.2.4 连续语音识别中的声调信息的利用方法 | 第25-27页 |
1.2.4.1 隐式声调建模 | 第25-26页 |
1.2.4.2 显式声调建模 | 第26-27页 |
1.2.4.3 隐式/显式混合方法 | 第27页 |
1.3 本文的主要研究工作和贡献 | 第27-29页 |
1.3.1 立论依据 | 第27-28页 |
1.3.2 主要研究工作和创新点 | 第28-29页 |
1.4 论文的结构安排 | 第29-31页 |
第二章 区分性学习方法 | 第31-50页 |
2.1 区分性训练准则 | 第31-39页 |
2.1.1 贝叶斯分类器 | 第31-33页 |
2.1.2 最大似然估计 | 第33-35页 |
2.1.3 条件最大似然与最大互信息 | 第35-37页 |
2.1.4 最小分类错误 | 第37-39页 |
2.1.5 最小音子错误 | 第39页 |
2.2 条件随机场 | 第39-40页 |
2.3 大间隔模型 | 第40-44页 |
2.3.1 支持向量机 | 第40-42页 |
2.3.2 大间隔高斯混合模型 | 第42-43页 |
2.3.3 大间隔隐马尔可夫模型 | 第43-44页 |
2.4 其他区分性方法 | 第44-49页 |
2.4.1 区分性特征提取 | 第44-46页 |
2.4.2 区分性的语言模型训练 | 第46页 |
2.4.3 区分性说话人自适应方法 | 第46-48页 |
2.4.4 区分性精度矩阵训练 | 第48-49页 |
2.5 本章小结 | 第49-50页 |
第三章 基于区分性训练隐马尔可夫模型的声调建模 | 第50-76页 |
3.1 基于HMM的声调模型 | 第50-52页 |
3.2 HMM参数估计方法 | 第52-60页 |
3.2.1 区分性目标函数定义 | 第52页 |
3.2.2 区分性目标函数分析 | 第52-53页 |
3.2.3 模型参数更新方法 | 第53-60页 |
3.2.3.1 最大似然估计的更新 | 第54-57页 |
3.2.3.2 区分性HMM参数更新方法 | 第57-60页 |
3.3 基于HMM声调模型的区分性声调特征提取 | 第60-64页 |
3.3.1 线性变换特征补偿 | 第60-61页 |
3.3.2 特征变换矩阵的优化 | 第61-64页 |
3.3.2.1 直接导数的计算 | 第62页 |
3.3.2.2 间接导数计算 | 第62-63页 |
3.3.2.3 算法实现的正确性校验 | 第63-64页 |
3.4 实验与结果 | 第64-75页 |
3.4.1 数据库与实验配置 | 第64-66页 |
3.4.2 声调实验及结果 | 第66-72页 |
3.4.2.1 最大似然训练结果 | 第66-67页 |
3.4.2.2 区分性模型训练结果 | 第67-69页 |
3.4.2.3 完全匹配正确测度实验结果 | 第69-70页 |
3.4.2.4 与条件最大似然训练的比较 | 第70-71页 |
3.4.2.5 区分性声调特征提取结果 | 第71-72页 |
3.4.3 前后端联合训练 | 第72-75页 |
3.5 本章小结 | 第75-76页 |
第四章 基于隐条件随机场的显式与隐式声调建模 | 第76-97页 |
4.1 序列标注问题的几种建模方法 | 第76-80页 |
4.1.1 隐马尔可夫模型 | 第76-78页 |
4.1.2 最大熵马尔可夫模型 | 第78-79页 |
4.1.3 条件随机场 | 第79-80页 |
4.2 隐条件随机场 | 第80-84页 |
4.2.1 模型定义 | 第80-81页 |
4.2.2 参数估计方法 | 第81-84页 |
4.3 基于隐条件随机场汉语语音声调/声学建模 | 第84-88页 |
4.3.1 基本特征 | 第84-86页 |
4.3.2 广义动态特征 | 第86-87页 |
4.3.3 隐式声调建模离散特征的设置 | 第87-88页 |
4.4 实验与分析 | 第88-95页 |
4.4.1 声调识别实验 | 第89-91页 |
4.4.2 带调音节分类实验 | 第91-95页 |
4.4.2.1 模型单元的选取 | 第92-93页 |
4.4.2.2 结果与分析 | 第93-95页 |
4.5 本章小结 | 第95-97页 |
第五章 大间隔模型与方法 | 第97-123页 |
5.1 大间隔高斯混合模型 | 第97-104页 |
5.1.1 最大似然估计 | 第98-99页 |
5.1.2 大间隔目标函数 | 第99-101页 |
5.1.3 多混合高斯下的间隔条件 | 第101-102页 |
5.1.4 参数优化方法 | 第102-104页 |
5.1.4.1 半定规划 | 第102-103页 |
5.1.4.2 梯度下降法 | 第103-104页 |
5.2 一种快速参数更新算法 | 第104-108页 |
5.2.1 目标函数的改进 | 第105页 |
5.2.2 弱意义辅助函数的构造 | 第105-106页 |
5.2.3 平滑常数D_(ij)的选取 | 第106-108页 |
5.3 基于线性判别分析的声调特征降维 | 第108-110页 |
5.4 实验以及结果 | 第110-119页 |
5.4.1 最大似然估计的高斯混合声调模型 | 第111-114页 |
5.4.1.1 基本F_0特征 | 第111-112页 |
5.4.1.2 对数能量特征 | 第112页 |
5.4.1.3 段动态特征 | 第112-113页 |
5.4.1.4 重叠双音调高斯 | 第113-114页 |
5.4.2 最小声调错误声调模型结果 | 第114-116页 |
5.4.3 大间隔模型训练结果 | 第116-117页 |
5.4.4 线性判别分析结果 | 第117-119页 |
5.5 几种声调模型的性能比较以及分析 | 第119-121页 |
5.6 本章小结 | 第121-123页 |
第六章 二次解码中的区分性权重训练 | 第123-147页 |
6.1 连续语音识别中的声调模型集成框架 | 第124-131页 |
6.1.1 声调模型集成 | 第124-127页 |
6.1.2 汉语大词汇量连续语音识别单元 | 第127-129页 |
6.1.2.1 汉语语音基本音子集 | 第127-128页 |
6.1.2.2 上下文相关三音子模型 | 第128-129页 |
6.1.3 模型权重策略 | 第129-131页 |
6.2 区分性模型权重训练 | 第131-138页 |
6.2.1 最小音子错误(Minimum Phone Error)目标函数 | 第131页 |
6.2.2 基于扩展Baum Welch算法的权重优化 | 第131-138页 |
6.2.2.1 扩展Baum Welch(Extended Baum Welch,EBW)算法 | 第131-132页 |
6.2.2.2 权重更新公式 | 第132-138页 |
6.2.3 MPE谱特征模型更新公式 | 第138页 |
6.3 实验结果及分析 | 第138-145页 |
6.3.1 数据库及实验配置 | 第138-139页 |
6.3.2 带调音节识别实验结果 | 第139-142页 |
6.3.3 汉字输出识别实验结果 | 第142-145页 |
6.3.4 与隐式声调建模方法的比较 | 第145页 |
6.4 本章小结 | 第145-147页 |
第七章 结论 | 第147-151页 |
7.1 本文工作总结 | 第147-149页 |
7.2 下一步工作的展望 | 第149-151页 |
参考文献 | 第151-162页 |
致谢 | 第162-163页 |
攻读博士学位期间的研究成果 | 第163-166页 |