语谱图在汉字发音识别与说话人识别中的应用研究
中文摘要 | 第4-5页 |
英文摘要 | 第5-6页 |
1.引言 | 第9-18页 |
1.1 语音识别概述 | 第9-11页 |
1.1.1 语音识别的发展历史 | 第9-10页 |
1.1.2 语音识别的应用现状 | 第10-11页 |
1.2 汉字发音识别概述 | 第11-13页 |
1.2.1 汉字发音识别的基本方法 | 第11-12页 |
1.2.2 汉字发音识别难点 | 第12-13页 |
1.3 说话人识别概述 | 第13-16页 |
1.3.1 说话人识别的基本方法 | 第13-16页 |
1.3.2 说话人识别难点 | 第16页 |
1.4 论文的研究内容 | 第16-18页 |
2.人类发音原理与特点 | 第18-21页 |
2.1 人类的发音器官与发音原理 | 第18-19页 |
2.2 人类的发音特征 | 第19-20页 |
2.3 本章小结 | 第20-21页 |
3.语谱图的形成与分析 | 第21-32页 |
3.1 语音样本的采集 | 第21页 |
3.2 语音样本的预处理 | 第21-25页 |
3.2.1 采样量化及预加重 | 第21-22页 |
3.2.2 分帧加窗 | 第22-25页 |
3.3 语音信号的时频分析及共振峰估计 | 第25-28页 |
3.3.1 语音信号的时频分析 | 第25-27页 |
3.3.2 语音信号的共振峰估计 | 第27-28页 |
3.4 语谱图的构建 | 第28-30页 |
3.4.1 语谱图的转换流程及算法 | 第28-29页 |
3.4.2 语谱图的显示与分析 | 第29-30页 |
3.4.3 语谱图的时间标尺选择 | 第30页 |
3.5 利用灰度语谱图获取发音特征 | 第30-31页 |
3.6 本章小结 | 第31-32页 |
4.深度学习与卷积神经网络 | 第32-41页 |
4.1 深度学习理论 | 第32-33页 |
4.1.1 深度学习背景 | 第32页 |
4.1.2 深度学习动机 | 第32-33页 |
4.2 卷积神经网络概述 | 第33-36页 |
4.2.1 卷积神经网络结构 | 第33-34页 |
4.2.2 卷积层 | 第34-36页 |
4.2.3 池化层 | 第36页 |
4.3 卷积神经网络学习算法 | 第36-38页 |
4.3.1 误差反向传播算法 | 第37页 |
4.3.2 卷积层和池化层 | 第37-38页 |
4.4 卷积神经网络改进结构 | 第38-40页 |
4.5 本章小结 | 第40-41页 |
5.基于语谱图和卷积神经网络的汉字孤立字发音识别 | 第41-47页 |
5.1 建立汉字语音库 | 第41-43页 |
5.2 实验操作界面 | 第43页 |
5.3 测试过程 | 第43-45页 |
5.4 实验结果分析 | 第45-46页 |
5.5 本章小结 | 第46-47页 |
6.基于语谱图和卷积神经网络的说话人识别 | 第47-58页 |
6.1 建立语音样本库 | 第47页 |
6.2 基于语谱图统计的特征提取 | 第47-50页 |
6.3 实验过程与结果 | 第50-57页 |
6.4 本章小结 | 第57-58页 |
7.结论及展望 | 第58-59页 |
参考文献 | 第59-63页 |
附录 | 第63-67页 |
附录1 灰度语谱图的获取程序 | 第63-64页 |
附录2 改进后卷积神经网络训练和分类程序 | 第64-65页 |
附录3 实现汉字发音识别程序 | 第65-66页 |
附录4 实现说话人识别程序 | 第66-67页 |
致谢 | 第67-68页 |
在学期间公开发表论文及专利情况 | 第68页 |