摘要 | 第10-12页 |
ABSTRACT | 第12-13页 |
第一章 绪论 | 第16-28页 |
1.1 研究背景 | 第16-19页 |
1.2 研究难点与思路 | 第19-21页 |
1.3 文献综述 | 第21-25页 |
1.3.1 自然场景文字检测 | 第21-24页 |
1.3.2 场景文字识别 | 第24-25页 |
1.4 研究贡献 | 第25-26页 |
1.5 论文结构 | 第26-28页 |
第二章 理论框架 | 第28-46页 |
2.1 监督学习 | 第28-29页 |
2.2 随机梯度下降 | 第29-31页 |
2.3 深度神经网络 | 第31-37页 |
2.3.1 激活函数 | 第32-33页 |
2.3.2 输出层和损失函数 | 第33-34页 |
2.3.3 神经网络的前向传播 | 第34页 |
2.3.4 神经网络的反向传播 | 第34-36页 |
2.3.5 梯度检查 | 第36-37页 |
2.4 卷积神经网络 | 第37-39页 |
2.5 递归神经网络 | 第39-44页 |
2.5.1 RNN的前向传播 | 第41页 |
2.5.2 RNN的反向传播 | 第41-43页 |
2.5.3 递归神经网络的梯度不稳定性 | 第43-44页 |
2.6 批量归一化 | 第44-45页 |
2.7 本章小结 | 第45-46页 |
第三章 VRPN端到端自然场景文字检测模型 | 第46-68页 |
3.1 算法设计思想 | 第46-48页 |
3.2 VRPN文字检测模型 | 第48-54页 |
3.2.1 区域候选网络 | 第48-49页 |
3.2.2 纵向回归候选网络 | 第49-50页 |
3.2.3 多任务学习 | 第50-53页 |
3.2.4 文字检测 | 第53-54页 |
3.3 实验与分析 | 第54-64页 |
3.3.1 自然场景文字检测数据集 | 第54-57页 |
3.3.2 算法评估 | 第57-59页 |
3.3.3 模型实验 | 第59-64页 |
3.3.4 在不同语言文字上的检测效果 | 第64页 |
3.4 本章小结 | 第64-68页 |
第四章 混合CNN/HMM自然场景文字识别模型 | 第68-94页 |
4.1 问题描述与建模 | 第68-69页 |
4.2 文字图像的HMM序列建模 | 第69-71页 |
4.3 混合CNN-HMM模型 | 第71-77页 |
4.3.1 基于CNN的字符序列建模 | 第71-72页 |
4.3.2 CNN-HMM模型结构 | 第72-74页 |
4.3.3 特征提取 | 第74-75页 |
4.3.4 训练步骤 | 第75-77页 |
4.4 前向后向算法 | 第77-80页 |
4.4.1 通用前向后向算法 | 第77-79页 |
4.4.2 HMM的前向后向算法 | 第79-80页 |
4.5 基于Baum-Welch算法的HMM训练 | 第80-81页 |
4.6 基于Viterbi算法的文字识别 | 第81-83页 |
4.7 实验及结果 | 第83-91页 |
4.7.1 数据集及预处理 | 第83-84页 |
4.7.2 特征提取 | 第84页 |
4.7.3 模型训练 | 第84-86页 |
4.7.4 结果评估 | 第86-88页 |
4.7.5 混合CNN-HMM模型的性能提升 | 第88-89页 |
4.7.6 CNN网络的层切除实验 | 第89-90页 |
4.7.7 计算复杂度 | 第90-91页 |
4.8 本章小结 | 第91-94页 |
第五章 CNN-LSTM-CTC端到端文字识别模型 | 第94-110页 |
5.1 序列信息的门限控制 | 第95-97页 |
5.2 双向递归神经网络 | 第97-98页 |
5.3 基于CTC算法的变长序列映射 | 第98-100页 |
5.4 CTC前向后向算法 | 第100-102页 |
5.5 CTC层的反向传播 | 第102-103页 |
5.6 文字识别 | 第103页 |
5.7 实验与分析 | 第103-108页 |
5.7.1 数据集与评估方法 | 第103-104页 |
5.7.2 网络结构 | 第104-106页 |
5.7.3 结果及分析 | 第106-108页 |
5.8 本章小结 | 第108-110页 |
第六章 总结与展望 | 第110-112页 |
6.1 全文总结 | 第110-111页 |
6.2 后续工作展望 | 第111-112页 |
致谢 | 第112-114页 |
参考文献 | 第114-130页 |
作者在学期间取得的学术成果 | 第130-131页 |