印刷体文档表格识别技术研究
摘要 | 第5-6页 |
Abstract | 第6-7页 |
第1章 绪论 | 第11-19页 |
1.1 研究背景与意义 | 第11-14页 |
1.1.1 研究背景 | 第11-12页 |
1.1.2 研究意义 | 第12-14页 |
1.2 国内外研究现状 | 第14-16页 |
1.3 Latex排版系统简介 | 第16-17页 |
1.4 研究内容及研究方案 | 第17-19页 |
1.4.1 研究内容 | 第17-18页 |
1.4.2 论文组织结构 | 第18-19页 |
第2章 文档表格图像的预处理 | 第19-35页 |
2.1 数学形态学简介 | 第19-20页 |
2.2 文档图像灰度化 | 第20页 |
2.3 文档图像的二值化及后处理 | 第20-25页 |
2.3.1 基于全局阈值的二值化算法介绍 | 第21-22页 |
2.3.2 基于局部阈值的二值化算法介绍 | 第22-24页 |
2.3.3 部分二值化算法的实验及总结 | 第24-25页 |
2.3.4 文档图像的二值化后处理 | 第25页 |
2.4 文档图像的倾斜校正 | 第25-28页 |
2.5 文档图像表格区域的提取 | 第28-33页 |
2.5.1 本文使用连通域提取方法 | 第28-30页 |
2.5.2 平均字符高度的估计 | 第30-31页 |
2.5.3 本文使用的版面分析方法 | 第31-33页 |
2.6 表格与图形的初步判别 | 第33-34页 |
2.7 本章小结 | 第34-35页 |
第3章 表格线的获取 | 第35-44页 |
3.1 文档图像表格的基本特征 | 第35-36页 |
3.2 表格线的提取 | 第36-42页 |
3.2.1 表格连通域粘连文字的去除 | 第36-37页 |
3.2.2 表格线段的分割 | 第37-40页 |
3.2.3 利用连通链拟合表格线段的方程 | 第40-41页 |
3.2.4 断裂线段的合并 | 第41-42页 |
3.3 表格线特征投票判定是否表格 | 第42-43页 |
3.4 本章小结 | 第43-44页 |
第4章 表格架构的获取及信息还原 | 第44-51页 |
4.1 Latex图表绘制系统分析 | 第44-46页 |
4.2 表格图像特征点的设计及获取 | 第46-48页 |
4.3 基于表格图像特征点提取表格单元 | 第48-49页 |
4.4 是否为表格的最后判定 | 第49-50页 |
4.5 本章小结 | 第50-51页 |
第5章 表格中印刷体汉字的识别 | 第51-58页 |
5.1 印刷体汉字识别目标分析 | 第51页 |
5.2 印刷体汉字的分割 | 第51-53页 |
5.2.1 印刷体汉字的行分割 | 第52页 |
5.2.2 印刷体汉字的列分割 | 第52-53页 |
5.3 SCUT-SPCCI印刷体汉字数据集 | 第53-54页 |
5.4 汉字识别分类器的设计 | 第54-57页 |
5.4.1 汉字识别方法简介 | 第54-55页 |
5.4.2 ResNet网络识别印刷体汉字 | 第55-57页 |
5.5 本章小结 | 第57-58页 |
第6章 印刷体文档表格识别软件设计 | 第58-65页 |
6.1 基于Qt+OpenCV的软件开发环境简介 | 第58-59页 |
6.1.1 Qt简介 | 第58-59页 |
6.1.2 OpenCV简介 | 第59页 |
6.2 软件设计方案及实现 | 第59-62页 |
6.2.1 软件所要实现的功能 | 第60-61页 |
6.2.2 软件的整体流程和程序设计 | 第61-62页 |
6.3 表格识别综合对照实验 | 第62-64页 |
6.4 本章小结 | 第64-65页 |
结论 | 第65-67页 |
本文工作总结 | 第65页 |
未来工作展望 | 第65-67页 |
参考文献 | 第67-71页 |
致谢 | 第71-72页 |
附录A (部分Qt界面设计程序) | 第72-79页 |
附录B (攻读学位期间所获得的研究成果) | 第79-80页 |
附录C 攻读学位期间参与科研项目 | 第80页 |