印刷体文档表格识别技术研究

摘要	第5-6页
Abstract	第6-7页
第1章绪论	第11-19页
1.1 研究背景与意义	第11-14页
1.1.1 研究背景	第11-12页
1.1.2 研究意义	第12-14页
1.2 国内外研究现状	第14-16页
1.3 Latex排版系统简介	第16-17页
1.4 研究内容及研究方案	第17-19页
1.4.1 研究内容	第17-18页
1.4.2 论文组织结构	第18-19页
第2章文档表格图像的预处理	第19-35页
2.1 数学形态学简介	第19-20页
2.2 文档图像灰度化	第20页
2.3 文档图像的二值化及后处理	第20-25页
2.3.1 基于全局阈值的二值化算法介绍	第21-22页
2.3.2 基于局部阈值的二值化算法介绍	第22-24页
2.3.3 部分二值化算法的实验及总结	第24-25页
2.3.4 文档图像的二值化后处理	第25页
2.4 文档图像的倾斜校正	第25-28页
2.5 文档图像表格区域的提取	第28-33页
2.5.1 本文使用连通域提取方法	第28-30页
2.5.2 平均字符高度的估计	第30-31页
2.5.3 本文使用的版面分析方法	第31-33页
2.6 表格与图形的初步判别	第33-34页
2.7 本章小结	第34-35页
第3章表格线的获取	第35-44页
3.1 文档图像表格的基本特征	第35-36页
3.2 表格线的提取	第36-42页
3.2.1 表格连通域粘连文字的去除	第36-37页
3.2.2 表格线段的分割	第37-40页
3.2.3 利用连通链拟合表格线段的方程	第40-41页
3.2.4 断裂线段的合并	第41-42页
3.3 表格线特征投票判定是否表格	第42-43页
3.4 本章小结	第43-44页
第4章表格架构的获取及信息还原	第44-51页
4.1 Latex图表绘制系统分析	第44-46页
4.2 表格图像特征点的设计及获取	第46-48页
4.3 基于表格图像特征点提取表格单元	第48-49页
4.4 是否为表格的最后判定	第49-50页
4.5 本章小结	第50-51页
第5章表格中印刷体汉字的识别	第51-58页
5.1 印刷体汉字识别目标分析	第51页
5.2 印刷体汉字的分割	第51-53页
5.2.1 印刷体汉字的行分割	第52页
5.2.2 印刷体汉字的列分割	第52-53页
5.3 SCUT-SPCCI印刷体汉字数据集	第53-54页
5.4 汉字识别分类器的设计	第54-57页
5.4.1 汉字识别方法简介	第54-55页
5.4.2 ResNet网络识别印刷体汉字	第55-57页
5.5 本章小结	第57-58页
第6章印刷体文档表格识别软件设计	第58-65页
6.1 基于Qt+OpenCV的软件开发环境简介	第58-59页
6.1.1 Qt简介	第58-59页
6.1.2 OpenCV简介	第59页
6.2 软件设计方案及实现	第59-62页
6.2.1 软件所要实现的功能	第60-61页
6.2.2 软件的整体流程和程序设计	第61-62页
6.3 表格识别综合对照实验	第62-64页
6.4 本章小结	第64-65页
结论	第65-67页
本文工作总结	第65页
未来工作展望	第65-67页
参考文献	第67-71页
致谢	第71-72页
附录A (部分Qt界面设计程序)	第72-79页
附录B (攻读学位期间所获得的研究成果)	第79-80页
附录C 攻读学位期间参与科研项目	第80页