复杂版面文档图像中公式与文本的提取及分析
摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
符号对照表 | 第11-12页 |
缩略语对照表 | 第12-15页 |
第一章 绪论 | 第15-25页 |
1.1 研究背景和意义 | 第15-17页 |
1.2 数据库介绍 | 第17-21页 |
1.3 公式和文本提取所遇到的困难 | 第21-22页 |
1.4 主要工作和创新点 | 第22-23页 |
1.4.1 主要工作内容 | 第22-23页 |
1.4.2 创新点 | 第23页 |
1.5 本文结构安排 | 第23-25页 |
第二章 预处理 | 第25-39页 |
2.1 图像二值化 | 第25-28页 |
2.1.1 图像二值化介绍 | 第25-26页 |
2.1.2 常见二值化方法 | 第26-27页 |
2.1.3 基于模糊集理论的一种图像二值化算法 | 第27-28页 |
2.2 文档去噪 | 第28-35页 |
2.2.1 文档噪声分类 | 第29-30页 |
2.2.2 边界噪声去噪方法 | 第30-32页 |
2.2.3 椒盐噪声去噪方法 | 第32-35页 |
2.3 倾斜校正 | 第35-37页 |
2.4 本章小结 | 第37-39页 |
第三章 公式和文本提取预处理 | 第39-59页 |
3.1 横纵排文档分析 | 第39-44页 |
3.1.1 引言 | 第39-40页 |
3.1.2 常用的横纵排判断方法 | 第40-41页 |
3.1.3 本系统横纵排文档判断方法 | 第41-44页 |
3.2 标题区域识别 | 第44-52页 |
3.2.1 常见标题识别版面 | 第44-45页 |
3.2.2 本文标题提取分析 | 第45-52页 |
3.3 页码识别 | 第52-55页 |
3.4 栏数识别 | 第55-57页 |
3.5 实验结果和性能分析 | 第57-58页 |
3.6 本章小结 | 第58-59页 |
第四章 复杂中文版面公式提取 | 第59-73页 |
4.1 引言 | 第59-60页 |
4.2 传统的公式提取方法 | 第60-62页 |
4.3 基于非文本域优先的公式提取 | 第62-71页 |
4.3.1 公式提取算法 | 第63-67页 |
4.3.2 公式提取过程 | 第67-71页 |
4.4 实验结果和性能分析 | 第71-72页 |
4.5 本章小结 | 第72-73页 |
第五章 复杂中文版面文本行提取及合并 | 第73-85页 |
5.1 引言 | 第73-74页 |
5.2 基于非文本域优先的中文版面文本提取 | 第74-78页 |
5.2.1 图头和表头的提取 | 第74-76页 |
5.2.2 文本提取过程 | 第76-78页 |
5.3 文档图像文本行合并算法研究 | 第78-83页 |
5.3.1 边缘检测算法 | 第78-81页 |
5.3.2 形态学运算 | 第81-83页 |
5.4 实验结果和性能分析 | 第83-84页 |
5.5 本章小结 | 第84-85页 |
第六章 总结与展望 | 第85-87页 |
6.1 工作总结 | 第85-86页 |
6.2 后期工作展望 | 第86-87页 |
参考文献 | 第87-91页 |
致谢 | 第91-93页 |
作者简介 | 第93-94页 |