基于智能手机的中文文档数字化研究与实现

摘要	第5-6页
abstract	第6页
第一章绪论	第11-15页
1.1 本课题研究的背景	第11-12页
1.1.1 智能手机的快速发展和普及	第11页
1.1.2 智能手机拍摄和处理能力的进步	第11-12页
1.1.3 文字识别技术的发展	第12页
1.1.4 利用智能手机对文档进行数字化	第12页
1.2 研究目标及国内外研究现况	第12-13页
1.2.1 研究目标	第12页
1.2.2 国内外研究现况	第12-13页
1.3 研究内容和意义	第13页
1.3.1 研究内容	第13页
1.3.2 研究意义	第13页
1.4 本文的章节安排	第13-15页
第二章相关概念与技术介绍	第15-22页
2.1 图像采集	第15-16页
2.1.1 采集原理	第15页
2.1.2 颜色空间	第15-16页
2.1.3 图像数据结构	第16页
2.2 图像增强	第16-17页
2.3 图像分割	第17-19页
2.4 二值图像处理	第19-20页
2.4.1 连通域分析	第19页
2.4.2 二值图像数学形态学	第19-20页
2.5 特征提取	第20-21页
2.6 训练与识别	第21-22页
第三章 Tesseract-OCR研究与分析	第22-32页
3.1 Tesseract-OCR发展历史	第22页
3.2 识别流程	第22-27页
3.2.1 流程图	第22页
3.2.2 自适应阈值计算	第22-24页
3.2.3 版面分析	第24-25页
3.2.4 连通域分析	第25页
3.2.5 行查找	第25-26页
3.2.6 单词查找	第26页
3.2.7 单词识别	第26-27页
3.3 分类与训练	第27-30页
3.3.1 特征空间	第27-28页
3.3.2 静态分类器	第28-29页
3.3.3 样本训练	第29页
3.3.4 自适应分类器	第29-30页
3.4 多语言支持	第30-32页
第四章 Tesseract-OCR改进与优化	第32-40页
4.1 图像处理增强	第32-38页
4.1.1 自适应双阈值法图像二值化	第32-37页
4.1.2 倾斜弯曲校正	第37-38页
4.2 简体中文识别速度优化	第38页
4.2.1 去除Pass2和自适应分类器训练	第38页
4.2.2 字宽模式	第38页
4.3 简体中文识别准确率优化	第38-40页
4.3.1 字符内部轮廓数	第38页
4.3.2 汉字字宽	第38-39页
4.3.3 N - gram模型	第39-40页
第五章文档数字化系统原型设计与实现	第40-55页
5.1 基本需求分析	第40页
5.1.1 应用场景介绍	第40页
5.1.2 运行环境	第40页
5.2 系统框架	第40-43页
5.2.1 系统框图	第40-41页
5.2.2 图像采集模块	第41页
5.2.3 图像处理模块	第41-42页
5.2.4 文字识别模块	第42页
5.2.5 后处理模块	第42-43页
5.2.6 PDF生成模块	第43页
5.3 开发调试环境搭建	第43-52页
5.3.1 安装JDK	第43-44页
5.3.2 安装Android Studio	第44-45页
5.3.3 安装NDK	第45-48页
5.3.4 编译Tesseract - OCR库	第48-50页
5.3.5 调试环境搭建	第50-52页
5.4 用户界面	第52-55页
5.4.1 主界面	第52-53页
5.4.2 图片来源选取界面	第53-54页
5.4.3 图片裁剪界面	第54页
5.4.4 拍摄界面	第54-55页
第六章测试与分析	第55-62页
6.1 测试环境	第55-56页
6.1.1 算法测试环境	第55页
6.1.2 系统测试环境	第55-56页
6.1.3 对比工具	第56页
6.1.4 训练文件	第56页
6.2 算法优化对识别性能的提升	第56-58页
6.2.1 去除Pass2 和自适应分类器训练对性能的影响	第56-57页
6.2.2 采取固定字宽模式对性能的影响	第57-58页
6.3 算法优化对识别准确率的提升	第58-59页
6.4 图像预处理的影响	第59-61页
6.4.1 图像缩放的影响	第59-60页
6.4.2 自适应双阈值法图像二值化的影响	第60-61页
6.5 总结与分析	第61-62页
第七章结束语	第62-64页
7.1 论文工作总结	第62页
7.2 后续工作展望	第62-64页
参考文献	第64-67页
致谢	第67-68页
附件	第68页