基于图像识别的搜题系统的研究与实现
摘要 | 第6-7页 |
Abstract | 第7页 |
第1章 绪论 | 第8-12页 |
1.1 基于图像识别的搜题系统的背景及意义 | 第8-9页 |
1.2 搜题系统的应用现状 | 第9-10页 |
1.3 本系统的简介 | 第10页 |
1.4 本文研究工作和内容安排 | 第10-12页 |
1.4.1 本文研究工作 | 第10-11页 |
1.4.2 本文内容安排 | 第11-12页 |
第2章 搜题系统设计及开发环境 | 第12-18页 |
2.1 设计目标 | 第12页 |
2.2 系统结构设计 | 第12-13页 |
2.2.1 系统软件体系结构 | 第12-13页 |
2.2.2 系统网络结构 | 第13页 |
2.3 数据库设计 | 第13-15页 |
2.3.1 需求分析 | 第13页 |
2.3.2 数据库逻辑结构设计 | 第13-14页 |
2.3.3 Python操作SQLite数据库 | 第14-15页 |
2.4 开发环境的搭建 | 第15-18页 |
2.4.1 Python简介及安装 | 第15-16页 |
2.4.2 Python相关库及模块的安装 | 第16页 |
2.4.3 Tesseract-OCR引擎的安装 | 第16-17页 |
2.4.4 Django简介及安装 | 第17页 |
2.4.5 开发工具安装 | 第17-18页 |
第3章 试题图片预处理 | 第18-26页 |
3.1 试题图片灰度化 | 第18-19页 |
3.2 试题图片二值化 | 第19-22页 |
3.3 试题图片去噪 | 第22-23页 |
3.4 试题图片倾斜校正 | 第23-26页 |
3.4.1 常用的图像倾斜校正方法 | 第23-24页 |
3.4.2 基于像素点的文档图像倾斜角度检测方法 | 第24-26页 |
第4章 试题图片识别 | 第26-33页 |
4.1 Tesseract-ocr简介 | 第26-27页 |
4.1.1 Tesseract-ocr特点 | 第26-27页 |
4.2 试题图片字符识别 | 第27-33页 |
4.2.1 准备训练样本图片 | 第27-28页 |
4.2.2 合并成tif文件 | 第28页 |
4.2.3 生成Box文件 | 第28页 |
4.2.4 文字校正 | 第28-29页 |
4.2.5 生成tr训练文件 | 第29页 |
4.2.6 生成计算字符集文件 | 第29页 |
4.2.7 创建字体属性文件 | 第29-30页 |
4.2.8 生成中间文件 | 第30页 |
4.2.9 合成traineddata文件 | 第30-33页 |
第5章 试题搜索 | 第33-36页 |
5.1 常用Web信息搜索方法 | 第33页 |
5.2 基于相邻两字符组成关键词的搜索方法 | 第33-34页 |
5.2.1 去除特殊符号 | 第34页 |
5.2.2 组建关键词 | 第34页 |
5.2.3 搜索 | 第34页 |
5.3 界面设计 | 第34-36页 |
第6章 系统测试 | 第36-40页 |
6.1 系统测试环境 | 第36页 |
6.2 系统功能测试 | 第36-38页 |
6.2.1 字符识别率测试 | 第37页 |
6.2.2 搜题准确率测试 | 第37-38页 |
6.3 系统性能测试 | 第38-40页 |
6.3.1 系统响应时间测试 | 第38页 |
6.3.2 系统压力测试 | 第38-40页 |
第7章 总结与展望 | 第40-41页 |
7.1 工作总结 | 第40页 |
7.2 不足与展望 | 第40-41页 |
参考文献 | 第41-43页 |
致谢 | 第43-46页 |
在学期间的科研情况 | 第46页 |