图像文件中文字识别的MapReduce并行处理研究
【摘要】:随着信息化建设步伐的加快,作为人们熟知的文件档案管理在应用领域里也面临着新的挑战。在面对数量众多的档案文件时,大多数人的观念还停留在人工化、纸质化层面,而利用OCR(光学字符识别)技术将图像类型的文字材料方便、快捷地输入到计算机当中并转化为文字已经广泛应用于各行各业,同时,在面对众多档案资料文件时,分布式系统是解决海量信息存储及处理的有效方式之一。论文以图像档案管理为背景,主要研究如何对目前的档案资料进行并行化处理。目前,单位的档案文件资料已经逐步完成了纸质化到电子化的转换,但是在利用这些电子化图像档案的时候,所采用的还是单人单机单图的模式,对于档案管理人员来说工作量较大,而且在处理速度上不能满足要求,因此迫切需要一种效率更高的处理方式。针对存在的问题,论文在深入分析分布式系统和分布式计算思想之后,提出了在Hadoop这一并行化平台上,利用MapReduce的计算方法,依托光学字符识别技术,对本单位图像档案进行处理。一是提出对图像文件进行中值滤波、灰度化和二值化的并行预处理算法,提高图像质量的同时优化了预处理效率;二是在图像预处理的基础上,提出文字识别的MapReduce算法,通过在map函数中使用光学字符识别算法将图像文件中的文字转换为文本文件,使得识别率满足需求的前提下提高识别速度;三是在配置搭建的Hadoop平台下仿照所在单位当前电子图像档案类型的实际,对输入的图像文件进行了预处理和文字识别操作。通过实验结果表明,本文所做的研究内容可以有效提高图像档案的处理效率,能够应用于本单位的档案处理工作,也为今后使用OCR技术更有效地进行海量图像识别处理提供了借鉴参考。
【关键词】:MapReduce 图像文件 OCR 并行
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.41;TP311.13