基于Hadoop的非结构化数据管理在离散制造业中的研究与实现
【摘要】:近年来离散制造企业高度重视信息化的建设,经过几年的发展,已初具成效。在几年的业务发展中,企业内产生了大量的信息化数据,包括办公文档、业务订单、数据报表、图片、音频、视频等信息。企业通常采用的提取有效信息存储到数据库,将原文件保存到磁盘的方式,一定程度解决了企业数据管理的问题。但是随着数据量的急剧增长,对这些非结构化数据合理有效的管理与利用成了企业面临的一个新的大问题,也是增强企业国际竞争力的一个关键。本文以某离散制造企业内非结构化数据管理系统为背景,结合当前流行的hadoop分布式框架,设计实现了基于hadoop的非结构化数据管理系统。在研究此离散制造业非结构化数据的过程中发现企业内文件大小较小,以及hadoop在存储小文件需要相关人员定期手工进行小文件合并难的问题,通过分布式数据库hbase中计数器的合理利用,在企业进行非结构化数据存储时提出了一种基于hbase的小文件自动归档合并策略;其次,为了克服以往将原文档直接保存到磁盘无法进行按内容查找的问题,本文利用lucene全文检索引擎技术工具包,设计了一种在hadoop环境下基于lucene的全文内容检索策略;最后,将此非结构化数据管理系统应用到某离散制造业现有的管理系统中,解决企业在原有系统中大量附件上传带来的文件存储安全与文件备份、查找等问题。在本文设计实现的非结构化数据管理系统中,通过对某离散制造企业多年办公文档的存储管理,可以看到此系统一方面通过小文件自动归档合并,解决了hadoop进行小文件存储影响系统性能的问题;另一方面通过lucene全文检索引擎方便了用户通过文档内容进行文档检索,提高了办公效率;通过与企业内原有的系统整合,解决了原系统在附件管理中存在的问题。
【关键词】:非结构化数据 hadoop hbase lucene 小文件
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13