首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于数据仓库的ETL优化与实现

【摘要】:数据仓库为企业的决策支持提供强有力的依据,而ETL (Extraction. Transformation、Loading)过程是构建一个高数据质量数据仓库最重要的组成部分。它需要处理海量数据,及时刷新数据仓库的数据,如何快速处理海量数据并且得到高质量数据是一个非常值得研究的问题。ETL工具在商业领域应用广泛,且开发的效率比较高。但是运行效率却不尽如人意,而且在实现ETL之前并没有专门去设计ETL工作流。为了提高ETL的执行速度,优化项目中的ETL,本文采用ETL状态空间搜索的方式来优化ETL,即将ETL看成一个状态,它的所有等价状态即为状态空间,从状态空间中搜索得到一个最优的ETL工作流。首先针对项目具体问题,设计了UML类图,提出了基于前接节点的模式产生算法,研究分析了状态转换的条件,采用线性回归分析方法预测状态执行时间,使用JAVA语言实现了UML类图、相关的转换算法。并对比分析了常规模式产生和基于前接节点的模式产生算法的性能、穷举搜索算法和启发式搜索算法的性能;最后将优化方案应用到了工程项目中,将ETL初始状态输入算法从而得到最优ETL工作流。实验结果分析表明,设计的UML类图和基于前接节点的模式产生算法能明显提高搜索的效率、提高ETL的执行速度,并且能实际应用到实际的工程项目。
【关键词】:数据仓库 ETL 海量数据 ETL状态空间
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13
论文共74页,点击 下载论文
上一篇:数字图像相关测量方法及试验研究
下一篇:RFID防碰撞算法的研究与设计