首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--一般性问题论文--安全保密论文

ETL过程中的数据清洗技术研究与应用

摘要第1-6页
Abstract第6-10页
第1章 绪论第10-16页
   ·数据清洗的意义第10-11页
   ·数据清洗研究现状第11-14页
     ·ETL与数据清洗第11-12页
     ·ETL工具的比较第12页
     ·数据清洗概况第12-14页
   ·本文工作第14-16页
第2章 数据质量问题及解决方案第16-23页
   ·数据质量概述第16-17页
   ·数据质量评价指标第17-18页
   ·数据质量问题的分类第18-20页
     ·基于数据源的脏数据分类第18-19页
     ·基于清洗方式的脏数据分类第19-20页
   ·独立型脏数据清洗第20-21页
   ·依赖型脏数据清洗第21-22页
   ·小结第22-23页
第3章 数据清洗方案第23-33页
   ·数据清洗定义第23-24页
   ·数据清洗环节第24-26页
     ·应用环境层清洗第24页
     ·ETL层数据清洗第24-25页
     ·数据仓库层清洗第25-26页
   ·基于ETL的清洗模型第26-27页
   ·数据清洗步骤第27-28页
   ·清洗中的元数据第28-30页
   ·数据清洗策略第30-32页
     ·数据清洗的一般策略第30页
     ·混合的数据清洗策略第30-32页
   ·小结第32-33页
第4章 中文地址类信息的分词方法第33-45页
   ·分词概述第33-34页
   ·已有的汉语分词方法第34-35页
   ·基于特征字符的分词方法第35-43页
     ·分词元数据第35-36页
     ·分词基本原理第36-37页
     ·分词算法描述第37-43页
     ·RDBMS中的分词结果第43页
   ·小结第43-45页
第5章 重复记录的清洗第45-63页
   ·重复记录概述第45-46页
     ·重复记录的定义第46页
     ·重复记录清洗的基本方法第46页
   ·字符串匹配方法第46-50页
     ·基本字符串匹配第47页
     ·编辑距离字符串匹配第47-50页
   ·记录相似性度量第50-51页
     ·字段匹配问题第50页
     ·记录匹配问题第50-51页
   ·重复记录的聚类第51-53页
     ·基本近邻排序算法SNM第51-52页
     ·多趟近邻排序算法MPN第52页
     ·优先队列算法第52-53页
   ·基于分词的地址类重复信息的清洗第53-61页
     ·工作流程第53-54页
     ·预处理第54-55页
     ·地址类信息的匹配第55-58页
     ·地址类信息的聚类第58-59页
     ·实验结果第59-61页
     ·冲突处理第61页
   ·小结第61-63页
结论第63-65页
参考文献第65-67页
致谢第67-68页
攻读硕士期间发表(含录用)的学术论文第68-69页

论文共69页,点击 下载论文
上一篇:完善我国上市公司内部监督机制的法律思考
下一篇:长托宁用于腹腔镜手术麻醉前用药的临床观察