首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

多源异构海量石油数据的数据清洗技术研究

摘要第4-5页
abstract第5页
第一章 绪论第9-15页
    1.1 研究背景与意义第9-10页
        1.1.1 论文研究背景第9-10页
        1.1.2 论文研究意义第10页
    1.2 研究现状第10-11页
        1.2.1 国外研究现状第10-11页
        1.2.2 国内研究现状第11页
    1.3 课题来源与主要研究内容第11-13页
    1.4 论文组织结构第13-15页
第二章 相关概念与技术第15-23页
    2.1 数据清洗相关概念第15-17页
        2.1.1 数据清洗第15页
        2.1.2 相似重复记录第15-16页
        2.1.3 异常值第16页
        2.1.4 缺失值第16-17页
    2.2 多源数据库描述第17-18页
        2.2.1 MongoDB简介第17页
        2.2.2 Oracle简介第17页
        2.2.3 MySQL简介第17-18页
        2.2.4 DB2简介第18页
        2.2.5 Sybase简介第18页
    2.3 石油领域本体描述第18-19页
    2.4 XML简介第19-20页
    2.5 大数据平台介绍第20-23页
        2.5.1 Hadoop简介第20页
        2.5.2 HDFS简介第20-22页
        2.5.3 MapReduce简介第22-23页
第三章 非结构化和半结构化数据处理第23-26页
    3.1 非结构化数据转换成XML第23-24页
    3.2 XML相似重复记录清洗第24-26页
第四章 相似重复记录清洗第26-32页
    4.1 现有的相似重复记录清洗方法第27-29页
        4.1.1 字段匹配算法第27页
        4.1.2 编辑距离算法第27-28页
        4.1.3 N-Grams算法第28页
        4.1.4 近邻排序法第28-29页
        4.1.5 聚类算法第29页
        4.1.6 优先队列法第29页
    4.2 基于Hadoop平台的聚类分区式相似重复记录清洗方法第29-32页
第五章 异常值清洗技术与方法第32-38页
    5.1 现有异常值识别与清洗技术第32-34页
        5.1.1 基于统计的聚类算法第32页
        5.1.2 基于距离的聚类算法第32-33页
        5.1.3 基于密度的聚类算法第33页
        5.1.4 基于偏离的聚类算法第33-34页
        5.1.5 基于关联的异常值检测算法第34页
    5.2 基于Hadoop平台的异常值关联规则清洗方法第34-38页
第六章 缺失值清洗技术与方法第38-42页
    6.1 现有的缺失值清洗技术与方法第38-39页
        6.1.1 基于不完备集双聚类的缺失数据填补算法第38页
        6.1.2 基于朴素贝叶斯分类法的缺失数据填补算法第38页
        6.1.3 基于回归算法的缺失值填充算法第38-39页
        6.1.4 基于决策树的缺失值填补算法第39页
        6.1.5 基于统计学习的缺失值清洗方法第39页
    6.2 基于Hadoop平台的聚类填充式缺失值清洗方法第39-42页
第七章 实验及结果分析第42-52页
    7.1 集群环境搭建第42-46页
    7.2 实验结果分析第46-52页
        7.2.1 运行效率对比第47-49页
        7.2.2 准确率对比第49-52页
结论第52-54页
    本文总结第52-53页
    展望第53-54页
参考文献第54-59页
攻读硕士学位期间取得的学术成果第59-60页
致谢第60页

论文共60页,点击 下载论文
上一篇:井眼可视化绘制技术研究与实现
下一篇:基于Android平台的图像数字水印系统研究与实现