首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

XML相似重复数据的检测和清洗研究

摘要第2-3页
Abstract第3页
第一章 绪论第6-11页
    1.1 研究背景与意义第6页
    1.2 国内外研究现状第6-9页
        1.2.1 国外研究现状第6-7页
        1.2.2 国内研究现状第7-9页
    1.3 相似度计算策略第9页
    1.4 论文的研究内容和研究方法第9页
    1.5 论文的章节安排第9-11页
第二章 数据清洗和XML数据相关理论第11-23页
    2.1 数据质量第11-12页
        2.1.1 数据质量的定义第11页
        2.1.2 数据质量问题分类第11-12页
    2.2 数据清洗第12-13页
    2.3 XML技术研究第13-16页
        2.3.1 XML基本概念第13页
        2.3.2 XML文档结构和语法规则第13-14页
        2.3.4 DTD和XML Schema标准第14-16页
    2.4 XML数据质量问题第16-17页
    2.5 XML模式层数据清洗方法第17-19页
        2.5.1 命名冲突第17-18页
        2.5.2 约束冲突第18页
        2.5.3 数据类型冲突第18-19页
    2.6 XML相似重复数据检测的基本算法第19-22页
        2.6.1 字段匹配算法第19-20页
        2.6.2 重复记录清洗算法第20-22页
    2.7 本章小结第22-23页
第三章 增量自适应邻近排序算法第23-32页
    3.1 相关工作第23-24页
        3.1.1 条件假设第23-24页
        3.1.2 ICSNM算法优化思想第24页
    3.2 ICSNM算法第24-26页
        3.2.1 窗口大小设置方法第24-25页
        3.2.2 算法伪代码及程序框图第25-26页
    3.3 实验及结果分析第26-31页
        3.3.1 实验设置第26-27页
        3.3.2 数据集第27-28页
        3.3.3 实验及分析第28-31页
    3.4 本章小结第31-32页
第四章 基于贝叶斯网络的XML重复数据检测第32-44页
    4.1 贝叶斯网络概述第32页
    4.2 XML重复检测和贝叶斯网络构造算法第32-35页
        4.2.1 XML重复检测第32-33页
        4.2.2 贝叶斯网络构造算法第33-35页
    4.3 贝叶斯网络应用实例第35-37页
    4.4 重复概率定义和计算第37-40页
        4.4.1 先验概率第37-38页
        4.4.2 条件概率第38-39页
        4.4.3 最终概率第39-40页
    4.5 实验准备第40-41页
        4.5.1 数据集第40页
        4.5.2 实验设置第40-41页
    4.6 实验及分析第41-43页
    4.7 本章小结第43-44页
第五章 XML相似重复数据清洗工具设计第44-52页
    5.1 X-SNM工具清洗框架第44-45页
        5.1.1 工具框架第44-45页
        5.1.2 实现方法第45页
    5.2 工具的设计流程第45-47页
        5.2.1 数据提取第45页
        5.2.2 关键字生成和排序第45-46页
        5.2.3 相似重复数据检测第46页
        5.2.4 合并清洗第46页
        5.2.5 程序框图第46-47页
    5.3 实验评估指标第47页
    5.4 模拟实验及结果分析第47-51页
        5.4.1 数据来源及实验环境第47-48页
        5.4.2 实验及结果分析第48-51页
    5.5 本章小结第51-52页
第六章 总结与展望第52-54页
    6.1 总结第52页
    6.2 展望第52-54页
参考文献第54-57页
攻读学位期间的研究成果第57-58页
致谢第58-59页

论文共59页,点击 下载论文
上一篇:安卓平台密码管理器的设计与实现
下一篇:公共基础课程教学辅助系统设计与实现