XML相似重复数据的检测和清洗研究

摘要	第2-3页
Abstract	第3页
第一章绪论	第6-11页
1.1 研究背景与意义	第6页
1.2 国内外研究现状	第6-9页
1.2.1 国外研究现状	第6-7页
1.2.2 国内研究现状	第7-9页
1.3 相似度计算策略	第9页
1.4 论文的研究内容和研究方法	第9页
1.5 论文的章节安排	第9-11页
第二章数据清洗和XML数据相关理论	第11-23页
2.1 数据质量	第11-12页
2.1.1 数据质量的定义	第11页
2.1.2 数据质量问题分类	第11-12页
2.2 数据清洗	第12-13页
2.3 XML技术研究	第13-16页
2.3.1 XML基本概念	第13页
2.3.2 XML文档结构和语法规则	第13-14页
2.3.4 DTD和XML Schema标准	第14-16页
2.4 XML数据质量问题	第16-17页
2.5 XML模式层数据清洗方法	第17-19页
2.5.1 命名冲突	第17-18页
2.5.2 约束冲突	第18页
2.5.3 数据类型冲突	第18-19页
2.6 XML相似重复数据检测的基本算法	第19-22页
2.6.1 字段匹配算法	第19-20页
2.6.2 重复记录清洗算法	第20-22页
2.7 本章小结	第22-23页
第三章增量自适应邻近排序算法	第23-32页
3.1 相关工作	第23-24页
3.1.1 条件假设	第23-24页
3.1.2 ICSNM算法优化思想	第24页
3.2 ICSNM算法	第24-26页
3.2.1 窗口大小设置方法	第24-25页
3.2.2 算法伪代码及程序框图	第25-26页
3.3 实验及结果分析	第26-31页
3.3.1 实验设置	第26-27页
3.3.2 数据集	第27-28页
3.3.3 实验及分析	第28-31页
3.4 本章小结	第31-32页
第四章基于贝叶斯网络的XML重复数据检测	第32-44页
4.1 贝叶斯网络概述	第32页
4.2 XML重复检测和贝叶斯网络构造算法	第32-35页
4.2.1 XML重复检测	第32-33页
4.2.2 贝叶斯网络构造算法	第33-35页
4.3 贝叶斯网络应用实例	第35-37页
4.4 重复概率定义和计算	第37-40页
4.4.1 先验概率	第37-38页
4.4.2 条件概率	第38-39页
4.4.3 最终概率	第39-40页
4.5 实验准备	第40-41页
4.5.1 数据集	第40页
4.5.2 实验设置	第40-41页
4.6 实验及分析	第41-43页
4.7 本章小结	第43-44页
第五章 XML相似重复数据清洗工具设计	第44-52页
5.1 X-SNM工具清洗框架	第44-45页
5.1.1 工具框架	第44-45页
5.1.2 实现方法	第45页
5.2 工具的设计流程	第45-47页
5.2.1 数据提取	第45页
5.2.2 关键字生成和排序	第45-46页
5.2.3 相似重复数据检测	第46页
5.2.4 合并清洗	第46页
5.2.5 程序框图	第46-47页
5.3 实验评估指标	第47页
5.4 模拟实验及结果分析	第47-51页
5.4.1 数据来源及实验环境	第47-48页
5.4.2 实验及结果分析	第48-51页
5.5 本章小结	第51-52页
第六章总结与展望	第52-54页
6.1 总结	第52页
6.2 展望	第52-54页
参考文献	第54-57页
攻读学位期间的研究成果	第57-58页
致谢	第58-59页