Web信息集成中数据清洗的研究

摘要	第1-5页
Abstract	第5-10页
第1章绪论	第10-14页
·选题背景	第10页
·国内外研究的现状	第10-13页
·国外研究现状	第11-12页
·国内研究现状	第12页
·存在的问题	第12-13页
·研究内容及论文的组织机构	第13-14页
第2章数据清洗的相关知识	第14-28页
·数据质量的相关概念	第14-17页
·“脏数据”的产生	第14页
·数据质量的定义	第14-15页
·数据质量的分类	第15-17页
·数据清洗相关概念	第17-19页
·数据清洗的定义	第17-18页
·数据清洗的方法	第18-19页
·数据清洗的基本流程	第19-20页
·数据清洗的框架	第20-25页
·与领域无关的数据清洗框架	第20-22页
·基于领域知识的数据清洗框架	第22-24页
·清洗规则的描述和执行	第24-25页
·数据清洗的评价标准	第25页
·ETL与数据清洗	第25-28页
·ETL简介	第25-26页
·数据清洗在 ETL中的应用模型	第26-28页
第3章数据清洗的相关技术	第28-39页
·不完整数据相关概念	第28-31页
·不完整数据的处理方法	第28-30页
·缺失值的处理	第30-31页
·异常数据的处理	第31-34页
·异常数据相关概念	第31-32页
·基于孤立点检测异常数据	第32-34页
·重复记录的处理	第34-39页
·重复记录的定义	第34-36页
·重复记录清洗的流程	第36-38页
·重复记录清洗的重要性	第38-39页
第4章重复记录检测的基本算法	第39-48页
·字段匹配算法	第39-43页
·基本字段匹配的算法	第40页
·基于编辑距离的字段匹配算法	第40-43页
·记录匹配算法	第43-44页
·记录相似度的定义	第43-44页
·Pair-Wise比较算法的实现	第44页
·重复记录检测的算法	第44-46页
·SNM算法及改进	第44-46页
·基于聚类模式的算法	第46页
·相似重复记录检测的标准	第46-47页
·重复记录合并	第47-48页
第5章数据清洗在 Web信息集成中的运用	第48-65页
·应用背景	第48-49页
·Web信息集成	第49-53页
·Web数据的特点	第49-50页
·XML的特点	第50-51页
·基于 XML的Web数据集成框架	第51-53页
·Web信息集成中数据清洗的框架	第53-57页
·XML到数据库的映射	第54页
·数据清洗预处理	第54-57页
·重复记录的检测	第57-62页
·实验及结果分析	第62-63页
·基于中文的重复记录检测	第63-65页
第6章总结与展望	第65-67页
·总结	第65页
·展望	第65-67页
参考文献	第67-70页
致谢	第70-71页
攻读硕士学位期间发表论文	第71页