Web数据集成中数据清洗的关键问题研究

摘要	第1-11页
ABSTRACT	第11-13页
第一章绪论	第13-19页
·研究背景	第13-14页
·研究现状	第14-17页
·国外研究现状	第14-16页
·国内研究现状	第16-17页
·研究内容和主要工作	第17页
·本文的组织结构	第17-19页
第二章数据清洗理论综述	第19-30页
·数据质量	第19-20页
·数据质量问题	第20-22页
·数据清洗定义	第22-23页
·数据清洗的原理与基本流程	第23-26页
·数据清洗评估	第26-28页
·数据清洗方案	第28-30页
第三章数据清洗的相关技术	第30-40页
·不完整数据相关概念	第30-32页
·不完整数据的处理方法	第30-31页
·缺失值的处理	第31-32页
·异常数据的处理	第32-36页
·异常数据相关概念	第32-34页
·基干孤立点检测异常数据	第34-36页
·重复记录的处理	第36-40页
·重复记录的定义	第36-37页
·重复记录清洗的流程	第37-39页
·重复记录清洗的重要性	第39-40页
第四章基于权值分级的相似重复记录检测方法	第40-49页
·基本思想	第40-41页
·基本定义	第41-42页
·基本步骤	第42-47页
·级别法计算权值	第42-43页
·数据分组	第43-45页
·字段匹配算法	第45-46页
·算法描述	第46-47页
·本章小结	第47-49页
第五章数据清洗在WEB数据集成中的运用	第49-61页
·应用背景	第49页
·WEB数据集成	第49-53页
·Web数据的特点	第49-51页
·XML的特点	第51-52页
·基于XML的Web数据集成框架	第52-53页
·WEB数据集成中数据清洗的框架	第53-58页
·XML到数据库的映射	第54-55页
·数据清洗预处理	第55-58页
·重复记录的检测	第58页
·实验	第58-60页
·实验环境及说明	第58页
·查准率和查全率对比	第58-59页
·时间对比	第59-60页
·本章小结	第60-61页
第六章总结与展望	第61-63页
·本文工作总结	第61-62页
·未来工作展望	第62-63页
参考文献	第63-67页
致谢	第67-68页
攻读学位期间发表的学术论文	第68-69页
学位论文评阅及答辩情况表	第69页