首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

Web信息集成中数据清洗的研究

摘要第1-5页
Abstract第5-10页
第1章 绪论第10-14页
   ·选题背景第10页
   ·国内外研究的现状第10-13页
     ·国外研究现状第11-12页
     ·国内研究现状第12页
     ·存在的问题第12-13页
   ·研究内容及论文的组织机构第13-14页
第2章 数据清洗的相关知识第14-28页
   ·数据质量的相关概念第14-17页
     ·“脏数据”的产生第14页
     ·数据质量的定义第14-15页
     ·数据质量的分类第15-17页
   ·数据清洗相关概念第17-19页
     ·数据清洗的定义第17-18页
     ·数据清洗的方法第18-19页
   ·数据清洗的基本流程第19-20页
   ·数据清洗的框架第20-25页
     ·与领域无关的数据清洗框架第20-22页
     ·基于领域知识的数据清洗框架第22-24页
     ·清洗规则的描述和执行第24-25页
   ·数据清洗的评价标准第25页
   ·ETL与数据清洗第25-28页
     ·ETL简介第25-26页
     ·数据清洗在 ETL中的应用模型第26-28页
第3章 数据清洗的相关技术第28-39页
   ·不完整数据相关概念第28-31页
     ·不完整数据的处理方法第28-30页
     ·缺失值的处理第30-31页
   ·异常数据的处理第31-34页
     ·异常数据相关概念第31-32页
     ·基于孤立点检测异常数据第32-34页
   ·重复记录的处理第34-39页
     ·重复记录的定义第34-36页
     ·重复记录清洗的流程第36-38页
     ·重复记录清洗的重要性第38-39页
第4章 重复记录检测的基本算法第39-48页
   ·字段匹配算法第39-43页
     ·基本字段匹配的算法第40页
     ·基于编辑距离的字段匹配算法第40-43页
   ·记录匹配算法第43-44页
     ·记录相似度的定义第43-44页
     ·Pair-Wise比较算法的实现第44页
   ·重复记录检测的算法第44-46页
     ·SNM算法及改进第44-46页
     ·基于聚类模式的算法第46页
   ·相似重复记录检测的标准第46-47页
   ·重复记录合并第47-48页
第5章 数据清洗在 Web信息集成中的运用第48-65页
   ·应用背景第48-49页
   ·Web信息集成第49-53页
     ·Web数据的特点第49-50页
     ·XML的特点第50-51页
     ·基于 XML的Web数据集成框架第51-53页
   ·Web信息集成中数据清洗的框架第53-57页
     ·XML到数据库的映射第54页
     ·数据清洗预处理第54-57页
   ·重复记录的检测第57-62页
   ·实验及结果分析第62-63页
   ·基于中文的重复记录检测第63-65页
第6章 总结与展望第65-67页
   ·总结第65页
   ·展望第65-67页
参考文献第67-70页
致谢第70-71页
攻读硕士学位期间发表论文第71页

论文共71页,点击 下载论文
上一篇:煤灰中痕量元素非均匀分布特征与煤中矿物质蒸发特性的研究
下一篇:咪鲜胺残留分析及在蘑菇和土壤中的消解动态与最终残留研究