首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

数据清洗算法的研究与应用

第一章 概述第1-14页
   ·问题的提出第7-8页
   ·数据质量第8-9页
     ·数据质量的描述第8页
     ·数据质量问题的分类第8-9页
   ·数据清洗定义与简介第9-10页
     ·数据仓库应用中的数据清洗定义第9页
     ·KDD应用中的数据清洗定义第9页
     ·数据/信息质量管理应用中的数据清洗定义第9-10页
   ·数据清洗技术研究现状第10-12页
     ·国外研究现状第10-12页
     ·国内研究现状第12页
   ·本文的研究内容与章节安排第12-14页
第二章 数据清洗知识第14-20页
   ·数据清洗的原理和方法第14-16页
     ·数据清洗的原理第14页
     ·数据清洗的方法第14-16页
   ·数据清洗的基本流程第16-18页
   ·数据清洗的评价标准第18-20页
     ·成本效益第18-19页
     ·数据质量第19页
     ·数据集成第19-20页
第三章 属性清洗第20-26页
   ·属性清洗的对象第20页
   ·属性清洗的基本方法第20-21页
     ·缺失值的清洗方法第20-21页
     ·错误值的检测及清洗方法第21页
     ·不一致数据的清洗方法第21页
   ·自动检测属性错误的方法第21-24页
     ·统计分析的方法第22页
     ·聚类的方法第22-23页
     ·基于模式的方法第23页
     ·关联规则的方法第23-24页
   ·实验结果第24-26页
     ·实验数据集介绍第24-25页
     ·实验结果分析第25-26页
第四章 重复记录清洗第26-49页
   ·重复记录清洗简介第26-28页
     ·重复记录的定义第26页
     ·重复记录清洗的意义第26-27页
     ·重复记录清洗的基本流程第27-28页
   ·预处理第28-30页
     ·属性选择第28页
     ·初步聚类第28-30页
     ·分配属性的权重第30页
   ·重复记录检测第30-42页
     ·字段匹配问题第30-38页
       ·基本的字段匹配算法第31页
       ·递归的字段匹配算法第31-32页
       ·Smith-Waterman算法第32-33页
       ·改进的Smith-Waterman算法(R-S-W算法)第33页
       ·基于编辑距离的字段匹配算法及缩写发现算法第33-38页
     ·记录匹配问题第38-42页
       ·记录相似度和有效权值第38-39页
       ·长度过滤优化算法第39-42页
   ·数据库级重复记录聚类第42-47页
     ·基本近邻排序算法SNM第42-43页
     ·多趟近邻排序算法MPN第43-44页
     ·优先权队列算法第44-45页
     ·改进的SNM算法第45-46页
     ·衡量重复记录清洗算法效率的度量标准第46-47页
     ·实验结果第47页
   ·冲突处理第47-49页
第五章 应用工具的设计第49-52页
   ·应用背景第49页
   ·源数据中存在的问题第49-50页
   ·工具的框架结构和操作流程第50-51页
     ·工具的框架结构第50-51页
     ·工具的操作流程第51页
   ·工具的优缺点第51-52页
第六章 总结与展望第52-54页
   ·本文所做工作的总结第52页
   ·未来研究方向的展望第52-54页
参考文献第54-57页
攻读硕士学位期间发表的论文第57-58页
致谢第58-59页
学位论文独创性声明第59页
学位论文知识产权权属声明第59-60页

论文共60页,点击 下载论文
上一篇:图像分形信息的提取研究及分形景物的生成
下一篇:ITS系统车载导航设备的设计与关键技术