首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

数据仓库与数据挖掘中数据清洗的研究

中文摘要第1页
ABSTRACT第4-7页
第一章 前言第7-11页
   ·课题来源第7-8页
   ·数据质量第8页
   ·数据清洗的定义第8-10页
   ·数据清洗研究的发展第10页
   ·本文工作第10-11页
第二章 数据清洗问题第11-23页
   ·数据质量问题的分类第11-14页
     ·单数据源问题第11-13页
     ·多数据源问题第13-14页
   ·数据清洗过程第14-21页
     ·数据清洗原理第14-15页
     ·数据清洗的实现方式第15-16页
     ·数据清洗的一般步骤第16-17页
     ·数据清洗相关技术概述第17-21页
   ·目前的数据清洗工具第21-22页
     ·特定的清洗工具第21页
     ·ETL 工具第21-22页
   ·小结第22-23页
第三章 交互型数据清洗模型第23-30页
   ·简介第23页
   ·系统模型第23-30页
     ·交互模型处理流程和特点第23-26页
     ·清洗规则的描述和执行第26-29页
     ·小结第29-30页
第四章 重复记录(Duplicate Records)检测的设计实现第30-46页
   ·字段匹配算法第30-36页
     ·基本字段匹配算法第31页
     ·递归匹配算法第31-32页
     ·基于动态规则的字段匹配的方法第32-35页
     ·一种高效的改进字段匹配算法第35-36页
   ·重复记录检测第36-41页
     ·嵌套循环法第36页
     ·邻近连接法第36-37页
     ·SNM(Sorted Neighborhood Method)算法第37-38页
     ·多趟近邻排序算法(Multi-Pass Sorted-Neighborhood,MPN)第38-39页
     ·优先队列算法第39-41页
   ·增量式重复记录识别算法第41-45页
     ·算法描述第41-43页
     ·特征记录的选取第43-44页
     ·性能分析第44-45页
   ·清洗结果的评价标准第45-46页
第五章 孤立点(outlier)的检测第46-52页
   ·基于数理统计孤立点检测第46-47页
   ·基于相似系数和的孤立点检测第47-48页
   ·基于关联规则的异常值检测第48-51页
     ·关联规则与异常检测第48页
     ·序列关联规则第48-49页
     ·具体的实现方法第49-50页
     ·性能测试第50-51页
   ·本章小结第51-52页
第六章 结束语第52-53页
参考文献第53-56页
致谢第56-57页
附录第57-58页
在学期间发表的学术论文和参加科研情况第58页

论文共58页,点击 下载论文
上一篇:POU蛋白与铅致神经后期发育毒作用关系的研究
下一篇:伊布利特对兔左室中层细胞L-型钙电流活性的影响