数据清理关键技术及其软件平台的研究与应用
第一章 绪论 | 第1-26页 |
·引言 | 第12-13页 |
·数据质量 | 第13-17页 |
·数据质量概念及分类 | 第13-14页 |
·单数据源数据质量问题 | 第14-16页 |
·多数据源集成时数据质量问题 | 第16-17页 |
·数据清理内涵及原理 | 第17-18页 |
·数据清理研究现状分析 | 第18-22页 |
·国外研究动态 | 第18-20页 |
·国内研究动态 | 第20-21页 |
·存在的问题 | 第21-22页 |
·数据清理软件平台的意义 | 第22-23页 |
·论文研究目的与内容安排 | 第23-26页 |
第二章 单数据源中相似重复记录的清理 | 第26-53页 |
·引言 | 第26-27页 |
·相似重复记录清理的相关研究 | 第27-29页 |
·相似重复记录的清理方法 | 第29-40页 |
·相似重复记录清理方法总体描述 | 第29-31页 |
·记录排序 | 第31-32页 |
·记录相似检测 | 第32-37页 |
·相似重复记录检测算法 | 第37-39页 |
·相似重复记录的合并/清除 | 第39-40页 |
·相似重复记录检测精度提高方法 | 第40-43页 |
·等级法的使用 | 第40-42页 |
·等级转变成权重的方法 | 第42-43页 |
·利用权重提高检测精度 | 第43页 |
·相似重复记录检测效率提高方法 | 第43-45页 |
·提高检测效率的方法分析 | 第43页 |
·长度过滤方法 | 第43-45页 |
·实验准备—记录生成器的研制 | 第45-47页 |
·记录生成器的作用 | 第45-46页 |
·记录生成器的原理及实现 | 第46-47页 |
·改进算法检测效果的实验验证 | 第47-51页 |
·度量相似重复记录检测效果的标准 | 第47-48页 |
·长度过滤方法有效性的实验检测 | 第48-51页 |
·实验结果分析 | 第51页 |
·本章小结 | 第51-53页 |
第三章 单数据源中不完整数据的清理 | 第53-63页 |
·引言 | 第53页 |
·不完整数据的清理方法 | 第53-58页 |
·不完整数据清理方法总体描述 | 第53-55页 |
·不完整数据的可用性检测 | 第55-57页 |
·缺失字段值的处理 | 第57-58页 |
·采用K-最临近算法估算缺失字段值 | 第58-62页 |
·K-NN 算法的特点 | 第58页 |
·采用K-NN 算法估算缺失字段值的过程 | 第58-59页 |
·K-NN 算法中距离函数的分析 | 第59-61页 |
·采用距离权重优化K-NN 算法 | 第61-62页 |
·本章小结 | 第62-63页 |
第四章 单数据源中错误数据的清理 | 第63-76页 |
·引言 | 第63-64页 |
·基于孤立点检测的错误数据清理 | 第64-70页 |
·基于孤立点检测的错误数据清理方法 | 第64-66页 |
·孤立点检测的相关方法 | 第66-67页 |
·基于模糊集理论的孤立点检测 | 第67-70页 |
·基于业务规则的错误数据清理 | 第70-74页 |
·业务规则的重要性 | 第70-71页 |
·基于业务规则的错误数据清理方法 | 第71-72页 |
·业务规则 | 第72-74页 |
·错误数据的处理 | 第74页 |
·本章小结 | 第74-76页 |
第五章 多数据源集成中的数据清理 | 第76-89页 |
·引言 | 第76-78页 |
·信息化建设中多数据源集成问题的分类 | 第78-80页 |
·数据标准化 | 第80-82页 |
·数据标准化的重要性 | 第80-81页 |
·数据标准化的方法 | 第81-82页 |
·多数据源集成中相似重复实体的清理 | 第82-84页 |
·相似重复实体清理的必要性 | 第82页 |
·相似重复实体的清理方法 | 第82-84页 |
·多数据源集成中的数据迁移 | 第84-88页 |
·数据迁移概述 | 第84-85页 |
·交互式数据迁移方法 | 第85-87页 |
·交互式数据迁移的特点 | 第87-88页 |
·本章小结 | 第88-89页 |
第六章 XML 相似重复数据的清理 | 第89-99页 |
·引言 | 第89-91页 |
·XML 的相关知识 | 第91-92页 |
·XML 相似重复数据的清理方法 | 第92-94页 |
·XML 相似重复数据检测 | 第94-96页 |
·树编辑距离定义 | 第94-95页 |
·树编辑距离计算 | 第95页 |
·基于树编辑距离的相似检测 | 第95-96页 |
·XML 相似重复数据检测算法的优化 | 第96-97页 |
·树编辑距离下限 | 第96页 |
·树编辑距离上限 | 第96-97页 |
·优化的XML 相似重复数据检测算法 | 第97页 |
·本章小结 | 第97-99页 |
第七章 数据清理软件平台 DCSP 的研究与应用 | 第99-127页 |
·引言 | 第99-100页 |
·DCSP 的原理 | 第100-106页 |
·DCSP 的功能及清理方法 | 第100-102页 |
·DCSP 的清理过程 | 第102-103页 |
·DCSP 的规则库与算法库 | 第103-106页 |
·DCSP 的特点 | 第106页 |
·DCSP 的实现 | 第106-110页 |
·DCSP 的开发方法 | 第107-108页 |
·DCSP 的主要功能界面 | 第108-110页 |
·DCSP 的应用 | 第110-123页 |
·DCSP 在医疗保险信息系统中的应用 | 第110-116页 |
·DCSP 在制造业信息化中的应用 | 第116-123页 |
·本章小结 | 第123-127页 |
致谢 | 第127-128页 |
攻读博士学位期间发表的主要论文 | 第128页 |
攻读博士学位期间主要参与的科研工作 | 第128-129页 |
参考文献 | 第129-136页 |