数据清理关键技术及其软件平台的研究与应用
| 第一章 绪论 | 第1-26页 |
| ·引言 | 第12-13页 |
| ·数据质量 | 第13-17页 |
| ·数据质量概念及分类 | 第13-14页 |
| ·单数据源数据质量问题 | 第14-16页 |
| ·多数据源集成时数据质量问题 | 第16-17页 |
| ·数据清理内涵及原理 | 第17-18页 |
| ·数据清理研究现状分析 | 第18-22页 |
| ·国外研究动态 | 第18-20页 |
| ·国内研究动态 | 第20-21页 |
| ·存在的问题 | 第21-22页 |
| ·数据清理软件平台的意义 | 第22-23页 |
| ·论文研究目的与内容安排 | 第23-26页 |
| 第二章 单数据源中相似重复记录的清理 | 第26-53页 |
| ·引言 | 第26-27页 |
| ·相似重复记录清理的相关研究 | 第27-29页 |
| ·相似重复记录的清理方法 | 第29-40页 |
| ·相似重复记录清理方法总体描述 | 第29-31页 |
| ·记录排序 | 第31-32页 |
| ·记录相似检测 | 第32-37页 |
| ·相似重复记录检测算法 | 第37-39页 |
| ·相似重复记录的合并/清除 | 第39-40页 |
| ·相似重复记录检测精度提高方法 | 第40-43页 |
| ·等级法的使用 | 第40-42页 |
| ·等级转变成权重的方法 | 第42-43页 |
| ·利用权重提高检测精度 | 第43页 |
| ·相似重复记录检测效率提高方法 | 第43-45页 |
| ·提高检测效率的方法分析 | 第43页 |
| ·长度过滤方法 | 第43-45页 |
| ·实验准备—记录生成器的研制 | 第45-47页 |
| ·记录生成器的作用 | 第45-46页 |
| ·记录生成器的原理及实现 | 第46-47页 |
| ·改进算法检测效果的实验验证 | 第47-51页 |
| ·度量相似重复记录检测效果的标准 | 第47-48页 |
| ·长度过滤方法有效性的实验检测 | 第48-51页 |
| ·实验结果分析 | 第51页 |
| ·本章小结 | 第51-53页 |
| 第三章 单数据源中不完整数据的清理 | 第53-63页 |
| ·引言 | 第53页 |
| ·不完整数据的清理方法 | 第53-58页 |
| ·不完整数据清理方法总体描述 | 第53-55页 |
| ·不完整数据的可用性检测 | 第55-57页 |
| ·缺失字段值的处理 | 第57-58页 |
| ·采用K-最临近算法估算缺失字段值 | 第58-62页 |
| ·K-NN 算法的特点 | 第58页 |
| ·采用K-NN 算法估算缺失字段值的过程 | 第58-59页 |
| ·K-NN 算法中距离函数的分析 | 第59-61页 |
| ·采用距离权重优化K-NN 算法 | 第61-62页 |
| ·本章小结 | 第62-63页 |
| 第四章 单数据源中错误数据的清理 | 第63-76页 |
| ·引言 | 第63-64页 |
| ·基于孤立点检测的错误数据清理 | 第64-70页 |
| ·基于孤立点检测的错误数据清理方法 | 第64-66页 |
| ·孤立点检测的相关方法 | 第66-67页 |
| ·基于模糊集理论的孤立点检测 | 第67-70页 |
| ·基于业务规则的错误数据清理 | 第70-74页 |
| ·业务规则的重要性 | 第70-71页 |
| ·基于业务规则的错误数据清理方法 | 第71-72页 |
| ·业务规则 | 第72-74页 |
| ·错误数据的处理 | 第74页 |
| ·本章小结 | 第74-76页 |
| 第五章 多数据源集成中的数据清理 | 第76-89页 |
| ·引言 | 第76-78页 |
| ·信息化建设中多数据源集成问题的分类 | 第78-80页 |
| ·数据标准化 | 第80-82页 |
| ·数据标准化的重要性 | 第80-81页 |
| ·数据标准化的方法 | 第81-82页 |
| ·多数据源集成中相似重复实体的清理 | 第82-84页 |
| ·相似重复实体清理的必要性 | 第82页 |
| ·相似重复实体的清理方法 | 第82-84页 |
| ·多数据源集成中的数据迁移 | 第84-88页 |
| ·数据迁移概述 | 第84-85页 |
| ·交互式数据迁移方法 | 第85-87页 |
| ·交互式数据迁移的特点 | 第87-88页 |
| ·本章小结 | 第88-89页 |
| 第六章 XML 相似重复数据的清理 | 第89-99页 |
| ·引言 | 第89-91页 |
| ·XML 的相关知识 | 第91-92页 |
| ·XML 相似重复数据的清理方法 | 第92-94页 |
| ·XML 相似重复数据检测 | 第94-96页 |
| ·树编辑距离定义 | 第94-95页 |
| ·树编辑距离计算 | 第95页 |
| ·基于树编辑距离的相似检测 | 第95-96页 |
| ·XML 相似重复数据检测算法的优化 | 第96-97页 |
| ·树编辑距离下限 | 第96页 |
| ·树编辑距离上限 | 第96-97页 |
| ·优化的XML 相似重复数据检测算法 | 第97页 |
| ·本章小结 | 第97-99页 |
| 第七章 数据清理软件平台 DCSP 的研究与应用 | 第99-127页 |
| ·引言 | 第99-100页 |
| ·DCSP 的原理 | 第100-106页 |
| ·DCSP 的功能及清理方法 | 第100-102页 |
| ·DCSP 的清理过程 | 第102-103页 |
| ·DCSP 的规则库与算法库 | 第103-106页 |
| ·DCSP 的特点 | 第106页 |
| ·DCSP 的实现 | 第106-110页 |
| ·DCSP 的开发方法 | 第107-108页 |
| ·DCSP 的主要功能界面 | 第108-110页 |
| ·DCSP 的应用 | 第110-123页 |
| ·DCSP 在医疗保险信息系统中的应用 | 第110-116页 |
| ·DCSP 在制造业信息化中的应用 | 第116-123页 |
| ·本章小结 | 第123-127页 |
| 致谢 | 第127-128页 |
| 攻读博士学位期间发表的主要论文 | 第128页 |
| 攻读博士学位期间主要参与的科研工作 | 第128-129页 |
| 参考文献 | 第129-136页 |