基于数据仓库的数据清洗技术研究
摘要 | 第1-4页 |
ABSTRACT | 第4-7页 |
第一章 绪论 | 第7-12页 |
§1-1 课题的研究背景 | 第7页 |
§1-2 数据仓库的相关概念 | 第7-9页 |
1-2-1 数据仓库的概念与体系结构 | 第7-8页 |
1-2-2 数据清洗所处的位置 | 第8-9页 |
§1-3 研究现状 | 第9-11页 |
1-3-1 国外的研究现状 | 第9-10页 |
1-3-2 国内的研究现状 | 第10-11页 |
§1-4 本文研究内容 | 第11-12页 |
第二章 数据质量与数据清洗 | 第12-17页 |
§2-1 数据质量问题 | 第12-13页 |
§2-2 数据清洗的原理和方法 | 第13-14页 |
2-2-1 数据清洗的原理 | 第13-14页 |
2-2-2 数据清洗的基本方法 | 第14页 |
§2-3 数据清洗的基本流程 | 第14-15页 |
§2-4 数据清洗的评价标准 | 第15-17页 |
第三章 重复记录的清洗 | 第17-35页 |
§3-1 概述 | 第17-19页 |
3-1-1 重复记录的含义和重要性 | 第17-18页 |
3-1-2 重复记录清洗的基本流程 | 第18-19页 |
§3-2 字段匹配算法 | 第19-26页 |
3-2-1 基于字符的匹配算法 | 第19-25页 |
3-2-2 基于Token 的匹配方法 | 第25-26页 |
§3-3 记录匹配问题 | 第26页 |
§3-4 重复记录聚类 | 第26-33页 |
3-4-1 排序邻居算法(SNM) | 第27-28页 |
3-4-2 多趟排序邻居法 | 第28页 |
3-4-3 改进的排序邻居法 | 第28-29页 |
3-4-4 优先队列算法 | 第29-30页 |
3-4-5 Canopy 聚类算法 | 第30-33页 |
§3-5 衡量重复记录清洗算法效率的度量标准 | 第33-34页 |
§3-6 冲突处理 | 第34-35页 |
第四章 试验及结果分析 | 第35-43页 |
§4-1 实验环境 | 第35页 |
§4-2 实验数据集 | 第35-36页 |
§4-3 数据预处理 | 第36页 |
§4-4 实验过程与结果分析 | 第36-42页 |
§4-5 小结 | 第42-43页 |
第五章 总结与展望 | 第43-45页 |
§5-1 本文所作工作的总结 | 第43页 |
§5-2 未来工作展望 | 第43-45页 |
参考文献 | 第45-49页 |
致谢 | 第49页 |