CRM系统中客户信息清洗的设计与实现

摘要	第4-6页
ABSTRACT	第6-7页
第1章绪论	第10-16页
1.1 本选题提出的背景	第10-11页
1.2 数据清洗在国外的基本现状分析	第11-14页
1.3 本课题的工作	第14页
1.4 论文的组织结构	第14-16页
第2章数据清洗方案	第16-38页
2.1 数据质量问题	第16-19页
2.2 数据清洗	第19页
2.3 元数据	第19-21页
2.3.1 元数据的相关概念与特征分析	第20页
2.3.2 元数据的分类	第20-21页
2.4 数据清洗中元数据的处理方式	第21-25页
2.4.1 数据源的元数据	第22-23页
2.4.2 清洗规则元数据	第23-25页
2.5 数据清洗过程	第25-31页
2.5.1 数据清洗的相关原理分析	第25-26页
2.5.2 数据清洗环节分析	第26-30页
2.5.3 数据清洗规程中的常规流程介绍	第30-31页
2.6 数据清洗的相关策略分析	第31-32页
2.7 数据清洗解决方案	第32-36页
2.7.1 混合清洗策略介绍	第32-34页
2.7.2 混合清洗步骤介绍	第34-36页
2.7.3 对象规约	第36页
2.8 本章小结	第36-38页
第3章基于ETL的混合清洗的实现	第38-50页
3.1 基于领域知识的客户信息的确定	第38-40页
3.2 数据清洗规则概述	第40-46页
3.3 预处理	第46-47页
3.4 属性清洗	第47-48页
3.5 本章小结	第48-50页
第4章基于中文单位信息重复记录的清洗	第50-70页
4.1 单位名称构成的分析	第50-54页
4.1.1 综述中文单位名称组成结构的研究成果	第50-51页
4.1.2 形式化描述中文企业名简称问题	第51-54页
4.2 基于特征字符的地址的分词方法	第54页
4.3 相似重复记录概述	第54-55页
4.4 重复记录清洗的基本方法	第55-56页
4.5 单位信息的清洗	第56-63页
4.5.1 构建单位相关信息的元数据	第57-58页
4.5.2 单位地址信息的标准化及拆分处理	第58-61页
4.5.3 单位名称的标准化及拆分处理	第61-63页
4.6 记录相似性度量	第63-64页
4.7 重复数据的聚类	第64-67页
4.7.1 多趟近邻排序算法MPN	第65页
4.7.2 优先队列算法	第65-66页
4.7.3 改进的优先队列算法	第66-67页
4.8 本章小结	第67-70页
第5章清洗的实现	第70-76页
5.1 环境准备	第70页
5.1.1 服务器配置	第70页
5.1.2 数据清理客户机	第70页
5.2 网络环境	第70-71页
5.3 数据清洗系统准备	第71-74页
5.3.1 创建数据清洗相关的数据库表	第71页
5.3.2 装载测试数据	第71页
5.3.3 配置环境变量	第71-74页
5.4 数据清洗结果	第74页
5.5 本章小结	第74-76页
结论	第76-78页
参考文献	第78-82页
致谢	第82页