摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
符号对照表 | 第12-13页 |
缩略语对照表 | 第13-16页 |
第一章 绪论 | 第16-22页 |
1.1 研究背景 | 第16-17页 |
1.2 课题来源及意义 | 第17-18页 |
1.3 国内外研究现状 | 第18-19页 |
1.4 课题研究内容和组织结构 | 第19-22页 |
1.4.1 本论文的主要工作 | 第19-20页 |
1.4.2 本文组织结构 | 第20-22页 |
第二章 数据质量及“科技云”平台概述 | 第22-34页 |
2.1 数据质量概述 | 第22-25页 |
2.1.1 数据质量的定义 | 第22-23页 |
2.1.2 数据质量的影响因素 | 第23-25页 |
2.1.3 数据质量的评估维度 | 第25页 |
2.2 “科技云”平台简述 | 第25-28页 |
2.2.1 “科技云”平台概述 | 第26-27页 |
2.2.2 “科技云”平台配置 | 第27-28页 |
2.3 “科技云”数据资源 | 第28-32页 |
2.3.1 数据资源介绍 | 第28-31页 |
2.3.2 数据业务流程 | 第31-32页 |
2.4 本章小结 | 第32-34页 |
第三章 “科技云”数据预处理及质量评估 | 第34-56页 |
3.1 “科技云”数据预处理 | 第34-43页 |
3.1.1 数据采集 | 第34-37页 |
3.1.2 数据分类 | 第37-38页 |
3.1.3 特征提取 | 第38-42页 |
3.1.4 相似性判定 | 第42-43页 |
3.2 “科技云”数据质量评估 | 第43-47页 |
3.2.1 数据质量评估方法 | 第43-44页 |
3.2.2 数据质量评价指标 | 第44-47页 |
3.3 “科技云”数据清洗 | 第47-54页 |
3.3.1 数据清洗概述 | 第48-52页 |
3.3.2 数据清洗流程 | 第52-54页 |
3.4 本章小结 | 第54-56页 |
第四章 “科技云”中数据冗余及缺失值的验证及处理 | 第56-76页 |
4.1 重复缺失数据概述 | 第56-58页 |
4.2 完全重复数据验证方法 | 第58-61页 |
4.2.1 属性相关度验证 | 第58页 |
4.2.2 皮尔逊2c 验证 | 第58-59页 |
4.2.3 重复地址验证 | 第59-61页 |
4.3 基于动态规划算法的信息缩写重复数据验证及处理 | 第61-67页 |
4.3.1 编辑距离 | 第61-63页 |
4.3.2 动态规划算法的缩写发现 | 第63-66页 |
4.3.3 图-聚类法去除重复信息 | 第66-67页 |
4.4 基于最近邻插补法和关联规则的数据缺失验证及处理 | 第67-74页 |
4.4.1 缺失属性数据表 | 第67-68页 |
4.4.2 关联规则算法 | 第68-71页 |
4.4.3 最近邻插值法与关联规则处理缺失值 | 第71-74页 |
4.5 本章小结 | 第74-76页 |
第五章 “科技云”数据验证及分析 | 第76-84页 |
5.1 数据应用实例概述 | 第76-78页 |
5.1.1 实例属性分析 | 第76-77页 |
5.1.2 实例具体展现 | 第77-78页 |
5.2 实验结果及分析 | 第78-83页 |
5.3 本章小结 | 第83-84页 |
第六章 总结与展望 | 第84-86页 |
6.1 本文总结 | 第84-85页 |
6.2 未来展望 | 第85-86页 |
参考文献 | 第86-88页 |
致谢 | 第88-90页 |
作者简介 | 第90-91页 |