摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第1章 绪论 | 第9-18页 |
1.1 课题的研究目的和意义 | 第9-10页 |
1.2 国内外相关领域开发及应用现状分析 | 第10-15页 |
1.2.1 面向数据完整性的数据清洗研究 | 第11-12页 |
1.2.2 面向数据一致性的数据清洗研究 | 第12-13页 |
1.2.3 实体识别研究 | 第13-15页 |
1.3 论文主要研究内容 | 第15-16页 |
1.4 论文内容及结构 | 第16-18页 |
第2章 劣质数据对数据挖掘算法的影响 | 第18-70页 |
2.1 研究背景 | 第18-20页 |
2.2 实验设计 | 第20-22页 |
2.3 劣质数据对分类算法的具体影响 | 第22-39页 |
2.3.1 缺失值对分类算法的影响 | 第22-27页 |
2.3.2 不一致值对分类算法的影响 | 第27-33页 |
2.3.3 冲突值对分类算法的影响 | 第33-38页 |
2.3.4 分类算法实验结果讨论 | 第38-39页 |
2.4 劣质数据对聚类算法的具体影响 | 第39-56页 |
2.4.1 缺失值对聚类算法的影响 | 第39-45页 |
2.4.2 不一致值对聚类算法的影响 | 第45-50页 |
2.4.3 冲突值对聚类算法的影响 | 第50-55页 |
2.4.4 聚类算法实验结果讨论 | 第55-56页 |
2.5 劣质数据对回归算法的影响 | 第56-68页 |
2.5.1 缺失值对回归算法的影响 | 第56-57页 |
2.5.2 不一致值对回归算法的影响 | 第57-61页 |
2.5.3 冲突值对回归算法的影响 | 第61-67页 |
2.5.4 回归算法实验结果讨论 | 第67-68页 |
2.6 算法选择和数据清洗的建议 | 第68-69页 |
2.7 本章小结 | 第69-70页 |
第3章 知识库优化的众包数据清洗框架 | 第70-87页 |
3.1 研究背景 | 第70-72页 |
3.2 框架设计 | 第72-75页 |
3.2.1 劣质数据检测 | 第73页 |
3.2.2 模式挖掘 | 第73-74页 |
3.2.3 基于知识库的过滤器 | 第74页 |
3.2.4 众包值选择 | 第74页 |
3.2.5 众包清洗 | 第74-75页 |
3.3 基于知识库的过滤器算法 | 第75页 |
3.4 众包值选择算法 | 第75-80页 |
3.4.1 问题定义 | 第76-78页 |
3.4.2 解决方案 | 第78-80页 |
3.5 实验结果 | 第80-86页 |
3.5.1 众包值的约减 | 第81-82页 |
3.5.2 框架的准确性 | 第82-83页 |
3.5.3 与现有方法的比较 | 第83页 |
3.5.4 框架的轮数 | 第83-84页 |
3.5.5 知识库过滤器的效率 | 第84-85页 |
3.5.6 众包值选择问题的参数调整 | 第85-86页 |
3.6 本章小结 | 第86-87页 |
第4章 面向代价敏感决策树的按需清洗方法 | 第87-108页 |
4.1 研究背景 | 第87-89页 |
4.2 问题定义 | 第89-93页 |
4.2.1 决策树 | 第89-90页 |
4.2.2 误分类代价和测试代价 | 第90-92页 |
4.2.3 清洗代价 | 第92-93页 |
4.3 面向代价敏感决策树的按需清洗算法 | 第93-101页 |
4.3.1 基于分裂属性收益的分步按需清洗算法 | 第93-96页 |
4.3.2 基于分裂属性收益和清洗代价的一次性按需清洗算法 | 第96-98页 |
4.3.3 基于分裂属性收益和清洗代价的分步按需清洗算法 | 第98-101页 |
4.4 实验结果 | 第101-107页 |
4.4.1 分类任务产生的总代价 | 第102-105页 |
4.4.2 分类的准确率 | 第105-106页 |
4.4.3 分类的效率 | 第106-107页 |
4.5 本章小结 | 第107-108页 |
结论 | 第108-109页 |
参考文献 | 第109-116页 |
攻读学位期间发表的论文及研究成果 | 第116-118页 |
致谢 | 第118页 |