摘要 | 第1-6页 |
ABSTRACT | 第6-8页 |
目录 | 第8-10页 |
第一章 绪论 | 第10-21页 |
一 引言 | 第10页 |
二 重要概念及应用现状 | 第10-16页 |
三 数据清洗的问题 | 第16-19页 |
四 本文研究的内容 | 第19-21页 |
第二章 数据清洗的途径 | 第21-26页 |
一 数据分析 | 第21-22页 |
二 定义数据转换规则 | 第22-23页 |
三 冲突解决 | 第23-25页 |
四 现有的工具 | 第25-26页 |
第三章 人工智能方法的应用 | 第26-31页 |
一 机器学习 | 第26-27页 |
二 贝叶斯学习 | 第27-29页 |
三 学习分类文本 | 第29-30页 |
四 在数据清洗中应用文本分类 | 第30-31页 |
第四章 CATT 主题及其数据质量问题 | 第31-36页 |
一 CATT 主题背景 | 第31-32页 |
二 CATT 主题的数据源和数据质量问题 | 第32-33页 |
三 CATT 数据清洗方案目标 | 第33-36页 |
第五章 CATT 中清洗架构和人工智能方法的应用 | 第36-51页 |
一 CATT 的数据特点及清洗的方法 | 第36-41页 |
二 针对desired_location 字段的人工智能清洗方法 | 第41-44页 |
三 CATT 主题数据清洗方案元数据模型 | 第44-48页 |
四 CATT 数据清洗方案的整体实现 | 第48-51页 |
第六章 CATT 数据清洗方案的试验论证及结论 | 第51-54页 |
一 正确性评估 | 第51-52页 |
二 效率评估 | 第52页 |
三 主要结论 | 第52-53页 |
四 进一步研究方向 | 第53-54页 |
参考文献 | 第54-55页 |
致谢 | 第55-56页 |
攻读硕士学位期间发表的论文 | 第56-57页 |
上海交通大学学位论文原创性声明 | 第57-58页 |
上海交通大学学位论文版权使用授权书 | 第58页 |