首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于聚类模式的数据清洗技术

中文摘要第5-7页
英文摘要第7页
第一章 绪论第10-18页
    1.1 引言第10-11页
    1.2 数据清洗研究的主要领域第11-13页
        1.2.1 数据仓库中的数据清洗第11-13页
        1.2.2 知识发现过程中的数据清洗第13页
        1.2.3 数据质量管理系统中的数据清洗第13页
    1.3 数据清洗研究的现状第13-15页
        1.3.1 当前纠正数据错误的研究状况第13-15页
        1.3.2 数据清洗中数据源整合的相关工作第15页
    1.4 当前数据清洗方法存在的问题第15-16页
    1.5 本文的研究内容及组织结构第16-18页
        1.5.1 研究内容第16-17页
        1.5.2 论文内容安排第17-18页
第二章 数据清洗前的预处理第18-24页
    2.1 引言第18页
    2.2 清除脏数据和标准化简写第18-22页
        2.2.1 清除脏数据第19-21页
        2.2.2 缩写标准化的处理第21-22页
    2.3 数据的转换第22-23页
    2.4 小结第23-24页
第三章 基于聚类的多数据表记录匹配算法第24-44页
    3.1 引言第24-25页
    3.2 键值的选取第25-26页
    3.3 记录的匹配算法第26-31页
        3.3.1 记录匹配的相关工作第27-28页
        3.3.2 所用的聚类技术第28-29页
        3.3.3 创建Canopy的步骤第29-31页
    3.4 多表记录匹配的算法第31-40页
        3.4.1 一对一的多表匹配算法第33-37页
        3.4.2 一对多与多对多匹配的算法第37-40页
    3.5 算法的复杂度分析第40-41页
    3.6 实验结果与分析第41-43页
    3.7 小结第43-44页
第四章 基于聚类的复制记录删除算法第44-56页
    4.1 引言第44-45页
    4.2 检测复制记录的算法第45-50页
    4.3 删除复制记录第50页
    4.4 算法的优化和可扩展性第50-51页
    4.5 算法的复杂度分析第51-52页
    4.6 实验结果及分析第52-55页
        4.6.1 准确性的量度与阈值选择的相互验证第52-53页
        4.6.2 实验结果第53-55页
    4.7 小结第55-56页
第五章 总结及进一步工作第56-58页
    5.1 全文总结第56-57页
    5.2 进一步工作第57-58页
致谢第58-59页
参考文献第59-63页
附录A:作者简历第63页

论文共63页,点击 下载论文
上一篇:中国老年人再就业影响因素研究--基于CHARLS数据实证分析
下一篇:我国特殊教育学校教育质量评价体系研究