首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于数据仓库的数据清洗方法研究

目录第1-5页
摘要第5-6页
Abstract第6-8页
第一章 绪论第8-11页
   ·研究背景第8-10页
   ·论文的研究内容第10页
   ·论文组织第10-11页
第二章 相关工作第11-29页
   ·记录匹配算法第11-17页
     ·编辑距离(Edit Distance)第12-13页
     ·文本相似度度量(Text Similarity Measure)函数第13页
     ·基于N-gram的字符串匹配算法第13-15页
     ·Cosine相似度(Cosine Similarity)函数第15-16页
     ·记录匹配算法比较第16-17页
   ·消除相似重复记录的策略第17-25页
     ·SNM(Sorted Neighborhood Method)方法第17-20页
     ·优先队列算法第20-23页
     ·Delphi算法第23-25页
   ·清洗结果的评价标准第25-26页
   ·数据清洗工具第26-27页
     ·特定的清洗工具第26-27页
     ·ETL工具第27页
   ·本章小结第27-29页
第三章 基于RDBMS的记录匹配方法第29-40页
   ·基本术语和定义第29-30页
     ·标记(token)和标记划分方法第29页
     ·记录的权重向量第29-30页
     ·记录的文本相似度和相似重复记录的定义第30页
   ·Cosine相似度在RDBMS中的实现第30-32页
     ·记录权重向量第30-32页
     ·记录匹配的实现第32页
   ·基于SNM算法的改进方法第32-38页
     ·数据预处理第33-36页
     ·在RDBMS中的实现SNM第36-38页
   ·实验分析第38-39页
   ·本章小结第39-40页
第四章 消除数据仓库中相似重复记录的方法第40-59页
   ·数据仓库中的数据清洗问题概述第40-43页
     ·数据仓库中数据清洗的组成第40页
     ·数据质量问题分类第40-41页
     ·清洗实例数据第41-43页
   ·探测和消除数据仓库中相似重复记录的特点第43-44页
   ·消除星型模式中相似重复记录的方法第44-50页
     ·概念和定义第45-46页
     ·消除星型模式中相似重复记录的实现第46-50页
   ·消除雪花模式中相似重复记录的方法第50-57页
     ·概念和定义第50-53页
     ·消除雪花模式中相似重复记录的实现第53-57页
   ·实验分析第57-58页
   ·本章小结第58-59页
第五章 未来工作展望第59-60页
参考文献第60-63页
致谢第63-64页
附录 文章与项目第64-66页

论文共66页,点击 下载论文
上一篇:尚力精神与体育教学
下一篇:智顗禅学探微