基于域的中文数据清理系统分析与设计
摘要 | 第1-4页 |
ABSTRACT | 第4-7页 |
第一章 引言 | 第7-15页 |
·问题的背景 | 第7-9页 |
·相关概念或描述 | 第9-11页 |
·数据清洗 | 第9-10页 |
·脏数据 | 第10-11页 |
·国内外研究现状 | 第11-13页 |
·国外数据清洗技术的研究与应用现状 | 第11-12页 |
·国内相关研究现状 | 第12-13页 |
·研究意义 | 第13页 |
·本文的研究内容和创新点 | 第13-14页 |
·研究内容 | 第13-14页 |
·创新点 | 第14页 |
·技术路线 | 第14-15页 |
第二章 基于域的中文数据清洗系统框架构建 | 第15-18页 |
·传统的数据清洗方法与步骤 | 第15-16页 |
·数据清洗的方法 | 第15页 |
·数据清洗的步骤 | 第15-16页 |
·域的引入 | 第16-17页 |
·域的概念 | 第16页 |
·域对数据清洗系统的作用 | 第16-17页 |
·基于域的数据清洗系统总体结构 | 第17-18页 |
第三章 基于域的数据清洗系统主要模块功能设计 | 第18-28页 |
·基于域的数据拆分与错误定义 | 第18-21页 |
·域分类与拆分 | 第18页 |
·域的验证规则 | 第18-19页 |
·域内含信息的提取 | 第19页 |
·域之间关联验证及提升 | 第19-20页 |
·域内含信息及关联关系图 | 第20-21页 |
·重复记录的识别与处理 | 第21-24页 |
·字符串匹算法 | 第21-22页 |
·重复记录检测 | 第22-23页 |
·基于域的数据查重方法 | 第23-24页 |
·数据提升及空值、异常数据的处理 | 第24页 |
·数据检测及分析报告 | 第24-28页 |
·输入数据分析报告 | 第25-26页 |
·数据清洗结果报告 | 第26-27页 |
·抽样记录对比报告 | 第27-28页 |
第四章 基于域知识树的字段拆分方法 | 第28-37页 |
·操作流程设计 | 第28页 |
·字段拆分所采用的特殊方法 | 第28-37页 |
·参照知识库的字符串识别方式 | 第28-29页 |
·B‐树结构的数据检索 | 第29-31页 |
·本系统中二叉 B‐树的使用过程 | 第31-32页 |
·知识树的构造平衡算法 | 第32-37页 |
第五章 结论 | 第37-38页 |
参考文献 | 第38-40页 |
个人简介 | 第40-41页 |
导师简介 | 第41-42页 |
获得成果目录清单 | 第42-43页 |
致谢 | 第43页 |