基于域的中文数据清理系统分析与设计
| 摘要 | 第1-4页 |
| ABSTRACT | 第4-7页 |
| 第一章 引言 | 第7-15页 |
| ·问题的背景 | 第7-9页 |
| ·相关概念或描述 | 第9-11页 |
| ·数据清洗 | 第9-10页 |
| ·脏数据 | 第10-11页 |
| ·国内外研究现状 | 第11-13页 |
| ·国外数据清洗技术的研究与应用现状 | 第11-12页 |
| ·国内相关研究现状 | 第12-13页 |
| ·研究意义 | 第13页 |
| ·本文的研究内容和创新点 | 第13-14页 |
| ·研究内容 | 第13-14页 |
| ·创新点 | 第14页 |
| ·技术路线 | 第14-15页 |
| 第二章 基于域的中文数据清洗系统框架构建 | 第15-18页 |
| ·传统的数据清洗方法与步骤 | 第15-16页 |
| ·数据清洗的方法 | 第15页 |
| ·数据清洗的步骤 | 第15-16页 |
| ·域的引入 | 第16-17页 |
| ·域的概念 | 第16页 |
| ·域对数据清洗系统的作用 | 第16-17页 |
| ·基于域的数据清洗系统总体结构 | 第17-18页 |
| 第三章 基于域的数据清洗系统主要模块功能设计 | 第18-28页 |
| ·基于域的数据拆分与错误定义 | 第18-21页 |
| ·域分类与拆分 | 第18页 |
| ·域的验证规则 | 第18-19页 |
| ·域内含信息的提取 | 第19页 |
| ·域之间关联验证及提升 | 第19-20页 |
| ·域内含信息及关联关系图 | 第20-21页 |
| ·重复记录的识别与处理 | 第21-24页 |
| ·字符串匹算法 | 第21-22页 |
| ·重复记录检测 | 第22-23页 |
| ·基于域的数据查重方法 | 第23-24页 |
| ·数据提升及空值、异常数据的处理 | 第24页 |
| ·数据检测及分析报告 | 第24-28页 |
| ·输入数据分析报告 | 第25-26页 |
| ·数据清洗结果报告 | 第26-27页 |
| ·抽样记录对比报告 | 第27-28页 |
| 第四章 基于域知识树的字段拆分方法 | 第28-37页 |
| ·操作流程设计 | 第28页 |
| ·字段拆分所采用的特殊方法 | 第28-37页 |
| ·参照知识库的字符串识别方式 | 第28-29页 |
| ·B‐树结构的数据检索 | 第29-31页 |
| ·本系统中二叉 B‐树的使用过程 | 第31-32页 |
| ·知识树的构造平衡算法 | 第32-37页 |
| 第五章 结论 | 第37-38页 |
| 参考文献 | 第38-40页 |
| 个人简介 | 第40-41页 |
| 导师简介 | 第41-42页 |
| 获得成果目录清单 | 第42-43页 |
| 致谢 | 第43页 |