首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

数据预处理系统的几个关键技术研究与实现

致谢第1-6页
中文摘要第6-7页
ABSTRACT第7-8页
目录第8-10页
1 绪论第10-13页
   ·研究背景和意义第10-11页
   ·本文研究的主要内容第11-12页
   ·论文组织结构第12-13页
2 数据预处理概述第13-16页
   ·数据清理第13页
   ·数据集成第13-14页
   ·数据变换第14-15页
   ·数据约简第15-16页
3 数据预处理系统概述第16-25页
   ·系统的构架概述第16-20页
     ·预处理功能架构和需求分析概述第17页
     ·数据格式转化子系统第17-18页
     ·预处理算法子系统已实现部分第18-20页
   ·属性选择第20-23页
     ·单属性选择第21页
     ·属性子集选择第21-23页
   ·属性变换第23-25页
4 基于XML的数据格式的设计与实现第25-40页
   ·数据集合的XML描述第25-27页
     ·可扩展标记语言XML第25-26页
     ·数据集合的DTD描述第26-27页
   ·基于XML模式定义的数据格式第27-29页
     ·XML模式定义的元素第27-29页
     ·XML模式定义的约束第29页
   ·一个完整的XML模式定义的文件第29-34页
     ·根元素第30页
     ·文件头部分第30-32页
     ·文件数据部分第32-34页
   ·XML的解析器第34-36页
   ·大数据量的分批处理第36-40页
     ·估算一条实例所占内存第36-37页
     ·分批处理过程第37页
     ·分批处理方法的有效性验证实验结果第37-40页
5 相似性度量算法的研究第40-53页
   ·基于标记的相似性度量第40-44页
     ·基于Jaccard系数的相似性度量第40-42页
     ·余弦相似性度量第42-43页
     ·基于q-grams的相似性度量第43-44页
   ·基于编辑的相似性度量第44-46页
     ·编辑距离度量第44-45页
     ·Jaro和Jaro-Winkler距离第45-46页
   ·复合方程第46-48页
     ·Jaccard相似性度量的扩展第46-47页
     ·Monge-Elkan度量第47页
     ·SOFTTF/IDF第47-48页
   ·数值型数据的相似性度量第48-53页
     ·一种扩展的余弦相似度度量算法第49-50页
     ·实验结果第50-53页
6 离散化算法的研究第53-61页
   ·离散化算法第53-54页
   ·一种基于相似性度量的多区间离散化方法第54-61页
     ·信息论中的几个基础概念第54-56页
     ·对基于信息熵离散化算法的分析第56-57页
     ·一种基于相似性度量的离散化算法第57-58页
     ·实验结果第58-61页
7 结论第61-63页
   ·本文工作总结第61-62页
   ·进一步工作展望第62-63页
参考文献第63-66页
作者简历第66-68页
学位论文数据集第68页

论文共68页,点击 下载论文
上一篇:基于TAMIC平台的核心小企业信贷系统的设计与实现
下一篇:基于阵列的频繁模式挖掘算法研究