首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于主动学习的半结构化数据清洗技术研究

摘要第4-5页
Abstract第5-6页
第1章 绪论第9-17页
    1.1 课题背景及研究意义第9-10页
    1.2 相关工作的研究现状第10-13页
        1.2.1 数据清洗技术研究现状第10-12页
        1.2.2 半结构化数据解析技术第12-13页
    1.3 本文主要工作内容第13-15页
    1.4 论文组织结构第15-17页
第2章 多类型文件并行解析方法第17-25页
    2.1 关键技术第17-20页
        2.1.1 消息队列第17-18页
        2.1.2 线程池第18-19页
        2.1.3 缓冲机制第19-20页
    2.2 基于双缓冲队列的文件并行解析方法第20-21页
    2.3 实验结果与分析第21-24页
    2.4 本章小结第24-25页
第3章 基于正则表达式的数据属性识别与结构化第25-34页
    3.1 数据存储结构分析第25-26页
        3.1.1 结构化与非结构化数据第25-26页
        3.1.2 半结构化数据第26页
    3.2 基于正则表达式的属性集识别第26-28页
    3.3 基于行列统计的数据规格化方法第28-30页
    3.4 实验结果与分析第30-33页
    3.5 本章小结第33-34页
第4章 基于主动学习的属性识别方法第34-49页
    4.1 问题形式化描述第35页
    4.2 分类器模型的构建第35-39页
        4.2.1 属性特征提取第35-37页
        4.2.2 C4.5 分类器的构建第37-39页
    4.3 基于主动学习的模型优化第39-44页
        4.3.1 基于委员会的主动学习算法(QBC)第39-40页
        4.3.2 基于后验概率的主动学习算法(MS)第40-41页
        4.3.3 算法对比分析第41-42页
        4.3.4 基于投票机制的不确定性采样方法第42-44页
    4.4 实验结果与分析第44-47页
    4.5 本章小结第47-49页
第5章 半结构化数据清洗系统的设计与实现第49-67页
    5.1 系统架构第49-51页
    5.2 功能模块设计与实现第51-63页
        5.2.1 多种格式文件解析模块的设计与实现第51-55页
        5.2.2 数据解析模块的设计与实现第55-58页
        5.2.3 主动学习模块的设计与实现第58-63页
    5.3 系统展示与分析第63-67页
结论第67-69页
参考文献第69-73页
攻读硕士学位期间发表的学术论文及其他成果第73-75页
致谢第75页

论文共75页,点击 下载论文
上一篇:基于深度学习的对话系统主题分配技术研究
下一篇:多元话题竞争传播建模与预测