首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

Deep Web数据抽取及精炼方法研究

中文摘要第4-6页
Abstract第6-7页
图目录第11-12页
表目录第12-13页
第1章 绪论第13-32页
    1.1 研究背景及意义第13-14页
    1.2 国内外研究动态第14-25页
        1.2.1 数据记录抽取技术第14-17页
        1.2.2 数据的主题概念抽取技术第17-20页
        1.2.3 重复记录检测技术第20-23页
        1.2.4 数据冲突消解技术第23-25页
    1.3 Deep Web 数据抽取及精炼面临的问题第25-28页
    1.4 研究内容及贡献第28-30页
    1.5 本文组织结构第30-32页
第2章 基于 Markov 逻辑网的通用数据记录抽取建模第32-55页
    2.1 引言第32-33页
    2.2 Deep Web 数据记录抽取相关概念定义第33-37页
        2.2.1 特殊类型数据定义第33-34页
        2.2.2 结果页面多级分类第34-35页
        2.2.3 Markov 逻辑网第35-37页
    2.3 DR-MLNs 模型第37-39页
    2.4 视觉处理模块第39-42页
        2.4.1 基于视觉特征的网页结构描述第40-41页
        2.4.2 基于 VIPS 算法的 Vision 树构建第41-42页
    2.5 多层次页面分类与特征抽取第42-45页
        2.5.1 Vision 树块特征第42-43页
        2.5.2 query 谓词与 evidence 谓词第43-45页
    2.6 推理公式第45-47页
    2.7 实验第47-54页
        2.7.1 实验数据集第47-48页
        2.7.2 实验评价标准第48页
        2.7.3 实验设置第48-49页
        2.7.4 测试与结果分析第49-54页
    2.8 本章小结第54-55页
第3章 基于实体主题分布的数据概念抽取建模第55-75页
    3.1 引言第55-57页
    3.2 几种主题模型简介第57-60页
        3.2.0 LDA(Latent Dirichlet Allocation)模型第57-58页
        3.2.1 Link-LDA 模型和 Link-PLSA-LDA 模型第58-59页
        3.2.2 Author Model 模型和 Author Topic Model 模型第59-60页
    3.3 实体主题模型的定义和描述第60-62页
    3.4 实体主题模型的生成过程第62-68页
        3.4.1 实体主题的图模型介绍第62-64页
        3.4.2 模型学习与推理第64-68页
    3.5 实验第68-74页
        3.5.1 实验数据集第68页
        3.5.2 Baseline 方法选择、参数设置及评价指标第68-69页
        3.5.3 测试与结果分析第69-74页
    3.6 本章小结第74-75页
第4章 基于主动迁移学习的重复记录检测及精炼第75-97页
    4.1 引言第75-77页
    4.2 多源 Deep Web 重复记录检测的问题描述第77-79页
        4.2.1 问题定义第77-79页
    4.3 预备知识第79-80页
        4.3.1 重复记录检测的基本流程第79页
        4.3.2 数据预处理第79-80页
        4.3.3 相似度计算方法第80页
    4.4 多源主动迁移学习的重复记录检测第80-81页
    4.5 多源主动迁移学习算法模型第81-87页
        4.5.1 基本标记符号第81-82页
        4.5.2 多源实体解析主动采样策略第82页
        4.5.3 基于迁移学习模型的线性分类器第82-85页
        4.5.4 多数据源主动学习第85-87页
    4.6 实验第87-96页
        4.6.1 实验数据集第87-88页
        4.6.2 基本的评价指标第88-89页
        4.6.3 主要对比算法介绍第89页
        4.6.4 实验与结果分析第89-96页
    4.7 本章小结第96-97页
第5章 利用时态数据评估数据源可信度的真值精炼策略第97-117页
    5.1 引言第97-99页
    5.2 问题描述与定义第99-100页
    5.3 时间弱化系数的作用第100-106页
        5.3.1 时间弱化系数定义第100-101页
        5.3.2 弱化系数的学习第101-105页
        5.3.3 基于弱化系数的相似度计算第105-106页
    5.4 基于数据源可信度的真值精炼策略第106-111页
        5.4.1 模型描述第106页
        5.4.2 基于数据源可信度的真值聚类第106-111页
    5.5 实验第111-116页
        5.5.1 实验数据集第111页
        5.5.2 Baseline 方法选择、参数设置及评价指标第111-112页
        5.5.3 测试与结果分析第112-116页
    5.6 本章小结第116-117页
第6章 总结与展望第117-120页
    6.1 本文总结第117-119页
    6.2 下一步的工作第119-120页
参考文献第120-132页
攻读博士学位期间相关的科研情况第132-134页
攻读博士学位期间发表的相关论文第134-135页
致谢第135-136页

论文共136页,点击 下载论文
上一篇:自噬在造血系统中的辐照保护作用
下一篇:碲化镉和硅量子点在家蚕体内的转运及毒性研究