首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于视觉信息与DOM树的Deep Web数据获取方法研究

摘要第4-5页
Abstract第5-6页
图表目录第10-12页
第一章 引言第12-17页
    1.1 研究背景及意义第12-13页
    1.2 Deep Web 研究现状第13-14页
    1.3 困难与挑战第14-15页
    1.4 研究内容第15-16页
    1.5 论文结构与安排第16-17页
第二章 Deep Web 数据获取技术概述第17-26页
    2.1 数据集成框架概述第17-18页
    2.2 Deep Web 数据提取研究概述第18-19页
    2.3 信息抽取方法与典型系统介绍第19-22页
    2.4 Web 信息抽取主要相关技术第22-24页
        2.4.1 DOM 树模型第22-23页
        2.4.2 VIPS 算法第23-24页
    2.5 Web 信息抽取系统的评价标准第24-25页
    2.6 本章小结第25-26页
第三章 Deep Web 数据提取方法第26-42页
    3.1 难点分析第26-27页
    3.2 问题定义第27-29页
        3.2.1 Web 数据库模型第27页
        3.2.2 相关定义第27-28页
        3.2.3 接口属性分类第28-29页
    3.3 多属性接口数据提取第29-35页
        3.3.1 数据空间树模型构建第29-31页
        3.3.2 空间树优化剪枝第31-32页
        3.3.3 Heuristic-DFS 算法描述第32-33页
        3.3.4 查询代价定义第33-34页
        3.3.5 树模型代价分析第34-35页
    3.4 文本域关键词选择策略第35-37页
        3.4.1 符号定义第35-36页
        3.4.2 关键词选择算法第36-37页
    3.5 实验结果及分析第37-41页
        3.5.1 实验设置第37-38页
        3.5.2 实验分析第38-41页
    3.6 本章小结第41-42页
第四章 结果页数据记录抽取第42-61页
    4.1 难点分析第42页
    4.2 相关定义第42-43页
    4.3 页面视觉信息第43-47页
        4.3.1 Web 页面布局第43-44页
        4.3.2 Deep Web 页面视觉特征第44-46页
        4.3.3 辅助非视觉信息第46-47页
    4.4 列表数据区域挖掘第47-50页
        4.4.1 主数据区域特征第47-48页
        4.4.2 基于 DOM 树遍历的 CMDR 算法第48-49页
        4.4.3 特征量化线性加权定位算法第49-50页
    4.5 数据记录抽取第50-56页
        4.5.1 DOM 树启发式规则第50-52页
        4.5.2 叶子节点块聚类重组合第52-55页
        4.5.3 数据项值清洗第55-56页
    4.6 基于 DOM 标签路径构建包装器第56-57页
    4.7 实验数据集及结果分析第57-60页
        4.7.1 实验数据集第57-58页
        4.7.2 实验对比第58页
        4.7.3 实验结果分析第58-60页
    4.8 本章小结第60-61页
第五章 原型系统设计第61-67页
    5.1 系统基本架构与流程第61-62页
    5.2 核心模块详细设计第62-66页
        5.2.1 数据提取模块第62-64页
        5.2.2 数据区域定位模块第64-65页
        5.2.3 数据记录抽取模块第65-66页
    5.3 本章小结第66-67页
第六章 总结与展望第67-69页
    6.1 本文总结第67页
    6.2 工作展望第67-69页
参考文献第69-75页
攻读学位期间公开发表的论文及参与科研项目第75-76页
致谢第76-77页

论文共77页,点击 下载论文
上一篇:基于变换域的鲁棒水印算法研究
下一篇:金融物流质押监管系统的设计与实现