首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

网络信息自动化高效抽取技术研究

摘要第4-6页
ABSTRACT第6-7页
第1章 绪论第14-33页
    1.1 研究背景和意义第14-16页
    1.2 网络信息抽取的相关概念第16-21页
        1.2.1 HTML网页与DOM树第16-17页
        1.2.2 树匹配与标签路径第17-21页
    1.3 网络信息抽取的研究现状第21-28页
        1.3.1 相关工作分类第22页
        1.3.2 人工化方法第22-23页
        1.3.3 半自动化方法第23-24页
        1.3.4 全自动化方法第24-26页
        1.3.5 综合对比与总结第26-28页
    1.4 论文主要研究内容第28-33页
        1.4.1 问题定义第28-31页
        1.4.2 研究综述第31-33页
第2章 基于锚点树的数据记录抽取方法第33-68页
    2.1 引言第33-37页
    2.2 MiBAT综述第37-42页
    2.3 基于枚举子树的锚点树寻找方法第42-48页
        2.3.1 树结构相似度检测准则第42-44页
        2.3.2 基于枚举子树的锚点树寻找算法第44-47页
        2.3.3 时间复杂度分析第47-48页
    2.4 确定数据记录边界第48-53页
        2.4.1 数据记录边界的三种情形第48-50页
        2.4.2 数据记录边界确定算法第50-51页
        2.4.3 时间复杂度分析第51-53页
    2.5 论坛帖子抽取实验第53-64页
        2.5.1 数据集第53-54页
        2.5.2 主要区域选择第54-56页
        2.5.3 评测指标第56-57页
        2.5.4 基准方法第57-60页
        2.5.5 评测结果第60-63页
        2.5.6 实例分析第63-64页
    2.6 博客与点评网站的用户评论抽取实验第64-65页
    2.7 与监督学习方法的对比实验第65-67页
    2.8 本章小结第67-68页
第3章 锚点树的快速寻找方法第68-82页
    3.1 引言第68页
    3.2 基于标签路径聚集的锚点树寻找方法第68-75页
        3.2.1 基于标签路径聚集的锚点树寻找算法第69-70页
        3.2.2 时间复杂度分析第70-72页
        3.2.3 引入锚点的兄弟结点约束第72-75页
    3.3 两种锚点树寻找算法的比较第75-79页
        3.3.1 相似性衡量方法第75页
        3.3.2 算法过程和时间复杂度第75-76页
        3.3.3 锚点解释方法第76-78页
        3.3.4 MiBAT的整体时间复杂度第78-79页
    3.4 两种MiBAT方法的对比实验第79-81页
        3.4.1 运行效率对比第79-80页
        3.4.2 抽取准确度对比第80-81页
    3.5 本章小结第81-82页
第4章 通用锚点的检测方法第82-99页
    4.1 引言第82页
    4.2 通用锚点第82-91页
        4.2.1 通用锚点的定义第82-86页
        4.2.2 基于通用锚点的锚点树寻找方法第86-90页
        4.2.3 通用锚点与领域锚点的比较第90-91页
    4.3 实验第91-98页
        4.3.1 通用锚点的计算设置第91-92页
        4.3.2 两种锚点抽取效果对比第92-94页
        4.3.3 抽取搜索结果记录第94-97页
        4.3.4 基于实例比较MiBAT的不同变体方法第97-98页
    4.4 本章小结第98-99页
第5章 DOM树的快速匹配方法第99-111页
    5.1 引言第99页
    5.2 基于哈希标签路径第99-102页
        5.2.1 基于哈希标签路径的树匹配算法第100页
        5.2.2 时间复杂度分析第100页
        5.2.3 匹配结果分析第100-102页
    5.3 基于标签路径序列最长公共子列第102-105页
        5.3.1 基于标签路径序列最长公共子列的树匹配算法第103-104页
        5.3.2 时间复杂度分析第104页
        5.3.3 匹配结果分析第104-105页
    5.4 实验第105-110页
        5.4.1 实验设置第105-106页
        5.4.2 算法运行效率对比第106-107页
        5.4.3 树匹配准确度对比第107-109页
        5.4.4 数据单元对齐准确度对比第109-110页
    5.5 本章小结第110-111页
结论第111-113页
参考文献第113-124页
攻读博士学位期间发表的论文及其他成果第124-126页
致谢第126-127页
个人简历第127页

论文共127页,点击 下载论文
上一篇:某型飞机飞行控制系统训练模拟器设计
下一篇:磨矿过程序贯模块仿真方法中的迭代收敛算法及软件实现