首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

精确Web信息抽取关键技术与系统研究

摘要第4-6页
ABSTRACT第6-8页
第一章 绪论第18-33页
    1.1 研究背景第18-22页
        1.1.1 Web信息抽取技术概述第18-20页
        1.1.2 精确Web信息抽取的基本处理过程与主要问题第20-21页
        1.1.3 Web信息抽取的主要技术方法第21-22页
    1.2 相关工作第22-29页
        1.2.1 基于自动化程度的方法分类第24-27页
        1.2.2 基于信息抽取层次的方法分类第27页
        1.2.3 基于数据记录类型的方法分类第27-28页
        1.2.4 基于Web信息抽取处理阶段的方法分类第28-29页
    1.3 现有方法的主要不足第29-30页
    1.4 本文主要工作与创新点第30-32页
        1.4.1 本文主要研究工作第30-31页
        1.4.2 本文主要贡献和创新点第31-32页
    1.5 本文组织结构第32-33页
第二章 精确Web信息抽取基本模型研究第33-45页
    2.1 Web网页的基本组成和网页表示第33-35页
    2.2 三阶段一体化精确Web信息抽取基本过程与模型第35页
    2.3 自动化网页浏览导航模型第35-38页
        2.3.1 用户交互和浏览导航动作模型第36-37页
        2.3.2 网页浏览导航路径模型第37页
        2.3.3 网页链接关系模型第37-38页
    2.4 精确网页数据抽取模型第38-43页
        2.4.1 网页数据抽取基本模型第38-39页
        2.4.2 网页数据记录模型第39-42页
        2.4.3 网页数据抽取处理过程第42页
        2.4.4 数据记录与数据项抽取规则模型第42-43页
    2.5 网页数据集成模型第43-44页
    2.6 本章小结第44-45页
第三章 精确Web信息抽取规则体系与语言第45-76页
    3.1 问题背景与基本思路第45-50页
        3.1.1 基本问题与研究现状第45-47页
        3.1.2 基本思路第47-49页
        3.1.3 本章组织结构第49-50页
    3.2 精确Web信息抽取规则体系与页面模型第50-51页
    3.3 精确Web信息抽取规则语言的设计第51-71页
        3.3.1 网页浏览导航规则语言第55-58页
        3.3.2 网页数据抽取规则语言第58-68页
        3.3.3 网页数据集成规则语言第68-71页
    3.4 精确Web信息抽取规则语言完整应用示例第71-75页
    3.5 本章小结第75-76页
第四章 基于内聚度和DAG的自动网页数据抽取方法第76-110页
    4.1 问题背景与基本方法第76-84页
        4.1.1 基本问题与研究现状第76-82页
        4.1.2 基本方法及其思路第82-83页
        4.1.3 数据记录抽取示例第83-84页
        4.1.4 本章组织结构第84页
    4.2 数据记录分析基础技术方法第84-88页
        4.2.1 节点相似度计算第84-86页
        4.2.2 相似节点聚类第86-87页
        4.2.3 数据块相似度计算与相似数据块聚类第87页
        4.2.4 内聚度计算第87-88页
    4.3 基于内聚度的自动数据记录识别方法第88-103页
        4.3.1 基本思想与基本算法第88-90页
        4.3.2 基于内聚度的相似连续数据块识别第90-94页
        4.3.3 基于分隔符的相似连续数据块识别第94-99页
        4.3.4 基于次序的相似连续数据块识别第99-102页
        4.3.5 基于首节点的相似连续数据块识别第102-103页
    4.4 基于DAG的数据项识别与对齐第103-108页
        4.4.1 基本方法与思路第103-105页
        4.4.2 两两节点序列对齐第105-106页
        4.4.3 基于DAG的全局节点对齐第106-108页
        4.4.4 数据项识别与对齐第108页
    4.5 本章小结第108-110页
第五章 基于确定性有穷自动机的自动网页数据抽取方法第110-150页
    5.1 问题背景与基本方法第110-114页
        5.1.1 基本方法及其思路第110-112页
        5.1.2 基于DFA的数据抽取示例第112-114页
        5.1.3 本章组织结构第114页
    5.2 基于DFA的相似连续数据块识别第114-139页
        5.2.1 基于DFA的树模式推导第115-131页
        5.2.2 基于树模式的相似连续数据块识别方法第131-139页
    5.3 基于结构与视觉特征的相似非连续数据块识别方法第139-143页
        5.3.1 可重组二维表的识别与重组方法第140-142页
        5.3.2 相似非连续数据块识别算法第142-143页
    5.4 数据记录识别以及数据项识别与对齐第143-145页
    5.5 实验第145-149页
        5.5.1 数据记录抽取实验第145-147页
        5.5.2 数据项抽取实验第147-149页
    5.6 本章小结第149-150页
第六章 精确Web信息抽取规则生成方法第150-189页
    6.1 问题背景与基本方法第150-153页
        6.1.1 基本问题与研究现状第150-151页
        6.1.2 基本方法及其思路第151-152页
        6.1.3 本章组织结构第152-153页
    6.2 基于决策树的XPath学习方法第153-160页
        6.2.1 基本思想方法第153-155页
        6.2.2 决策二维表的定义第155-158页
        6.2.3 基于特征的谓词生成方法第158-160页
    6.3 基于交互的半自动网页浏览导航规则生成方法第160-166页
        6.3.1 和节点元素的生成第161-162页
        6.3.2 节点元素的生成第162-163页
        6.3.3 浏览导航规则生成示例第163-166页
    6.4 网页数据抽取规则自动生成方法第166-183页
        6.4.1 基于自动化结构分析的数据抽取规则生成方法第168-181页
        6.4.2 基于交互的半自动数据抽取规则生成第181-183页
    6.5 网页数据集成规则生成方法第183-185页
        6.5.1 网页数据集成规则设计第183页
        6.5.2 多网页数据记录关系维护第183-184页
        6.5.3 流程控制规则第184-185页
    6.6 实验第185-187页
        6.6.1 数据记录抽取实验第185-186页
        6.6.2 数据项抽取实验第186-187页
    6.7 本章小结第187-189页
第七章 精确Web信息抽取系统的设计与实现第189-203页
    7.1 系统总体设计框架与思路第189-190页
    7.2 系统功能设计第190-191页
    7.3 系统实现第191-202页
        7.3.1 系统组成模块第191-192页
        7.3.2 系统界面设计第192-193页
        7.3.3 系统模块设计第193-202页
    7.4 本章小结第202-203页
第八章 总结与展望第203-206页
    8.1 总结第203-205页
    8.2 进一步工作展望第205-206页
参考文献第206-212页
致谢第212-214页
攻读博士期间参与的科研项目第214页
攻读博士期间发表的文章列表第214页
攻读博士期间申请的专利第214-215页
攻读博士期间登记的软件著作权第215-216页

论文共216页,点击 下载论文
上一篇:制冷型红外成像系统电路研究
下一篇:基于透镜阵列的数字三维集成成像重构