首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

精确web信息抽取系统的设计与实现

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第9-14页
    1.1 研究背景与意义第9-10页
    1.2 国内外研究现状第10-12页
    1.3 研究内容第12-13页
    1.4 本文组织结构安排第13-14页
第二章 相关概念、理论与关键技术第14-22页
    2.1 信息抽取相关概念第14-17页
        2.1.1 HTML & DOM第14-15页
        2.1.2 XML & XPath第15-16页
        2.1.3 正则表达式第16-17页
    2.2 爬虫技术第17-18页
    2.3 页面渲染引擎第18-19页
    2.4 信息检索模型第19-21页
        2.4.1 布尔模型第20页
        2.4.2 向量空间模型第20-21页
    2.5 本章小结第21-22页
第三章 精确WEB信息抽取系统的研究第22-31页
    3.1 精确WEB信息抽取模型第22-23页
    3.2 抽取规则与基于XML的抽取模版生成第23-26页
        3.2.1 基于用户交互的抽取信息定义及规则生成第24页
        3.2.2 模版引擎与抽取模版生成第24-26页
    3.3 抽取字段元素和导航元素类型研究第26-28页
    3.4 网页浏览导航模型第28-29页
    3.5 网页元素识别第29-30页
    3.6 本章小结第30-31页
第四章 精确WEB信息抽取系统的设计第31-42页
    4.1 系统设计目标第31页
    4.2 系统总体设计第31-34页
        4.2.1 系统处理流程第31-33页
        4.2.2 总体架构和模块设计第33-34页
    4.3 系统各功能模块的设计第34-35页
        4.3.1 网页数据识别与标注模块第34页
        4.3.2 抽取规则与模版生成模块第34页
        4.3.3 抽取任务运行模块第34-35页
        4.3.4 数据集成模块第35页
    4.4 元素与导航类型设计第35-38页
        4.4.1 网页抽取元素类型第35-37页
        4.4.2 导航元素类型第37-38页
    4.5 数据结构设计第38-40页
    4.6 接口设计第40页
    4.7 系统主界面的设计第40-41页
    4.8 本章小结第41-42页
第五章 精确WEB信息抽取系统的实现第42-55页
    5.1 开发技术选型第43页
    5.2 网页数据识别与标注模块的实现第43-48页
    5.3 抽取模版生成模块的实现第48-51页
        5.3.1 抽取模版的定义第48-50页
        5.3.2 抽取模版文件的生成第50-51页
    5.4 抽取任务运行模块的实现第51-53页
    5.5 数据集成模块的实现第53-54页
    5.6 本章小结第54-55页
第六章 实验结果分析第55-59页
    6.1 实验环境第55页
    6.2 评估方法及实验结果第55-58页
        6.2.1 评估方法第55-56页
        6.2.2 Web信息抽取系统实验第56-58页
    6.3 结果分析第58页
    6.4 本章小结第58-59页
第七章 总结与展望第59-61页
    7.1 论文工作总结第59-60页
    7.2 展望第60-61页
参考文献第61-63页
致谢第63-64页
攻读学位期间发表的学术论文目录第64页

论文共64页,点击 下载论文
上一篇:股东代表诉讼前置程序的研究
下一篇:无效法律行为转换之探究