首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

web信息抽取技术研究与应用

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第9-15页
    1.1 研究背景与意义第9-10页
    1.2 国内外研究现状第10-12页
        1.2.1 爬虫技术国内外研究现状第10页
        1.2.2 web信息抽取技术国内外研究现状第10-12页
    1.3 论文的主要内容第12-13页
    1.4 论文结构安排第13-15页
第二章 web信息抽取系统相关技术介绍第15-20页
    2.1 网络爬虫技术第15-17页
        2.1.1 全网爬虫第15-16页
        2.1.2 增量式爬虫第16-17页
    2.2 Web信息抽取技术第17-19页
        2.2.1 基于包装器的web信息抽取系统第17-18页
        2.2.2 基于视觉的网页分块技术第18-19页
        2.2.3 Web信息抽取系统的评价标准第19页
    2.3 本章小结第19-20页
第三章 正则表达式在web信息抽取技术中的应用第20-35页
    3.1 正则表达式应用在信息抽取技术中的可行性分析第20页
    3.2 增量式统一信息抽取系统需求第20-21页
    3.3 增量式统一信息抽取系统架构第21-23页
    3.4 各模块详细设计第23-27页
        3.4.1 模板定制模块详细设计第23-24页
        3.4.2 网页下载模块详细设计第24-25页
        3.4.3 匹配模块详细设计第25-26页
        3.4.4 增量处理模块详细设计第26-27页
    3.5 主程序接口介绍第27页
    3.6 系统流程第27-30页
    3.7 数据存储第30-31页
    3.8 结果展示第31-34页
    3.9 本章小结第34-35页
第四章 图书馆信息采集系统第35-46页
    4.1 需求分析第35-36页
    4.2 系统架构第36-37页
    4.3 采集模块实现第37-42页
        4.3.1 图书馆网站分类第38-39页
        4.3.2 断点续爬机制第39-40页
        4.3.3 采集模块的流程第40-42页
    4.4 采集程序监控模块第42页
    4.5 数据校对模块第42-43页
    4.6 数据存储模块第43-44页
    4.7 结果展示第44-45页
    4.8 本章小结第45-46页
第五章 基于网页视觉分块的BBS评论信息抽取技术研究第46-60页
    5.1 HTML预处理第46-47页
    5.2 网页清洗第47-48页
    5.3 构造带有视觉信息的DOM树第48-49页
    5.4 获取网页正文块第49-54页
        5.4.1 基于视觉信息的网页分块第50-51页
        5.4.2 基于信息论模型的网页分块第51-54页
    5.5 基于树的深度相似度算法提取BBS评论信息第54-56页
        5.5.1 子树最优自由匹配准则第54-55页
        5.5.2 基于深度加权的DOM树相似度度量第55-56页
        5.5.3 评论信息抽取方法第56页
    5.6 实验结果分析第56-59页
    5.7 本章小结第59-60页
第六章 总结与展望第60-61页
参考文献第61-63页
致谢第63-64页
攻读学位期间发表的学术论文目录第64页

论文共64页,点击 下载论文
上一篇:IPv6环境下基于DHT的P2P媒体共享系统的研究与实现
下一篇:基于Web的无线Led信息发布系统的实现与升级