首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

自适应Web数据抽取技术研究

摘要第4-5页
ABSTRACT第5-6页
第1章 绪论第11-18页
    1.1 研究背景和研究意义第11-13页
        1.1.1 研究背景第11-12页
        1.1.2 研究意义第12-13页
    1.2 研究现状第13-15页
        1.2.1 国外研究现状第13-14页
        1.2.2 国内研究现状第14-15页
    1.3 研究问题和研究内容第15-16页
        1.3.1 研究问题第15页
        1.3.2 研究内容第15-16页
    1.4 本文组织结构第16-18页
第2章 相关工作第18-31页
    2.1 Web数据抽取概念及流程第18-19页
    2.2 DOM树第19-20页
    2.3 XPath第20-22页
    2.4 数据抽取算法分类第22-26页
        2.4.1 基于自然语言处理方式的数据抽取技术第22页
        2.4.2 基于页面DOM结构的数据抽取技术第22-23页
        2.4.3 基于本体方式的数据抽取技术第23-24页
        2.4.4 基于页面视觉特征的数据抽取技术第24-25页
        2.4.5 基于统计理论的数据抽取技术第25-26页
    2.5 VIPS算法第26-30页
    2.6 本章小结第30-31页
第3章 基于视觉的网页正文抽取方法第31-47页
    3.1 正文抽取方法基本思想第31-33页
    3.2 视觉块分割第33-36页
    3.3 正文块判断规则第36-42页
        3.3.1 基于位置的正文块判断规则第36-39页
        3.3.2 基于文本链接比的正文块判断规则第39-41页
        3.3.3 基于页面图片的正文块判断规则第41-42页
        3.3.4 正文块抽取评价函数第42页
    3.4 正文信息提取第42-43页
    3.5 网页正文抽取算法第43-46页
    3.6 本章小结第46-47页
第4章 自适应Web页面数据抽取方法第47-62页
    4.1 基本思想第47-49页
    4.2 URL相似度第49-52页
    4.3 目标数据搜索策略第52-54页
    4.4 目标数据搜索规则第54-58页
        4.4.1 基于关键字的目标数据搜索规则第54-55页
        4.4.2 基于HTML标签的目标数据搜索规则第55-56页
        4.4.3 基于上下文的目标数据搜索规则第56-57页
        4.4.4 基于字体的目标数据搜索规则第57页
        4.4.5 目标数据搜索评价函数第57-58页
    4.5 页面数据抽取算法第58-61页
    4.6 本章小结第61-62页
第5章 实验结果与分析第62-69页
    5.1 实验环境与数据集第62-63页
        5.1.1 实验环境第62页
        5.1.2 实验数据集第62-63页
    5.2 实验评价标准第63-64页
    5.3 实验结果与分析第64-68页
        5.3.1 基于视觉的网页正文抽取方法实验结果与分析第64-66页
        5.3.2 自适应Web页面数据抽取方法实验结果与分析第66-68页
    5.4 本章小结第68-69页
第6章 总结与展望第69-71页
    6.1 总结第69-70页
    6.2 展望第70-71页
致谢第71-72页
参考文献第72-75页
攻读学位期间发表的学术论文及参加科研情况第75页

论文共75页,点击 下载论文
上一篇:彩色眼底图像视盘自动检测方法研究
下一篇:非关系型数据库统一存储与访问接口研究