首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Web页面结构的网页数据提取研究

摘要第3-4页
ABSTRACT第4-5页
第一章 绪论第8-14页
    1.1 研究背景及意义第8-9页
    1.2 国内外研究现状第9-11页
    1.3 本文主要研究问题第11-12页
    1.4 本文的章节安排第12-14页
第二章 Web页面数据抽取及相关技术概述第14-24页
    2.1 半结构化数据(Semi-structured Data)第14-15页
        2.1.1 半结构化数据定义第14-15页
        2.1.2 半结构化数据的特点第15页
    2.2 Web页面数据抽取第15-17页
        2.2.1 Web页面数据抽取定义第15-16页
        2.2.2 数据抽取与信息检索第16-17页
    2.3 常见Web结构分类第17-19页
    2.4 DOM文档树第19-21页
    2.5 解析HTML的工具第21-24页
        2.5.1 WebBrowser第21-22页
        2.5.2 HtmlParser第22-24页
第三章 Web页面目标数据区域定位第24-41页
    3.1 Web页面结构特征第24-32页
        3.1.1 解析HTML源文件第24-25页
        3.1.2 叶子节点组最小子树获取算法第25-30页
        3.1.3 目标数据区域结构特征分析第30-32页
    3.2 中介数学理论(MMTD)第32-34页
    3.3 基于MMTD目标数据区域定位算法(DL_MMTD)第34-37页
    3.4 实验验证第37-39页
        3.4.1 数据集选择第37-38页
        3.4.2 实验检测指标第38页
        3.4.3 实验结果对比第38-39页
    3.5 本章小结第39-41页
第四章 数据记录抽取第41-48页
    4.1 数据记录(DataRecord)第41-42页
    4.2 RST算法介绍第42-44页
    4.3 基于路径结构的数据记录长度求取算法第44-47页
    4.4 数据记录边界确定第47页
    4.5 本章小结第47-48页
第五章 基于Web页面结构的数据提取实验分析第48-52页
    5.1 整体流程第48页
    5.2 实验数据集第48-49页
    5.3 实验评价指标第49-50页
    5.4 实验结果第50-51页
    5.5 本章小结第51-52页
第六章 总结与展望第52-54页
    6.1 本文内容总结第52-53页
    6.2 展望第53-54页
参考文献第54-59页
附录A 图索引第59-60页
Appendix A Figure Index第60-61页
附录B 表索引第61-62页
Appendix B Table Index第62-63页
致谢第63-64页
攻读硕士学位期间学术活动及成果情况第64页

论文共64页,点击 下载论文
上一篇:基于深度数据的虚拟人重建与蒙皮动画算法
下一篇:移动网络中基于服务的用户隐私保护研究