首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于视觉信息和DOM树的Deep Web数据自动抽取

摘要第6-8页
Abstract第8-9页
1 引言第12-17页
    1.1 研究背景和意义第12-13页
    1.2 国内外研究现状第13-15页
    1.3 本文主要研究问题第15页
    1.4 本文章节安排第15-17页
2 相关技术介绍第17-24页
    2.1 HTML 和 DOM第17-18页
    2.2 解析 HTML 的工具第18-21页
        2.2.1 HtmlParser第18-19页
        2.2.2 WebBrowser第19-21页
    2.3 手工抽取方法第21页
    2.4 网页的视觉特征第21-22页
    2.5 小结第22-24页
3 基于视觉信息和 DOM 树的数据抽取第24-45页
    3.1 问题描述第24-26页
    3.2 定位数据区域第26-31页
        3.2.1 决策树算法第26-28页
        3.2.2 数据准备第28-29页
        3.2.3 模型训练与分类第29-31页
    3.3 抽取数据记录第31-36页
        3.3.1 数据记录的 DOM 树和视觉信息第31-33页
        3.3.2 数据记录的定位算法第33-34页
        3.3.3 xpath 简介第34-35页
        3.3.4 数据记录的去噪第35-36页
    3.4 对齐数据项第36-41页
        3.4.1 数据项的粒度第37-39页
        3.4.2 数据项对齐算法第39-41页
    3.5 实验结果与分析第41-44页
        3.5.1 实验数据第41-42页
        3.5.2 数据记录的抽取实验第42页
        3.5.3 数据项的对齐实验第42-43页
        3.5.4 数据抽取效率的实验第43-44页
    3.6 小结第44-45页
4 系统集成及其它问题第45-56页
    4.1 系统集成第45-51页
        4.1.1 模板第45-49页
            4.1.1.1 数据区域的模板第46-47页
            4.1.1.2 数据记录的模板第47-48页
            4.1.1.3 对齐数据项的模板第48-49页
        4.1.2 自动翻页第49页
        4.1.3 系统流程第49-51页
    4.2 系统设计中的其它问题第51-55页
        4.2.1 AJAX 异步数据的抽取第51-52页
        4.2.2 请求无响应第52-53页
        4.2.3 提高抽取速度第53-55页
    4.3 小结第55-56页
5 总结和展望第56-58页
    5.1 总结第56页
    5.2 展望第56-58页
参考文献第58-60页
致谢第60-61页
个人简历第61页
学术论文第61页
研究项目第61-62页

论文共62页,点击 下载论文
上一篇:智能小车网络控制系统设计及时延对控制性能的影响研究
下一篇:Android自动化测试和流量控制整合应用