首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

一种通用的网页内容抽取模块的设计与实现

摘要第4-5页
ABSTRACT第5-6页
第1章 绪论第9-14页
    1.1 课题背景和意义第9页
    1.2 国内外研究现状第9-11页
    1.3 实际项目需求第11页
    1.4 研究内容第11-13页
        1.4.1 页面格式化抽取第11-12页
        1.4.2 页面数据来源第12-13页
        1.4.3 抽取结果的保存第13页
    1.5 论文结构安排第13-14页
第2章 相关技术第14-25页
    2.1 页面格式化抽取第14-16页
        2.1.1 格式化抽取的含义第14页
        2.1.2 格式化抽取技术第14-16页
    2.2 DOM第16-21页
        2.2.1 DOM简介第16-19页
        2.2.2 JSoup简介第19-20页
        2.2.3 SAX简介第20-21页
    2.3 Ajax框架第21-23页
        2.3.1 Ajax简介第21-22页
        2.3.2 Ajax的工作原理第22页
        2.3.3 Ajax给页面抽取带来的挑战第22-23页
    2.4 本章小结第23-25页
第3章 页面抽取模块的设计第25-37页
    3.1 抽取流程设计第25-32页
        3.1.1 页面获取与过滤第26页
        3.1.2 页面解析与抽取第26-32页
        3.1.3 页面索引与存储第32页
    3.2 系统模型设计第32-34页
        3.2.1 抽取模块第33页
        3.2.2 索引模块第33-34页
    3.3 系统流程优化第34-36页
        3.3.1 流程分析第34页
        3.3.2 流程优化第34-36页
    3.4 本章小结第36-37页
第4章 页面抽取模块的实现第37-56页
    4.1 系统主体的实现第37-39页
        4.1.1 抽取系统主体设计第37-38页
        4.1.2 并行抽取方法的详细设计第38-39页
    4.2 静态简单页面抽取模块第39-45页
        4.2.1 配置文件的设计与实现第39-42页
        4.2.2 抽取过程的实现第42-45页
    4.3 静态自相似页面抽取模块第45-50页
        4.3.1 配置文件的设计与实现第45页
        4.3.2 抽取流程的详细设计与实现第45-50页
    4.4 动态页面抽取模块第50-53页
        4.4.1 HtmlUnit简介第50-51页
        4.4.2 动态页面静态化第51-52页
        4.4.3 页面抽取第52-53页
    4.5 索引存储模块第53-55页
        4.5.1 索引存储模块的实现第53-54页
        4.5.2 增量全量更新策略第54-55页
    4.6 本章小结第55-56页
第5章 测试和结果分析第56-63页
    5.1 测试环境第56-57页
    5.2 静态简单页面抽取测试第57-59页
    5.3 静态自相似页面及动态页面抽取测试第59-61页
    5.4 本章小结第61-63页
第6章 结束语第63-65页
    6.1 总结第63-64页
    6.2 展望第64-65页
参考文献第65-67页
致谢第67页

论文共67页,点击 下载论文
上一篇:应对职场排斥:印象管理与政治技能的作用机制研究
下一篇:技术资源并购、相对技术差异与主并企业财务绩效