首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向开源社区的Web数据抽取技术研究

摘要第8-9页
ABSTRACT第9页
第一章 绪论第10-18页
    1.1 研究背景第11-15页
        1.1.1 开源社区的发展第11-13页
        1.1.2 开源社区Web数据的特点及应用需求第13-14页
        1.1.3 开源社区Web数据抽取面临的挑战第14-15页
    1.2 本文主要工作第15-18页
        1.2.1 本文主要内容第15-16页
        1.2.2 本文的组织结构第16-18页
第二章 Web数据抽取及相关技术研究第18-28页
    2.1 Web数据抽取的概念第18-19页
    2.2 相关研究第19-24页
        2.2.1 开源社区的分类及数据概况第19-21页
        2.2.2 开源社区Web数据抽取相关研究第21-24页
    2.3 Web数据抽取技术分类第24-27页
    2.4 本章小结第27-28页
第三章 开源社区Web数据的抽取规则生成算法研究第28-40页
    3.1 引言第28-30页
        3.1.1 问题背景第28-30页
        3.1.2 研究思路第30页
    3.2 Web相关技术第30-31页
        3.2.1 开源社区Web页面的特点第30-31页
        3.2.2 开源社区Web页面结构分析第31页
    3.3 Web数据抽取规则的选取第31-33页
        3.3.1 相关技术第31-33页
        3.3.2 抽取规则的选取第33页
    3.4 基于数据分块的抽取规则生成算法第33-37页
        3.4.1 研究思路第33-34页
        3.4.2 Xpath和正则表达式的协作式Web数据抽取规则第34-37页
    3.5 实验结果及分析第37-38页
    3.6 本章小结第38-40页
第四章 面向开源社区的Web数据抽取系统的设计与实现第40-51页
    4.1 引言第41-42页
        4.1.1 问题背景第41页
        4.1.2 研究思路第41-42页
    4.2 面向开源社区的Web数据抽取系统的设计第42-43页
        4.2.1 Web数据抽取系统设计原则第42-43页
    4.3 相关技术第43-44页
        4.3.1 Webmagic&Jsoup第43页
        4.3.2 Mybatis&maven第43-44页
    4.4 面向开源社区的Web数据抽取框架的构建第44-46页
        4.4.1 面向开源社区的Web数据抽取框架总体架构第44-45页
        4.4.2 页面下载模块第45页
        4.4.3 页面处理模块第45-46页
        4.4.4 数据持久化模块第46页
        4.4.5 错误处理模块第46页
    4.5 面向开源社区的Web数据抽取系统的实现第46-48页
        4.5.1 页面下载模块的实现第47页
        4.5.2 数据持久化模块的实现第47-48页
        4.5.3 抽取模板的实现第48页
    4.6 实验结果及分析第48-50页
        4.6.1 实验环境第48-49页
        4.6.2 实验数据集第49页
        4.6.3 实验结果及分析第49-50页
    4.7 本章小结第50-51页
第五章 总结与展望第51-54页
    5.1 工作总结第51-52页
    5.2 展望第52-54页
致谢第54-56页
参考文献第56-59页
作者在学期间取得的学术成果第59页

论文共59页,点击 下载论文
上一篇:一种面向集中规划的组播系统设计与实现
下一篇:基于手机的分布式爬虫系统设计与实现