面向开源社区的Web数据抽取技术研究

摘要	第8-9页
ABSTRACT	第9页
第一章绪论	第10-18页
1.1 研究背景	第11-15页
1.1.1 开源社区的发展	第11-13页
1.1.2 开源社区Web数据的特点及应用需求	第13-14页
1.1.3 开源社区Web数据抽取面临的挑战	第14-15页
1.2 本文主要工作	第15-18页
1.2.1 本文主要内容	第15-16页
1.2.2 本文的组织结构	第16-18页
第二章 Web数据抽取及相关技术研究	第18-28页
2.1 Web数据抽取的概念	第18-19页
2.2 相关研究	第19-24页
2.2.1 开源社区的分类及数据概况	第19-21页
2.2.2 开源社区Web数据抽取相关研究	第21-24页
2.3 Web数据抽取技术分类	第24-27页
2.4 本章小结	第27-28页
第三章开源社区Web数据的抽取规则生成算法研究	第28-40页
3.1 引言	第28-30页
3.1.1 问题背景	第28-30页
3.1.2 研究思路	第30页
3.2 Web相关技术	第30-31页
3.2.1 开源社区Web页面的特点	第30-31页
3.2.2 开源社区Web页面结构分析	第31页
3.3 Web数据抽取规则的选取	第31-33页
3.3.1 相关技术	第31-33页
3.3.2 抽取规则的选取	第33页
3.4 基于数据分块的抽取规则生成算法	第33-37页
3.4.1 研究思路	第33-34页
3.4.2 Xpath和正则表达式的协作式Web数据抽取规则	第34-37页
3.5 实验结果及分析	第37-38页
3.6 本章小结	第38-40页
第四章面向开源社区的Web数据抽取系统的设计与实现	第40-51页
4.1 引言	第41-42页
4.1.1 问题背景	第41页
4.1.2 研究思路	第41-42页
4.2 面向开源社区的Web数据抽取系统的设计	第42-43页
4.2.1 Web数据抽取系统设计原则	第42-43页
4.3 相关技术	第43-44页
4.3.1 Webmagic&Jsoup	第43页
4.3.2 Mybatis&maven	第43-44页
4.4 面向开源社区的Web数据抽取框架的构建	第44-46页
4.4.1 面向开源社区的Web数据抽取框架总体架构	第44-45页
4.4.2 页面下载模块	第45页
4.4.3 页面处理模块	第45-46页
4.4.4 数据持久化模块	第46页
4.4.5 错误处理模块	第46页
4.5 面向开源社区的Web数据抽取系统的实现	第46-48页
4.5.1 页面下载模块的实现	第47页
4.5.2 数据持久化模块的实现	第47-48页
4.5.3 抽取模板的实现	第48页
4.6 实验结果及分析	第48-50页
4.6.1 实验环境	第48-49页
4.6.2 实验数据集	第49页
4.6.3 实验结果及分析	第49-50页
4.7 本章小结	第50-51页
第五章总结与展望	第51-54页
5.1 工作总结	第51-52页
5.2 展望	第52-54页
致谢	第54-56页
参考文献	第56-59页
作者在学期间取得的学术成果	第59页