基于网络爬虫的网站信息采集技术研究

摘要	第5-6页
ABSTRACT	第6页
第1章绪论	第9-14页
1.1 课题背景及研究意义	第9-10页
1.2 国内外研究现状	第10-12页
1.2.1 Web采集技术研究现状	第10-11页
1.2.2 Web信息抽取技术现状	第11-12页
1.3 本文研究的主要内容	第12-13页
1.4 论文结构安排	第13-14页
第2章网站信息采集相关技术研究	第14-43页
2.1 网络爬虫相关技术	第14-21页
2.1.1 网络爬虫介绍	第14-17页
2.1.2 Heritrix介绍	第17-20页
2.1.3 HtmlUnit介绍	第20-21页
2.2 网页信息抽取相关技术	第21-25页
2.2.1 Web页面构成介绍	第21页
2.2.2 DOM树介绍	第21-23页
2.2.3 Jsoup解析器介绍	第23-25页
2.3 文件索引相关技术	第25-31页
2.3.1 全文检索技术介绍	第25-26页
2.3.2 Lucene介绍	第26-31页
2.4 系统开发相关技术	第31-42页
2.4.1 Struts2框架介绍	第31-35页
2.4.2 Spring框架介绍	第35-38页
2.4.3 Hibernate框架介绍	第38-40页
2.4.4 Ajax技术介绍	第40-42页
2.5 本章小结	第42-43页
第3章基于爬虫的网站信息采集技术整合设计	第43-66页
3.1 网站信息采集技术整合设计概述	第43-44页
3.2 针对Heritrix爬虫的扩展设计	第44-49页
3.2.1 Ajax爬虫的技术难点	第45-47页
3.2.2 基于HtmlUnit的爬虫扩展设计	第47-49页
3.3 基于Jsoup的可视化信息抽取设计	第49-56页
3.3.1 抽取规则定义	第49-53页
3.3.2 抽取规则生成设计	第53-54页
3.3.3 信息抽取执行设计	第54-56页
3.4 基于Lucene和SSH2的信息检索设计	第56-65页
3.4.1 基于Lucene与SSH2的信息检索总体设计	第56-57页
3.4.2 SSH2体系整合策略	第57-58页
3.4.3 SSH2体系整合设计	第58-62页
3.4.4 SSH2体系整合特点	第62页
3.4.5 采集信息数据库设计	第62-65页
3.5 本章小结	第65-66页
第4章基于爬虫的网站信息采集技术整合实现	第66-79页
4.1 网站信息采集技术整合应用开发环境	第66页
4.2 针对Heritrix爬虫扩展实现	第66-71页
4.2.1 基于HtmlUnit的爬虫扩展实现	第66-69页
4.2.2 Heritrix扩展运行展示	第69-71页
4.3 基于Jsoup的可视化信息抽取实现	第71-75页
4.3.1 网站信息抽取规则生成	第71-72页
4.3.2 网站信息抽取执行	第72-73页
4.3.3 网站信息抽取运行展示	第73-75页
4.4 基于Lucene与SSH2的信息检索实现	第75-78页
4.4.1 数据库内容索引	第75-76页
4.4.2 信息检索查询	第76-77页
4.4.3 信息检索运行展示	第77-78页
4.5 本章小结	第78-79页
第5章总结和展望	第79-81页
5.1 论文总结	第79页
5.2 工作展望	第79-81页
参考文献	第81-85页
致谢	第85页