基于Heritrix框架的专业镇信息网络爬虫系统

摘要	第5-6页
Abstract	第6-7页
第一章绪论	第11-16页
1.1 课题研究的背景及意义	第11-12页
1.2 国内外研究现状	第12-14页
1.2.1 专业镇信息化发展现状	第12-13页
1.2.2 网络爬虫的研究现状	第13-14页
1.3 论文研究内容及组织结构	第14-16页
1.3.1 本文研究工作	第14-15页
1.3.2 本文内容安排	第15-16页
第二章相关技术介绍	第16-25页
2.1 Heritrix爬虫框架	第16-21页
2.1.1 Heritrix的系统架构	第16-17页
2.1.2 Heritrix 3.x的新特性	第17-19页
2.1.3 种子载入方式	第19-20页
2.1.4 SURT规则	第20-21页
2.2 Jsoup解析工具	第21-23页
2.2.1 Jsoup简介	第21页
2.2.2 Jsoup解析语法	第21-23页
2.3 正则表达式	第23-24页
2.4 本章小结	第24-25页
第三章专业镇信息服务平台总体架构	第25-30页
3.1 系统需求分析	第25-26页
3.1.1 功能性需求	第25页
3.1.2 非功能性需求	第25-26页
3.2 系统网络结构	第26-27页
3.3 系统软件架构	第27-28页
3.4 系统处理流程	第28-29页
3.5 本章小结	第29-30页
第四章专业镇信息网络爬虫系统的设计	第30-41页
4.1 引言	第30-31页
4.2 系统功能	第31-33页
4.3 软件结构	第33-35页
4.4 工作流程	第35-36页
4.5 数据库设计	第36-40页
4.5.1 创新资源库	第36-38页
4.5.2 市场信息库	第38-39页
4.5.3 企业技术需求库	第39-40页
4.6 本章小结	第40-41页
第五章专业镇信息网络爬虫系统的实现	第41-63页
5.1 Heritrix框架的定制	第41-42页
5.2 网页抓取模块的实现	第42-44页
5.3 内容解析模块的实现	第44-47页
5.4 数据过滤模块的实现	第47-49页
5.5 数据导入模块的实现	第49-51页
5.6 具体数据类型的爬取	第51-62页
5.6.1 专家	第52-55页
5.6.2 版权	第55-57页
5.6.3 标准	第57-59页
5.6.4 人才需求	第59-61页
5.6.5 资格认证服务需求	第61-62页
5.7 本章小结	第62-63页
第六章系统测试	第63-72页
6.1 系统运行环境	第63页
6.2 系统测试	第63-71页
6.2.1 网页抓取与内容解析测试	第63-65页
6.2.2 数据过滤测试	第65页
6.2.3 数据导入测试	第65-67页
6.2.4 性能优化	第67-71页
6.3 本章小结	第71-72页
总结与展望	第72-73页
参考文献	第73-76页
攻读硕士学位期间取得的研究成果	第76-77页
致谢	第77-78页
附件	第78页