专业镇信息爬取子系统的设计与实现

摘要	第5-6页
Abstract	第6-7页
第一章绪论	第11-16页
1.1 课题研究的背景及意义	第11-12页
1.2 国内外研究现状	第12-14页
1.2.1 国内外专业镇信息化研究现状	第12-13页
1.2.2 国内外网络爬虫研究现状	第13-14页
1.3 论文的研究内容及论文结构	第14-16页
第二章相关技术介绍	第16-24页
2.1 爬虫技术的简介	第16-17页
2.2 基于Scrapy的网页抓取技术	第17-18页
2.2.1 python爬虫框架Scrapy	第17-18页
2.2.2 Xpath介绍	第18页
2.3 基于BeautifulSoup的网页解析技术	第18-19页
2.3.1 Urllib库	第18页
2.3.2 BeautifulSoup解析器	第18-19页
2.4 专业镇信息服务平台的开发技术	第19-23页
2.4.1 J2EE概念和结构	第19-20页
2.4.2 J2EE主要技术	第20-21页
2.4.3 Web应用框架	第21页
2.4.4 Web Services	第21-22页
2.4.5 企业内容管理系统	第22-23页
2.5 本章小结	第23-24页
第三章平台的总体设计	第24-31页
3.1 系统的需求分析	第24-26页
3.1.1 前端系统功能性需求	第25页
3.1.2 后台系统的功能性需求	第25页
3.1.3 平台系统的用例	第25-26页
3.2 系统的流程处理	第26-28页
3.3 系统的软件结构	第28-30页
3.4 系统的网络结构	第30页
3.5 本章小结	第30-31页
第四章爬取子系统的设计	第31-47页
4.1 子系统的爬取目标	第31-32页
4.2 子系统的功能结构	第32-33页
4.3 子系统的软件结构	第33-37页
4.4 子系统的流程处理	第37-38页
4.5 子系统的抓取策略	第38-40页
4.5.1 深度优先遍历策略	第38-39页
4.5.2 网页内容主题相关策略	第39-40页
4.6 子系统的接口设计	第40-42页
4.7 数据库的设计	第42-46页
4.7.1 创新资源库	第42-44页
4.7.2 市场信息库	第44-46页
4.7.3 企业技术需求库	第46页
4.8 本章小结	第46-47页
第五章子系统的详细设计及关键技术的应用	第47-64页
5.1 抓取信息模块的设计	第47-48页
5.2 信息存储模块的设计	第48-51页
5.3 内容处理模块的设计	第51-53页
5.4 Web信息抓取框架Scrapy的应用	第53-60页
5.4.1 Spider的具体应用	第53-55页
5.4.2 CSS选择器和Xpath的具体应用	第55-58页
5.4.3 模拟登录抓取网页内容	第58-60页
5.5 HTML/XML解析器BeautifulSoup的应用	第60-63页
5.5.1 静态网页内容提取	第60-62页
5.5.2 抓取动态网页	第62-63页
5.6 本章小结	第63-64页
第六章系统测试	第64-72页
6.1 系统测试概述	第64-65页
6.2 网络爬虫子系统的功能测试	第65-70页
6.3 网络爬虫子系统的性能测试	第70页
6.4 本章小结	第70-72页
总结与展望	第72-73页
参考文献	第73-75页
攻读硕士学位期间取得的研究成果	第75-76页
致谢	第76-77页
附件	第77页