基于网络爬虫互联网涉税信息采集系统设计与实现

摘要	第5-7页
abstract	第7-8页
第一章绪论	第11-15页
1.1 课题研究背景及意义	第11-12页
1.2 国内外研究现状	第12-13页
1.2.1 国外研究现状	第12页
1.2.2 国内研究现状	第12-13页
1.3 本课题主要研究内容	第13页
1.4 论文的组织结构	第13-15页
第二章相关理论及技术	第15-31页
2.1 网络爬虫原理	第15-16页
2.2 网络爬虫类型	第16-18页
2.3 Ajax与网络爬虫	第18-19页
2.4 信息抽取	第19-22页
2.5 J2EE关键技术	第22-25页
2.5.1 Spring技术	第22-24页
2.5.2 Struts技术	第24-25页
2.6 JDBC介绍	第25-26页
2.7 正则表达式	第26-27页
2.8 URL去重	第27-29页
2.8.1 URL去重种类	第27-28页
2.8.2 布隆过滤器算法	第28-29页
2.9 MYSQL关系型数据库	第29页
2.10 本章小结	第29-31页
第三章系统需求分析与架构设计	第31-37页
3.1 系统功能需求分析	第31页
3.2 建设内容	第31-32页
3.3 互联网数据采集工作流程	第32-33页
3.4 涉税信息采集系统特性要求	第33页
3.5 系统总体结构	第33-34页
3.6 网页抓取模块	第34-35页
3.7 页面解析模块	第35-36页
3.8 MYSQL数据库模块	第36页
3.9 本章小结	第36-37页
第四章网络爬虫系统实现	第37-53页
4.1 爬虫初始化	第37-38页
4.2 网页抓取模块	第38-47页
4.2.1 Robot协议分析	第38-40页
4.2.2 HTTP协议	第40-41页
4.2.3 网页抓取过程	第41-43页
4.2.4 URL去重	第43-47页
4.3 网页解析模块	第47-49页
4.4 判断主题相关度	第49页
4.5 存储页面信息	第49-50页
4.6 多线程的实现	第50页
4.7 数据库设计	第50-52页
4.7.1 数据库表概念结构设计	第50-51页
4.7.2 数据库表逻辑结构设计	第51-52页
4.8 本章小结	第52-53页
第五章系统应用场景及测试分析	第53-63页
5.1 应用场景	第53页
5.2 测试用例	第53-62页
5.3 本章小结	第62-63页
第六章全文总结和展望	第63-65页
6.1 全文总结	第63-64页
6.2 后续工作展望	第64-65页
致谢	第65-66页
参考文献	第66-68页