基于云平台网络爬虫的互联网信息采集系统研究

摘要	第5-6页
Abstract	第6-7页
第1章绪论	第11-17页
1.1 课题背景及意义	第11-12页
1.2 研究现状与发展趋势	第12-13页
1.2.1 云平台	第12-13页
1.2.2 互联网信息采集技术	第13页
1.3 本文主要研究工作	第13-15页
1.4 本文组织结构	第15-17页
第2章相关技术	第17-29页
2.1 云计算	第17-19页
2.1.1 云计算服务层次	第17-18页
2.1.2 云计算技术体系结构	第18-19页
2.2 Hadoop	第19-23页
2.2.1 HDFS	第20-21页
2.2.2 Map/Reduce	第21-23页
2.3 网络爬虫	第23-26页
2.3.1 网络爬虫原理	第23-24页
2.3.2 网络爬虫基本工作流程	第24页
2.3.3 网络爬虫搜索策略	第24-25页
2.3.4 分布式网络爬虫	第25-26页
2.4 正则表达式	第26-27页
2.5 本章小结	第27-29页
第3章系统需求与总体设计	第29-35页
3.1 系统设计需求	第29-31页
3.1.1 非功能性需求	第29-30页
3.1.2 功能性需求	第30-31页
3.2 系统总体布局	第31-33页
3.3 本章小结	第33-35页
第4章信息采集模块设计	第35-47页
4.1 Nutch的crawl模块的原理分析	第35-37页
4.1.1 原理	第35页
4.1.2 工作流程	第35-36页
4.1.3 nutch中的Hado叩	第36-37页
4.2 云平台网络爬虫的总体设计	第37-39页
4.2.1 总体设计	第37-38页
4.2.2 相关数据结构设计	第38-39页
4.3 云平台网络爬虫详细设计	第39-44页
4.3.1 Map/Reduce的编程方式	第39-40页
4.3.2 云平台网络爬虫子模块详细设计	第40-44页
4.4 url结构分析	第44-45页
4.5 本章小结	第45-47页
第5章网页信息抽取技术及其实现	第47-55页
5.1 网页抽取技术	第47-48页
5.1.1 背景	第47页
5.1.2 概述	第47-48页
5.2 HTML	第48-53页
5.2.1 概念	第48页
5.2.2 结构分析	第48-50页
5.2.3 HtmlParser	第50-52页
5.2.4 信息解析的流程	第52-53页
5.3 本章小结	第53-55页
第6章系统配置与系统测试	第55-63页
6.1 云平台搭建	第55-58页
6.1.1 系统环境	第55-56页
6.1.2 配置流程	第56-58页
6.2 参数设置	第58-59页
6.3 系统运行测试	第59-62页
6.4 本章小结	第62-63页
第7章总结与展望	第63-67页
7.1 全文总结	第63-64页
7.2 本文的创新点	第64页
7.3 下一步工作展望	第64-67页
参考文献	第67-71页
致谢	第71页