主题网络爬虫的并行化研究与设计

摘要	第3-4页
Abstract	第4页
第1章绪论	第7-11页
1.1 课题研究的目的与意义	第7-8页
1.2 国内外研究现状	第8-9页
1.3 研究思路及主要研究内容	第9页
1.4 本文结构安排	第9-11页
第2章相关技术研究	第11-23页
2.1 网络爬虫相关知识	第11-15页
2.1.1 HTTP协议	第11-12页
2.1.2 搜索引擎	第12-13页
2.1.3 爬虫	第13-14页
2.1.4 网页采集	第14-15页
2.2 并行化框架技术	第15-20页
2.2.1 Storm计算框架	第15-16页
2.2.2 ZooKeeper分布式协调服务	第16-17页
2.2.3 Redis内存数据库	第17-18页
2.2.4 RabbitMQ消息队列	第18-19页
2.2.5 分布式数据库MongoDB	第19-20页
2.3 文本处理	第20-22页
2.3.1 分词与特征词	第20页
2.3.2 权重计算	第20-21页
2.3.3 相似度度量	第21-22页
2.4 本章小结	第22-23页
第3章主题爬虫并行化分析与设计方案	第23-29页
3.1 总体方案设计	第23-24页
3.2 总体架构设计	第24-25页
3.3 系统流程及各模块设计	第25-28页
3.4 本章小结	第28-29页
第4章主题爬虫并行化算法研究与改进	第29-47页
4.1 常用搜索算法	第29-31页
4.2 基于多策略融合的搜索算法	第31-36页
4.2.1 算法思想	第31页
4.2.2 算法流程	第31-33页
4.2.3 算法实例分析	第33-34页
4.2.4 算法性能对比分析	第34-36页
4.3 常用主题相似度判别算法	第36-40页
4.3.1 向量空间模型	第36-38页
4.3.2 语义相似度	第38-40页
4.4 网页相似度判别算法	第40-46页
4.4.1 算法思想及流程	第40-45页
4.4.2 算法应用及性能分析	第45-46页
4.5 本章小结	第46-47页
第5章主题爬虫并行化实现	第47-65页
5.1 数据库设计	第47-48页
5.2 Storm模型	第48-49页
5.3 环境搭建	第49-55页
5.4 模块设计与实现	第55-61页
5.5 系统测试	第61-64页
5.6 采集注意事项	第64页
5.7 本章小结	第64-65页
第6章总结与展望	第65-66页
6.1 本文工作总结	第65页
6.2 工作展望	第65-66页
致谢	第66-67页
参考文献	第67-69页