基于Spark的舆情分析架构研究

摘要	第3-4页
Abstract	第4-5页
第一章绪论	第10-15页
1.1 研究背景和意义	第10-12页
1.2 国内外研究现状	第12-13页
1.3 论文主要内容	第13页
1.4 论文内容结构	第13-15页
第二章相关理论及技术原理	第15-24页
2.1 采集技术	第15-18页
2.1.1 网络爬虫	第15-17页
2.1.2 模拟登陆	第17-18页
2.2 Hadoop分布式平台	第18-20页
2.3 Spark架构	第20-23页
2.4 本章小结	第23-24页
第三章整体架构设计	第24-32页
3.1 整体架构	第24-26页
3.2 数据存储与检索模块	第26-31页
3.2.1 数据存储	第26-29页
3.2.2 搜索引擎	第29-31页
3.3 本章小结	第31-32页
第四章微博数据采集方案	第32-41页
4.1 方案整体架构	第32-34页
4.2 代理池机制	第34-35页
4.3 采集流程的具体实现	第35-38页
4.4 实验设计及结果分析	第38-40页
4.5 本章小结	第40-41页
第五章基于Spark的文本聚类	第41-53页
5.1 数据预处理	第41-45页
5.1.1 中文分词	第42页
5.1.2 构建文本向量空间模型	第42-45页
5.2 基于Spark的K-means算法优化实现	第45-48页
5.3 实验设计及结果分析	第48-52页
5.4 本章小结	第52-53页
第六章瓶颈检测算法	第53-59页
6.1 性能评价指标	第53-54页
6.2 瓶颈检测	第54-55页
6.3 实验设计与结果分析	第55-58页
6.4 本章小结	第58-59页
总结和展望	第59-61页
参考文献	第61-65页
攻读硕士学位期间发表的论文	第65-67页
致谢	第67页