基于大数据的微博社交网络舆情分析与研究

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第10-16页
1.1 选题背景及意义	第10-11页
1.2 国内外研究现状	第11-14页
1.2.1 国外研究现状	第11-12页
1.2.2 国内研究现状	第12-14页
1.3 论文的研究内容	第14页
1.4 论文的组织结构	第14-16页
第二章相关理论研究	第16-33页
2.1 大数据处理平台及技术	第16-23页
2.1.1 Hadoop平台	第16-17页
2.1.2 分布式文件存储系统HDFS	第17-18页
2.1.3 分布式处理系统MapReduce	第18-20页
2.1.4 资源管理系统YARN	第20-21页
2.1.5 Hadoop生态系统	第21-23页
2.2 微博社交网络舆情分析技术	第23-31页
2.2.1 微博数据采集技术	第24-27页
2.2.2 微博信息的预处理技术	第27-29页
2.2.3 文本聚类分析技术	第29-30页
2.2.4 微博舆情分析技术	第30-31页
2.3 本章小节	第31-33页
第三章基于Hadoop的微博舆情分析的并行化研究	第33-41页
3.1 文本分布式预处理	第33-35页
3.2 特征选择的分布式计算	第35-36页
3.3 Mahout向量化计算	第36-38页
3.4 Mahout聚类算法	第38-40页
3.5 本章小节	第40-41页
第四章基于MapReduce的K-means聚类算法的实现与改进	第41-49页
4.1 K-means算法思想	第41页
4.2 K-means算法步骤	第41-43页
4.3 基于MapReduce的K-means算法的并行化研究	第43-45页
4.4 基于MapReduce的K-means算法的改进与优化	第45-47页
4.4.1 MapReduce算法的优化	第45-46页
4.4.2 基于MapReduce算法的改进	第46-47页
4.5 本章小节	第47-49页
第五章实验与分析	第49-61页
5.1 实验环境与配置	第49-53页
5.1.1 实验环境	第49-50页
5.1.2 Hadoop平台的搭建	第50-52页
5.1.3 Mahout的安装和配置	第52-53页
5.2 实验数据与评价指标	第53-54页
5.2.1 实验数据	第53页
5.2.2 聚类算法的评价指标	第53-54页
5.3 数据预处理	第54-55页
5.4 测试结果与分析	第55-60页
5.4.1 聚类质量的比较	第55-57页
5.4.1.1 最大簇间距离和最小簇内距离	第55-56页
5.4.1.2 算法的召回率、准确率和F值	第56-57页
5.4.1.3 算法执行时间	第57页
5.4.2 算法串行和并行比较	第57-58页
5.4.2.1 算法的执行时间分析	第57-58页
5.4.2.2 算法的加速比分析	第58页
5.4.3 热点生成	第58-60页
5.4.4 正负情感分析	第60页
5.5 本章小结	第60-61页
第六章展望与总结	第61-63页
6.1 论文总结	第61页
6.2 研究展望	第61-63页
参考文献	第63-67页
攻读硕士学位期间取得的研究成果	第67-69页
致谢	第69-70页