基于聚类算法的网络水军检测研究--以新浪微博为例
摘要 | 第5-6页 |
Abstract | 第6页 |
1 引言 | 第7-12页 |
1.1 研究背景 | 第7页 |
1.2 研究意义 | 第7-9页 |
1.3 国内外研究状况 | 第9-10页 |
1.3.1 国外研究状况 | 第9页 |
1.3.2 国内研究状况 | 第9-10页 |
1.4 本文研究目标和研究内容 | 第10-12页 |
1.4.1 主要研究目标 | 第10-11页 |
1.4.2 主要研究内容 | 第11-12页 |
2 关于网络水军的简介以及特征值选择 | 第12-16页 |
2.1 什么是网络水军 | 第12-13页 |
2.2 网络水军存在的状态 | 第13-14页 |
2.3 本文采用数据的分类和特征 | 第14-16页 |
3 关于微博水军相关数据的提取方法 | 第16-22页 |
3.1 关于方法选择的过程 | 第16页 |
3.2 本文采用数据提取方法 | 第16-17页 |
3.3 微博模拟登陆及数据输出 | 第17-20页 |
3.4 爬取数据过程中的问题及处理方法 | 第20-22页 |
4 用户特征及数据处理 | 第22-30页 |
4.1 用户特征 | 第22-24页 |
4.1.1 主要特征提取 | 第22页 |
4.1.2 其他特征提取 | 第22-24页 |
4.2 数据处理 | 第24-30页 |
4.2.1 激活函数 | 第25-30页 |
5 基于聚类和SVM的微博水军识别算法 | 第30-40页 |
5.1 基于聚类的算法 | 第30-36页 |
5.1.1 K-means均值算法 | 第30-33页 |
5.1.2 高斯混合分布 | 第33-34页 |
5.1.3 EM算法估计GMM参数 | 第34-36页 |
5.2 基于SVM的算法 | 第36-40页 |
6 实验过程与结果分析 | 第40-46页 |
6.1 聚类过程 | 第40-43页 |
6.1.1 第一层聚类 | 第40页 |
6.1.2 第二层聚类 | 第40-41页 |
6.1.3 第三层聚类 | 第41-43页 |
6.2 实验结果分析 | 第43-46页 |
6.2.1 数据提取分析 | 第43-44页 |
6.2.2 数据评价指标 | 第44-46页 |
7 总结与展望 | 第46-47页 |
7.1 全文总结 | 第46页 |
7.2 本文不足以及研究展望 | 第46-47页 |
参考文献 | 第47-49页 |
致谢 | 第49-50页 |
作者简介 | 第50页 |