基于聚类算法的网络水军检测研究--以新浪微博为例
| 摘要 | 第5-6页 |
| Abstract | 第6页 |
| 1 引言 | 第7-12页 |
| 1.1 研究背景 | 第7页 |
| 1.2 研究意义 | 第7-9页 |
| 1.3 国内外研究状况 | 第9-10页 |
| 1.3.1 国外研究状况 | 第9页 |
| 1.3.2 国内研究状况 | 第9-10页 |
| 1.4 本文研究目标和研究内容 | 第10-12页 |
| 1.4.1 主要研究目标 | 第10-11页 |
| 1.4.2 主要研究内容 | 第11-12页 |
| 2 关于网络水军的简介以及特征值选择 | 第12-16页 |
| 2.1 什么是网络水军 | 第12-13页 |
| 2.2 网络水军存在的状态 | 第13-14页 |
| 2.3 本文采用数据的分类和特征 | 第14-16页 |
| 3 关于微博水军相关数据的提取方法 | 第16-22页 |
| 3.1 关于方法选择的过程 | 第16页 |
| 3.2 本文采用数据提取方法 | 第16-17页 |
| 3.3 微博模拟登陆及数据输出 | 第17-20页 |
| 3.4 爬取数据过程中的问题及处理方法 | 第20-22页 |
| 4 用户特征及数据处理 | 第22-30页 |
| 4.1 用户特征 | 第22-24页 |
| 4.1.1 主要特征提取 | 第22页 |
| 4.1.2 其他特征提取 | 第22-24页 |
| 4.2 数据处理 | 第24-30页 |
| 4.2.1 激活函数 | 第25-30页 |
| 5 基于聚类和SVM的微博水军识别算法 | 第30-40页 |
| 5.1 基于聚类的算法 | 第30-36页 |
| 5.1.1 K-means均值算法 | 第30-33页 |
| 5.1.2 高斯混合分布 | 第33-34页 |
| 5.1.3 EM算法估计GMM参数 | 第34-36页 |
| 5.2 基于SVM的算法 | 第36-40页 |
| 6 实验过程与结果分析 | 第40-46页 |
| 6.1 聚类过程 | 第40-43页 |
| 6.1.1 第一层聚类 | 第40页 |
| 6.1.2 第二层聚类 | 第40-41页 |
| 6.1.3 第三层聚类 | 第41-43页 |
| 6.2 实验结果分析 | 第43-46页 |
| 6.2.1 数据提取分析 | 第43-44页 |
| 6.2.2 数据评价指标 | 第44-46页 |
| 7 总结与展望 | 第46-47页 |
| 7.1 全文总结 | 第46页 |
| 7.2 本文不足以及研究展望 | 第46-47页 |
| 参考文献 | 第47-49页 |
| 致谢 | 第49-50页 |
| 作者简介 | 第50页 |