摘要 | 第9-10页 |
ABSTRACT | 第10-11页 |
第一章 绪论 | 第12-19页 |
1.1 研究背景 | 第12-15页 |
1.1.1 微博简介 | 第12-13页 |
1.1.2 微博水军及其研究意义 | 第13-15页 |
1.2 研究现状 | 第15-16页 |
1.3 研究内容及创新点 | 第16-17页 |
1.4 论文的组织结构 | 第17-19页 |
第二章 相关技术研究 | 第19-31页 |
2.1 监督学习 | 第19-23页 |
2.1.1 C4.5 | 第19-21页 |
2.1.2 朴素贝叶斯(Na?ve Bayes) | 第21页 |
2.1.3 支持向量机(SVM) | 第21-23页 |
2.1.4 逻辑回归(Logistic Regression) | 第23页 |
2.2 文本聚类算法 | 第23-28页 |
2.2.1 划分方法 | 第24-25页 |
2.2.2 层次方法 | 第25-26页 |
2.2.3 基于密度的方法 | 第26-27页 |
2.2.4 基于网格的方法 | 第27-28页 |
2.3 文本相似性算法 | 第28-30页 |
2.3.1 Shingle算法 | 第28页 |
2.3.2 Simhash算法 | 第28-30页 |
2.4 本章小结 | 第30-31页 |
第三章 微博用户特征及量化方法设计 | 第31-40页 |
3.1 用户信息特征 | 第31-33页 |
3.1.1 粉丝数,关注数以及FFR(Follower to Friend Ratio) | 第31-32页 |
3.1.2 用户亲密度 | 第32-33页 |
3.1.3 用户博文数 | 第33页 |
3.2 用户行为特征 | 第33-37页 |
3.2.1 用户提及率 | 第34页 |
3.2.2 文本URL率 | 第34-35页 |
3.2.3 文本话题标签率 | 第35页 |
3.2.4 发帖规律 | 第35-37页 |
3.3 博文文本内容特征 | 第37-39页 |
3.3.1 博文文本相似度 | 第37-38页 |
3.3.2 话题迁移率特征 | 第38-39页 |
3.4 本章小结 | 第39-40页 |
第四章 面向水军识别的用户特征向量模型构建 | 第40-56页 |
4.1 微博数据获取 | 第40-43页 |
4.1.1 新浪微博API | 第40-43页 |
4.1.2 数据的获取 | 第43页 |
4.2 用户特征建模 | 第43-55页 |
4.2.1 微博博文预处理及用户行为特征获取 | 第44-46页 |
4.2.2 博文文本相似度特征模块 | 第46-47页 |
4.2.3 话题迁移率特征模块 | 第47-50页 |
4.2.4 特征选取和分析 | 第50-55页 |
4.3 本章小结 | 第55-56页 |
第五章 基于逻辑回归算法的水军识别模型 | 第56-66页 |
5.1 基于逻辑回归算法的水军识别模型构建 | 第56-62页 |
5.1.1 水军的形式化定义 | 第56页 |
5.1.2 模型构建 | 第56-62页 |
5.2 实验结果分析 | 第62-65页 |
5.2.1 训练样本不同规模比对实验 | 第62-63页 |
5.2.2 交叉验证实验 | 第63-64页 |
5.2.3 多特征比对实验 | 第64-65页 |
5.3 本章总结 | 第65-66页 |
第六章 总结与展望 | 第66-68页 |
6.1 本文总结 | 第66-67页 |
6.2 工作展望 | 第67-68页 |
致谢 | 第68-70页 |
参考文献 | 第70-74页 |
作者在学期间取得的学术成果 | 第74页 |