融合多特征聚类的垃圾微博检测研究

中文摘要	第3-4页
英文摘要	第4-5页
1 绪论	第8-17页
1.1 垃圾用户及垃圾微博	第8-10页
1.2 垃圾微博的危害	第10-11页
1.3 国内外的研究现状	第11-15页
1.3.1 URL解析	第11-12页
1.3.2 黑名单分析	第12页
1.3.3 基于用户分析的垃圾识别	第12-14页
1.3.4 基于微博特征分析的垃圾微博识别	第14-15页
1.4 主要研究工作和创新点	第15页
1.5 本文的组织结构	第15-17页
2 研究相关理论和算法	第17-23页
2.1 机器学习概述	第17页
2.2 支持向量机算法	第17-19页
2.3 Simhash算法	第19-21页
2.4 DBSCAN算法	第21-22页
2.5 本章小结	第22-23页
3 多特征抽取和分析	第23-40页
3.1 微博特征抽取和分析	第23-33页
3.1.1 文本特征	第23-26页
3.1.2 联系方式特征	第26-28页
3.1.3 符号特征	第28-30页
3.1.4 微博时间特征	第30-31页
3.1.5 微博提及和话题特征	第31-32页
3.1.6 微博响应特征	第32-33页
3.2 用户特征抽取和分析	第33-38页
3.2.1 用户时间特征	第33-35页
3.2.2 用户荣誉特征	第35-38页
3.3 特征汇总	第38页
3.4 本章小结	第38-40页
4 融合多特征聚类的垃圾微博检测	第40-52页
4.1 垃圾微博的定义	第40页
4.2 研究设计目标	第40-45页
4.3 微博数据预处理	第45-48页
4.3.1 第三方联系方式	第45-47页
4.3.2 微博文本语义提取	第47-48页
4.4 微博数据的聚类及簇特征的提取	第48-50页
4.4.1 相似微博的聚类	第48-49页
4.4.2 簇的过滤清理	第49-50页
4.4.3 簇特征的提取	第50页
4.5 垃圾微博的识别分类	第50-51页
4.6 本章小结	第51-52页
5 实验和评估	第52-65页
5.1 实验数据集	第52-53页
5.2 微博文本的聚类及结果	第53-56页
5.3 评价指标介绍	第56-57页
5.4 分类结果展示及分析	第57-59页
5.5 实验对比	第59-64页
5.6 小结	第64-65页
6 总结与展望	第65-67页
致谢	第67-68页
参考文献	第68-72页
附录	第72页
A. 作者在攻读学位期间发表的论文目录：	第72页
B. 作者在攻读硕士学位期间参与的科研项目：	第72页