微博僵尸粉识别技术研究与实现
【摘要】:伴随着微博平台的开放,大量出于各种目的“僵尸粉”随之产生。这些“僵尸粉”或用于制造虚假的人气,或参与网络营销,或作为某些事件甚至谣言的推手,进而成为人们享受这项服务的困扰,甚至安全隐患。因此,对这种机器生成的“僵尸粉”的识别工作正变得越来越重要。对于僵尸粉识别问题,本文主要做了以下几方面工作:(1)鉴于微博的短文本特征,利用现有文本分析技术处理微博文本存在一定困难。本文利用僵尸粉发帖的内容特征,将文本复制检测技术应用到博文文本特征分析问题中,提出了一种基于信息指纹的微博文本查重技术,并利用此技术实现了僵尸粉的识别。(2)国内外僵尸粉识别研究中缺少对特征识别效力的讨论,本文针对这一问题对常用的几项僵尸粉的识别特征进行了扩展并完成了相应的实验分析,最终给出各个特征识别效力的评估结果;(3)根据特征识别力将僵尸粉识别特征分为强特征与弱特征,进而提出了基于强特征的僵尸粉过滤方法以及基于弱特征的用户信任度投票方法。将两种方法相结合可以给出用户真实性的判断结果。同时,还制定了两种判别机制的多级阈值选取策略。为了检验算法的识别能力,利用标注数据集对其识别效果进行评测,结果显示,该算法对僵尸粉及真实用户都有比较高的识别准确率;(4)从需求角度出发,提出并实现了一种可伸缩的僵尸粉识别架构,并制定了相应的僵尸粉识别服务的定制策略。
【关键词】:僵尸粉 特征识别力 信息指纹 强特征 弱特征 信任投票
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.092