基于微博的专家用户搜索关键技术研究
【摘要】:近年来,随着Web2.0的快速发展,社会网络越来越普及,Twitter和Weibo等微博客被广泛使用,并产生了巨大的社会影响力,改变了人们的生活方式。微博中有数以亿记的用户,用户的身份也各不相同,其中有名人机构,也有草根大众。如何从这些海量的用户中发现与主题相关的专家用户是一件很有挑战的事情。本文以新浪微博平台为基础,通过用户标签数据和用户关注关系数据来挖掘用户的专家属性。本文通过调查统计分析,发现微博用户朋友之间兴趣趋同的特点,提出同质性假设。针对微博用户标签数据缺失、标签数量少、信息含量低等问题,本文提出改进的TF-IDF模型,过滤低信息含量的用户自标签,并基于同质性假设,设计一种标签传播算法来扩展用户的兴趣标签,形成用户的兴趣图谱。通过用户的兴趣图谱,给用户关注关系附上相应语义信息,以此为基础,利用众包的策略来推断话题专家。根据微博网络中的二八原则,即20%的用户产生80%的内容,本文把微博网络中的用户分为核心群体和辅助群体两大部分。在兴趣图谱基础之上,本文根据特定话题构建局部网络,提出基于用户分级的SALSA算法来计算用户的话题影响力,推断用户的专家属性,并根据微博平台固有特点,提出多特征融合模型,提高检索精度。本文实验基于新浪微博真实数据集,包括用户属性、用户关系网络等信息,并人工标注测试集。在该数据集上对兴趣图谱挖掘和基于用户分级模型进行验证。实验结果表明,扩展兴趣图谱大幅度提高了检索精度,在扩展兴趣图谱后,用户分级模型精度也有较大提高。同时,本文提出的方法具有良好的可扩展性。
【关键词】:社会网络 兴趣图谱 标签传播 影响力
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.092