面向舆情分析的skyline查询技术研究与实现
【摘要】:舆情分析是了解和研究社会热点变化、预警突发事件、引导社会舆论、维护社会稳定、确保国家安全的重要手段,对于维护社会稳定具有重要意义。微博是近年来快速兴起的一种新的信息发布及社交网络平台。微博舆情就是社会民众通过“微博”这一信息媒介所表达的态度、信念、意见和情绪等方面的综合。由于微博几乎深入人们日常生活的方方面面,针对微博舆情的分析需求具有重大的现实意义而受到了广泛关注。Skyline查询技术是二十一世纪以后逐渐受到重视和关注的一种序敏感查询技术,较其他查询方法,它不需要用户指定一个全局的评价函数,而是希望系统能提供一些值得关注的对象让用户从中挑选,能够处理Top-k查询无法处理的这类需求。针对网络环境变化迅速,舆情热点突发性强的特点,skyline查询技术具有较好的自适应性。因此,研究基于Skyline查询技术的微博舆情分析具有重要意义。本文的主要工作包括:1、针对微博数据集多维属性特点,定义了用于多属性数据的skyline查询问题:挖掘数据集中的支配一致对,提出了解决问题的理论模型,并且从代数角度对模型进行了详细分析,包括形式化证明和复杂度分析。2、分析了已有的频繁偏序集挖掘问题与本问题的关联关系,并在频繁偏序集挖掘算法的基础上,提出了能解决支配一致对挖掘问题的基本算法。3、针对性能优化需求,根据微博数据集的数据附加和顺序访问特点,提出了两个支配一致对挖掘的方法,TA_Dom算法和MS_Dom算法,并且在合成的基准数据集上测试了算法的有效性和性能,实验结果证明算法性能能得到明显的提高。4、将上述算法嵌入已有微博舆情分析系统,在子系统上实现了两个基础模块:用户影响力传播分析模块和关键博文发现模块,并用舆情分析系统采集到的数据进行了大规模实验和分析,实验结果证明了本文工作的有效性。
【关键词】:skyline查询处理 偏序 支配关系 支配一致对 舆情分析系统
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.13