网络信息的情感倾向分类技术研究
【摘要】:随着国内互联网的快速发展,网络媒体的影响力越来越大。人们在网上交流信息,发表观点、宣泄情绪,由此产生了网络舆情。随着出现越来越多有较大负面影响力的网络公共事件,相关国家部门已加强了对网络信息的收集、分析,并对相关设施进行了投资,由此产生了相应的网络信息监控系统。网络信息监控系统通过实时采集网络信息,运用相关技术高效地分析数据,为用户有效监测网络敏感信息,分析网络舆情,降低成本提供了良好的支持。本文重点对网络信息监控系统的关键技术——文本情感分析进行了研究,对现有的技术方法进行改进来解决网络信息监控系统中遇到的问题,在此基础上设计实现了网络信息监控原型系统。本文的工作主要集中在以下方面:1.对现有机器学习方法在通用文本测试集上进行了比较研究。现有的对中文文本情感信息分类的研究的实验数据多集中于单个或少数几个话题领域(如酒店评论、数码产品等),对通用领域的研究较少。而网络信息情感倾向分类系统所采集的文本涉及政治、经济、文化等诸多领域,由于不同的分类器在不同领域上的分类性能不同,各有优劣,因此本文针对网络信息情感分类系统的需求,在通用测试集上对多个分类器进行了实验,评价各个分类器的性能。2.提出了一种基于可信度的多分类器融合的文本情感倾向分析算法。在对分类器性能研究的基础上,选择了KNN、SVM和最大熵作为基本分类器,然后用基于可信度的融合算法对三种分类器进行了组合。实验证明其在实际应用中的效果较好。3.在对有关技术研究的基础上,本文设计和实现了互联网信息监控原型系统,并将文本情感倾向分析技术应用在敏感信息告警功能上,最终在相关单位部署了该系统。通过系统的实际运行,证明本文提出的设计方案具有功能全面、性能稳定等特点,有效支持了相关单位对网络敏感信息的监控。
【关键词】:情感分析 舆情系统 机器学习 融合策略
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1