首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于深度学习算法的领域词义关联研究

【摘要】:随着信息技术的迅速发展,各类社会事件借助计算机、移动通迅网络进行快速传播极易形成涉及多个领域的热点事件,并在各个领域产生并分布极具相关性的特征词。在此过程中,如何准确定量分析特征词在热点事件中的影响及对热点事件的推动作用,便成为热点事件追踪和信息定位亟待解决的问题。本文在研究了大量已有工作的基础上,紧叩文本上下文语义的相关性特点,基于深度学习算法,深入研究了词义关联在不同领域文本聚类上的应用。在特定领域中,主要研究了特定事件的事态跟踪、热点推送等问题,实现了信息的快速而准确定位。研究中采取实验和实证相结合的方式,以实际数据进行了分析实验。相关工作如下:1)根据事件的跨领域性,以维基百科的分类体系确定了六个主要领域的特征词;利用并行网络爬取架构,以深度优先方式采集了特征词条及其属性词条,并以此为关键词,以宽度优先方式,采集了百度搜索结果及微博数据,为后续工作提供了支撑。2)研究并实现了基于词频统计的领域新词挖掘技术。主要基于词频的统计方法,对采集到的语料进行了分词,统计了词元的出现频率,并将高于一定阈值的词元与现有词典进行对比,挖掘了领域新词。3)研究并实现了基于深度学习算法的领域词义关联技术。把特定语料库文本的分词导入到词表库,通过机器学习将分词映射成实数向量,并计算向量之间的余弦距离,进而挖掘出语料中的热点事件。
【关键词】:词义关联 深度学习 维基百科 领域
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
论文共62页,点击 下载论文
上一篇:基于应用程序访存模式的硬件自适应预取技术的研究
下一篇:基于激光点云数据的三维模型重构关键技术研究