首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

中文网页自动分类系统及关键技术研究与实现

【摘要】:随着互联网的快速发展,网页数量也呈爆炸式的增长。有效组织并管理这些海量网页的方法之一就是利用网页自动分类技术对其进行分类。由于目前网页内容纷繁复杂,而且网页文本长度长短不一,将传统的基于机器学习的分类方法应该用到大规模网页分类中时,往往准确率偏低,这使得这些在传统分类中表现出色的方法难以有效解决大规模网页分类问题。因此,如何针对目前互联网类别体系复杂、网页数量巨大的特点研究一种高效的网页自动分类技术是一个亟待解决的问题。本文针对这一类问题的解决做了相关的研究,主要研究了目前分类所用到的常用方法,指出了其存在的不足,并提出了相应的解决方案,最后通过实验证明了这些方法的有效性。完成的主要工作和取得的研究成果如下:1、对目前的网页分类相关理论进行了研究,包括网页的分类过程、网页表示模型、中文分词技术、特征抽取方法及网页分类算法等。2、研究了目前常用的分类算法,针对目前自动获取的网页内容文本短小的问题,提出了一种基于Labeled_LDA模型的特征词空间扩充方法,通过实验证明了其可行性。3、针对新闻类别等网页内容杂乱,分类准确率较低的现象,提出了一种基于URL结构及标题的预分类算法,并辅助以实验证明,有效的解决了这一问题。4、将上述提出的单个改进方案综合起来,确立了一种新的分类框架,并基于此最终实现了一个网页分类系统,通过实验分析,相对于传统的分类方法,本文提出的方案可以使分类的准确率提高0.5%-1%。最后总结了取得的成果和尚存在的问题并提出了进一步改进的方向。
【关键词】:网页分类 预分类 特征词空间扩充 归纳模型 分类架构
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.092
论文共71页,点击 下载论文
上一篇:基于SLA的服务性能管理技术研究
下一篇:基于人工免疫和云模型的入侵检测技术研究