首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于统计的中文新闻网页分类技术研究

摘要第1-7页
Abstract第7-8页
第一章 绪论第8-11页
   ·背景与意义第8-9页
   ·课题的发展现状第9-10页
   ·本文研究工作与内容安排第10-11页
第二章 文本分类技术概述第11-21页
   ·文本分类的定义第11-12页
   ·文本分类的过程第12-15页
     ·预处理第12页
     ·文本表示第12-13页
     ·特征选取第13-15页
   ·分类算法第15-19页
     ·朴素贝叶斯(Na(l|¨)ve Bayes)第15-16页
     ·K-近邻(KNN)第16-17页
     ·支持向量机(Support Vector Machines,SVM)第17-19页
     ·文本分类的评估指标第19页
   ·相关评测和相关资源第19-20页
   ·中文新闻网页自动分类第20-21页
第三章 基于条件随机域的新闻网页信息提取第21-30页
   ·网页的基本结构和特点第21-22页
     ·网页基本结构第21-22页
     ·网页特点分析第22页
   ·网页的规范化处理第22-23页
   ·条件随机域与网页内容预处理第23-28页
     ·条件随机域模型(CRF)第24页
     ·基于DOM的网页树型结构构建第24-26页
     ·网页信息的标注过程第26-28页
   ·特征选择第28页
   ·实验第28-30页
     ·实验数据与工具第28-29页
     ·实验结果第29-30页
第四章 基于结构信息组合的中文新闻网页分类第30-34页
   ·网页的结构信息和超链接信息第30-31页
   ·网页内容的表示与特征权值设置第31-32页
   ·实验及其结果分析第32-34页
     ·实验设置第32页
     ·不同网页表示形式的分类性能对比第32-33页
     ·不同结构信息加权组合后的分类性能对比第33-34页
第五章 中文新闻网页分类中的特征选择方法第34-39页
   ·特征选择第34-35页
   ·特征抽取第35-36页
   ·不同特征选择方法的分类实验第36-39页
     ·分类器设计第36-37页
     ·分类测试实验第37-39页
总结与展望第39-41页
参考文献第41-43页
致谢第43页

论文共43页,点击 下载论文
上一篇:白藜芦醇诱导HepG2细胞凋亡的线粒体机制
下一篇:基于本体的智能信息检索