首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于体裁的中文网页分类

摘要第1-4页
Abstract第4-9页
第一章 绪论第9-16页
   ·研究背景与意义第9-10页
   ·文本分类概述第10-12页
     ·文本分类的定义第10页
     ·文本分类过程简介第10-11页
     ·文本体裁分类概述第11-12页
   ·国内外研究现状第12-13页
   ·论文的主要工作与研究内容第13-16页
     ·论文的主要工作第13-14页
     ·论文的研究特色和创新说明第14页
     ·论文的组织结构第14-16页
第二章 网页文本的特征表示第16-33页
   ·网页文本预处理第16-18页
     ·网页信息表示分析第17页
     ·网页预处理流程第17-18页
   ·特征项的选取第18-25页
     ·频繁字符串特征第19-23页
       ·传统的自动分词技术第19-20页
       ·基于序列挖掘的频繁字符串抽取第20-23页
       ·低频高权字符串特征的获取第23页
     ·模糊字符串模式特征第23-24页
     ·平均段长、平均句长第24页
     ·网页的链接结构信息第24-25页
   ·特征项的权重计算问题第25-29页
     ·初始权重的计算第25-26页
     ·基于特征空间区分能力的权值调整策略第26-29页
       ·特征空间对不同体裁类别的区分能力第27-28页
       ·样本的权值调整第28-29页
   ·特征选择方法第29-33页
     ·文本频率DF第30页
     ·信息增益IG第30-31页
     ·互信息MI第31页
     ·χ~2 统计法第31-33页
第三章 文本分类和评估方法第33-47页
   ·分类算法介绍第33-38页
     ·中心向量比较法(Rocchio)第33-34页
     ·K 近邻法(K-Nearest Neighbor,KNN)第34页
     ·朴素贝叶斯算法(Na(?)ve Bayes,NB)第34-35页
     ·支持向量机(Support Vector Machines,SVM)第35-38页
       ·支持向量机基本原理第36-37页
       ·SVM 多类分类方法第37-38页
   ·一种SVM 与关联规则相结合的分类器SVMAR第38-45页
     ·关联规则分类第38-43页
       ·关联规则的挖掘第39页
       ·关联规则的优化第39-41页
       ·利用关联规则进行分类第41-43页
     ·SVM 和关联规则分类器的组合――SVMAR第43-45页
       ·分类结果的相关性分析第43-44页
       ·候选类别权值的确定第44页
       ·分类器的组合第44-45页
   ·评估方法第45-47页
     ·准确率、查全率和F1 值第45-46页
     ·宏平均和微平均第46-47页
第四章 系统的设计实现与实验分析第47-57页
   ·系统功能结构设计第47-48页
   ·部分功能模块处理流程说明第48-50页
   ·实验结果及性能评价第50-57页
     ·数据集第50页
     ·实验环境及开源项目说明第50-51页
     ·实验结果分析第51-57页
       ·特征项选取实验第51-52页
       ·特征权值调整实验第52-54页
       ·SVM 与 SVMAR 分类效果比较实验第54-55页
       ·实验总结第55-57页
第五章 结论与展望第57-59页
   ·总结第57-58页
   ·进一步工作展望第58-59页
参考文献第59-63页
攻读硕士期间参加的课题和发表的论文第63-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:《中原音韵》研究
下一篇:宋本《玉篇》异体字研究