首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

中文网页层次分类研究

论文摘要第1-3页
Abstract第3-10页
第一章 引言第10-15页
   ·论文背景及意义第10-11页
   ·问题描述第11-12页
   ·国内外研究现状第12-13页
   ·本文内容及结构第13-15页
     ·本文内容第13-14页
     ·本文结构第14-15页
第二章 中文网页分类技术概述第15-24页
   ·网页预处理第16-18页
     ·网页结构信息处理第16页
     ·网页文本预处理第16-18页
   ·特征选择与降维处理第18-19页
   ·文本分类算法第19-23页
     ·Naive Bayes 算法第20页
     ·KNN 算法第20-21页
     ·SVM 算法第21-23页
   ·算法评估指标第23-24页
第三章 基于序列挖掘的中文网页候选特征选择方法第24-36页
   ·挖掘出频繁出现的字符串第24-30页
     ·序列挖掘方法第24-25页
     ·PAT 树第25-26页
     ·改进的 PAT 树结构第26-28页
     ·频繁字符串挖掘算法第28-30页
   ·字符串的净频率第30-34页
     ·净频率计算公式第30-32页
     ·PAT 树中串的净频率计算算法第32-34页
   ·特征选择过程第34-36页
     ·网页预处理第34-35页
     ·挖掘频繁出现字串第35页
     ·从频繁字串中选择特征第35-36页
第四章 层次分类方法及特征权重计算模型第36-43页
   ·层次分类方法第36-40页
     ·层次分类方法面临的问题第36页
     ·层次分类方法概述第36-37页
     ·Shrinkage 算法第37-39页
     ·层次分类模型第39-40页
   ·文本特征权重计算第40-41页
     ·TFIDF 计算公式介绍第40页
     ·TF*IDF 公式改进第40-41页
   ·网页内容加权处理第41页
   ·特征选择方法第41-43页
     ·特征选择方法比较第42页
     ·CHI 算法第42-43页
第五章 中文网页层次分类系统设计及实现第43-51页
   ·系统框架第43-46页
   ·数据库设计第46页
   ·主要模块设计第46-51页
     ·文本预处理第46-48页
     ·特征选择过程第48-49页
     ·抽取层次结构第49页
     ·文本表示第49-50页
     ·分类过程第50-51页
第六章 实验结果及分析第51-68页
   ·数据集及开源工具第51-52页
   ·实验方法及硬件条件第52页
   ·数据预处理第52页
   ·实验结果分析第52-68页
     ·传统分类方法实验结果及分析第52-59页
     ·序列挖掘方法实验结果及分析第59-64页
     ·Shrinkage 算法与 NaiveBayes 算法比较第64-66页
     ·TF*CHI 权重改进后的实验结果及分析第66-68页
第七章 总结与展望第68-70页
   ·论文小结第68页
   ·进一步工作第68-70页
参考文献第70-74页
致 谢第74页

论文共74页,点击 下载论文
上一篇:CDP集团中国分公司商务模式研究
下一篇:《毛诗传箋通释》声训研究