中文网页层次分类研究

论文摘要	第1-3页
Abstract	第3-10页
第一章引言	第10-15页
·论文背景及意义	第10-11页
·问题描述	第11-12页
·国内外研究现状	第12-13页
·本文内容及结构	第13-15页
·本文内容	第13-14页
·本文结构	第14-15页
第二章中文网页分类技术概述	第15-24页
·网页预处理	第16-18页
·网页结构信息处理	第16页
·网页文本预处理	第16-18页
·特征选择与降维处理	第18-19页
·文本分类算法	第19-23页
·Naive Bayes 算法	第20页
·KNN 算法	第20-21页
·SVM 算法	第21-23页
·算法评估指标	第23-24页
第三章基于序列挖掘的中文网页候选特征选择方法	第24-36页
·挖掘出频繁出现的字符串	第24-30页
·序列挖掘方法	第24-25页
·PAT 树	第25-26页
·改进的 PAT 树结构	第26-28页
·频繁字符串挖掘算法	第28-30页
·字符串的净频率	第30-34页
·净频率计算公式	第30-32页
·PAT 树中串的净频率计算算法	第32-34页
·特征选择过程	第34-36页
·网页预处理	第34-35页
·挖掘频繁出现字串	第35页
·从频繁字串中选择特征	第35-36页
第四章层次分类方法及特征权重计算模型	第36-43页
·层次分类方法	第36-40页
·层次分类方法面临的问题	第36页
·层次分类方法概述	第36-37页
·Shrinkage 算法	第37-39页
·层次分类模型	第39-40页
·文本特征权重计算	第40-41页
·TFIDF 计算公式介绍	第40页
·TF*IDF 公式改进	第40-41页
·网页内容加权处理	第41页
·特征选择方法	第41-43页
·特征选择方法比较	第42页
·CHI 算法	第42-43页
第五章中文网页层次分类系统设计及实现	第43-51页
·系统框架	第43-46页
·数据库设计	第46页
·主要模块设计	第46-51页
·文本预处理	第46-48页
·特征选择过程	第48-49页
·抽取层次结构	第49页
·文本表示	第49-50页
·分类过程	第50-51页
第六章实验结果及分析	第51-68页
·数据集及开源工具	第51-52页
·实验方法及硬件条件	第52页
·数据预处理	第52页
·实验结果分析	第52-68页
·传统分类方法实验结果及分析	第52-59页
·序列挖掘方法实验结果及分析	第59-64页
·Shrinkage 算法与 NaiveBayes 算法比较	第64-66页
·TF*CHI 权重改进后的实验结果及分析	第66-68页
第七章总结与展望	第68-70页
·论文小结	第68页
·进一步工作	第68-70页
参考文献	第70-74页
致谢	第74页