HTML文本自动分类技术的研究与工具的实现

摘要	第1-3页
ABSTRACT	第3-5页
目录	第5-7页
图表目录	第7-8页
第一章前言	第8-12页
·课题研究背景及意义	第8-9页
·国内外研究现状	第9-10页
·文本自动分类技术研究在国内外的发展	第9页
·文本自动分类技术的研究现状	第9-10页
·本文的研究内容	第10-12页
·研究内容	第10-11页
·本文的组织	第11-12页
第二章 HTML文本自动分类技术概述	第12-23页
·文本分类技术	第12-14页
·文本分类概念	第12-13页
·文本自动分类问题的一般性描述	第13-14页
·文本自动分类工具的实现过程	第14-17页
·向量空间模型	第14-15页
·实现过程概述	第15-17页
·HIML文本的预处理技术	第17-19页
·分类器的训练及测试	第19-20页
·性能评估方法	第20-21页
·实验用语料库	第21-23页
第三章 HTML文本自动分类中预处理、特征提取、特征选择的研究比较	第23-38页
·HTML文本的预处理	第23-27页
·HTML文本标记加权方案	第23-24页
·分词前的预处理	第24-25页
·HTML预处理算法	第25-26页
·预处理前后分类器性能比较	第26-27页
·HTML文本的特征提取和特征选择	第27-31页
·文档频率(DF)	第28页
·信息增益(IG)	第28页
·互信息(MI)	第28-29页
·X~2统计量(CHI)	第29页
·期望交叉熵(ECE)	第29-30页
·文本证据权(WET)	第30页
·特征词的强度(TS)	第30页
·几率比(OR)	第30-31页
·主成分分析(PCA)	第31页
·特征评估函数实验比较	第31-34页
·HTML文本特征项权重计算	第34-36页
·布尔权重	第34页
·词频权重	第34页
·TF-IDF权重	第34-35页
·TFC权重	第35页
·LTC权重	第35页
·基于熵概念的权重	第35-36页
·不同赋权方法实验比较	第36-38页
第四章 HTML文本自动分类算法及其实验比较	第38-51页
·朴素贝叶斯分类法(NB)	第38-39页
·K近邻分类法(KNN)	第39-41页
·KNN方法	第39-40页
·K值的选取	第40-41页
·支持向量机分类法(SVM)	第41-44页
·线性可分情况	第42-43页
·线性不可分情况	第43-44页
·KNN-SVM分类法	第44-47页
·基本原理	第44-46页
·分类算法	第46-47页
·KNN和KNN-SVM分类器比较分析	第47-51页
第五章 HTML文本自动分类工具的设计与实现	第51-58页
·分类工具的体系结构	第51-54页
·主要功能模块介绍	第54-58页
·HTML文本处理及特征提取模块	第54-55页
·文本分类模块	第55-56页
·分类测试与结果评估模块	第56-58页
第六章总结与展望	第58-60页
·论文内容总结	第58页
·本文主要工作和创新点	第58-59页
·不足及对未来的展望	第59-60页
参考文献	第60-64页
致谢	第64页