| 致谢 | 第1-6页 |
| 中文摘要 | 第6-7页 |
| ABSTRACT | 第7-10页 |
| 1 引言 | 第10-19页 |
| ·研究背景 | 第10-11页 |
| ·Web挖掘的定义和分类 | 第11-13页 |
| ·Web文本分类的定义和过程 | 第13-14页 |
| ·Web文本分类的研究现状及存在的问题 | 第14-17页 |
| ·本文研究内容和组织结构 | 第17-19页 |
| 2 文本分类相关技术 | 第19-37页 |
| ·文本表示 | 第19-22页 |
| ·向量空间模型(VSM) | 第19-20页 |
| ·权重的选择 | 第20-21页 |
| ·文本的相关性计算 | 第21-22页 |
| ·汉语自动分词 | 第22-24页 |
| ·分词难点 | 第23页 |
| ·常用的分词技术 | 第23-24页 |
| ·特征选择 | 第24-28页 |
| ·初始化筛选 | 第24-25页 |
| ·潜在语义索引降维 | 第25页 |
| ·构造评估函数进行特征评价 | 第25-28页 |
| ·特征评价函数之间的比较 | 第28页 |
| ·分类算法 | 第28-34页 |
| ·决策树算法(Decesion Tree) | 第29-30页 |
| ·KNN方法 | 第30页 |
| ·贝叶斯网络(Bayesian Networks) | 第30-31页 |
| ·支持向量机(SVM) | 第31-33页 |
| ·分类算法之间的比较 | 第33-34页 |
| ·评价标准 | 第34-35页 |
| ·本章小结 | 第35-37页 |
| 3 判别式朴素贝叶斯和层次化文本分类 | 第37-53页 |
| ·贝叶斯网络分类器 | 第37-39页 |
| ·贝叶斯定理 | 第37页 |
| ·贝叶斯网络 | 第37-39页 |
| ·朴素贝叶斯文本分类 | 第39-41页 |
| ·判别式朴素贝叶斯文本分类 | 第41-45页 |
| ·贝叶斯网络参数学习 | 第41-42页 |
| ·基于K-L距离的判别式朴素贝叶斯文本分类 | 第42-45页 |
| ·层次化文本分类研究 | 第45-47页 |
| ·基于K-L距离的判别式朴素贝叶斯层次文本分类法 | 第47-48页 |
| ·本文所用的数据 | 第48-49页 |
| ·实验结果分析 | 第49-51页 |
| ·特征维数的影响 | 第49-51页 |
| ·朴素贝叶斯和判别式的朴素贝叶斯层次文本分类结果比较 | 第51页 |
| ·本章小结 | 第51-53页 |
| 4 融入结构信息的网页分类方法 | 第53-60页 |
| ·网页内容分析 | 第53-56页 |
| ·网页的特点及可利用的结构信息 | 第53-54页 |
| ·网页内容提取 | 第54-56页 |
| ·利用结构信息加强网页分类效果 | 第56-57页 |
| ·用带标签的文本方式表示网页 | 第56页 |
| ·组合文本分类器 | 第56-57页 |
| ·组合文本分类器分类实验 | 第57-58页 |
| ·本章小结 | 第58-60页 |
| 5 结论 | 第60-62页 |
| ·全文总结 | 第60页 |
| ·未来工作展望 | 第60-62页 |
| 参考文献 | 第62-68页 |
| 作者简历 | 第68-70页 |
| 学位论文数据集 | 第70页 |