致谢 | 第1-6页 |
中文摘要 | 第6-7页 |
ABSTRACT | 第7-10页 |
1 引言 | 第10-19页 |
·研究背景 | 第10-11页 |
·Web挖掘的定义和分类 | 第11-13页 |
·Web文本分类的定义和过程 | 第13-14页 |
·Web文本分类的研究现状及存在的问题 | 第14-17页 |
·本文研究内容和组织结构 | 第17-19页 |
2 文本分类相关技术 | 第19-37页 |
·文本表示 | 第19-22页 |
·向量空间模型(VSM) | 第19-20页 |
·权重的选择 | 第20-21页 |
·文本的相关性计算 | 第21-22页 |
·汉语自动分词 | 第22-24页 |
·分词难点 | 第23页 |
·常用的分词技术 | 第23-24页 |
·特征选择 | 第24-28页 |
·初始化筛选 | 第24-25页 |
·潜在语义索引降维 | 第25页 |
·构造评估函数进行特征评价 | 第25-28页 |
·特征评价函数之间的比较 | 第28页 |
·分类算法 | 第28-34页 |
·决策树算法(Decesion Tree) | 第29-30页 |
·KNN方法 | 第30页 |
·贝叶斯网络(Bayesian Networks) | 第30-31页 |
·支持向量机(SVM) | 第31-33页 |
·分类算法之间的比较 | 第33-34页 |
·评价标准 | 第34-35页 |
·本章小结 | 第35-37页 |
3 判别式朴素贝叶斯和层次化文本分类 | 第37-53页 |
·贝叶斯网络分类器 | 第37-39页 |
·贝叶斯定理 | 第37页 |
·贝叶斯网络 | 第37-39页 |
·朴素贝叶斯文本分类 | 第39-41页 |
·判别式朴素贝叶斯文本分类 | 第41-45页 |
·贝叶斯网络参数学习 | 第41-42页 |
·基于K-L距离的判别式朴素贝叶斯文本分类 | 第42-45页 |
·层次化文本分类研究 | 第45-47页 |
·基于K-L距离的判别式朴素贝叶斯层次文本分类法 | 第47-48页 |
·本文所用的数据 | 第48-49页 |
·实验结果分析 | 第49-51页 |
·特征维数的影响 | 第49-51页 |
·朴素贝叶斯和判别式的朴素贝叶斯层次文本分类结果比较 | 第51页 |
·本章小结 | 第51-53页 |
4 融入结构信息的网页分类方法 | 第53-60页 |
·网页内容分析 | 第53-56页 |
·网页的特点及可利用的结构信息 | 第53-54页 |
·网页内容提取 | 第54-56页 |
·利用结构信息加强网页分类效果 | 第56-57页 |
·用带标签的文本方式表示网页 | 第56页 |
·组合文本分类器 | 第56-57页 |
·组合文本分类器分类实验 | 第57-58页 |
·本章小结 | 第58-60页 |
5 结论 | 第60-62页 |
·全文总结 | 第60页 |
·未来工作展望 | 第60-62页 |
参考文献 | 第62-68页 |
作者简历 | 第68-70页 |
学位论文数据集 | 第70页 |