| 摘要 | 第1-5页 |
| Abstract | 第5-10页 |
| 第1章 引言 | 第10-19页 |
| ·背景和历史 | 第10-14页 |
| ·自动文本分类技术 | 第14-15页 |
| ·特征选择技术 | 第15-16页 |
| ·研究目的和意义 | 第16-17页 |
| ·研究内容和贡献 | 第17页 |
| ·本论文的内容安排 | 第17-19页 |
| 第2章 文本分类技术 | 第19-27页 |
| ·决策树算法 | 第19-21页 |
| ·朴素贝叶斯 | 第21-22页 |
| ·K 最近邻算法 | 第22-23页 |
| ·支持向量机 | 第23-25页 |
| ·线性最小平方拟合 | 第25页 |
| ·神经网络 | 第25-27页 |
| 第3章 特征选择技术 | 第27-37页 |
| ·引言 | 第27-30页 |
| ·过滤型特征选择方法 | 第30-34页 |
| ·基于相互关系度的特征选择 | 第32-33页 |
| ·马尔可夫覆盖过滤算法(KS 算法) | 第33-34页 |
| ·包装型特征选择方法 | 第34-37页 |
| 第4章 基于图的特征选择 | 第37-56页 |
| ·图模型与符号表示 | 第37-40页 |
| ·符号表示 | 第37-38页 |
| ·图模型 | 第38-40页 |
| ·马尔可夫链模型 | 第40-46页 |
| ·中心性(Centrality) | 第40-41页 |
| ·马尔可夫链模型(Markov Chain Model) | 第41-42页 |
| ·类别建模 | 第42-43页 |
| ·算法 | 第43-46页 |
| ·基于图的多类别特征结合选择算法 | 第46-51页 |
| ·主要思想 | 第46-49页 |
| ·评分综合 | 第49-50页 |
| ·计算公式 | 第50-51页 |
| ·观察分析和下一步的研究方向 | 第51-55页 |
| ·文档-文档图 | 第51-53页 |
| ·词特征表示 | 第53-54页 |
| ·方差模型的缺陷 | 第54-55页 |
| ·结论 | 第55-56页 |
| 第5章 实验结果及分析 | 第56-76页 |
| ·数据集 | 第56-62页 |
| ·20Newsgroup 介绍 | 第56-58页 |
| ·选取三组典型数据进行分类对比 | 第58-61页 |
| ·类别核心词项分布分析 | 第61-62页 |
| ·实验工具 | 第62-63页 |
| ·文本预处理 | 第62-63页 |
| ·分类器 | 第63页 |
| ·实验评估方法 | 第63-66页 |
| ·Recall, precision, accuracy, error rate, fallout | 第64-65页 |
| ·微平均(Micro-average)和宏平均(macro-average) | 第65页 |
| ·Break-even point 方法 | 第65-66页 |
| ·F_β量测方法 | 第66页 |
| ·分类正确率 | 第66页 |
| ·实验步骤 | 第66-67页 |
| ·实验结果及其分析 | 第67-75页 |
| ·经验分析 | 第67-70页 |
| ·实验结果评估 | 第70-75页 |
| ·结论 | 第75-76页 |
| 第6章 总结和进一步工作 | 第76-78页 |
| ·研究总结 | 第76页 |
| ·需进一步展开的工作 | 第76-78页 |
| 参考文献 | 第78-82页 |
| 致谢 | 第82-83页 |
| 个人简历、在学期间发表的学术论文与研究成果 | 第83页 |