基于决策树的档案文本自动分类算法研究
摘要 | 第3-4页 |
Abstract | 第4-5页 |
目录 | 第6-9页 |
第1章 绪论 | 第9-15页 |
1.1 研究背景及意义 | 第9-11页 |
1.2 国内外研究现状 | 第11-12页 |
1.3 选题依据 | 第12页 |
1.4 本文的主要工作 | 第12-13页 |
1.5 本文的基本组织结构 | 第13-15页 |
第2章 文本分类相关技术及理论介绍 | 第15-34页 |
2.1 文本分类的定义 | 第15-16页 |
2.2 文本分类预处理 | 第16-18页 |
2.2.1 文本分词处理 | 第16页 |
2.2.2 去除停用词 | 第16-17页 |
2.2.3 文本表示 | 第17-18页 |
2.3 常用的特征选择算法介绍 | 第18-20页 |
2.3.1 文档频率(DF) | 第18页 |
2.3.2 信息增益法(IG) | 第18-19页 |
2.3.3 互信息法(MI) | 第19-20页 |
2.3.4 x~2统计量法(CHI) | 第20页 |
2.4 文本分类算法 | 第20-30页 |
2.4.1 贝叶斯分类算法 | 第20-21页 |
2.4.2 K最邻近算法 | 第21-22页 |
2.4.3 神经网络算法 | 第22-23页 |
2.4.4 支持向量机方法 | 第23-26页 |
2.4.5 决策树分类算法 | 第26-30页 |
2.4.5.1 ID3算法 | 第26-28页 |
2.4.5.2 C4.5算法 | 第28-29页 |
2.4.5.3 CART算法 | 第29-30页 |
2.5 文本分类评价指标介绍 | 第30-33页 |
2.5.1 查准率、查全率 | 第31页 |
2.5.2 F1值 | 第31-32页 |
2.5.3 宏平均和微平均 | 第32-33页 |
2.6 本章小结 | 第33-34页 |
第3章 决策树算法的改进与优化 | 第34-54页 |
3.1 C4.5算法计算公式的优化 | 第34-39页 |
3.1.1 计算公式优化 | 第34-36页 |
3.1.2 实例分析 | 第36-39页 |
3.1.2.1 利用原C4.5算法建树过程 | 第37-38页 |
3.1.2.2 利用改进的C4.5算法建树过程 | 第38-39页 |
3.2 分类规则与决策树之间的转换 | 第39-53页 |
3.2.1 从生成决策树中提取分类规则 | 第40-43页 |
3.2.2 由分类规则调整生成决策树 | 第43-49页 |
3.2.3 对生成决策树进行机器学习 | 第49-53页 |
3.3 本章小结 | 第53-54页 |
第4章 改进的决策树算法在档案文本分类中的应用 | 第54-63页 |
4.1 文本分类结构 | 第54页 |
4.2 主题信息源的确定 | 第54-55页 |
4.3 停用词典库的设计 | 第55-56页 |
4.4 分词处理 | 第56-58页 |
4.5 词频统计 | 第58-59页 |
4.6 应用实例 | 第59-62页 |
4.7 本章小结 | 第62-63页 |
第5章 总结与展望 | 第63-65页 |
5.1 总结 | 第63-64页 |
5.2 展望 | 第64-65页 |
参考文献 | 第65-68页 |
攻读硕士学位期间完成的科研成果 | 第68-69页 |
致谢 | 第69页 |