基于核心词扩展的文本分类
| 摘要 | 第1-5页 |
| ABSTRACT | 第5-8页 |
| 1 绪论 | 第8-16页 |
| ·课题背景 | 第8-9页 |
| ·国内外概况 | 第9-14页 |
| ·文本分类方法简介 | 第9-12页 |
| ·基于关联的文本分类算法 | 第12-14页 |
| ·课题主要研究工作 | 第14-16页 |
| 2 文本预处理 | 第16-20页 |
| ·文档提取与表示 | 第16-17页 |
| ·去停词与获取词根处理 | 第17-18页 |
| ·句子边界的判定 | 第18-19页 |
| ·小结 | 第19-20页 |
| 3 文本表示及算法基本定义 | 第20-27页 |
| ·文档的事务表示 | 第21-23页 |
| ·挖掘文档内频繁项目集 | 第23-24页 |
| ·核心词 | 第24页 |
| ·类频繁项目集 | 第24-25页 |
| ·置信度 | 第25-26页 |
| ·小结 | 第26-27页 |
| 4 构建分类器 | 第27-36页 |
| ·构造类前缀树 | 第27-29页 |
| ·修剪类前缀树 | 第29-34页 |
| ·Foil 剪枝方法介绍 | 第29-32页 |
| ·ModFit 剪枝方法介绍 | 第32-34页 |
| ·分类 | 第34-35页 |
| ·得分模型 | 第34页 |
| ·分类策略 | 第34-35页 |
| ·小结 | 第35-36页 |
| 5 实验研究 | 第36-46页 |
| ·文本数据集 | 第36-38页 |
| ·Reuters 数据集 | 第36页 |
| ·Enron 数据集 | 第36-38页 |
| ·度量标准 | 第38-39页 |
| ·实验结果与研究 | 第39-45页 |
| ·Reuters 数据集上的实验结果 | 第39-42页 |
| ·Enron 数据集上的实验结果 | 第42-45页 |
| ·小结 | 第45-46页 |
| 6 总结与未来工作 | 第46-49页 |
| ·全文总结 | 第46-47页 |
| ·未来工作 | 第47-49页 |
| 致谢 | 第49-50页 |
| 参考文献 | 第50-55页 |
| 附录 攻读硕士学位期间发表论文目录 | 第55页 |