摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
第一章 绪论 | 第8-14页 |
§1-1 文本分类研究的背景及意义 | 第8-10页 |
1-1-1 文本分类概述 | 第8页 |
1-1-2 研究背景及意义 | 第8-10页 |
§1-2 文本分类国内外研究现状 | 第10-12页 |
1-2-1 文本分类在国外的发展 | 第10-11页 |
1-2-2 文本分类在国内的发展 | 第11-12页 |
§1-3 课题研究的工作和内容组织 | 第12-14页 |
1-3-1 课题研究的内容及主要工作 | 第12页 |
1-3-2 论文的章节安排 | 第12-14页 |
第二章 文本分类的相关技术 | 第14-22页 |
§2-1 文本分类的基本概念 | 第14-15页 |
2-1-1 文本分类问题描述 | 第14页 |
2-1-2 文本分类的技术线路 | 第14-15页 |
§2-2 文本表示模型 | 第15-17页 |
2-2-1 文本表示方法 | 第15页 |
2-2-2 向量空间模型 | 第15-17页 |
§2-3 常用特征项提取方法 | 第17-19页 |
2-3-1 词频方法DF(Document Frequency: DF) | 第17-18页 |
2-3-2 信息增益方法IG(Information Gain:IG) | 第18页 |
2-3-3 互信息方法MI(Mutual Information:MI) | 第18页 |
2-3-4 X2统计量(CHI) | 第18-19页 |
§2-4 常用的几种分类算法 | 第19-21页 |
2-4-1 简单向量距离算法 | 第19页 |
2-4-2 KNN(近邻居)算法 | 第19-20页 |
2-4-3 朴素贝叶斯算法 | 第20页 |
2-4-4 神经网络算法 | 第20-21页 |
§2-5 本章小结 | 第21-22页 |
第三章 词语权重计算方法的改进 | 第22-34页 |
§3-1 常用的特征提取方法 | 第22-23页 |
3-1-1 文档频数DF | 第22页 |
3-1-2 信息增益 | 第22-23页 |
3-1-3 期望交叉熵 | 第23页 |
3-1-4 互信息 | 第23页 |
3-1-5 X2统计(CHI) | 第23页 |
§3-2 传统的TFIDF 特征权重算法分析 | 第23-25页 |
§3-3 传统的TFIDF 特征权重算法改进 | 第25-28页 |
3-3-1 传统的TFIDF 特征权重算法的不足 | 第25-26页 |
3-3-2 对传统TFIDF 特征权重算法的改进 | 第26-28页 |
§3-4 实验结果与分析 | 第28-33页 |
3-4-1 实验的介绍 | 第28页 |
3-4-2 传统的TFIDF 特征权重算法实验 | 第28-29页 |
3-4-3 改进的 TFIDF 特征权重算法实验 | 第29-30页 |
3-4-4 特征权重算法改进前与改进后的对比图 | 第30-32页 |
3-4-5 特征权重算法的对分类性能的影响 | 第32-33页 |
§3-5 本章小结 | 第33-34页 |
第四章 基于词语权重的文本分类系统的设计与实现 | 第34-45页 |
§4-1 文本分类系统实现的目的与意义 | 第34页 |
§4-2 文本分类系统框架设计 | 第34-35页 |
§4-3 文本分类系统总体结构 | 第35-36页 |
§4-4 文本分类系统的功能模块说明 | 第36-42页 |
4-4-1 语料库维护 | 第36-37页 |
4-4-2 网页预处理 | 第37-39页 |
4-4-3 文本表示 | 第39-40页 |
4-4-4 基于词语权重的分类模型 | 第40-41页 |
4-4-5 训练集和测试集 | 第41-42页 |
4-4-6 性能评估模块 | 第42页 |
§4-5 文本分类实验 | 第42-45页 |
4-5-1 实验环境 | 第42-43页 |
4-5-2 实验过程及结果 | 第43-44页 |
4-5-3 实验结果分析 | 第44-45页 |
第五章 总结和展望 | 第45-46页 |
§5-1 总结 | 第45页 |
§5-2 展望 | 第45-46页 |
参考文献 | 第46-49页 |
致谢 | 第49页 |