基于类别均衡的文本分类算法研究
| 创新性声明 | 第1页 |
| 关于论文使用授权的说明 | 第2-3页 |
| 摘 要 | 第3-4页 |
| ABSTRACT | 第4-7页 |
| 第一章 绪论 | 第7-11页 |
| ·研究背景和意义 | 第7页 |
| ·研究现状 | 第7-8页 |
| ·问题提出 | 第8-9页 |
| ·特征词权重计算公式 | 第8-9页 |
| ·文本分类算法 | 第9页 |
| ·本文的工作和论文的组织 | 第9-11页 |
| 第二章 文本分类相关技术 | 第11-19页 |
| ·文本分类流程 | 第11页 |
| ·文本预处理 | 第11-12页 |
| ·特征选取 | 第12-14页 |
| ·特征提取(降维) | 第12-13页 |
| ·特征权重的计算 | 第13-14页 |
| ·文本的表示 | 第14-15页 |
| ·文本分类 | 第15页 |
| ·分类的评测 | 第15-18页 |
| ·多重二元分类任务 | 第15-17页 |
| ·多重分类和多重表示分类 | 第17页 |
| ·测试方法 | 第17-18页 |
| ·本章小结 | 第18-19页 |
| 第三章 特征词提取及权重计算 | 第19-31页 |
| ·向量空间模型 | 第19-21页 |
| ·特征提取 | 第21-26页 |
| ·特征选择方法 | 第21-24页 |
| ·特征词重构 | 第24-26页 |
| ·特征词的可分离性判别 | 第26页 |
| ·特征权重计算方法的改进 | 第26-30页 |
| ·信息论概念 | 第26-27页 |
| ·联合熵与条件熵 | 第27-28页 |
| ·基于加权的词频统计 | 第28页 |
| ·TF×IDF 算法的改进 | 第28-30页 |
| ·本章小结 | 第30-31页 |
| 第四章 文本分类算法及改进 | 第31-41页 |
| ·训练集和测试集 | 第31-32页 |
| ·文本分类算法 | 第32-37页 |
| ·Roccio’s 算法 | 第32-33页 |
| ·朴素贝叶斯算法 | 第33-34页 |
| ·kNN 算法 | 第34-35页 |
| ·支持向量机算法 | 第35-36页 |
| ·决策树算法 | 第36-37页 |
| ·神经网络算法 | 第37页 |
| ·基于类别均衡的kNN 文本分类算法 | 第37-39页 |
| ·类别均衡 | 第37-38页 |
| ·类别中心向量 | 第38页 |
| ·kNN 分类算法的改进 | 第38-39页 |
| ·阈值的确定 | 第39-40页 |
| ·本章小结 | 第40-41页 |
| 第五章 测试结果及分析 | 第41-46页 |
| ·语料库 | 第41页 |
| ·特征词权重计算方法的有效性测试 | 第41-42页 |
| ·基于类别均衡的kNN 文本分类算法的测试 | 第42-45页 |
| ·本章小结 | 第45-46页 |
| 结束语 | 第46-47页 |
| 致谢 | 第47-48页 |
| 参考文献 | 第48-51页 |
| 研究生在读期间的研究成果 | 第51页 |