摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第11-16页 |
1.1 研究背景和意义 | 第11-12页 |
1.1.1 研究背景 | 第11页 |
1.1.2 研究意义 | 第11-12页 |
1.2 国内外研究现状 | 第12-15页 |
1.2.1 国外研究现状 | 第12-14页 |
1.2.2 国内研究现状 | 第14-15页 |
1.3 本论文的组织结构 | 第15-16页 |
第二章 文本分类理论与技术基础 | 第16-32页 |
2.1 文本分类方法 | 第16-19页 |
2.1.1 词匹配法 | 第16页 |
2.1.2 知识工程法 | 第16-17页 |
2.1.3 统计学习法 | 第17-19页 |
2.1.3.1 感知机 | 第17-18页 |
2.1.3.2 k近邻法 | 第18页 |
2.1.3.3 最大熵模型 | 第18-19页 |
2.1.3.4 其他统计学习法 | 第19页 |
2.2 SVM理论 | 第19-28页 |
2.2.1 SVM简介 | 第19页 |
2.2.2 SVM优势 | 第19-20页 |
2.2.3 基本原理 | 第20-24页 |
2.2.3.1 线性可分问题 | 第20-22页 |
2.2.3.2 线性不可分问题 | 第22-24页 |
2.2.3.3 构造用于分类的SVM | 第24页 |
2.2.4 与分类性能相关的参数 | 第24-26页 |
2.2.4.1 惩罚参数 | 第25页 |
2.2.4.2 核函数 | 第25-26页 |
2.2.5 多类分类问题 | 第26-28页 |
2.3 SVM模型的求解 | 第28-31页 |
2.4 本章小结 | 第31-32页 |
第三章 SVM文本分类系统分析与设计 | 第32-41页 |
3.1 问题定义与可行性研究 | 第32页 |
3.2 需求分析与基本流程 | 第32-33页 |
3.3 样本预处理流程 | 第33-35页 |
3.4 训练与测试流程 | 第35-39页 |
3.4.1 训练与测试的整体流程 | 第35-36页 |
3.4.2 数据结构与函数接.定义 | 第36-37页 |
3.4.3 训练流程的细分 | 第37-38页 |
3.4.4 泛化测试流程的细分 | 第38-39页 |
3.5 本章小结 | 第39-41页 |
第四章 基于SVM文本分类方法的优化与改进 | 第41-55页 |
4.1 预处理阶段中文本向量化的优化 | 第41-48页 |
4.1.1 特征提取方法的改进 | 第41-44页 |
4.1.1.1 现有的特征提取方法 | 第41-43页 |
4.1.1.2 对开方检验的优化 | 第43-44页 |
4.1.2 权值计算方法的改进 | 第44-48页 |
4.1.2.1 现有的权值方法TF-IDF | 第45-46页 |
4.1.2.2 结合特征提取的TF-IDF方法改进 | 第46-48页 |
4.2 对预处理后样本重新排列的方法设计 | 第48-51页 |
4.2.1 预处理后样本集的组织形式 | 第48-49页 |
4.2.2 为避免性能损失的样本整理方法的提出和设计 | 第49-51页 |
4.3 分类时决策方式的改进 | 第51-53页 |
4.3.1 非单一决策(NUD)思想的提出 | 第51页 |
4.3.2 各类均不互斥时NUD-SVM分类器构造和决策策略 | 第51-52页 |
4.3.3 部分类互斥时NUD-SVM分类器构造和决策策略 | 第52-53页 |
4.3.4 NUD-SVM的性能分析 | 第53页 |
4.4 本章小结 | 第53-55页 |
第五章 改进的SVM文本分类系统的实现 | 第55-66页 |
5.1 样本获取与存放 | 第55-60页 |
5.1.1 通过网络获得已整理的语料库 | 第55页 |
5.1.2 利用标记窗算法进行网页正文提取 | 第55-60页 |
5.2 文本转码和分词 | 第60-63页 |
5.2.1 字符编码介绍及转换 | 第60-62页 |
5.2.2 中文分词原理和实现 | 第62-63页 |
5.3 样本向量化 | 第63-64页 |
5.4 NUD-SVM分类的实现 | 第64-65页 |
5.5 本章小结 | 第65-66页 |
第六章 测试与验证 | 第66-89页 |
6.1 测试环境与方式 | 第66页 |
6.2 基本的功能测试 | 第66-69页 |
6.2.1 样本转码和中文分词 | 第66-67页 |
6.2.2 网页正文提取与分类 | 第67-68页 |
6.2.3 特征提取与样本向量化 | 第68-69页 |
6.2.4 基本的文本分类结果 | 第69页 |
6.3 优化的向量化方法性能验证 | 第69-71页 |
6.3.1 优化的卡方检验实验结果 | 第69-70页 |
6.3.2 改进向量化方法实验结果 | 第70-71页 |
6.4 样本重新排列方法验证 | 第71-72页 |
6.5 NUD-SVM性能验证 | 第72-88页 |
6.5.1 通过实验获得性能最优化的参数 | 第72-86页 |
6.5.1.1 分类性能的评价标准 | 第72-74页 |
6.5.1.2 核函数的比较与选择 | 第74-81页 |
6.5.1.3 惩罚参数对分类性能的影响的研究 | 第81-84页 |
6.5.1.4 优化后的SVM与其他分类方法的性能比较 | 第84-86页 |
6.5.2 分类性能最优参数下的NU-SVM分类效果验证和比较 | 第86-88页 |
6.6 本章小结 | 第88-89页 |
第七章 总结与展望 | 第89-91页 |
7.1 本文总结 | 第89-90页 |
7.2 展望 | 第90-91页 |
致谢 | 第91-92页 |
参考文献 | 第92-96页 |