面向小样本的文本分类模型及算法研究
摘要 | 第5-7页 |
abstract | 第7-9页 |
第一章 绪论 | 第14-25页 |
1.1 研究背景 | 第14-15页 |
1.2 研究历史 | 第15-17页 |
1.3 研究意义 | 第17-18页 |
1.3.1 信息组织 | 第17页 |
1.3.2 新闻分类 | 第17页 |
1.3.3 数字图书馆 | 第17-18页 |
1.3.4 文本情感分类 | 第18页 |
1.3.5 有害信息过滤 | 第18页 |
1.4 主要挑战及研究现状 | 第18-22页 |
1.4.1 高维稀疏问题 | 第18-19页 |
1.4.2 样本不均衡问题 | 第19-20页 |
1.4.3 小样本问题 | 第20-21页 |
1.4.4 大样本问题 | 第21页 |
1.4.5 分类器效率问题 | 第21-22页 |
1.5 本文的研究内容 | 第22-23页 |
1.6 本文的结构安排 | 第23-24页 |
1.7 本章小结 | 第24-25页 |
第二章 相关研究 | 第25-45页 |
2.1 问题描述 | 第25-26页 |
2.2 特征定义 | 第26-28页 |
2.3 特征降维 | 第28-35页 |
2.3.1 特征选择 | 第29-33页 |
2.3.1.1 过滤式方法 | 第29-31页 |
2.3.1.2 封装式方法 | 第31-32页 |
2.3.1.3 嵌入式方法 | 第32-33页 |
2.3.2 特征抽取 | 第33-35页 |
2.3.2.1 潜在语义索引 | 第33页 |
2.3.2.2 主成份分析 | 第33-34页 |
2.3.2.3 线性判别分析 | 第34-35页 |
2.4 文本表示 | 第35-37页 |
2.4.1 布尔模型 | 第35-36页 |
2.4.2 向量空间模型 | 第36-37页 |
2.5 分类算法 | 第37-41页 |
2.5.1 朴素贝叶斯算法 | 第37-38页 |
2.5.2 KNN算法 | 第38-39页 |
2.5.3 支持向量机 | 第39-41页 |
2.6 评估方法 | 第41-43页 |
2.6.1 精确率和召回率 | 第42页 |
2.6.2 度量 | 第42页 |
2.6.3 微平均和宏平均 | 第42-43页 |
2.7 测试集 | 第43-44页 |
2.8 本章小结 | 第44-45页 |
第三章 特征子集评估方法研究 | 第45-70页 |
3.1 引言 | 第45-46页 |
3.2 相关工作 | 第46-48页 |
3.2.1 特征选择评价方法 | 第46-47页 |
3.2.2 聚类算法评价方法 | 第47-48页 |
3.3 已有的聚类评价指标 | 第48-51页 |
3.4 文本提出的LW指标 | 第51-53页 |
3.5 实验 | 第53-69页 |
3.5.1 实验数据及设置 | 第53-55页 |
3.5.2 实验结果及分析 | 第55-67页 |
3.5.2.1 随机选择特征实验 | 第55-59页 |
3.5.2.2 特征选择比较实验 | 第59-67页 |
3.5.3 参数分析 | 第67-69页 |
3.6 本章小结 | 第69-70页 |
第四章 特征选择算法研究 | 第70-82页 |
4.1 引言 | 第70-71页 |
4.2 相关工作 | 第71-73页 |
4.3 文本提出的SFS-LW特征选择算法 | 第73-74页 |
4.4 实验 | 第74-81页 |
4.4.1 实验数据及设置 | 第74-75页 |
4.4.2 实验结果及分析 | 第75-81页 |
4.4.3 参数分析 | 第81页 |
4.5 本章小结 | 第81-82页 |
第五章 大规模实例选择算法研究 | 第82-105页 |
5.1 引言 | 第82-83页 |
5.2 相关工作 | 第83-85页 |
5.3 现有方法分析 | 第85-87页 |
5.3.1 聚类型选择算法 | 第86页 |
5.3.2 近邻型选择算法 | 第86-87页 |
5.3.3 几何型选择算法 | 第87页 |
5.4 文本提出的SE实例选择算法 | 第87-91页 |
5.5 实验 | 第91-104页 |
5.5.1 实验数据及设置 | 第91-92页 |
5.5.2 实验结果及分析 | 第92-101页 |
5.5.3 参数分析 | 第101-104页 |
5.6 本章小结 | 第104-105页 |
第六章 文本分类引力模型及算法研究 | 第105-122页 |
6.1 引言 | 第105-106页 |
6.2 相关工作 | 第106-107页 |
6.3 质心分类及其改进算法 | 第107-111页 |
6.3.1 原质心分类算法 | 第107-108页 |
6.3.2 推拉算法 | 第108-109页 |
6.3.3 大间隔推拉算法 | 第109页 |
6.3.4 类特征质心算法 | 第109-110页 |
6.3.5 现有算法存在的问题 | 第110-111页 |
6.4 本文提出的引力模型 | 第111-114页 |
6.4.1 引力模型定义 | 第111-112页 |
6.4.2 引力模型学习算法 | 第112-114页 |
6.5 实验 | 第114-121页 |
6.5.1 实验数据及设置 | 第114-115页 |
6.5.2 多分类实验 | 第115-116页 |
6.5.3 二分类实验 | 第116-120页 |
6.5.4 参数分析 | 第120-121页 |
6.6 本章小结 | 第121-122页 |
第七章 求解引力模型的最小球算法研究 | 第122-132页 |
7.1 引言 | 第122页 |
7.2 引力模型求解目标 | 第122-123页 |
7.3 最小球理论及算法 | 第123-125页 |
7.4 实验 | 第125-131页 |
7.4.1 实验数据及设置 | 第125-126页 |
7.4.2 实验结果及分析 | 第126-131页 |
7.5 本章小结 | 第131-132页 |
第八章 结束语 | 第132-134页 |
致谢 | 第134-136页 |
参考文献 | 第136-152页 |
攻读博士学位期间取得的成果 | 第152-153页 |