摘要 | 第5-7页 |
Abstract | 第7-8页 |
第1章 绪论 | 第15-31页 |
1.1 课题研究背景 | 第15-17页 |
1.2 问题描述 | 第17-18页 |
1.3 相关研究发展与现状 | 第18-27页 |
1.3.1 文本表示的研究发展与现状 | 第18-21页 |
1.3.2 文本聚类算法的研究发展与现状 | 第21-23页 |
1.3.3 半监督分类算法的研究发展与现状 | 第23-25页 |
1.3.4 不均衡语料下文本分类算法的研究发展与现状 | 第25-27页 |
1.4 本文主要工作和意义 | 第27-29页 |
1.4.1 本文的主要工作 | 第27-28页 |
1.4.2 本文研究工作的意义 | 第28-29页 |
1.5 本文组织结构 | 第29-31页 |
第2章 基于特征聚簇的文本聚类 | 第31-51页 |
2.1 引言 | 第31-33页 |
2.2 Skip-gram和CBOW模型概述 | 第33-34页 |
2.3 非连续短语的识别 | 第34-36页 |
2.3.1 定义 | 第35页 |
2.3.2 非连续短语识别 | 第35-36页 |
2.4 基于特征聚簇的向量空间模型 | 第36-39页 |
2.4.1 FC-VSM模型 | 第37-38页 |
2.4.2 聚类过程 | 第38-39页 |
2.5 实验与分析 | 第39-49页 |
2.5.1 文本聚类的评价方法 | 第39-43页 |
2.5.2 实验条件与实验语料 | 第43-44页 |
2.5.3 聚类效果实验及对比 | 第44-46页 |
2.5.4 时间开销实验及对比 | 第46-49页 |
2.5.5 降维效果对比 | 第49页 |
2.6 小结 | 第49-51页 |
第3章 基于相似度矩阵的K-means算法 | 第51-63页 |
3.1 引言 | 第51页 |
3.2 K-means算法 | 第51-53页 |
3.3 文本相似性的度量 | 第53-56页 |
3.4 基于相似度矩阵的K-means算法 | 第56-58页 |
3.5 实验与分析 | 第58-61页 |
3.6 小结 | 第61-63页 |
第4章 基于聚类的非平衡语料混合加权KNN分类算法 | 第63-83页 |
4.1 引言 | 第63-64页 |
4.2 KNN算法简介 | 第64-65页 |
4.3 混合加权KNN算法 | 第65-69页 |
4.3.1 样本权重分配 | 第66-67页 |
4.3.2 混合加权KNN分类算法 | 第67-69页 |
4.4 基于聚类的训练 | 第69-71页 |
4.5 实验及结果分析 | 第71-82页 |
4.5.1 不平衡数据集分类问题的评价准则 | 第71-74页 |
4.5.2 不同数量语料下分类的F值对比分析 | 第74-75页 |
4.5.3 标注的F值对比分析 | 第75-77页 |
4.5.4 分类F值对比分析 | 第77-79页 |
4.5.5 时间开销对比分析 | 第79-82页 |
4.6 小结 | 第82-83页 |
第5章 分布式文本挖掘系统 | 第83-99页 |
5.1 引言 | 第83页 |
5.2 MapReduce编程模型 | 第83-84页 |
5.3 K-means算法的并行化 | 第84-86页 |
5.4 KNN算法的并行化 | 第86-88页 |
5.5 功能集成与系统框架 | 第88-92页 |
5.5.1 系统架构 | 第88-91页 |
5.5.2 系统功能 | 第91页 |
5.5.3 系统处理流程 | 第91-92页 |
5.6 实验 | 第92-98页 |
5.6.1 系统环境部署 | 第92页 |
5.6.2 聚类性能实验结果与分析 | 第92-93页 |
5.6.3 分类性能实验结果与分析 | 第93-95页 |
5.6.4 聚类时间开销对比分析 | 第95-96页 |
5.6.5 分类时间开销对比分析 | 第96-98页 |
5.7 小结 | 第98-99页 |
第6章 总结与展望 | 第99-103页 |
6.1 工作总结 | 第99-100页 |
6.2 工作展望 | 第100-103页 |
参考文献 | 第103-117页 |
附录:缩略语 | 第117-121页 |
攻读学位期间发表论文与研究成果清单 | 第121-123页 |
致谢 | 第123-125页 |
作者简介 | 第125页 |