网络信息文本挖掘若干问题研究

摘要	第5-7页
Abstract	第7-8页
第1章绪论	第15-31页
1.1 课题研究背景	第15-17页
1.2 问题描述	第17-18页
1.3 相关研究发展与现状	第18-27页
1.3.1 文本表示的研究发展与现状	第18-21页
1.3.2 文本聚类算法的研究发展与现状	第21-23页
1.3.3 半监督分类算法的研究发展与现状	第23-25页
1.3.4 不均衡语料下文本分类算法的研究发展与现状	第25-27页
1.4 本文主要工作和意义	第27-29页
1.4.1 本文的主要工作	第27-28页
1.4.2 本文研究工作的意义	第28-29页
1.5 本文组织结构	第29-31页
第2章基于特征聚簇的文本聚类	第31-51页
2.1 引言	第31-33页
2.2 Skip-gram和CBOW模型概述	第33-34页
2.3 非连续短语的识别	第34-36页
2.3.1 定义	第35页
2.3.2 非连续短语识别	第35-36页
2.4 基于特征聚簇的向量空间模型	第36-39页
2.4.1 FC-VSM模型	第37-38页
2.4.2 聚类过程	第38-39页
2.5 实验与分析	第39-49页
2.5.1 文本聚类的评价方法	第39-43页
2.5.2 实验条件与实验语料	第43-44页
2.5.3 聚类效果实验及对比	第44-46页
2.5.4 时间开销实验及对比	第46-49页
2.5.5 降维效果对比	第49页
2.6 小结	第49-51页
第3章基于相似度矩阵的K-means算法	第51-63页
3.1 引言	第51页
3.2 K-means算法	第51-53页
3.3 文本相似性的度量	第53-56页
3.4 基于相似度矩阵的K-means算法	第56-58页
3.5 实验与分析	第58-61页
3.6 小结	第61-63页
第4章基于聚类的非平衡语料混合加权KNN分类算法	第63-83页
4.1 引言	第63-64页
4.2 KNN算法简介	第64-65页
4.3 混合加权KNN算法	第65-69页
4.3.1 样本权重分配	第66-67页
4.3.2 混合加权KNN分类算法	第67-69页
4.4 基于聚类的训练	第69-71页
4.5 实验及结果分析	第71-82页
4.5.1 不平衡数据集分类问题的评价准则	第71-74页
4.5.2 不同数量语料下分类的F值对比分析	第74-75页
4.5.3 标注的F值对比分析	第75-77页
4.5.4 分类F值对比分析	第77-79页
4.5.5 时间开销对比分析	第79-82页
4.6 小结	第82-83页
第5章分布式文本挖掘系统	第83-99页
5.1 引言	第83页
5.2 MapReduce编程模型	第83-84页
5.3 K-means算法的并行化	第84-86页
5.4 KNN算法的并行化	第86-88页
5.5 功能集成与系统框架	第88-92页
5.5.1 系统架构	第88-91页
5.5.2 系统功能	第91页
5.5.3 系统处理流程	第91-92页
5.6 实验	第92-98页
5.6.1 系统环境部署	第92页
5.6.2 聚类性能实验结果与分析	第92-93页
5.6.3 分类性能实验结果与分析	第93-95页
5.6.4 聚类时间开销对比分析	第95-96页
5.6.5 分类时间开销对比分析	第96-98页
5.7 小结	第98-99页
第6章总结与展望	第99-103页
6.1 工作总结	第99-100页
6.2 工作展望	第100-103页
参考文献	第103-117页
附录:缩略语	第117-121页
攻读学位期间发表论文与研究成果清单	第121-123页
致谢	第123-125页
作者简介	第125页