基于《知网》的文本聚类研究

摘要	第1-5页
ABSTRACT	第5-8页
第一章绪论	第8-12页
§1-1 研究背景和意义	第8-9页
§1-2 文本聚类的研究现状和存在的问题	第9-10页
1-2-1 文本聚类的研究现状	第9-10页
1-2-2 文本聚类中存在的问题	第10页
§1-3 本文的研究内容	第10-11页
§1-4 论文组织	第11-12页
第二章文本聚类概述	第12-24页
§2-1 分词	第12-13页
§2-2 依存分析	第13-14页
§2-3 去停用词	第14页
§2-4 向量空间模型	第14-15页
§2-5 降维方法	第15-17页
§2-6 聚类算法	第17-19页
2-6-1 划分算法	第17-18页
2-6-2 层次算法	第18-19页
2-6-3 概率聚类算法	第19页
§2-7 工具介绍	第19-23页
2-7-1 语言技术平台	第19-21页
2-7-2 知网	第21-23页
§2-8 本章小结	第23-24页
第三章基于《知网》的文本相似度计算	第24-31页
§3-1 基于 VSM 的 TF-IDF 文本相似度计算方法	第24页
§3-2 基于《知网》的文本相似度计算方法	第24-29页
3-2-1 构建低维的向量空间	第25-26页
3-2-2 新方法构造的向量空间是内积空间	第26-27页
3-2-3 向量空间中夹角的意义	第27-28页
3-2-4 相似度计算中加入词语的位置信息	第28-29页
§3-3 实验结果与分析	第29-30页
§3-4 本章小结	第30-31页
第四章基于《知网》的 K-Means 文本聚类算法实现	第31-40页
§4-1 K-Means 算法	第31-32页
4-1-1 K-Means 算法的思想和流程	第31页
4-1-2 K-Means 算法改进	第31-32页
§4-2 算法的实现	第32-37页
4-2-1 预处理模块	第33页
4-2-2 义原相似度模块	第33-34页
4-2-3 词语相似度模块	第34-35页
4-2-4 文章相似度模块	第35-36页
4-2-5 聚类算法模块	第36-37页
§4-3 实验结果	第37-39页
4-3-1 文本数据集	第37页
4-3-2 聚类算法的实验结果与分析	第37-39页
§4-4 结果分析	第39页
§4-5 本章小结	第39-40页
第五章总结与展望	第40-41页
§5-1 总结	第40页
§5-2 展望	第40-41页
参考文献	第41-44页
致谢	第44页