基于向量空间模型的中文文本聚类方法的研究

摘要	第2-4页
ABSTRACT	第4-5页
第1章绪论	第10-16页
1.1 引言	第10-11页
1.2 文本挖掘技术简介	第11-12页
1.3 文本聚类的研究意义	第12-13页
1.4 文本聚类技术	第13-14页
1.5 本文的工作	第14-16页
第2章中文文本聚类算法综述	第16-33页
2.1 文本表示模型	第16-18页
2.1.1 布尔模型	第16-17页
2.1.2 向量空间模型	第17页
2.1.3 概率检索模型	第17-18页
2.1.4 语言模型	第18页
2.2 文本相似度衡量	第18-20页
2.2.1 文档与文档之间的相似度度量	第19页
2.2.2 文档集合与文档集合之间的相似度度量	第19-20页
2.2.3 文档与文档集合之间的相似度度量	第20页
2.3 文档信息特征集的缩减	第20-22页
2.3.1 信息增益	第21页
2.3.2 期望交叉熵	第21页
2.3.3 互信息量	第21-22页
2.3.4 文本证据权	第22页
2.3.5 词频	第22页
2.4 中文文本聚类算法	第22-30页
2.4.1 划分方法	第22-25页
2.4.2 层次方法	第25-27页
2.4.3 基于密度的方法	第27-28页
2.4.4 基于网格的方法	第28-29页
2.4.5 基于模型的方法	第29-30页
2.5 文本聚类效果评价指标	第30-32页
2.6 本章小结	第32-33页
第3章中文文本聚类算法的研究与分析	第33-62页
3.1 实验环境介绍	第33-36页
3.1.1 分词软件介绍	第33-34页
3.1.2 语料库介绍	第34-36页
3.2 实验设计	第36-43页
3.2.1 文本特征表示设计	第36-38页
3.2.2 文本特征缩减设计	第38-40页
3.2.3 聚类算法设计	第40-43页
3.3 实验结果	第43-52页
3.3.1.K -Means 实验结果	第43-46页
3.3.2.N earest Neighbor 实验结果	第46-47页
3.3.3.M ax-Distance Clustering 实验结果	第47-49页
3.3.4 凝聚法实验结果	第49-50页
3.3.5 分裂法实验结果	第50-52页
3.4 实验结果分析	第52-61页
3.4.1 几种聚类算法的性能比较	第52-55页
3.4.2 簇内代表点的选择对聚类的影响	第55-58页
3.4.3 相似度函数的选择对聚类的影响	第58-59页
3.4.4.K -Means 中初始聚类中心的选择对聚类的影响	第59-61页
3.5 本章小结	第61-62页
第4章中文文本聚类的相关改进	第62-72页
4.1 现有算法的问题	第62-64页
4.1.1.K -Means 算法存在的问题	第62-63页
4.1.2.N earest Neighbor与Max-Distance Clustering算法存在的问题	第63-64页
4.1.3 层次算法存在的问题	第64页
4.1.4 上述算法普遍存在的问题	第64页
4.2 相关改进	第64-65页
4.3 实验设计	第65-67页
4.3.1 引入词性分析策略的设计	第65页
4.3.2 引入词语搭配关系策略的设计	第65页
4.3.3 引入同义词与近义词分析策略的设计	第65-67页
4.4 实验结果与分析	第67-70页
4.4.1 实验结果	第67-68页
4.4.2 实验分析	第68-70页
4.5 本章小结	第70-72页
第5章总结与展望	第72-74页
5.1 工作总结	第72页
5.2 未来展望	第72-74页
参考文献	第74-77页
致谢	第77-78页
攻读学位期间发表的学术论文	第78-80页