摘要 | 第1-4页 |
Abstract | 第4-5页 |
目录 | 第5-7页 |
绪论 | 第7-14页 |
一 课题研究的背景 | 第7-8页 |
二 课题研究的理论与实际意义 | 第8-9页 |
三 课题国内外研究现状 | 第9-10页 |
四 文本聚类面临的问题 | 第10-12页 |
五 论文的主要研究内容 | 第12-14页 |
第一章 聚类分析的介绍 | 第14-22页 |
·聚类的定义 | 第14页 |
·聚类分析的应用 | 第14-15页 |
·聚类分析的数据类型 | 第15-16页 |
·主要聚类算法分类 | 第16-21页 |
·划分方法(partitioning method) | 第16-17页 |
·层次方法(hierarchical method) | 第17-18页 |
·基于密度的方法(density-based method) | 第18-19页 |
·基于网格的方法 (grid-based method) | 第19页 |
·基于模型的方法 (model-based method) | 第19-20页 |
·基于模糊的方法 (fuzzy clustering) | 第20-21页 |
本章小结 | 第21-22页 |
第二章 文本聚类关键技术 | 第22-32页 |
·分词 | 第22-25页 |
·Stemming | 第25-26页 |
·停用词处理 | 第26页 |
·特征选择 | 第26-27页 |
·文本表示方法 | 第27-29页 |
·相似性度量 | 第29-30页 |
本章小结 | 第30-32页 |
第三章 K-Means算法改进研究 | 第32-48页 |
·K-Means算法 | 第32-36页 |
·算法解释 | 第32-33页 |
·算法流程 | 第33-34页 |
·算法的特点 | 第34-35页 |
·K-means算法面临的主要问题 | 第35-36页 |
·自适应选择最佳密度半径确定聚类中心 | 第36-41页 |
·已有的初始中心选取方法 | 第36-37页 |
·基于密度概念的初始中心选取方法 | 第37-38页 |
·自适应选择最佳密度半径 | 第38-39页 |
·实验分析 | 第39-41页 |
·基于子空间变量自动加权 | 第41-46页 |
·K-Means聚类加权的研究 | 第41-43页 |
·子空间聚类 | 第43页 |
·变量自动加权的K-Means算法 | 第43-44页 |
·处理文本数据的稀疏性 | 第44-46页 |
·算法分析 | 第46页 |
本章小结 | 第46-48页 |
第四章 系统实现与实验结果分析 | 第48-56页 |
·系统设计 | 第48-49页 |
·系统体系结构 | 第48页 |
·主要模块和功能说明 | 第48-49页 |
·实验结果分析 | 第49-55页 |
·文本数据集 | 第49-50页 |
·聚类结果评价 | 第50-51页 |
·确定聚类中心 | 第51-52页 |
·聚类结果比较 | 第52-54页 |
·聚类簇标引 | 第54-55页 |
本章小结 | 第55-56页 |
结论 | 第56-57页 |
参考文献 | 第57-59页 |
附录A 公式推导及参数讨论 | 第59-62页 |
攻读硕士学位期间发表的学术论文 | 第62-63页 |
致谢 | 第63页 |