聚类分析在文本挖掘中的应用与研究
摘要 | 第1-4页 |
ABSTRACT | 第4-7页 |
第一章 绪论 | 第7-17页 |
·文本挖掘概述 | 第7-10页 |
·文本挖掘的定义 | 第7-8页 |
·文本挖掘的过程 | 第8-9页 |
·文本挖掘的应用 | 第9-10页 |
·文本挖掘的研究现状 | 第10-14页 |
·文本特征表示 | 第10-12页 |
·基于关键字的关联分析 | 第12页 |
·文本分类 | 第12-13页 |
·文本聚类 | 第13-14页 |
·文本挖掘与相近领域的关系 | 第14-16页 |
·自然语言处理与文本挖掘的区别 | 第14-15页 |
·文本挖掘与相关领域的交叉 | 第15-16页 |
·论文内容的安排 | 第16-17页 |
第二章 聚类分析 | 第17-36页 |
·聚类分析的概述 | 第17-22页 |
·聚类分析定义 | 第17页 |
·聚类分析的应用 | 第17-19页 |
·距离与相似系数 | 第19-20页 |
·聚类的特征与聚类间的距离 | 第20-22页 |
·聚类分析的数据类型 | 第22-27页 |
·区间标度变量 | 第23-24页 |
·二元变量 | 第24-25页 |
·标称型、序数型和比例标度型变量 | 第25-26页 |
·混合类型的变量 | 第26-27页 |
·聚类分析方法 | 第27-34页 |
·分层聚类法 | 第27-29页 |
·分割聚类算法 | 第29-32页 |
·基于密度的方法 | 第32-33页 |
·基于网格的方法 | 第33页 |
·基于模型的方法 | 第33-34页 |
·文本聚类评估 | 第34-36页 |
第三章 文本预处理 | 第36-45页 |
·文本表示 | 第36-38页 |
·向量空间模型 | 第36页 |
·特征项的权值计算 | 第36-38页 |
·文本特征选择和抽取 | 第38-39页 |
·文本预处理 | 第38页 |
·文本特征选择和抽取 | 第38-39页 |
·文档相似度计算方法 | 第39-42页 |
·Set/Bag 模型 | 第39-41页 |
·基于向量的相似度计算 | 第41-42页 |
·广义向量空间模型(GVSM) | 第42页 |
·特征降维 | 第42-43页 |
·去除重复文本 | 第43-45页 |
第四章 文本聚类系统的设计与实现 | 第45-55页 |
·系统整体结构 | 第45-46页 |
·文档预处理 | 第45页 |
·文档表示 | 第45-46页 |
·文档聚类算法 | 第46-49页 |
·簇表示 | 第46-47页 |
·增量聚类算法 | 第47-49页 |
·簇描述方法 | 第49-50页 |
·概括方法 | 第49页 |
·将测试样本理论应用于项集 | 第49-50页 |
·实验和结果 | 第50-54页 |
·结论 | 第54-55页 |
第五章 总结与展望 | 第55-56页 |
致谢 | 第56-57页 |
参考文献 | 第57-61页 |
附录:作者在攻读硕士学位期间发表的论文 | 第61页 |