基于禁忌搜索和相似度的聚类算法研究
【摘要】:在这个“信息爆炸”的时代,人们经常面对着海量的数据,例如海量文本数据、Web数据、多媒体数据等,而这些数据中隐藏着大量的对人们有用的重要信息,如何用某种有效手段,从这些海量数据中提取出这些潜在有用的、可以用于提供决策支持的信息,数据挖掘便应运而生了。聚类作为数据挖掘的一个重要分支,对人们的日常生活都产生非常重要的影响。现在聚类主要的技术可以分为:划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。本文的主要研究工作包括下面两个方面;1.从基于划分的K-medoids聚类算法的理论基础入手,探讨K-medoids算法的不足,提出了一种基于改进禁忌搜索的K-medoids聚类算法。禁忌搜索算法是模拟人类短暂记忆的一种优化算法,具有很强的全局搜索能力。针对禁忌搜索算法比较依赖初始解的缺点,将粒计算和最大距离积算法相结合,将改进后的禁忌搜索算法提高了K-medoids聚类的准确率,有较强的稳定性。通过仿真实验,验证了该方法的可行性。2.根据高维空间数据的特性,传统的低维的距离计算相似性的方法不合适用在高维空间中,提出了一种新的相似性度量方法。通过计算对象之间的相似度得到相似矩阵,结合层次聚类的思想,自底向上的对数据进行聚类分析。通过有效性分析,论证了该方法可行性。
【关键词】:数据挖掘 K-中心聚类算法 禁忌搜索 相似性度量
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13;TP18