面向网页内容的K-means聚类算法的研究

摘要	第1-6页
Abstract	第6-11页
第1章引言	第11-15页
·研究背景和意义	第11-12页
·研究现状及发展趋势	第12-13页
·本文的工作	第13-14页
·本文的组织	第14-15页
第2章相关知识	第15-27页
·聚类的思想和流程	第15-16页
·文本的表示	第16-17页
·特征选择方法	第17-19页
·特征权重计算方法	第19-20页
·文档相似度计算方法	第20-21页
·聚类算法介绍	第21-26页
·基于层次的聚类算法	第22-23页
·基于划分的聚类算法	第23-24页
·基于密度的聚类算法	第24页
·基于模型的聚类算法	第24-25页
·聚类算法比较	第25-26页
·本章小结	第26-27页
第3章网页内容聚类相似度度量和特征权重计算方法的改进	第27-37页
·网页内容的特点分析	第27-28页
·高维特征对数据挖掘的影响	第28页
·高维空间的文档相似度计算方法	第28-32页
·高维空间中L_k范数特性的探讨	第28-29页
·高维空间相似度度量函数的重新设计	第29-30页
·数据度量的规范化处理	第30-31页
·Nsim()与其他相似性度量方法的比较分析	第31-32页
·基于网页标签的TF-IDF权重计算方法的改进	第32-35页
·TF-IDF详述	第32-34页
·适用于网页内容的TF-IDF权重计算方法	第34-35页
·本章小结	第35-37页
第4章基于网页内容的K-means聚类算法改进	第37-55页
·K-means聚类算法的思想和流程	第37-39页
·K-means算法缺点分析	第39-40页
·问题的提出和方法的动机	第40-41页
·问题的提出	第40页
·方法的动机	第40-41页
·K-means初始中心选择方法的改进	第41-45页
·最大最小距离聚类算法	第41-42页
·基于最大最小原则的K-means初始中心选择	第42-43页
·初始距离最远的两个聚类中心的计算	第43-45页
·空间模型修正	第45-52页
·几种特征选择方法的比较	第45-46页
·词频和文档频	第46-47页
·簇间区分度	第47-48页
·簇内分散偏差	第48-49页
·位置重要性的度量	第49页
·综合度量指标和算法描述	第49-52页
·面向高维稀疏文本聚类的改进K-means算法的整体描述	第52-53页
·本章小结	第53-55页
第5章实验设计与分析	第55-63页
·基于人工判定的外部评价方法	第55页
·实验环境	第55-56页
·测试平台	第55-56页
·实验数据	第56页
·实验设计及结果分析	第56-62页
·欧式距离和Nsim()度量比较实验	第56-57页
·改进后的K-means算法与传统K-means聚类效果的比较	第57-59页
·修正特征空间时不同特征选择方法的去噪效果比较	第59-62页
·本章小结	第62-63页
第6章总结及工作展望	第63-65页
·总结	第63页
·工作展望	第63-65页
参考文献	第65-69页
致谢	第69页