摘要 | 第1-6页 |
Abstract | 第6-11页 |
第1章 引言 | 第11-15页 |
·研究背景和意义 | 第11-12页 |
·研究现状及发展趋势 | 第12-13页 |
·本文的工作 | 第13-14页 |
·本文的组织 | 第14-15页 |
第2章 相关知识 | 第15-27页 |
·聚类的思想和流程 | 第15-16页 |
·文本的表示 | 第16-17页 |
·特征选择方法 | 第17-19页 |
·特征权重计算方法 | 第19-20页 |
·文档相似度计算方法 | 第20-21页 |
·聚类算法介绍 | 第21-26页 |
·基于层次的聚类算法 | 第22-23页 |
·基于划分的聚类算法 | 第23-24页 |
·基于密度的聚类算法 | 第24页 |
·基于模型的聚类算法 | 第24-25页 |
·聚类算法比较 | 第25-26页 |
·本章小结 | 第26-27页 |
第3章 网页内容聚类相似度度量和特征权重计算方法的改进 | 第27-37页 |
·网页内容的特点分析 | 第27-28页 |
·高维特征对数据挖掘的影响 | 第28页 |
·高维空间的文档相似度计算方法 | 第28-32页 |
·高维空间中L_k范数特性的探讨 | 第28-29页 |
·高维空间相似度度量函数的重新设计 | 第29-30页 |
·数据度量的规范化处理 | 第30-31页 |
·Nsim()与其他相似性度量方法的比较分析 | 第31-32页 |
·基于网页标签的TF-IDF权重计算方法的改进 | 第32-35页 |
·TF-IDF详述 | 第32-34页 |
·适用于网页内容的TF-IDF权重计算方法 | 第34-35页 |
·本章小结 | 第35-37页 |
第4章 基于网页内容的K-means聚类算法改进 | 第37-55页 |
·K-means聚类算法的思想和流程 | 第37-39页 |
·K-means算法缺点分析 | 第39-40页 |
·问题的提出和方法的动机 | 第40-41页 |
·问题的提出 | 第40页 |
·方法的动机 | 第40-41页 |
·K-means初始中心选择方法的改进 | 第41-45页 |
·最大最小距离聚类算法 | 第41-42页 |
·基于最大最小原则的K-means初始中心选择 | 第42-43页 |
·初始距离最远的两个聚类中心的计算 | 第43-45页 |
·空间模型修正 | 第45-52页 |
·几种特征选择方法的比较 | 第45-46页 |
·词频和文档频 | 第46-47页 |
·簇间区分度 | 第47-48页 |
·簇内分散偏差 | 第48-49页 |
·位置重要性的度量 | 第49页 |
·综合度量指标和算法描述 | 第49-52页 |
·面向高维稀疏文本聚类的改进K-means算法的整体描述 | 第52-53页 |
·本章小结 | 第53-55页 |
第5章 实验设计与分析 | 第55-63页 |
·基于人工判定的外部评价方法 | 第55页 |
·实验环境 | 第55-56页 |
·测试平台 | 第55-56页 |
·实验数据 | 第56页 |
·实验设计及结果分析 | 第56-62页 |
·欧式距离和Nsim()度量比较实验 | 第56-57页 |
·改进后的K-means算法与传统K-means聚类效果的比较 | 第57-59页 |
·修正特征空间时不同特征选择方法的去噪效果比较 | 第59-62页 |
·本章小结 | 第62-63页 |
第6章 总结及工作展望 | 第63-65页 |
·总结 | 第63页 |
·工作展望 | 第63-65页 |
参考文献 | 第65-69页 |
致谢 | 第69页 |