| 摘要 | 第1-6页 |
| Abstract | 第6-11页 |
| 第1章 引言 | 第11-15页 |
| ·研究背景和意义 | 第11-12页 |
| ·研究现状及发展趋势 | 第12-13页 |
| ·本文的工作 | 第13-14页 |
| ·本文的组织 | 第14-15页 |
| 第2章 相关知识 | 第15-27页 |
| ·聚类的思想和流程 | 第15-16页 |
| ·文本的表示 | 第16-17页 |
| ·特征选择方法 | 第17-19页 |
| ·特征权重计算方法 | 第19-20页 |
| ·文档相似度计算方法 | 第20-21页 |
| ·聚类算法介绍 | 第21-26页 |
| ·基于层次的聚类算法 | 第22-23页 |
| ·基于划分的聚类算法 | 第23-24页 |
| ·基于密度的聚类算法 | 第24页 |
| ·基于模型的聚类算法 | 第24-25页 |
| ·聚类算法比较 | 第25-26页 |
| ·本章小结 | 第26-27页 |
| 第3章 网页内容聚类相似度度量和特征权重计算方法的改进 | 第27-37页 |
| ·网页内容的特点分析 | 第27-28页 |
| ·高维特征对数据挖掘的影响 | 第28页 |
| ·高维空间的文档相似度计算方法 | 第28-32页 |
| ·高维空间中L_k范数特性的探讨 | 第28-29页 |
| ·高维空间相似度度量函数的重新设计 | 第29-30页 |
| ·数据度量的规范化处理 | 第30-31页 |
| ·Nsim()与其他相似性度量方法的比较分析 | 第31-32页 |
| ·基于网页标签的TF-IDF权重计算方法的改进 | 第32-35页 |
| ·TF-IDF详述 | 第32-34页 |
| ·适用于网页内容的TF-IDF权重计算方法 | 第34-35页 |
| ·本章小结 | 第35-37页 |
| 第4章 基于网页内容的K-means聚类算法改进 | 第37-55页 |
| ·K-means聚类算法的思想和流程 | 第37-39页 |
| ·K-means算法缺点分析 | 第39-40页 |
| ·问题的提出和方法的动机 | 第40-41页 |
| ·问题的提出 | 第40页 |
| ·方法的动机 | 第40-41页 |
| ·K-means初始中心选择方法的改进 | 第41-45页 |
| ·最大最小距离聚类算法 | 第41-42页 |
| ·基于最大最小原则的K-means初始中心选择 | 第42-43页 |
| ·初始距离最远的两个聚类中心的计算 | 第43-45页 |
| ·空间模型修正 | 第45-52页 |
| ·几种特征选择方法的比较 | 第45-46页 |
| ·词频和文档频 | 第46-47页 |
| ·簇间区分度 | 第47-48页 |
| ·簇内分散偏差 | 第48-49页 |
| ·位置重要性的度量 | 第49页 |
| ·综合度量指标和算法描述 | 第49-52页 |
| ·面向高维稀疏文本聚类的改进K-means算法的整体描述 | 第52-53页 |
| ·本章小结 | 第53-55页 |
| 第5章 实验设计与分析 | 第55-63页 |
| ·基于人工判定的外部评价方法 | 第55页 |
| ·实验环境 | 第55-56页 |
| ·测试平台 | 第55-56页 |
| ·实验数据 | 第56页 |
| ·实验设计及结果分析 | 第56-62页 |
| ·欧式距离和Nsim()度量比较实验 | 第56-57页 |
| ·改进后的K-means算法与传统K-means聚类效果的比较 | 第57-59页 |
| ·修正特征空间时不同特征选择方法的去噪效果比较 | 第59-62页 |
| ·本章小结 | 第62-63页 |
| 第6章 总结及工作展望 | 第63-65页 |
| ·总结 | 第63页 |
| ·工作展望 | 第63-65页 |
| 参考文献 | 第65-69页 |
| 致谢 | 第69页 |