基于近邻传播算法的中文文本聚类的研究
摘要 | 第1-4页 |
ABSTRACT | 第4-6页 |
目录 | 第6-8页 |
第1章 绪论 | 第8-12页 |
·选题的背景及意义 | 第8-10页 |
·数据挖掘概述 | 第8-9页 |
·中文文本挖掘概述 | 第9-10页 |
·聚类分析 | 第10页 |
·文章结构安排 | 第10-12页 |
第2章 文本预处理 | 第12-20页 |
·文本分词方法 | 第12-15页 |
·概述 | 第12-13页 |
·中文分词特点及常见方法 | 第13-15页 |
·ICTCLAS分词系统 | 第15页 |
·文本预处理设计步骤 | 第15-16页 |
·文本预处理结果 | 第16-19页 |
·总结 | 第19-20页 |
第3章 近邻传播算法 | 第20-32页 |
·近邻传播算法描述 | 第20-23页 |
·符号约定 | 第20页 |
·相似度计算 | 第20-21页 |
·两个重要数值的计算 | 第21页 |
·聚类结果的计算 | 第21-23页 |
·AP算法实现 | 第23-25页 |
·阻尼系数λ和偏好参数p的说明 | 第23页 |
·AP算法的实现 | 第23-25页 |
·AP算法与Kmeans算法实验结果对比及分析 | 第25-32页 |
·AP算法与k均值算法对比 | 第26-27页 |
·AP算法与k均值算法实验对比 | 第27-32页 |
第4章 相似度计算的调整及两重要系数的改进 | 第32-43页 |
·概述 | 第32页 |
·相似度计算方法的调整 | 第32-35页 |
·符号约定 | 第32页 |
·三个数据集定义 | 第32-34页 |
·相似度的计算 | 第34页 |
·改进的相似度的编程实现 | 第34-35页 |
·阻尼系数λ和偏好参数p的改进 | 第35-43页 |
·阻尼系数λ的改进 | 第35-40页 |
·偏好参数p的改进 | 第40-43页 |
第5章 文本聚类的实现及分析 | 第43-47页 |
·中文文本聚类的实现 | 第43-45页 |
·聚类结果分析 | 第45-47页 |
第6章 总结和展望 | 第47-49页 |
·研究工作总结 | 第47页 |
·研究工作展望 | 第47-49页 |
参考文献 | 第49-51页 |
致谢 | 第51-52页 |