搜索结果的聚类研究

摘要	第5-6页
Abstract	第6页
第一章绪论	第10-18页
1.1 研究背景与意义	第10-12页
1.2 搜索引擎的相关技术	第12-13页
1.3 聚类算法的研究现状	第13-15页
1.3.1 聚类算法的研究现状	第13-14页
1.3.2 搜索结果聚类的发展现状	第14-15页
1.4 论文研究内容	第15页
1.5 论文组织结构	第15-18页
第二章中文文本聚类技术研究	第18-28页
2.1 主要聚类方法	第18-19页
2.1.1 基于划分的聚类算法	第18页
2.1.2 基于层次的聚类算法	第18页
2.1.3 基于密度的聚类算法	第18-19页
2.1.4 基于网格的聚类算法	第19页
2.1.5 基于模型的聚类算法	第19页
2.2 中文分词技术	第19-21页
2.2.1 基于字符串匹配的分词方法	第19-20页
2.2.2 基于理解的分词方法	第20页
2.2.3 基于统计的分词方法	第20页
2.2.4 分词系统	第20-21页
2.3 文本表示	第21-23页
2.3.1 向量空间模型	第21-22页
2.3.2 权重的计算	第22页
2.3.3 相似度计算	第22-23页
2.4 聚类效果评价指标	第23-24页
2.5 搜索结果聚类	第24-26页
2.5.1 文本聚类与搜索结果聚类	第24-25页
2.5.2 搜索结果聚类系统	第25-26页
2.6 本章小结	第26-28页
第三章 K-Means聚类算法的研究与改进	第28-42页
3.1 K-Means聚类算法的研究	第28-32页
3.1.1 K-Means算法描述	第28-29页
3.1.2 K-Means算法分析	第29-32页
3.2 改进的K-Means聚类算法	第32-39页
3.2.1 最大最小距离法	第32-33页
3.2.2 基于密度的最大最小距离法	第33-35页
3.2.3 基于密度的最大最小距离法描述	第35页
3.2.4 基于邻居的聚类中心计算方法	第35-37页
3.2.5 改进的K-Means聚类算法描述与分析	第37-39页
3.3 生成聚类标签	第39-40页
3.4 本章小结	第40-42页
第四章改进的搜索结果聚类方法	第42-50页
4.1 预处理	第42-44页
4.1.1 分词	第42-43页
4.1.2 特征词过滤	第43-44页
4.2 文本表示	第44-48页
4.2.1 TF-IDF算法的分析	第45-46页
4.2.2 相似度计算	第46-48页
4.3 搜索结果聚类过程	第48-49页
4.4 本章小结	第49-50页
第五章基于K-Means算法的搜索结果聚类实验	第50-70页
5.1 实验准备	第50页
5.2 Nutch的安装与配置	第50-56页
5.2.1 Nutch运行环境	第51-53页
5.2.2 Nutch爬虫系统配置	第53-54页
5.2.3 Tomcat上部署Nutch	第54-56页
5.3 网页解析	第56-58页
5.4 搜索结果聚类实验	第58-69页
5.4.1 实验数据	第58-59页
5.4.2 初始聚类中心选择实验	第59-60页
5.4.3 改进后的K-Means聚类算法	第60-65页
5.4.4 长度因子和词性因子对实验结果的影响	第65-67页
5.4.5 聚类标签提取	第67-69页
5.5 本章小结	第69-70页
第六章结论及展望	第70-72页
6.1 主要研究结论	第70-71页
6.2 研究展望	第71-72页
致谢	第72-74页
参考文献	第74-78页
攻读硕士学位期间发表的论文	第78页