基于MapReduce的分布式聚类搜索引擎设计与实现

摘要	第5-6页
Abstract	第6-7页
第一章绪论	第10-16页
1.1 研究背景及意义	第10-11页
1.1.1 研究的背景	第10-11页
1.1.2 研究的意义	第11页
1.2 国内外研究现状	第11-14页
1.2.1 搜索引擎的研究现状	第11-12页
1.2.2 分布式计算研究现状	第12-14页
1.3 本文的主要工作	第14页
1.4 论文的组织	第14-16页
第二章关键技术理论	第16-24页
2.1 搜索引擎相关技术	第16-17页
2.2 数据采集	第17页
2.3 数据预处理	第17-18页
2.4 聚类分析概述	第18页
2.5 经典聚类算法	第18-23页
2.5.1 K-means算法和其改进	第19-20页
2.5.2 Canopy-Kmeans算法和其改进	第20-23页
2.6 本章小结	第23-24页
第三章分布式聚类搜索引擎需求分析	第24-29页
3.1 系统设计原则及整体需求	第24-25页
3.1.1 设计原则	第24页
3.1.2 系统整体需求	第24-25页
3.2 详细需求分析	第25-28页
3.2.1 业务需求分析	第25-26页
3.2.2 功能需求分析	第26-28页
3.3 本章小结	第28-29页
第四章分布式聚类搜索引擎的设计	第29-52页
4.1 总体功能设计	第29页
4.2 系统技术框架设计	第29-31页
4.3 信息采集模块设计	第31-34页
4.4 信息预处理模块设计	第34-37页
4.5 分布式聚类算法设计	第37-45页
4.5.1 K-means算法步骤设计	第39-41页
4.5.2 K-means的MapReduce模式设计	第41-42页
4.5.3 Canopy算法的步骤设计	第42-44页
4.5.4 Canopy-Kmeans的MapReduce模式设计	第44-45页
4.6 搜索聚类模块设计	第45-49页
4.7 搜索结果展示模块设计	第49-51页
4.8 本章小结	第51-52页
第五章分布式聚类搜索引擎的实现	第52-72页
5.1 分布式集群环境	第52-54页
5.2 注册登录模块实现	第54-58页
5.3 信息采集模块实现	第58-63页
5.4 信息预处理模块实现	第63-65页
5.5 Canopy-Kmeans算法并行化实现	第65-70页
5.6 搜索结果展示模块实现	第70-71页
5.7 本章小结	第71-72页
第六章聚类引擎系统测试及算法测试	第72-77页
6.1 测试环境和测试数据	第72页
6.2 聚类引擎系统测试	第72-74页
6.3 聚类算法性能测试	第74-76页
6.4 本章小结	第76-77页
第七章总结与展望	第77-78页
7.1 总结	第77页
7.2 展望	第77-78页
致谢	第78-79页
参考文献	第79-82页