基于Nutch的聚类搜索引擎的研究与实现
| 摘要 | 第1-6页 |
| Abstract | 第6-8页 |
| 目录 | 第8-12页 |
| 第一章 绪论 | 第12-17页 |
| ·课题背景和意义 | 第12-13页 |
| ·国内外研究现状 | 第13-15页 |
| ·搜索引擎研究现状 | 第13-14页 |
| ·聚类引擎研究现状 | 第14-15页 |
| ·本文的工作与安排 | 第15-17页 |
| 第二章 搜索引擎与聚类技术概述 | 第17-34页 |
| ·搜索引擎工作原理 | 第17-20页 |
| ·网络爬虫 | 第17-19页 |
| ·索引器 | 第19页 |
| ·检索器 | 第19-20页 |
| ·用户接口 | 第20页 |
| ·开源搜索引擎 Nutch | 第20-22页 |
| ·Nutch 组成结构 | 第20-21页 |
| ·Nutch 工作原理 | 第21-22页 |
| ·聚类算法与分类 | 第22-32页 |
| ·聚类的概念 | 第22-23页 |
| ·聚类算法的分类 | 第23-25页 |
| ·典型的聚类算法 | 第25-28页 |
| ·聚类算法的评价指标 | 第28-32页 |
| ·Carrot2聚类引擎架构 | 第32-33页 |
| ·本章小结 | 第33-34页 |
| 第三章 中文聚类引擎关键技术研究 | 第34-60页 |
| ·矩阵分解技术 | 第34-43页 |
| ·潜在语义索引 | 第34页 |
| ·奇异值分解 | 第34-37页 |
| ·非负矩阵分解 | 第37-43页 |
| ·向量空间模型 | 第43-50页 |
| ·传统的向量空间模型 | 第43-46页 |
| ·改进的向量空间模型 | 第46-50页 |
| ·后缀数组排序 | 第50-56页 |
| ·非线性后缀排序算法 | 第51-52页 |
| ·线性时间 skew 算法 | 第52-54页 |
| ·改进的 skew 算法 | 第54-56页 |
| ·中文分词技术 | 第56-59页 |
| ·中文分词算法 | 第56-58页 |
| ·中文分词模块 | 第58-59页 |
| ·本章小结 | 第59-60页 |
| 第四章 Rlingo 聚类算法研究 | 第60-70页 |
| ·Lingo 算法分析 | 第60-66页 |
| ·Lingo 算法流程 | 第60-62页 |
| ·文本预处理 | 第62-63页 |
| ·高频词组抽取 | 第63-64页 |
| ·聚类标签分配 | 第64-65页 |
| ·聚类文档分配 | 第65页 |
| ·聚类结果排序 | 第65-66页 |
| ·Rlingo 算法研究 | 第66-69页 |
| ·Rlingo 算法流程 | 第66-67页 |
| ·高频词组抽取的改进 | 第67-68页 |
| ·聚类标签分配的改进 | 第68-69页 |
| ·聚类文档分配的改进 | 第69页 |
| ·本章小结 | 第69-70页 |
| 第五章 聚类搜索引擎的设计与实现 | 第70-82页 |
| ·聚类搜索引擎系统架构 | 第70-71页 |
| ·信息抓取模块 | 第71-73页 |
| ·Nutch 的配置 | 第71-72页 |
| ·中文分词的配置 | 第72页 |
| ·旅游信息的抓取 | 第72-73页 |
| ·聚类处理模块 | 第73-78页 |
| ·Rlingo 的实现类图 | 第73-74页 |
| ·IS 非负矩阵分解的实现 | 第74-75页 |
| ·改进向量空间模型的实现 | 第75-76页 |
| ·线性后缀数组排序的实现 | 第76-77页 |
| ·中文分词模块的实现 | 第77-78页 |
| ·结果显示模块 | 第78-81页 |
| ·聚类接口的开发 | 第78页 |
| ·结果显示的配置 | 第78-80页 |
| ·系统运行效果图 | 第80-81页 |
| ·本章小结 | 第81-82页 |
| 第六章 Rlingo 聚类算法评估与结果分析 | 第82-91页 |
| ·算法测试环境 | 第82页 |
| ·IS 非负矩阵分解的测试 | 第82-86页 |
| ·改进向量空间模型的测试 | 第86-87页 |
| ·改进后缀数组排序的测试 | 第87-88页 |
| ·Rlingo 综合性能的测试 | 第88-90页 |
| ·本章小结 | 第90-91页 |
| 总结与展望 | 第91-93页 |
| 参考文献 | 第93-98页 |
| 攻读硕士学位期间取得的研究成果 | 第98-99页 |
| 致谢 | 第99-100页 |
| 附件 | 第100页 |