基于Nutch的聚类搜索引擎的研究与实现
摘要 | 第1-6页 |
Abstract | 第6-8页 |
目录 | 第8-12页 |
第一章 绪论 | 第12-17页 |
·课题背景和意义 | 第12-13页 |
·国内外研究现状 | 第13-15页 |
·搜索引擎研究现状 | 第13-14页 |
·聚类引擎研究现状 | 第14-15页 |
·本文的工作与安排 | 第15-17页 |
第二章 搜索引擎与聚类技术概述 | 第17-34页 |
·搜索引擎工作原理 | 第17-20页 |
·网络爬虫 | 第17-19页 |
·索引器 | 第19页 |
·检索器 | 第19-20页 |
·用户接口 | 第20页 |
·开源搜索引擎 Nutch | 第20-22页 |
·Nutch 组成结构 | 第20-21页 |
·Nutch 工作原理 | 第21-22页 |
·聚类算法与分类 | 第22-32页 |
·聚类的概念 | 第22-23页 |
·聚类算法的分类 | 第23-25页 |
·典型的聚类算法 | 第25-28页 |
·聚类算法的评价指标 | 第28-32页 |
·Carrot2聚类引擎架构 | 第32-33页 |
·本章小结 | 第33-34页 |
第三章 中文聚类引擎关键技术研究 | 第34-60页 |
·矩阵分解技术 | 第34-43页 |
·潜在语义索引 | 第34页 |
·奇异值分解 | 第34-37页 |
·非负矩阵分解 | 第37-43页 |
·向量空间模型 | 第43-50页 |
·传统的向量空间模型 | 第43-46页 |
·改进的向量空间模型 | 第46-50页 |
·后缀数组排序 | 第50-56页 |
·非线性后缀排序算法 | 第51-52页 |
·线性时间 skew 算法 | 第52-54页 |
·改进的 skew 算法 | 第54-56页 |
·中文分词技术 | 第56-59页 |
·中文分词算法 | 第56-58页 |
·中文分词模块 | 第58-59页 |
·本章小结 | 第59-60页 |
第四章 Rlingo 聚类算法研究 | 第60-70页 |
·Lingo 算法分析 | 第60-66页 |
·Lingo 算法流程 | 第60-62页 |
·文本预处理 | 第62-63页 |
·高频词组抽取 | 第63-64页 |
·聚类标签分配 | 第64-65页 |
·聚类文档分配 | 第65页 |
·聚类结果排序 | 第65-66页 |
·Rlingo 算法研究 | 第66-69页 |
·Rlingo 算法流程 | 第66-67页 |
·高频词组抽取的改进 | 第67-68页 |
·聚类标签分配的改进 | 第68-69页 |
·聚类文档分配的改进 | 第69页 |
·本章小结 | 第69-70页 |
第五章 聚类搜索引擎的设计与实现 | 第70-82页 |
·聚类搜索引擎系统架构 | 第70-71页 |
·信息抓取模块 | 第71-73页 |
·Nutch 的配置 | 第71-72页 |
·中文分词的配置 | 第72页 |
·旅游信息的抓取 | 第72-73页 |
·聚类处理模块 | 第73-78页 |
·Rlingo 的实现类图 | 第73-74页 |
·IS 非负矩阵分解的实现 | 第74-75页 |
·改进向量空间模型的实现 | 第75-76页 |
·线性后缀数组排序的实现 | 第76-77页 |
·中文分词模块的实现 | 第77-78页 |
·结果显示模块 | 第78-81页 |
·聚类接口的开发 | 第78页 |
·结果显示的配置 | 第78-80页 |
·系统运行效果图 | 第80-81页 |
·本章小结 | 第81-82页 |
第六章 Rlingo 聚类算法评估与结果分析 | 第82-91页 |
·算法测试环境 | 第82页 |
·IS 非负矩阵分解的测试 | 第82-86页 |
·改进向量空间模型的测试 | 第86-87页 |
·改进后缀数组排序的测试 | 第87-88页 |
·Rlingo 综合性能的测试 | 第88-90页 |
·本章小结 | 第90-91页 |
总结与展望 | 第91-93页 |
参考文献 | 第93-98页 |
攻读硕士学位期间取得的研究成果 | 第98-99页 |
致谢 | 第99-100页 |
附件 | 第100页 |