首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Nutch的聚类搜索引擎的研究与实现

摘要第1-6页
Abstract第6-8页
目录第8-12页
第一章 绪论第12-17页
   ·课题背景和意义第12-13页
   ·国内外研究现状第13-15页
     ·搜索引擎研究现状第13-14页
     ·聚类引擎研究现状第14-15页
   ·本文的工作与安排第15-17页
第二章 搜索引擎与聚类技术概述第17-34页
   ·搜索引擎工作原理第17-20页
     ·网络爬虫第17-19页
     ·索引器第19页
     ·检索器第19-20页
     ·用户接口第20页
   ·开源搜索引擎 Nutch第20-22页
     ·Nutch 组成结构第20-21页
     ·Nutch 工作原理第21-22页
   ·聚类算法与分类第22-32页
     ·聚类的概念第22-23页
     ·聚类算法的分类第23-25页
     ·典型的聚类算法第25-28页
     ·聚类算法的评价指标第28-32页
   ·Carrot2聚类引擎架构第32-33页
   ·本章小结第33-34页
第三章 中文聚类引擎关键技术研究第34-60页
   ·矩阵分解技术第34-43页
     ·潜在语义索引第34页
     ·奇异值分解第34-37页
     ·非负矩阵分解第37-43页
   ·向量空间模型第43-50页
     ·传统的向量空间模型第43-46页
     ·改进的向量空间模型第46-50页
   ·后缀数组排序第50-56页
     ·非线性后缀排序算法第51-52页
     ·线性时间 skew 算法第52-54页
     ·改进的 skew 算法第54-56页
   ·中文分词技术第56-59页
     ·中文分词算法第56-58页
     ·中文分词模块第58-59页
   ·本章小结第59-60页
第四章 Rlingo 聚类算法研究第60-70页
   ·Lingo 算法分析第60-66页
     ·Lingo 算法流程第60-62页
     ·文本预处理第62-63页
     ·高频词组抽取第63-64页
     ·聚类标签分配第64-65页
     ·聚类文档分配第65页
     ·聚类结果排序第65-66页
   ·Rlingo 算法研究第66-69页
     ·Rlingo 算法流程第66-67页
     ·高频词组抽取的改进第67-68页
     ·聚类标签分配的改进第68-69页
     ·聚类文档分配的改进第69页
   ·本章小结第69-70页
第五章 聚类搜索引擎的设计与实现第70-82页
   ·聚类搜索引擎系统架构第70-71页
   ·信息抓取模块第71-73页
     ·Nutch 的配置第71-72页
     ·中文分词的配置第72页
     ·旅游信息的抓取第72-73页
   ·聚类处理模块第73-78页
     ·Rlingo 的实现类图第73-74页
     ·IS 非负矩阵分解的实现第74-75页
     ·改进向量空间模型的实现第75-76页
     ·线性后缀数组排序的实现第76-77页
     ·中文分词模块的实现第77-78页
   ·结果显示模块第78-81页
     ·聚类接口的开发第78页
     ·结果显示的配置第78-80页
     ·系统运行效果图第80-81页
   ·本章小结第81-82页
第六章 Rlingo 聚类算法评估与结果分析第82-91页
   ·算法测试环境第82页
   ·IS 非负矩阵分解的测试第82-86页
   ·改进向量空间模型的测试第86-87页
   ·改进后缀数组排序的测试第87-88页
   ·Rlingo 综合性能的测试第88-90页
   ·本章小结第90-91页
总结与展望第91-93页
参考文献第93-98页
攻读硕士学位期间取得的研究成果第98-99页
致谢第99-100页
附件第100页

论文共100页,点击 下载论文
上一篇:面向车载终端的Android系统改进及其中间件的实现
下一篇:基于机器视觉的触摸屏玻璃缺陷检测方法研究