基于Nutch的搜索系统的研究
摘要 | 第1-5页 |
Abstract | 第5-8页 |
第一章 绪论 | 第8-16页 |
·搜索引擎简介 | 第8-11页 |
·什么是搜索引擎 | 第8页 |
·搜索引擎的发展历史 | 第8-9页 |
·搜索引擎的分类 | 第9-10页 |
·当前主流搜索引擎简介 | 第10-11页 |
·搜索引擎研究现状 | 第11-12页 |
·搜索引擎的发展趋势 | 第12-14页 |
·本文研究的主要工作 | 第14-15页 |
·论文的结构 | 第15-16页 |
第二章 搜索引擎的综合研究 | 第16-34页 |
·搜索引擎与传统信息检索 | 第16-17页 |
·搜索引擎的体系结构 | 第17-23页 |
·网页采集模块(搜索器Crawler) | 第18-21页 |
·索引模块(Indexer) | 第21-23页 |
·建立索引的过程 | 第21-23页 |
·检索模块(Searcher) | 第23页 |
·实际系统研究 | 第23-33页 |
·Google的整体结构 | 第23-24页 |
·Google的工作过程 | 第24-25页 |
·Google中的主要数据结构 | 第25-30页 |
·Google主要技术分析 | 第30-33页 |
·本章小结 | 第33-34页 |
第三章 中文分词技术和页面优先度算法 | 第34-50页 |
·搜索引擎的性能指标 | 第34页 |
·中文分词技术 | 第34-43页 |
·什么是中文分词技术 | 第34-35页 |
·中文分词技术 | 第35-43页 |
·页面优先度算法研究 | 第43-49页 |
·页面优先度算法基础 | 第43-45页 |
·页面优先度算法 | 第45-49页 |
·本章小结 | 第49-50页 |
第四章 NUTCH搜索引擎介绍 | 第50-56页 |
·Nutch搜索引擎简介 | 第50页 |
·Nutch的基本结构 | 第50-53页 |
·Lucene索引结构 | 第53-55页 |
·Lucene索引文件逻辑结构 | 第53页 |
·Lucene中的关键索引文件 | 第53-55页 |
·本章小结 | 第55-56页 |
第五章 中科慧创有限公司补丁网站的搜索系统 | 第56-84页 |
·开发平台搭建 | 第56页 |
·开发软件的安装和配置 | 第56-61页 |
·在Nutch中增加中文分词模块 | 第61-73页 |
·Nutch原有的对中文的支持 | 第62页 |
·Nutch的Analysis包分析 | 第62-66页 |
·在Nutch中增加中文分词模块 | 第66-73页 |
·改进Nutch的页面优先度算法 | 第73-78页 |
·Nutch原有的叶面优先度算法 | 第73-74页 |
·改进后的页面优先度算法 | 第74页 |
·改进页面优先算法的软件实现 | 第74-78页 |
·系统运行步骤 | 第78-83页 |
·抓取页面前的准备工作 | 第78页 |
·运行Crawl命令抓取网站页面 | 第78-80页 |
·使用LUKE工具查看索引数据库 | 第80页 |
·使用TOMCAT进行测试搜索 | 第80-83页 |
·本章小结 | 第83-84页 |
第六章 总结 | 第84-85页 |
致谢 | 第85-86页 |
参考文献 | 第86-89页 |
在攻读期间取得的研究成果 | 第89页 |