分布式垂直搜索引擎的研究与设计

摘要	第5-6页
ABSTRACT	第6页
第一章绪论	第13-16页
1.1 研究背景及意义	第13页
1.2 项目需求分析	第13-14页
1.3 本文主要工作	第14-15页
1.4 本文组织结构	第15-16页
第二章相关技术概述	第16-25页
2.1 Lucene简介	第16-17页
2.1.1 Lucene概述	第16页
2.1.2 Lucene架构	第16-17页
2.2 Solr简介	第17-18页
2.2.1 Solr概述	第17-18页
2.2.2 Solr整体架构	第18页
2.3 Nosql数据库HBase	第18-20页
2.4 内存数据库redis	第20页
2.5 中文分词介绍	第20-24页
2.5.1 中文分词的原理和工作流程	第20-22页
2.5.2 中文分词常用模型	第22-24页
2.6 小结	第24-25页
第三章系统设计	第25-39页
3.1 系统功能说明	第25-26页
3.2 网页采集解析模块设计	第26-27页
3.3 数据存储模块设计	第27-28页
3.3.1 Hbase的表的设计	第28页
3.3.2 Redis存储URL链接	第28页
3.4 URL调度器与集群监控模块的设计	第28-30页
3.4.1 URL调度器设计	第28-29页
3.4.2 监控模块设计	第29-30页
3.5 索引检索模块设计	第30-33页
3.5.1 系统架构	第30-31页
3.5.2 方案选型	第31-32页
3.5.3 与其他子系统的关系	第32-33页
3.6 隐马尔科夫模型及其在中文分词中的应用	第33-37页
3.6.1 隐马尔科夫中文分词模型及其原理	第33-37页
3.6.2 中文分词的主要问题	第37页
3.7 前端展现模块的设计	第37-38页
3.8 小结	第38-39页
第四章项目实现及测试	第39-83页
4.1 采集解析模块的实现与测试	第39-49页
4.1.1 数据采集	第39-40页
4.1.2 商品详细页面解析的实现及测试	第40-46页
4.1.3 商品列表页面解析的实现及测试	第46-48页
4.1.4 小结	第48-49页
4.2 数据存储及多线程的实现及测试	第49-55页
4.2.1 存储商品明细信息	第49-52页
4.2.2 redis作为URL仓库存储URL链接	第52-55页
4.2.3 多线程爬取	第55页
4.3 URL调度器与集群监控模块的实现与测试	第55-62页
4.3.1 URL调度器的实现及测试	第55-59页
4.3.2 集群监控模块的实现及测试	第59-62页
4.4 索引检索模块实现及测试	第62-66页
4.5 中文分词改进及测试	第66-72页
4.5.1 基于HMM模型的中文分词实现	第66-69页
4.5.2 分词算法的改进	第69-71页
4.5.3 结果测试	第71-72页
4.6 前端展现模块实现及测试	第72-73页
4.7 项目部署及测试	第73-83页
4.7.1 测试环境	第73-75页
4.7.2 功能测试	第75-79页
4.7.3 性能测试	第79-82页
4.7.4 SolrCloud高可用测试	第82-83页
第五章总结与展望	第83-84页
5.1 工作总结	第83页
5.2 展望	第83-84页
致谢	第84-85页
参考文献	第85-86页