首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

分布式垂直搜索引擎的研究与设计

摘要第5-6页
ABSTRACT第6页
第一章 绪论第13-16页
    1.1 研究背景及意义第13页
    1.2 项目需求分析第13-14页
    1.3 本文主要工作第14-15页
    1.4 本文组织结构第15-16页
第二章 相关技术概述第16-25页
    2.1 Lucene简介第16-17页
        2.1.1 Lucene概述第16页
        2.1.2 Lucene架构第16-17页
    2.2 Solr简介第17-18页
        2.2.1 Solr概述第17-18页
        2.2.2 Solr整体架构第18页
    2.3 Nosql数据库HBase第18-20页
    2.4 内存数据库redis第20页
    2.5 中文分词介绍第20-24页
        2.5.1 中文分词的原理和工作流程第20-22页
        2.5.2 中文分词常用模型第22-24页
    2.6 小结第24-25页
第三章 系统设计第25-39页
    3.1 系统功能说明第25-26页
    3.2 网页采集解析模块设计第26-27页
    3.3 数据存储模块设计第27-28页
        3.3.1 Hbase的表的设计第28页
        3.3.2 Redis存储URL链接第28页
    3.4 URL调度器与集群监控模块的设计第28-30页
        3.4.1 URL调度器设计第28-29页
        3.4.2 监控模块设计第29-30页
    3.5 索引检索模块设计第30-33页
        3.5.1 系统架构第30-31页
        3.5.2 方案选型第31-32页
        3.5.3 与其他子系统的关系第32-33页
    3.6 隐马尔科夫模型及其在中文分词中的应用第33-37页
        3.6.1 隐马尔科夫中文分词模型及其原理第33-37页
        3.6.2 中文分词的主要问题第37页
    3.7 前端展现模块的设计第37-38页
    3.8 小结第38-39页
第四章 项目实现及测试第39-83页
    4.1 采集解析模块的实现与测试第39-49页
        4.1.1 数据采集第39-40页
        4.1.2 商品详细页面解析的实现及测试第40-46页
        4.1.3 商品列表页面解析的实现及测试第46-48页
        4.1.4 小结第48-49页
    4.2 数据存储及多线程的实现及测试第49-55页
        4.2.1 存储商品明细信息第49-52页
        4.2.2 redis作为URL仓库存储URL链接第52-55页
        4.2.3 多线程爬取第55页
    4.3 URL调度器与集群监控模块的实现与测试第55-62页
        4.3.1 URL调度器的实现及测试第55-59页
        4.3.2 集群监控模块的实现及测试第59-62页
    4.4 索引检索模块实现及测试第62-66页
    4.5 中文分词改进及测试第66-72页
        4.5.1 基于HMM模型的中文分词实现第66-69页
        4.5.2 分词算法的改进第69-71页
        4.5.3 结果测试第71-72页
    4.6 前端展现模块实现及测试第72-73页
    4.7 项目部署及测试第73-83页
        4.7.1 测试环境第73-75页
        4.7.2 功能测试第75-79页
        4.7.3 性能测试第79-82页
        4.7.4 SolrCloud高可用测试第82-83页
第五章 总结与展望第83-84页
    5.1 工作总结第83页
    5.2 展望第83-84页
致谢第84-85页
参考文献第85-86页

论文共86页,点击 下载论文
上一篇:硬件木马的边信道提升技术研究
下一篇:基于EHMM-SVM的人脸识别算法研究