首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Lucene.net的站内搜索引擎设计与实现

摘要第5-6页
Abstract第6页
第一章 绪论第11-14页
    1.1 研究目标以及意义第11页
    1.2 搜索引擎的发展和种类第11-12页
    1.3 当前站内搜索引擎技术发展介绍第12-13页
    1.4 论文研究内容和章节安排第13-14页
第二章 搜索引擎发展与关键技术第14-30页
    2.1 搜索引擎的基本架构第14-15页
    2.2 信息搜集与存储第15-17页
        2.2.1 信息搜集与网络爬虫第15页
        2.2.2 网络爬虫原理第15-16页
        2.2.3 信息存储第16-17页
    2.3 文本分词技术第17-20页
        2.3.1 分词技术应用场景第17页
        2.3.2 .正向最大长度匹配算法(词典匹配算法)第17-18页
        2.3.3 概率模型分词法第18-20页
    2.4 搜索引擎索引第20-22页
        2.4.1 倒排索引的格式第20页
        2.4.2 索引的建立第20-21页
        2.4.3 索引列表的更新维护第21-22页
    2.5 检索结果排序第22-24页
        2.5.1 基于超链接特征的排序第22-23页
        2.5.2 基于索引文件特征向量排序第23-24页
    2.6 LUCENE.NET原理分析第24-29页
        2.6.1 Lucene.net简述第24-25页
        2.6.2 源码文件结构第25-26页
        2.6.3 索引建立过程分析第26页
        2.6.4 Lucene.net搜索过程分析第26-27页
        2.6.5 Lucene.net索引文件第27-29页
    2.7 本章小结第29-30页
第三章 系统整体设计第30-36页
    3.1 系统应用环境第30-31页
    3.2 系统整体架构设计第31-34页
        3.2.1 数据采集模块架构设计第32-33页
        3.2.2 搜索模块架构设计第33页
        3.2.3 系统开发环境第33页
        3.2.4 搜索系统运行环境第33-34页
    3.3 系统功能需求第34-35页
        3.3.1 数据采集模块需求第34页
        3.3.2 搜索模块需求第34-35页
    3.4 本章小结第35-36页
第四章 数据采集模块的实现第36-52页
    4.1 数据采集模块简介第36-38页
    4.2 爬虫系统核心实现第38-45页
        4.2.1 爬虫线程任务调度器第38-41页
        4.2.2 多线程并行下载第41-42页
        4.2.3 爬虫下载策略第42-43页
        4.2.4 爬虫任务队列第43-44页
        4.2.5 布隆过滤器第44-45页
    4.3 网页内容提取第45-46页
    4.4 数据存储第46-48页
    4.5 索引建立与优化第48-50页
    4.6 索引更新模块第50-51页
    4.7 本章小结第51-52页
第五章 搜索模块的实现第52-72页
    5.1 搜索模块简介第52-53页
    5.2 结合盘古分词构建搜索模块第53-59页
        5.2.0 Lucene.Net分词流程介绍第53-54页
        5.2.1 盘古分词工具简介第54-56页
        5.2.2 搜索过程实现第56-59页
    5.3 搜索过程的RESTFULWEBAPI实现第59-62页
        5.3.1 Ajax简介第59-60页
        5.3.2 RESTFulwebAPI介绍第60页
        5.3.3 搜索功能的RESTFulWebAPI实现第60-62页
    5.4 搜索系统缓存第62-66页
        5.4.1 缓存管理策略第63-64页
        5.4.2 内存缓存实现第64页
        5.4.3 搜索日志实现第64-65页
        5.4.4 内存缓存与搜索日志结合的缓存实现第65-66页
    5.5 敏感词过滤第66-68页
    5.6 搜索结果排序优化第68-70页
    5.7 本章小结第70-72页
第六章 系统测试第72-82页
    6.1 测试环境第72页
    6.2 软件部署步骤第72-75页
        6.2.1 配置数据库环境第72-73页
        6.2.2 配置信息管理系统第73-74页
        6.2.3 配置搜索模块第74-75页
        6.2.4 系统运行第75页
    6.3 数据采集系统测试第75-78页
        6.3.1 网络爬虫性能测试第75-77页
        6.3.2 正文提取性能测试第77-78页
    6.4 搜索系统测试第78-81页
        6.4.1 过滤敏感词第78-79页
        6.4.2 关键词组合查询第79-81页
    6.5 本章小结第81-82页
第七章 总结第82-84页
    7.1 文章工作总结第82-83页
    7.2 下一步工作展望第83-84页
参考文献第84-86页
攻读硕士学位期间取得的研究成果第86-87页
致谢第87-88页
附件第88页

论文共88页,点击 下载论文
上一篇:基于用户属性聚类的协同过滤推荐算法研究
下一篇:基于机器视觉的铅锌电池银网激光焊接定位与缺陷检测技术研究