首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

健康领域的垂直搜索引擎的研究与实现

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第11-17页
    1.1 研究背景与意义第11-12页
        1.1.1 研究背景第11-12页
        1.1.2 研究意义第12页
    1.2 国内外研究现状和发展态势第12-14页
        1.2.1 搜索引擎的发展第12-13页
        1.2.2 垂直搜索引擎国内外研究现状第13-14页
        1.2.3 垂直搜索引擎关键技术的研究现状第14页
    1.3 本文的主要研究内容与创新第14-15页
    1.4 本文的结构安排第15-17页
第二章 健康领域的垂直搜索引擎相关技术第17-32页
    2.1 搜索引擎工作原理第17-18页
    2.2 健康领域的垂直搜索引擎的技术特点第18-19页
        2.2.1 垂直搜索引擎的技术特点第18-19页
        2.2.2 健康领域信息的特点第19页
    2.3 网页采集技术第19-20页
        2.3.1 主题爬虫基本结构第19-20页
        2.3.2 网页采集策略第20页
    2.4 中文分词技术第20-24页
        2.4.1 概述第20页
        2.4.2 中文分词基本算法第20-24页
            2.4.2.1 基于词典的中文分词算法第21-22页
            2.4.2.2 基于统计的中文分词算法第22-24页
            2.4.2.3 基于规则的中文分词算法第24页
    2.5 全文检索框架Lucene第24-31页
        2.5.1 Lucene概述第24-25页
        2.5.2 Lucene组织结构第25-27页
        2.5.3 Lucene索引第27-28页
            2.5.3.1 倒排索引第27页
            2.5.3.2 Lucene索引结构第27-28页
            2.5.3.3 Lucene索引创建第28页
        2.5.4 Lucene检索第28-31页
            2.5.4.1 Lucene检索过程第28-29页
            2.5.4.2 Lucene评分机制第29-31页
    2.6 本章小结第31-32页
第三章 健康领域的垂直搜索引擎总体设计第32-38页
    3.1 健康领域的垂直搜索引擎的功能和目标第32-33页
    3.2 健康领域的垂直搜索引擎的整体设计第33-37页
        3.2.1 整体架构设计第33-35页
        3.2.2 数据流及工作流程设计第35-37页
    3.3 本章小结第37-38页
第四章 健康领域垂直搜索引擎网页采集及信息提取研究与实现第38-48页
    4.1 主题爬虫的研究与实现第38-45页
        4.1.1 主题爬虫的工作流程第38-39页
        4.1.2 网页采集策略的选择第39-40页
            4.1.2.1 人工预选第39页
            4.1.2.2 主题相关网站的推荐第39-40页
        4.1.3 URL的爬行策略第40-41页
        4.1.4 Java爬虫框架第41-42页
        4.1.5 主题爬虫的具体实现第42-45页
            4.1.5.1 特征词提取的实现第42-43页
            4.1.5.2 健康领域数据采集的实现第43-45页
    4.2 信息提取的研究与实现第45-47页
        4.2.1 开源HTML解析器第45-46页
        4.2.2 信息提取的实现第46-47页
    4.3 本章小结第47-48页
第五章 健康领域的垂直搜索引擎中文分词模块研究与实现第48-65页
    5.1 中文分词研究面临的问题第48页
        5.1.1 歧义处理第48页
        5.1.2 未登录词识别第48页
    5.2 开源中文分词器第48-52页
        5.2.1 分词器算法介绍第49-50页
        5.2.2 分词器架构组成第50-51页
        5.2.3 分词器词库第51-52页
    5.3 中文分词模块整体结构第52-53页
    5.4 未登录词识别的研究与实现第53-56页
        5.4.1 提取规则的制订第53-55页
        5.4.2 统计信息的使用第55-56页
    5.5 中文分词模块的具体实现第56-64页
    5.6 本章小结第64-65页
第六章 健康领域的垂直搜索引擎索引及检索模块研究与实现第65-77页
    6.1 索引模块的设计第65-67页
    6.2 索引模块的实现第67-71页
    6.3 检索模块的设计第71-73页
    6.4 检索模块的实现第73-75页
    6.5 结果排序的改进第75-76页
    6.6 本章小结第76-77页
第七章 系统测试第77-81页
    7.1 开发环境第77页
    7.2 测试结果分析第77-78页
        7.2.1 中文分词结果测试第77-78页
        7.2.2 搜索效果测试第78页
    7.3 应用实例展示第78-80页
    7.4 本章小结第80-81页
第八章 总结与展望第81-83页
    8.1 总结第81页
    8.2 展望第81-83页
致谢第83-84页
参考文献第84-87页

论文共87页,点击 下载论文
上一篇:高性能分布式一致性协调服务系统
下一篇:基于超像素的目标跟踪算法研究