首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

垂直搜索引擎在烟草行业的研究与应用

摘要第4-6页
Abstract第6-8页
第一章 绪论第12-23页
    1.1 研究背景及意义第12-14页
    1.2 国内外研究现状第14-17页
    1.3 搜索模型概述第17-20页
        1.3.1 布尔搜索模型第17-18页
        1.3.2 向量空间搜索模型第18-19页
        1.3.3 概率搜索模型第19-20页
        1.3.4 元搜索模型第20页
        1.3.5 四种搜索模型的对比第20页
    1.4 研究内容第20-22页
    1.5 本文组织结构第22-23页
第二章 搜索引擎的整体架构与关键技术第23-44页
    2.1 搜索引擎的体系结构第23-28页
        2.1.1 爬虫模块第24-26页
        2.1.2 预处理模块第26-27页
        2.1.3 查询服务模块第27-28页
    2.2 中文分词第28-35页
        2.2.1 基于词典的分词第28-30页
        2.2.2 基于统计的分词第30-35页
    2.3 倒排索引第35-40页
        2.3.1 索引结构第35-38页
        2.3.2 文档评分第38-40页
    2.4 链接分析第40-44页
        2.4.1 PageRank算法第41页
        2.4.2 HITS算法第41-44页
第三章 PageRank算法的适应性改进第44-53页
    3.1 引言第44页
    3.2 PageRank的原始求和方法第44-46页
    3.3“黑洞”问题第46-47页
    3.4 马尔科夫修正第47-52页
    3.5 本章小结第52-53页
第四章 针对烟草行业的主题判别第53-61页
    4.1 引言第53页
    4.2 种子URL的选取第53-54页
    4.3 超链接判别第54-56页
    4.4 元信息判别第56-59页
    4.5 词库判别第59-60页
    4.6 本章小结第60-61页
第五章 垂直搜索引擎的设计与实现第61-83页
    5.1 需求分析第61-64页
        5.1.1 功能需求第61-62页
        5.1.2 性能需求第62-63页
        5.1.3 可靠性和可用性需求第63页
        5.1.4 开发平台第63-64页
    5.2 主题爬虫的设计与实现第64-71页
        5.2.1 网页抓取第64-68页
        5.2.2 异步I/O第68-71页
    5.3 文档评分及排序第71-77页
        5.3.1 Lucene工具包第71-72页
        5.3.2 向量空间模型第72-74页
        5.3.3 适用于烟草行业的评分公式第74-77页
    5.4 查询交互页面第77-79页
        5.4.1 高亮显示技术第77-78页
        5.4.2 页面设计第78-79页
    5.5 搜索引擎的评价原则第79-82页
        5.5.1 查全率与查准率第79-80页
        5.5.2 本系统与通用搜索引擎的对比第80-82页
    5.6 本章小结第82-83页
第六章 总结与展望第83-85页
    6.1 全文总结第83-84页
    6.2 研究展望第84-85页
参考文献第85-89页
致谢第89-90页
攻读学位期间的研究成果第90页

论文共90页,点击 下载论文
上一篇:基于频谱的软件多故障定位
下一篇:基于可拓学的制造企业成果知识管理理论、方法及其应用