首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Nutch的可信搜索引擎研究与实现

摘要第3-4页
ABSTRACT第4-5页
1 绪论第9-17页
    1.1 研究背景与国内外现状第9-12页
        1.1.1 研究背景第9-10页
        1.1.2 搜索引擎国内外现状第10-12页
    1.2 研究的主要内容第12-14页
        1.2.1 可信数据采集子系统设计第12-13页
        1.2.2 可信检索子系统设计第13页
        1.2.3 可信搜索引擎的实现第13-14页
        1.2.4 可信搜索引擎的实验结果分析第14页
    1.3 论文结构第14-17页
2 搜索引擎理论与相关技术第17-29页
    2.1 搜索引擎基本构成第17-20页
        2.1.1 网络爬虫第17-19页
            2.1.1.1 网络爬虫功能分类第17-18页
            2.1.1.2 网络爬虫抓取策略第18-19页
        2.1.2 分析器第19页
        2.1.3 索引器第19页
        2.1.4 检索器第19-20页
        2.1.5 用户接口第20页
    2.2 搜索引擎的分类第20-21页
        2.2.1 目录式搜索引擎第20-21页
        2.2.2 全文搜索引擎第21页
        2.2.3 元搜索引擎第21页
    2.3 主流的排序算法第21-25页
        2.3.1 PageRank算法第22-24页
        2.3.2 HITS算法第24-25页
    2.4 Nutch介绍第25-27页
        2.4.1 Nutch简介第26页
        2.4.2 Nutch工作原理第26页
        2.4.3 Nutch的未来第26-27页
    2.5 本章小节第27-29页
3 可信数据采集子系统的分析与设计第29-43页
    3.1 数据采集子系统原理分析第29-33页
        3.1.1 数据采集第29-32页
            3.1.1.1 Inject(注入器)第30-31页
            3.1.1.2 Generate(生成器)第31页
            3.1.1.3 Fetch(采集器)第31页
            3.1.1.4 Parser(解析器)第31页
            3.1.1.5 Update(更新器)第31-32页
        3.1.2 数据索引第32-33页
    3.2 可信数据采集子系统设计第33-41页
        3.2.1 Nutch数据采集算法分析第33-36页
            3.2.1.1 OPIC算法原理第33-35页
            3.2.1.2 OPIC算法优缺点第35-36页
            3.2.1.3 OPIC算法的改进方案第36页
        3.2.2 数据采集子系统算法改进第36-40页
            3.2.2.1 时间属性第36-37页
            3.2.2.2 网页深度属性第37-38页
            3.2.2.3 点击率属性第38-39页
            3.2.2.4 TS算法第39-40页
        3.2.3 可信数据采集子系统程序设计第40-41页
    3.3 本章小节第41-43页
4 可信检索子系统分析与设计第43-51页
    4.1 检索子系统原理分析第43-46页
        4.1.1 检索子系统基本流程第43-44页
        4.1.2 检索子系统向量空间模型第44-46页
    4.2 Lucene检索算法第46-47页
        4.2.1 Lucene相关性因素第46页
        4.2.2 Lucene排序计算第46-47页
    4.3 可信搜索引擎检索算法改进第47-50页
        4.3.1 可信搜索检索子系统设计方案第47-48页
        4.3.2 可信搜索检索子系统算法第48-49页
        4.3.3 可信检索子系统程序设计第49-50页
    4.4 本章小节第50-51页
5 可信搜索引擎的实现第51-59页
    5.1 系统运行环境第51页
        5.1.1 硬件环境第51页
        5.1.2 软件环境第51页
    5.2 可信搜索引擎模型部署第51-58页
        5.2.1 Nutch版本选择第51-52页
        5.2.2 索引数据库实现第52-53页
        5.2.3 数据采集第53-56页
        5.2.4 检索实现第56-57页
        5.2.5 用户界面设计第57-58页
    5.3 本章小节第58-59页
6 可信搜索引擎的实验结果分析第59-65页
    6.1 实验准备第59-60页
        6.1.1 实验方案第59页
        6.1.2 搜索测试第59-60页
    6.2 实验结果分析第60-63页
        6.2.1 OS和TS总体数据分布第60-61页
        6.2.2 时间属性随排序值的分布第61-62页
        6.2.3 网页深度随排序值的分布第62-63页
        6.2.4 平均点击率随排序值的分布第63页
        6.2.5 实验分析结论第63页
    6.3 本章小结第63-65页
7 总结与展望第65-67页
    7.1 本文工作总结第65-66页
    7.2 下一步工作展望第66-67页
致谢第67-69页
参考文献第69-72页

论文共72页,点击 下载论文
上一篇:坛紫菜多糖超滤纯化与理化性质的研究
下一篇:护理本科生实习后基础护理技能操作成绩的影响因素研究