首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Nutch的学术搜索引擎的研究与实现

摘要第5-7页
Abstract第7-9页
第1章 绪论第13-19页
    1.1 研究背景及意义第13-14页
    1.2 国内外研究现状第14-16页
    1.3 本文研究内容及组织结构第16-17页
    1.4 本文的组织结构第17-19页
第2章 相关理论及技术第19-35页
    2.1 搜索引擎整体架构第19-20页
    2.2 网络爬虫第20-21页
    2.3 中文分词第21-22页
    2.4 网页抽取技术第22-23页
    2.5 排序算法第23-26页
        2.5.1 网页链接URL第24页
        2.5.2 PageRank算法第24-25页
        2.5.3 OPIC算法第25-26页
    2.6 Nutch第26-33页
        2.6.1 Nutch中的Hadoop第26-28页
        2.6.2 Lucene索引第28-30页
        2.6.3 Nutch的工作流程第30-31页
        2.6.4 Nutch的应用第31-33页
    2.7 本章小结第33-35页
第3章 学术搜索引擎总体设计第35-41页
    3.1 需求分析第35-37页
        3.1.1 需求描述第35页
        3.1.2 功能需求第35-37页
        3.1.3 非功能需求第37页
    3.2 总体设计第37-40页
    3.3 本章小结第40-41页
第4章 主题爬取和解析模块的研究与实现第41-53页
    4.1 总体流程第41-43页
    4.2 网页主题相关性过滤第43-46页
        4.2.1 主题相关性过滤原理第43-44页
        4.2.2 主题相关性过滤的实现第44-46页
    4.3 通用网页解析器第46-51页
        4.3.1 通用网页解析器的设计原理第46-47页
        4.3.2 通用网页解析器的实现第47-49页
        4.3.3 通用网页解析器的定制解析第49-51页
    4.4 本章小结第51-53页
第5章 索引与检索模块的研究与实现第53-63页
    5.1 基于时间域的索引模块的构建第53-56页
        5.1.1 索引模块的构建原理第53页
        5.1.2 索引模块的实现第53-55页
        5.1.3 索引模块对比第55-56页
    5.2 检索模块第56-59页
        5.2.1 基于时间域排序功能的实现第56-57页
        5.2.2 LinkRank排序算法的引入第57-59页
    5.3 中文分词第59-61页
    5.4 本章小结第61-63页
第6章 学术搜索引擎的部署与展示第63-77页
    6.1 用户定制模块第63-65页
    6.2 增量爬取第65-66页
        6.2.1 增量爬取的设计原理第65页
        6.2.2 增量爬取的实现与意义第65-66页
    6.3 相关词推荐第66-67页
    6.4 运行环境与配置第67-69页
        6.4.1 系统开发环境第67-68页
        6.4.2 运行配置第68-69页
    6.5 检索结果对比与分析第69-72页
        6.5.1 与原始Nutch系统的对比与分析第69-71页
        6.5.2 两种排序方式的对比与分析第71-72页
    6.6 性能评估第72-75页
        6.6.1 爬取速度评测与对比第72-73页
        6.6.2 爬取速度改进第73-75页
    6.7 本章小结第75-77页
第7章 总结与展望第77-81页
    7.1 本文工作总结第77-79页
    7.2 下一步工作展望第79-81页
参考文献第81-85页
致谢第85-87页
攻硕期间参与的项目及发表的论文第87页

论文共87页,点击 下载论文
上一篇:仿生胶对枸杞主要害虫的防控效果及其安全性评价
下一篇:现代都市婚礼花艺设计与应用研究