首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

搜索引擎理论与技术研究

摘要第4-5页
Abstract第5页
第一章 绪论第8-11页
    1.1 选题背景及意义第8页
    1.2 国内外研究现状第8-10页
    1.3 本文的主要工作安排第10-11页
第二章 搜索引擎概述第11-14页
    2.1 搜索引擎的工作原理第11-12页
        2.1.1 搜索引擎的工作流程第11页
        2.1.2 搜索引擎的体系结构第11-12页
    2.2 搜索引擎发展趋势第12页
    2.3 搜索引擎的分类第12-13页
    2.4 本章小结第13-14页
第三章 网络爬虫原理及爬虫设计第14-28页
    3.1 爬虫的基本原理与架构第14-16页
        3.1.1 网络爬虫的原理第14页
        3.1.2 网络爬虫架构第14-16页
    3.2 网络爬虫的策略分析第16-18页
        3.2.1 宽度优先策略第16-17页
        3.2.2 完全PageRank策略第17页
        3.2.3 非完全PageRank策略第17-18页
        3.2.4 分布式爬虫第18页
    3.3 网络爬虫的设计第18-23页
        3.3.1 Heritrix结构分析第18-20页
        3.3.2 设计自己的爬虫程序第20-21页
        3.3.3 对爬虫算法的优化第21-23页
    3.4 从HTML文件中提取文本第23-27页
        3.4.1 识别网页的编码第24-25页
        3.4.2 HTML内容提取第25-27页
    3.5 本章小结第27-28页
第四章 搜索引擎关键技术研究与实现第28-54页
    4.1 中文分词技术研究第28-34页
        4.1.1 分词技术的划分方法第28-29页
        4.1.2 中文分词的方法第29-30页
        4.1.3 Lucene中的Analyzer研究第30-32页
        4.1.4 中文分词体系结构与切分过程第32-33页
        4.1.5 使用IKAnalyzer进行中文分词第33-34页
    4.2 网页去重算法研究第34-38页
        4.2.1 网页去重的意义第34页
        4.2.2 网页去重的基本流程第34-35页
        4.2.3 TF-IDF算法研究第35-36页
        4.2.4 网页相似度算法——余弦相似性第36-38页
    4.3 Lucene与Solr关键技术研究第38-44页
        4.3.1 Lucene的架构第38-40页
        4.3.2 Lucene与Solr间的关系第40页
        4.3.3 创建索引第40-42页
        4.3.4 查找索引库第42-44页
    4.4 Solr配置与应用第44-49页
        4.4.1 Tomcat 8.0 下配置Solr第44-45页
        4.4.2 Solr中的文件配置第45-47页
        4.4.3 向Solr添加、删除数据第47-49页
    4.5 网页排序算法研究与实现第49-53页
    4.6 本章小结第53-54页
第五章 搜索引擎的设计与实现第54-67页
    5.1 新闻网页的信息抓取第54-58页
        5.1.1 建立爬虫工程第54-55页
        5.1.2 爬虫参数设定第55-58页
    5.2 网页内容提取第58-61页
    5.3 分词系统的设计与实现第61-63页
    5.4 向Solr集成IKAnalyzer分词的设计第63-64页
    5.5 Solr检索模块的设计与实现第64-66页
    5.6 本章小结第66-67页
第六章 总结与展望第67-69页
参考文献第69-71页
致谢第71页

论文共71页,点击 下载论文
上一篇:RFID标签防碰撞算法研究
下一篇:个人防火墙系统的设计与实现