首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于关键词的搜索引擎网页去重算法研究

摘要第5-6页
Abstract第6-7页
第一章 绪论第10-17页
    1.1 研究背景与意义第10-12页
    1.2 研究现状第12-15页
    1.3 论文主要内容第15-16页
    1.4 本章小结第16-17页
第二章 Web网页结构和搜索引擎原理第17-23页
    2.1 Web网页第17-18页
    2.2 搜索引擎工作原理第18-21页
    2.3 网页数据去重第21-22页
    2.4 本章小结第22-23页
第三章 网页正文内容提取第23-32页
    3.1 概述第23-26页
    3.2 网页正文内容提取方法第26-31页
        3.2.1 网页预处理第27-29页
        3.2.2 去除噪声节点第29页
        3.2.3 定位候选正文树节点第29-30页
        3.2.4 从候选树节点中提取正文内容第30-31页
    3.3 本章小结第31-32页
第四章 基于关键词的网页去重原理及改进第32-45页
    4.1 网页分词第32-33页
    4.2 网页相似度改进算法第33-39页
        4.2.1 SimHash算法第33-37页
        4.2.2 SimHash算法实际数据测试第37-38页
        4.2.3 SimHash算法的改进第38-39页
    4.3 基于关键词的搜索引擎网页数据去重基本方案第39-44页
        4.3.1 算法概述第40页
        4.3.2 网页数据的关键词抽取第40-42页
        4.3.3 关键字抽取流程第42-44页
    4.4 本章小结第44-45页
第五章 改进网页去重算法的实现与分析第45-58页
    5.1 实验环境第46-50页
        5.1.1 JDK安装和Java环境变量配置第48页
        5.1.2 安装Tomcat第48-49页
        5.1.3 配置和应用Nutch第49-50页
    5.2 基于关键词的网页数据去重算法的实现第50-55页
        5.2.1 Nutch中增加中文分词模块第50-53页
        5.2.2 Nutch中增加网页去重模块第53-55页
    5.3 实验结果分析第55-57页
        5.3.1 实验对比标准第55页
        5.3.2 实验数据集第55-56页
        5.3.3 实验结果及分析第56-57页
    5.4 本章小结第57-58页
第六章 总结和展望第58-59页
参考文献第59-62页
致谢第62-63页
主要学术研究成果第63页

论文共63页,点击 下载论文
上一篇:高中地理探究式教学评价指标体系研究
下一篇:宜昌旧志研究