首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于正文结构树的近似网页去重研究

摘要第5-6页
Abstract第6-7页
第1章 绪论第10-16页
    1.1 课题背景和意义第10-11页
    1.2 国内外研究现状第11-14页
    1.3 研究内容和目标第14-15页
    1.4 论文的组织结构第15-16页
第2章 网页去重相关理论概述第16-24页
    2.1 搜索引擎介绍第16-18页
        2.1.1 搜索引擎种类第16-17页
        2.1.2 搜索引擎组成及原理第17-18页
    2.2 重复网页简述第18-22页
        2.2.1 网页重复产生的原因第18-20页
        2.2.2 网页重复的类型第20-22页
    2.3 搜索引擎的评价标准第22-23页
        2.3.1 准确率和召回率第22-23页
        2.3.2 重复网页对搜索引擎的影响第23页
    2.4 本章小结第23-24页
第3章 基于正文结构树和关键句去重算法第24-38页
    3.1 前缀过滤以及倒排索引第25-28页
        3.1.1 前缀过滤第25-27页
        3.1.2 倒排索引第27-28页
    3.2 正文结构树第28-34页
        3.2.1 网页要素提取第28-32页
        3.2.2 标签权重的设定第32-33页
        3.2.3 正文结构树建立第33-34页
    3.3 正文关键句的提取第34-35页
        3.3.1 关键字筛选第34-35页
        3.3.2 网页段落关键句提取第35页
    3.4 基于正文结构树和关键句去重算法描述第35-37页
    3.5 本章小结第37-38页
第4章 基于正文结构树的布隆过滤器去重算法第38-48页
    4.1 Bloom Filter算法第38-40页
        4.1.1 Bloom Filter算法原理第38-39页
        4.1.2 Bloom Filter算法实现第39-40页
    4.2 基于正文结构树的布隆过滤器去重算法第40-45页
        4.2.1 基于正文结构树的布隆过滤器去重算法系统结构第41-42页
        4.2.2 特征串提取第42-43页
        4.2.3 判断正文标题的相似性第43-44页
        4.2.4 判断正文关键词的相似性第44-45页
        4.2.5 判断结构树各层结点的相似性第45页
    4.3 基于正文结构树的布隆过滤器去重算法描述第45-47页
    4.4 本章小结第47-48页
第5章 实验结果与分析第48-55页
    5.1 实验环境配置第48页
    5.2 实验评价标准第48-49页
    5.3 实验结果分析第49-54页
        5.3.1 不同算法网页去重结果分析第49-51页
        5.3.2 不同算法网页去重时间分析第51页
        5.3.3 准确率与召回率关系分析第51-52页
        5.3.4 算法对不同类型近似镜像网页分析第52-54页
    5.4 本章小结第54-55页
结论第55-57页
参考文献第57-60页
致谢第60页

论文共60页,点击 下载论文
上一篇:中国房地产上市公司股权结构与融资约束的实证分析
下一篇:Ⅲ型卵形蛋白家族转录因子AtOFP16调控拟南芥荚果形态的机制