首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于网页正文结构树的近似网页去重算法研究

摘要第3-4页
ABSTRACT第4-5页
1 绪论第8-15页
    1.1 研究背景第8-9页
    1.2 研究的意义第9-10页
    1.3 信息检索与搜索引擎第10-14页
        1.3.1 信息检索第10页
        1.3.2 搜索引擎第10页
        1.3.3 搜索引擎的分类第10-14页
    1.4 论文结构第14-15页
2 相关技术研究第15-23页
    2.1 文本复制检测第15-16页
    2.2 国内外去重方法介绍第16-21页
        2.2.1 基于 URL 的去重第16页
        2.2.2 基于特征串匹配的去重算法第16-18页
        2.2.3 基于聚类去重算法第18-21页
    2.3 去重时机第21页
    2.4 论文主要创新点第21-22页
    2.5 本章小结第22-23页
3 基于正文结构树及关键句的去重算法第23-32页
    3.1 正文结构树第25-26页
        3.1.1 标签权值设定第25页
        3.1.2 正文结构树的表示第25-26页
    3.2 转载网页的特点第26-27页
    3.3 基于正文结构树和特征句去重算法第27-30页
        3.3.1 基于正文结构树和长句去重算法基本思想第27页
        3.3.2 基于正文结构树和长句去重算法的劣势第27-28页
        3.3.3 特征句的选取第28-30页
    3.4 基于长句和基于关键句的特征句数目的比较第30-31页
    3.5 本章小结第31-32页
4 基于网页正文结构及特征串的近似网页去重算法第32-44页
    4.1 近似重复网页的重复模式第32-33页
    4.2 对正文结构树算法的部分改进第33-34页
    4.3 Bloom Filter 算法第34-37页
        4.3.1 Bloom Filter 基本原理第34-36页
        4.3.2 Bloom Filter 算法的实现第36-37页
    4.4 特征串的提取第37-38页
    4.5 算法流程流程第38-42页
        4.5.1 标题匹配第39-40页
        4.5.2 关键词的匹配第40页
        4.5.3 各层节点的匹配第40-42页
    4.6 去重时间分析第42-43页
    4.7 对于分页网页的处理第43页
    4.8 本章小结第43-44页
5 实验结果及分析第44-50页
    5.1 算法的评估第44-46页
    5.2 算法的抗噪性第46-49页
    5.3 本章小结第49-50页
6 总结与展望第50-51页
致谢第51-52页
参考文献第52-55页
附录第55页
    A. 作者在攻读硕士学位期间发表的论文目录第55页

论文共55页,点击 下载论文
上一篇:基于极限学习机的AUV路径规划的研究
下一篇:基于相似重复记录合并算法的蔬菜溯源展示系统研究与实现