首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

隐藏页面检测系统的研究与实现

摘要第5-6页
Abstract第6-7页
插图索引第10-11页
附表索引第11-12页
第1章 绪论第12-17页
    1.1 选题背景和意义第12-13页
    1.2 研究现状第13-15页
    1.3 本文主要工作第15页
    1.4 本文章节安排第15-17页
第2章 相关技术介绍第17-27页
    2.1 基础知识第17-21页
        2.1.1 搜索引擎及爬虫第17-18页
        2.1.2 搜索引擎快照第18页
        2.1.3 网页自动跳转方式第18-19页
        2.1.4 搜索引擎优化(SEO)第19-20页
        2.1.5 垃圾页面技术第20-21页
    2.2 隐藏页面技术第21-23页
        2.2.1 隐藏页面基本原理第21-22页
        2.2.2 隐藏技术分类第22-23页
    2.3 隐藏页面的检测第23-26页
        2.3.1 多次爬取的方法第23-24页
        2.3.2 相似性检测对象第24页
        2.3.3 隐藏页面检测技术第24-26页
    2.4 小结第26-27页
第3章 相似度检测设计第27-40页
    3.1 网页的三种特征元素第27页
    3.2 基于三种特征的优化算法第27-28页
        3.2.1 算法原理第27页
        3.2.2 算法过程第27-28页
    3.3 检测方法的具体实现第28-35页
        3.3.1 网页文本相似度第28-32页
        3.3.2 网页标签相似度第32-35页
        3.3.3 网页 URL 相似度第35页
    3.4 基于阈值的分级过滤第35-39页
        3.4.1 样本数据的选取第36页
        3.4.2 阈值的设定第36-38页
        3.4.3 基于阈值的筛选第38-39页
    3.5 小结第39-40页
第4章 隐藏页面检测系统第40-49页
    4.1 系统的组成与实现第40-48页
        4.1.1 数据获取模块第41-44页
        4.1.2 数据存储模块第44-47页
        4.1.3 相似度检测模块第47-48页
    4.2 系统性能优化第48页
    4.3 小结第48-49页
第5章 实验结果及分析第49-57页
    5.1 实验环境第49页
        5.1.1 硬件环境第49页
        5.1.2 软件环境第49页
    5.2 系统评估第49-54页
        5.2.1 检测算法的评估第50-51页
        5.2.2 检测出的隐藏页面类型第51-53页
        5.2.3 系统的时间开销第53-54页
    5.3 隐藏页面情况统计第54-56页
    5.4 小结第56-57页
结论第57-60页
参考文献第60-64页
附录 A 攻读学位期间所发表的学术论文第64-65页
附录 B 攻读学位期间参加的项目第65-66页
致谢第66页

论文共66页,点击 下载论文
上一篇:基于混合并行计算的气候资源插值算法和区划技术研究
下一篇:基于Message Broker的消息路由和数据转换系统的设计与实现