首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

分布式电商数据动态检测及查重系统设计与实现

摘要第4-6页
ABSTRACT第6-8页
第一章 绪论第11-17页
    1.1 研究背景第11-13页
    1.2 研究现状第13-14页
    1.3 研究内容及贡献第14-15页
    1.4 论文结构安排第15-17页
第二章 技术背景第17-24页
    2.1 爬虫系统介绍第17-18页
    2.2 网址属性提取算法第18-19页
    2.3 属性量化算法介绍第19-20页
    2.4 训练算法介绍第20-21页
    2.5 字典树介绍第21页
    2.6 thrift介绍第21-22页
    2.7 zookeeper介绍第22-24页
第三章 基于网址特征提取的布隆过滤器动态查重第24-36页
    3.1 电商网站调研第24-25页
    3.2 布隆过滤器查重第25-26页
    3.3 基于网址特征的布隆过滤器动态查重第26-29页
    3.4 基于网址特征提取布隆过滤器的实现过程第29-33页
        3.4.1 改进的网址属性提取算法设计与实现第29-30页
        3.4.2 网址属性量化算法选择第30-32页
        3.4.3 训练算法选择第32页
        3.4.4 布隆过滤器实现第32-33页
    3.5 算法实现与实验第33-35页
    3.6 本章小结第35-36页
第四章 基于网址指纹的网页动态查重第36-50页
    4.1 传统网页查重算法分析第36-39页
        4.1.1 Shingling网页查重第36-38页
        4.1.2 SimHash网页查重第38-39页
    4.2 基本概念定义第39-41页
    4.3 基于网址指纹的网页动态查重算法设计第41-43页
        4.3.1 网址指纹提取算法设计第42-43页
        4.3.2 字典树设计第43页
    4.4 基于网址指纹的网页查重算法实现过程第43-47页
        4.4.1 网址属性提取和量化实现第43-44页
        4.4.2 词典库实现过程第44-45页
        4.4.3 字典树的实现过程第45-46页
        4.4.4 测试样本网页重复率计算第46-47页
    4.5 实验与分析第47-49页
    4.6 本章小结第49-50页
第五章 基于分布式查重系统的设计与实现第50-59页
    5.1 传统分布式查重系统介绍第50-51页
    5.2 基于主题的分布式爬虫系统设计介绍第51-53页
    5.3 基于主题的分布式查重系统设计第53-54页
    5.4 查重系统的实现第54-58页
        5.4.1 Thrift通信系统设计与实现第55-56页
        5.4.2 Redis缓存系统设计与实现第56-57页
        5.4.3 Redis操作类设计与实现第57页
        5.4.4 zookeeper分布式同步系统设计与实现第57-58页
    5.5 本章小结第58-59页
第六章 总结第59-61页
文献引用第61-64页
附录第64-72页
致谢第72-73页
攻读硕士学位期间发表的论文第73页

论文共73页,点击 下载论文
上一篇:面向高清视频的人群异常行为识别方法
下一篇:基于样本块的图像修复算法研究