分布式电商数据动态检测及查重系统设计与实现

摘要	第4-6页
ABSTRACT	第6-8页
第一章绪论	第11-17页
1.1 研究背景	第11-13页
1.2 研究现状	第13-14页
1.3 研究内容及贡献	第14-15页
1.4 论文结构安排	第15-17页
第二章技术背景	第17-24页
2.1 爬虫系统介绍	第17-18页
2.2 网址属性提取算法	第18-19页
2.3 属性量化算法介绍	第19-20页
2.4 训练算法介绍	第20-21页
2.5 字典树介绍	第21页
2.6 thrift介绍	第21-22页
2.7 zookeeper介绍	第22-24页
第三章基于网址特征提取的布隆过滤器动态查重	第24-36页
3.1 电商网站调研	第24-25页
3.2 布隆过滤器查重	第25-26页
3.3 基于网址特征的布隆过滤器动态查重	第26-29页
3.4 基于网址特征提取布隆过滤器的实现过程	第29-33页
3.4.1 改进的网址属性提取算法设计与实现	第29-30页
3.4.2 网址属性量化算法选择	第30-32页
3.4.3 训练算法选择	第32页
3.4.4 布隆过滤器实现	第32-33页
3.5 算法实现与实验	第33-35页
3.6 本章小结	第35-36页
第四章基于网址指纹的网页动态查重	第36-50页
4.1 传统网页查重算法分析	第36-39页
4.1.1 Shingling网页查重	第36-38页
4.1.2 SimHash网页查重	第38-39页
4.2 基本概念定义	第39-41页
4.3 基于网址指纹的网页动态查重算法设计	第41-43页
4.3.1 网址指纹提取算法设计	第42-43页
4.3.2 字典树设计	第43页
4.4 基于网址指纹的网页查重算法实现过程	第43-47页
4.4.1 网址属性提取和量化实现	第43-44页
4.4.2 词典库实现过程	第44-45页
4.4.3 字典树的实现过程	第45-46页
4.4.4 测试样本网页重复率计算	第46-47页
4.5 实验与分析	第47-49页
4.6 本章小结	第49-50页
第五章基于分布式查重系统的设计与实现	第50-59页
5.1 传统分布式查重系统介绍	第50-51页
5.2 基于主题的分布式爬虫系统设计介绍	第51-53页
5.3 基于主题的分布式查重系统设计	第53-54页
5.4 查重系统的实现	第54-58页
5.4.1 Thrift通信系统设计与实现	第55-56页
5.4.2 Redis缓存系统设计与实现	第56-57页
5.4.3 Redis操作类设计与实现	第57页
5.4.4 zookeeper分布式同步系统设计与实现	第57-58页
5.5 本章小结	第58-59页
第六章总结	第59-61页
文献引用	第61-64页
附录	第64-72页
致谢	第72-73页
攻读硕士学位期间发表的论文	第73页