中文新闻重复网页检测研究

摘要	第6-7页
Abstract	第7-8页
第一章绪论	第11-24页
1.1 重复网页检测研究的背景	第11-13页
1.2 重复网页检测相关研究现状	第13-21页
1.2.1 研究工作的主要发展历程	第13-15页
1.2.2 重复网页检测相关算法简介	第15-21页
1.2.3 现有研究工作的不足	第21页
1.3 本文研究内容和主要工作	第21-22页
1.4 本文的组织结构	第22-24页
第二章重复网页检测算法	第24-33页
2.1 重复网页检测算法的总体思路	第24-25页
2.2 相似性度量模型	第25-26页
2.3 中文句号特征	第26-27页
2.3.1 中文句号特征的作用	第26-27页
2.3.2 句号特征的定义和抽取	第27页
2.4 噪音特征的过滤	第27-28页
2.5 CCDet算法的实现	第28-31页
2.5.1 相似性计算过程	第28-29页
2.5.2 噪音特征的过滤过程	第29-30页
2.5.3 完整的重复网页检测和判定过程	第30-31页
2.6 本章小结	第31-33页
第三章重复网页检测算法并行化	第33-39页
3.1 MapReduce并行化框架	第33-34页
3.2 基于MapReduce实现CCDet算法的各个步骤	第34-38页
3.2.1 获取文档	第34-35页
3.2.2 提取特征并建立倒排索引	第35-36页
3.2.3 噪音特征过滤并统计文档对相同句号特征	第36-37页
3.2.4 计算相似性并判断重复关系	第37-38页
3.3 本章小结	第38-39页
第四章实验及其结果分析	第39-47页
4.1 实验数据和环境设置	第39页
4.2 精确率和召回率对比实验	第39-44页
4.2.1 CCDet与SpotSigs,Shingling和CoDet的比较	第40-43页
4.2.2 CCDet与IMatch(-S/-P)和LSH(-S/-P)比较	第43-44页
4.2.3 倒排索引剪切	第44页
4.3 算法效率比较实验	第44-45页
4.4 并行化算法的性能和可扩展性实验	第45-46页
4.5 本章实验小结	第46-47页
第五章搜索引擎原型系统设计	第47-56页
5.1 Bingo系统框架	第47-48页
5.2 Nutch介绍	第48-50页
5.3 Bingo的后端设计	第50-52页
5.3.1 Bingo的模块设计	第50页
5.3.2 重复网页的聚类	第50-52页
5.3.3 Bingo的索引设计	第52页
5.4 Bingo的前端设计	第52-53页
5.5 Bingo的检索结果	第53-56页
第六章总结	第56-58页
6.1 本文小结	第56-57页
6.2 未来工作	第57-58页
参考文献	第58-62页
致谢	第62-63页
附录	第63-64页