基于分块策略的近似文档检测系统的设计

内容提要	第1-7页
第1章绪论	第7-9页
·近似文档检测技术的研究背景	第7页
·近似文档检测技术研究的目的和意义	第7-8页
·本文的主要工作及结构	第8-9页
第2章几种典型的近似文档检测方法	第9-19页
·基于特征向量的近似文档检测方法	第9-11页
·提取网页中的文本	第9-10页
·文本的表示方法	第10-11页
·构建搜索	第11页
·特征向量的检索过程	第11页
·基于指纹算法的去重策略	第11-15页
·基于关键词的近似文档检测方法	第15-16页
·分段签名法	第16-17页
·RANDOM PROJECTION 算法	第17页
·基于分块策略的方法	第17-19页
第3章近似文档检系统的设计及其应用的算法	第19-40页
·网页噪声处理与正文提取的过程	第19-27页
·对网页文本的特性的分析	第19页
·网页噪声与网页去除噪声的必要性	第19-21页
·文档正文与网页噪声的直观判断	第21页
·DOM 树的生成并去除网页中的噪声信息	第21-23页
·对于去除网页噪声的基本算法的分析	第23-24页
·阈值的选取	第24-25页
·网页噪声去除的算法设计	第25-26页
·网页正文提取	第26-27页
·系统对文档检测方法的选择	第27-29页
·文档检测的方法	第27页
·对基于语义的方法的分析	第27-28页
·采用基于语法的方法对文档分块	第28-29页
·文档分块粒度的选择	第29-31页
·文档分块的粒度	第29-30页
·粒度、效率与准确度的联系	第30-31页
·小结	第31页
·将文档分块后转换成HASH值	第31-39页
·Hash 值的定义	第31-32页
·Hash 值的性质	第32页
·Hash 算法	第32-33页
·系统可用Hash 算法的代码实现	第33-36页
·生成Hash 表	第36-37页
·构造Hash 函数	第37-38页
·处理冲突的方法	第38-39页
·小结	第39-40页
第4章系统实现过程与实验结果	第40-46页
·系统实现的主要过程	第40-44页
·搜索网页并添加到网页数据库	第41页
·网页分块	第41页
·网页噪声的处理和文本的提取	第41-43页
·文档的Shingle 分块策略	第43页
·Hash 值的转换及Hash 表的映射	第43-44页
·判断结果	第44页
·实验结果及分析	第44-45页
·系统可能的改进	第45-46页
第5章工作总结和对未来的展望	第46-48页
·工作总结	第46页
·对未来工作的展望	第46-48页
参考文献	第48-51页
致谢	第51-52页
摘要	第52-55页
ABSTRACT	第55-57页