基于分块策略的近似文档检测系统的设计
内容提要 | 第1-7页 |
第1章 绪论 | 第7-9页 |
·近似文档检测技术的研究背景 | 第7页 |
·近似文档检测技术研究的目的和意义 | 第7-8页 |
·本文的主要工作及结构 | 第8-9页 |
第2章 几种典型的近似文档检测方法 | 第9-19页 |
·基于特征向量的近似文档检测方法 | 第9-11页 |
·提取网页中的文本 | 第9-10页 |
·文本的表示方法 | 第10-11页 |
·构建搜索 | 第11页 |
·特征向量的检索过程 | 第11页 |
·基于指纹算法的去重策略 | 第11-15页 |
·基于关键词的近似文档检测方法 | 第15-16页 |
·分段签名法 | 第16-17页 |
·RANDOM PROJECTION 算法 | 第17页 |
·基于分块策略的方法 | 第17-19页 |
第3章 近似文档检系统的设计及其应用的算法 | 第19-40页 |
·网页噪声处理与正文提取的过程 | 第19-27页 |
·对网页文本的特性的分析 | 第19页 |
·网页噪声与网页去除噪声的必要性 | 第19-21页 |
·文档正文与网页噪声的直观判断 | 第21页 |
·DOM 树的生成并去除网页中的噪声信息 | 第21-23页 |
·对于去除网页噪声的基本算法的分析 | 第23-24页 |
·阈值的选取 | 第24-25页 |
·网页噪声去除的算法设计 | 第25-26页 |
·网页正文提取 | 第26-27页 |
·系统对文档检测方法的选择 | 第27-29页 |
·文档检测的方法 | 第27页 |
·对基于语义的方法的分析 | 第27-28页 |
·采用基于语法的方法对文档分块 | 第28-29页 |
·文档分块粒度的选择 | 第29-31页 |
·文档分块的粒度 | 第29-30页 |
·粒度、效率与准确度的联系 | 第30-31页 |
·小结 | 第31页 |
·将文档分块后转换成HASH值 | 第31-39页 |
·Hash 值的定义 | 第31-32页 |
·Hash 值的性质 | 第32页 |
·Hash 算法 | 第32-33页 |
·系统可用Hash 算法的代码实现 | 第33-36页 |
·生成Hash 表 | 第36-37页 |
·构造Hash 函数 | 第37-38页 |
·处理冲突的方法 | 第38-39页 |
·小结 | 第39-40页 |
第4章 系统实现过程与实验结果 | 第40-46页 |
·系统实现的主要过程 | 第40-44页 |
·搜索网页并添加到网页数据库 | 第41页 |
·网页分块 | 第41页 |
·网页噪声的处理和文本的提取 | 第41-43页 |
·文档的Shingle 分块策略 | 第43页 |
·Hash 值的转换及Hash 表的映射 | 第43-44页 |
·判断结果 | 第44页 |
·实验结果及分析 | 第44-45页 |
·系统可能的改进 | 第45-46页 |
第5章 工作总结和对未来的展望 | 第46-48页 |
·工作总结 | 第46页 |
·对未来工作的展望 | 第46-48页 |
参考文献 | 第48-51页 |
致谢 | 第51-52页 |
摘要 | 第52-55页 |
ABSTRACT | 第55-57页 |