基于分块策略的近似文档检测系统的设计
| 内容提要 | 第1-7页 |
| 第1章 绪论 | 第7-9页 |
| ·近似文档检测技术的研究背景 | 第7页 |
| ·近似文档检测技术研究的目的和意义 | 第7-8页 |
| ·本文的主要工作及结构 | 第8-9页 |
| 第2章 几种典型的近似文档检测方法 | 第9-19页 |
| ·基于特征向量的近似文档检测方法 | 第9-11页 |
| ·提取网页中的文本 | 第9-10页 |
| ·文本的表示方法 | 第10-11页 |
| ·构建搜索 | 第11页 |
| ·特征向量的检索过程 | 第11页 |
| ·基于指纹算法的去重策略 | 第11-15页 |
| ·基于关键词的近似文档检测方法 | 第15-16页 |
| ·分段签名法 | 第16-17页 |
| ·RANDOM PROJECTION 算法 | 第17页 |
| ·基于分块策略的方法 | 第17-19页 |
| 第3章 近似文档检系统的设计及其应用的算法 | 第19-40页 |
| ·网页噪声处理与正文提取的过程 | 第19-27页 |
| ·对网页文本的特性的分析 | 第19页 |
| ·网页噪声与网页去除噪声的必要性 | 第19-21页 |
| ·文档正文与网页噪声的直观判断 | 第21页 |
| ·DOM 树的生成并去除网页中的噪声信息 | 第21-23页 |
| ·对于去除网页噪声的基本算法的分析 | 第23-24页 |
| ·阈值的选取 | 第24-25页 |
| ·网页噪声去除的算法设计 | 第25-26页 |
| ·网页正文提取 | 第26-27页 |
| ·系统对文档检测方法的选择 | 第27-29页 |
| ·文档检测的方法 | 第27页 |
| ·对基于语义的方法的分析 | 第27-28页 |
| ·采用基于语法的方法对文档分块 | 第28-29页 |
| ·文档分块粒度的选择 | 第29-31页 |
| ·文档分块的粒度 | 第29-30页 |
| ·粒度、效率与准确度的联系 | 第30-31页 |
| ·小结 | 第31页 |
| ·将文档分块后转换成HASH值 | 第31-39页 |
| ·Hash 值的定义 | 第31-32页 |
| ·Hash 值的性质 | 第32页 |
| ·Hash 算法 | 第32-33页 |
| ·系统可用Hash 算法的代码实现 | 第33-36页 |
| ·生成Hash 表 | 第36-37页 |
| ·构造Hash 函数 | 第37-38页 |
| ·处理冲突的方法 | 第38-39页 |
| ·小结 | 第39-40页 |
| 第4章 系统实现过程与实验结果 | 第40-46页 |
| ·系统实现的主要过程 | 第40-44页 |
| ·搜索网页并添加到网页数据库 | 第41页 |
| ·网页分块 | 第41页 |
| ·网页噪声的处理和文本的提取 | 第41-43页 |
| ·文档的Shingle 分块策略 | 第43页 |
| ·Hash 值的转换及Hash 表的映射 | 第43-44页 |
| ·判断结果 | 第44页 |
| ·实验结果及分析 | 第44-45页 |
| ·系统可能的改进 | 第45-46页 |
| 第5章 工作总结和对未来的展望 | 第46-48页 |
| ·工作总结 | 第46页 |
| ·对未来工作的展望 | 第46-48页 |
| 参考文献 | 第48-51页 |
| 致谢 | 第51-52页 |
| 摘要 | 第52-55页 |
| ABSTRACT | 第55-57页 |