首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于分块策略的近似文档检测系统的设计

内容提要第1-7页
第1章 绪论第7-9页
   ·近似文档检测技术的研究背景第7页
   ·近似文档检测技术研究的目的和意义第7-8页
   ·本文的主要工作及结构第8-9页
第2章 几种典型的近似文档检测方法第9-19页
   ·基于特征向量的近似文档检测方法第9-11页
     ·提取网页中的文本第9-10页
     ·文本的表示方法第10-11页
     ·构建搜索第11页
     ·特征向量的检索过程第11页
   ·基于指纹算法的去重策略第11-15页
   ·基于关键词的近似文档检测方法第15-16页
   ·分段签名法第16-17页
   ·RANDOM PROJECTION 算法第17页
   ·基于分块策略的方法第17-19页
第3章 近似文档检系统的设计及其应用的算法第19-40页
   ·网页噪声处理与正文提取的过程第19-27页
     ·对网页文本的特性的分析第19页
     ·网页噪声与网页去除噪声的必要性第19-21页
     ·文档正文与网页噪声的直观判断第21页
     ·DOM 树的生成并去除网页中的噪声信息第21-23页
     ·对于去除网页噪声的基本算法的分析第23-24页
     ·阈值的选取第24-25页
     ·网页噪声去除的算法设计第25-26页
     ·网页正文提取第26-27页
   ·系统对文档检测方法的选择第27-29页
     ·文档检测的方法第27页
     ·对基于语义的方法的分析第27-28页
     ·采用基于语法的方法对文档分块第28-29页
   ·文档分块粒度的选择第29-31页
     ·文档分块的粒度第29-30页
     ·粒度、效率与准确度的联系第30-31页
     ·小结第31页
   ·将文档分块后转换成HASH值第31-39页
     ·Hash 值的定义第31-32页
     ·Hash 值的性质第32页
     ·Hash 算法第32-33页
     ·系统可用Hash 算法的代码实现第33-36页
     ·生成Hash 表第36-37页
     ·构造Hash 函数第37-38页
     ·处理冲突的方法第38-39页
   ·小结第39-40页
第4章 系统实现过程与实验结果第40-46页
   ·系统实现的主要过程第40-44页
     ·搜索网页并添加到网页数据库第41页
     ·网页分块第41页
     ·网页噪声的处理和文本的提取第41-43页
     ·文档的Shingle 分块策略第43页
     ·Hash 值的转换及Hash 表的映射第43-44页
     ·判断结果第44页
   ·实验结果及分析第44-45页
   ·系统可能的改进第45-46页
第5章 工作总结和对未来的展望第46-48页
   ·工作总结第46页
   ·对未来工作的展望第46-48页
参考文献第48-51页
致谢第51-52页
摘要第52-55页
ABSTRACT第55-57页

论文共57页,点击 下载论文
上一篇:基于可信证书的可信网络接入研究
下一篇:基于Choquet模糊积分的入侵检测警报关联