首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

大规模文本去重策略研究

摘要第1-5页
Abstract第5-9页
1 绪论第9-16页
   ·研究背景第9页
   ·研究现状第9-12页
     ·文本重复的概述第9-10页
     ·文本重复的模式第10-11页
     ·文本重复的问题第11-12页
   ·研究进展第12-14页
   ·本文贡献第14页
   ·文章结构第14-16页
2 文本去重算法介绍第16-28页
   ·国内外文本去重的算法第16-22页
     ·SCAM算法介绍第16-17页
     ·DSC和DSC-SS算法介绍第17-18页
     ·I-Match算法介绍第18页
     ·北大天网去重算法第18-19页
     ·基于特征串的网页去重算法第19-20页
     ·基于特征句抽取的网页去重研究第20-22页
   ·文本去重的问题分析第22-28页
     ·文本特征提取方式第22-24页
     ·文本块的问题第24-25页
     ·系统效率问题第25-28页
3 基于节点重复的网页去噪第28-34页
   ·网页去噪算法思想第28-30页
   ·相似构型网页聚类第30-31页
   ·基于节点重复的去噪流程第31-32页
   ·效果分析第32-34页
4 基于最大块的大规模网页去重算法第34-39页
   ·大规模网页去重算法流程第34-35页
   ·传统算法第35页
     ·最长公共子串算法第35页
     ·最长公共子序列算法第35页
   ·网页的最大块特征抽取第35-37页
     ·大规模重复的特征分析第35-36页
     ·网页最大块抽取思想和流程第36-37页
   ·实验结果分析第37-39页
     ·实验语料和评价手段第37-38页
     ·结果分析第38-39页
5 大规模网页去重的性能优化第39-45页
   ·大规模去重算法性能考虑第39页
   ·特征码映射算法介绍第39-41页
     ·基于md5签名的特征映射第39-40页
     ·基于Bloom Filter算法的特征映射第40-41页
   ·基于B-Tree的速度优化第41-43页
   ·算法效率比较第43-45页
6 基于语义结构的科技论文抄袭检测第45-55页
   ·研究背景第45页
   ·研究背景算法思想与流程第45-47页
     ·文本处理算法概述第45-46页
     ·科技论文检测思想和流程第46-47页
   ·基于主题词的论文分类第47-48页
   ·基于章节划分的相似度计算第48-50页
     ·相似度计算方法第48-49页
     ·基于滑动窗口的加权相似度算法第49-50页
   ·效果检验第50-55页
     ·实验语料第50-51页
     ·结果分析第51-55页
结论第55-56页
参考文献第56-59页
攻读硕士学位期间发表学术论文情况第59-60页
致谢第60-61页

论文共61页,点击 下载论文
上一篇:主动标量方程及其相关系统的数学研究
下一篇:我国虚拟社会管理路径探析--基于服务型政府的视角