首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

改进算法的文本去重研究

摘要第1-5页
Abstract第5-8页
第一章 引言第8-17页
   ·研究背景第8-10页
   ·研究现状第10-15页
     ·研究对象:近似文本介绍第11页
     ·研究方法概述第11-12页
     ·文档重复将引起的问题第12-13页
     ·研究进展第13-15页
   ·本文研究的主要内容第15-17页
第二章 相关算法研究第17-30页
   ·国外经典算法研究第17-22页
     ·编辑距离的起源和算法(Edit-Distance based algorithm)第17-19页
     ·Charikar的simhash及提出的相似度计算方法第19页
     ·DSC和DSC-SS算法第19-20页
     ·I-Match算法第20-21页
     ·SCAM算法第21页
     ·CHECK方法第21-22页
     ·国外的几种算法的综合比较第22页
   ·国内近年来的算法研究成果第22-25页
     ·北大天网的去重算法第23-24页
     ·基于特征串的去重算法第24-25页
     ·国内算法总结第25页
   ·算法总体比较和总结第25-30页
第三章 改进的去重算法研究第30-42页
   ·系统综述第30-31页
   ·预处理第31-33页
     ·提取指定内容的工具第31-32页
     ·哈工大分词系统第32-33页
   ·围绕主题的框架关键词提取第33-37页
     ·算法理论第33-35页
     ·贯穿始终的开源工具:Lucene第35-37页
   ·核心部分 相似度计算 改进的LCS算法第37-42页
第四章 实验结果以及分析第42-48页
   ·关于阈值的实验第42-45页
   ·关键字优势比较第45-46页
   ·算法优势比较第46-48页
第五章 总结与展望第48-50页
   ·总结和下一步的研究计划第48-49页
   ·以后的研究计划第49-50页
参考文献第50-53页
致谢第53-54页
攻读硕士学位期间发表的论文第54页

论文共54页,点击 下载论文
上一篇:在线培训系统的功能设计及其角色权限模块的实现
下一篇:搜索引擎检索结果聚类系统的研究与实现