首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于布尔模型的网页查重算法研究

摘要第1-8页
图目录第8-9页
表目录第9-10页
第一章 引言第10-20页
   ·互联网的发展现状第10-11页
   ·搜索引擎简介第11-13页
   ·机器人搜索引擎及其评价第13-17页
     ·Google 和Baidu 简介第14-15页
     ·搜索引擎所面临的挑战第15-16页
     ·提高信息检索效率的多种策略第16-17页
       ·基于网页去重第16页
       ·基于词频统计第16页
       ·基于网页分类第16-17页
       ·基于自动文摘第17页
       ·基于知识表示第17页
       ·基于自然语言理解第17页
   ·论文的主要研究内容第17页
   ·论文结构及安排第17-20页
第二章 网页查重研究现状第20-34页
   ·网页查重介绍第21-24页
   ·网页重复的特点第24-25页
   ·国内外研究现状第25-33页
     ·针对10096重复网页的查重算法第25-28页
       ·URL 去重算法第25页
       ·基于标点符号的特征码方法第25-27页
       ·使用LCS 算法去重第27页
       ·使用特征字的网页查重算法第27-28页
     ·基于向量空间模型(VSM)的网页查重算法第28-32页
       ·网页查重与文本分类第28页
       ·向量空间模型第28-31页
       ·广义向量空间模型第31-32页
     ·以网站内链接方式为查重依据的方法第32-33页
   ·本章小节第33-34页
第三章 采用高频词的网页查重算法第34-42页
   ·对网页的文本进行预处理第34页
   ·抽取文本的特征值第34-35页
   ·通过特征串判断文本是否重复第35-37页
   ·算法分析第37-40页
   ·本章小结第40-42页
第四章 基于布尔模型的网页查重算法第42-52页
   ·对于“重复”的定义第42-43页
   ·相异度的定义第43-44页
     ·汉明码的概念第43页
     ·汉明距离的定义第43-44页
   ·算法描述第44-50页
     ·语料的预处理第44页
     ·语料的粗分类第44-45页
     ·特征的选取第45-46页
     ·文本的表示第46-47页
     ·相异度计算第47-50页
   ·本章小结第50-52页
第五章 网页查重算法实验比较及分析第52-62页
   ·网页查重算法评价标准第52-53页
     ·识别正确率第52-53页
     ·查全率第53页
     ·综合测试值第53页
   ·实验语料第53-54页
   ·实验结果第54-56页
     ·查全率和识别正确率结果比较第54-55页
     ·语料预处理比较结果第55-56页
   ·英文语料试验第56-60页
     ·英文语料第56页
     ·实验结果第56-58页
     ·实验结果分析第58-60页
       ·英文句子边界识别第58-59页
       ·英文单词形态还原第59-60页
   ·本章小结第60-62页
第六章 结束语第62-64页
   ·论文工作总结第62页
   ·下一步研究方向第62-64页
参考文献第64-68页
致谢第68-70页
作者简历第70页

论文共70页,点击 下载论文
上一篇:雷电监测预警系统--地面电场处理软件的设计与闪电活动特点的分析
下一篇:射流剪切层及相关预混火焰的被动控制