基于布尔模型的网页查重算法研究

摘要	第1-8页
图目录	第8-9页
表目录	第9-10页
第一章引言	第10-20页
·互联网的发展现状	第10-11页
·搜索引擎简介	第11-13页
·机器人搜索引擎及其评价	第13-17页
·Google 和Baidu 简介	第14-15页
·搜索引擎所面临的挑战	第15-16页
·提高信息检索效率的多种策略	第16-17页
·基于网页去重	第16页
·基于词频统计	第16页
·基于网页分类	第16-17页
·基于自动文摘	第17页
·基于知识表示	第17页
·基于自然语言理解	第17页
·论文的主要研究内容	第17页
·论文结构及安排	第17-20页
第二章网页查重研究现状	第20-34页
·网页查重介绍	第21-24页
·网页重复的特点	第24-25页
·国内外研究现状	第25-33页
·针对10096重复网页的查重算法	第25-28页
·URL 去重算法	第25页
·基于标点符号的特征码方法	第25-27页
·使用LCS 算法去重	第27页
·使用特征字的网页查重算法	第27-28页
·基于向量空间模型(VSM)的网页查重算法	第28-32页
·网页查重与文本分类	第28页
·向量空间模型	第28-31页
·广义向量空间模型	第31-32页
·以网站内链接方式为查重依据的方法	第32-33页
·本章小节	第33-34页
第三章采用高频词的网页查重算法	第34-42页
·对网页的文本进行预处理	第34页
·抽取文本的特征值	第34-35页
·通过特征串判断文本是否重复	第35-37页
·算法分析	第37-40页
·本章小结	第40-42页
第四章基于布尔模型的网页查重算法	第42-52页
·对于“重复”的定义	第42-43页
·相异度的定义	第43-44页
·汉明码的概念	第43页
·汉明距离的定义	第43-44页
·算法描述	第44-50页
·语料的预处理	第44页
·语料的粗分类	第44-45页
·特征的选取	第45-46页
·文本的表示	第46-47页
·相异度计算	第47-50页
·本章小结	第50-52页
第五章网页查重算法实验比较及分析	第52-62页
·网页查重算法评价标准	第52-53页
·识别正确率	第52-53页
·查全率	第53页
·综合测试值	第53页
·实验语料	第53-54页
·实验结果	第54-56页
·查全率和识别正确率结果比较	第54-55页
·语料预处理比较结果	第55-56页
·英文语料试验	第56-60页
·英文语料	第56页
·实验结果	第56-58页
·实验结果分析	第58-60页
·英文句子边界识别	第58-59页
·英文单词形态还原	第59-60页
·本章小结	第60-62页
第六章结束语	第62-64页
·论文工作总结	第62页
·下一步研究方向	第62-64页
参考文献	第64-68页
致谢	第68-70页
作者简历	第70页