基于关键词的搜索引擎网页去重算法研究

摘要	第5-6页
Abstract	第6-7页
第一章绪论	第10-17页
1.1 研究背景与意义	第10-12页
1.2 研究现状	第12-15页
1.3 论文主要内容	第15-16页
1.4 本章小结	第16-17页
第二章 Web网页结构和搜索引擎原理	第17-23页
2.1 Web网页	第17-18页
2.2 搜索引擎工作原理	第18-21页
2.3 网页数据去重	第21-22页
2.4 本章小结	第22-23页
第三章网页正文内容提取	第23-32页
3.1 概述	第23-26页
3.2 网页正文内容提取方法	第26-31页
3.2.1 网页预处理	第27-29页
3.2.2 去除噪声节点	第29页
3.2.3 定位候选正文树节点	第29-30页
3.2.4 从候选树节点中提取正文内容	第30-31页
3.3 本章小结	第31-32页
第四章基于关键词的网页去重原理及改进	第32-45页
4.1 网页分词	第32-33页
4.2 网页相似度改进算法	第33-39页
4.2.1 SimHash算法	第33-37页
4.2.2 SimHash算法实际数据测试	第37-38页
4.2.3 SimHash算法的改进	第38-39页
4.3 基于关键词的搜索引擎网页数据去重基本方案	第39-44页
4.3.1 算法概述	第40页
4.3.2 网页数据的关键词抽取	第40-42页
4.3.3 关键字抽取流程	第42-44页
4.4 本章小结	第44-45页
第五章改进网页去重算法的实现与分析	第45-58页
5.1 实验环境	第46-50页
5.1.1 JDK安装和Java环境变量配置	第48页
5.1.2 安装Tomcat	第48-49页
5.1.3 配置和应用Nutch	第49-50页
5.2 基于关键词的网页数据去重算法的实现	第50-55页
5.2.1 Nutch中增加中文分词模块	第50-53页
5.2.2 Nutch中增加网页去重模块	第53-55页
5.3 实验结果分析	第55-57页
5.3.1 实验对比标准	第55页
5.3.2 实验数据集	第55-56页
5.3.3 实验结果及分析	第56-57页
5.4 本章小结	第57-58页
第六章总结和展望	第58-59页
参考文献	第59-62页
致谢	第62-63页
主要学术研究成果	第63页