主题爬虫搜索策略的设计与实现

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第11-17页
1.1 研究背景及意义	第11-12页
1.2 研究现状及发展趋势	第12-15页
1.2.1 搜索引擎	第12-13页
1.2.2 主题爬虫	第13-15页
1.3 论文主要研究内容	第15页
1.4 论文的整体结构	第15-17页
第二章网络爬虫关键技术	第17-27页
2.1 网络爬虫概述	第17-19页
2.1.1 网络爬虫在搜索引擎中的地位	第17页
2.1.2 网络爬虫基本结构和原理	第17-19页
2.2 关键技术	第19-27页
2.2.1 Hadoop	第19-22页
2.2.2 HBase	第22-24页
2.2.3 SimHash	第24-27页
第三章网页抓取优先级评估方案	第27-39页
3.1 网页抓取优先级评估的意义	第27-28页
3.2 网页抓取优先级评估方案概述	第28-29页
3.3 基于网页主题相关度的优先级分析	第29-33页
3.3.1 网页内容的分析	第29-30页
3.3.2 网页结构的分析	第30-31页
3.3.3 网页主题相关度评估	第31-33页
3.4 基于网页链接权威性的优先级分析	第33-37页
3.4.1 链接分析的研究现状	第33-34页
3.4.2 HITS算法的缺点	第34页
3.4.3 HITS算法的优化	第34-36页
3.4.4 HTIS优化算法的实现	第36-37页
3.5 基于网页更新频率的优先级分析	第37页
3.6 总结	第37-39页
第四章主题爬虫搜索策略的设计	第39-51页
4.1 主题爬虫搜索框架	第39-40页
4.1.1 在线处理流程	第39-40页
4.1.2 离线处理流程	第40页
4.2 网页类型判断	第40-43页
4.2.1 判断意义	第41页
4.2.2 判断流程	第41-42页
4.2.3 实验分析	第42-43页
4.3 文本提取	第43-45页
4.3.1 提取意义	第43页
4.3.2 研究现状	第43-44页
4.3.3 正文提取方法	第44页
4.3.4 实验分析	第44-45页
4.4 网页信息持久化	第45-48页
4.4.1 网页信息存储	第45页
4.4.2 更新间隔设定	第45-47页
4.4.3 网页去重	第47-48页
4.5 其他	第48-50页
4.5.1 搜索任务调度	第48页
4.5.2 反作弊	第48-50页
4.6 总结	第50-51页
第五章主题爬虫搜索策略的实现	第51-61页
5.1 数据库的设计	第51-53页
5.1.1 数据库的选择	第51-52页
5.1.2 数据库的架构	第52页
5.1.3 数据表的设计	第52-53页
5.2 搜索任务的设计	第53-56页
5.2.1 初始化Job	第54页
5.2.2 任务调度Job	第54-55页
5.2.3 抓取Job	第55页
5.2.4 其他Job	第55-56页
5.3 实验与分析	第56-59页
5.3.1 实验环境	第56页
5.3.2 数据准备	第56页
5.3.3 性能指标	第56页
5.3.4 实验结果与分析	第56-59页
5.4 总结	第59-61页
第六章总结与展望	第61-63页
6.1 总结	第61-62页
6.2 展望	第62-63页
参考文献	第63-67页
致谢	第67页