基于分布式的主题型爬行器的研究与实现

摘要	第3-4页
abstract	第4页
第1章绪论	第8-17页
1.1 研究背景及意义	第8-9页
1.2 国内外相关研究现状	第9-15页
1.2.1 主题网络爬虫的研究现状	第10-11页
1.2.2 垂直型网络爬行器相关算法	第11-13页
1.2.3 主题网络爬行器的分布式处理技术	第13-14页
1.2.4 网页保护策略的应对机制	第14-15页
1.3 论文研究的目标和内容	第15-16页
1.3.1 研究目标	第15页
1.3.2 研究内容	第15-16页
1.4 论文章节安排	第16-17页
第2章相关技术	第17-27页
2.1 基于内容的主题相关性算法	第17-20页
2.1.1 Fish-Search分析算法	第17-18页
2.1.2 Shark-Search分析算法	第18-19页
2.1.3 TF-IDF分析算法	第19-20页
2.2 网页价值链接分析算法	第20-22页
2.2.1 链接价值分析算法	第20页
2.2.2 PageRank分析算法	第20-21页
2.2.3 HITS分析算法	第21-22页
2.3 分布式处理技术	第22-26页
2.3.1 Hadoop分布式处理技术	第22页
2.3.2 基于Hadoop的分布式文件系统	第22-24页
2.3.3 并行编程模式MapReduce	第24-25页
2.3.4 消息队列MOM	第25-26页
2.4 本章小结	第26-27页
第3章关键技术的研究	第27-33页
3.1 页面主题关联度计算的分析策略	第27-29页
3.2 爬行器主题相关度分析计算的算法	第29-31页
3.3 错误恢复机制	第31-32页
3.4 本章小结	第32-33页
第4章主题爬行器的分析与设计	第33-46页
4.1 主题爬行器的工作流程	第33-34页
4.2 总体架构设计	第34-37页
4.3 基于负载均衡原则的中心控制模块的设计	第37-40页
4.4 爬行子节点模块的设计	第40-41页
4.5 主题分析模块的设计	第41-43页
4.6 分布式存储模块的设计	第43-44页
4.7 错误恢复机制模块的设计	第44-45页
4.8 本章小结	第45-46页
第5章分布式主题网络爬行器的实现与评估	第46-58页
5.1 分布式主题爬行器的实现与评估	第46-50页
5.2 主题爬行器主题分析与抓取的实现与评估	第50-53页
5.2.1 主题爬行器的页面主题相关性分析算法的实现	第51页
5.2.2 爬行器主题爬取的分析与评估	第51-53页
5.3 错误恢复机制的实现	第53-57页
5.4 本章小结	第57-58页
第6章总结与展望	第58-60页
6.1 总结	第58-59页
6.2 展望	第59-60页
参考文献	第60-63页
个人简历在读期间发表的学术论文	第63-64页
致谢	第64页