基于网站目录及链接分析的Spider爬行策略的研究与实现

摘要	第1-6页
ABSTRACT	第6-12页
第一章引言	第12-18页
·课题研究目的和意义	第12页
·搜索引擎的发展历程及现状	第12-15页
·搜索引擎发展历程	第12-14页
·搜索引擎分类	第14-15页
·搜索引擎的基本框架及工作原理	第15-18页
第二章基于链接分析的网络爬虫算法	第18-26页
·网络爬虫介绍	第18-19页
·网络爬虫概述	第18页
·网络爬虫的基本组成及工作原理	第18-19页
·网络爬虫搜索策略的发展及现状	第19-21页
·注重网页质量的网络爬虫搜索策略	第21-26页
·Pagerank	第21-22页
·HITS	第22-23页
·Backlink和OPIC	第23页
·几种搜索策略的分析比较	第23-26页
第三章理论基础及相关技术	第26-32页
·数据库的选择	第26页
·Jeff Heaton Spider介绍	第26-29页
·Jeff Heaton Spider体系结构	第27页
·各功能模块说明	第27-28页
·系统优缺点分析	第28-29页
·其他技术	第29-32页
·多线程	第29页
·连接池及声明池	第29-32页
第四章爬行策略设计及实现	第32-50页
·Web的结构分析	第32-35页
·超链的分析及分类	第32-34页
·Web的网站目录组织形式	第34-35页
·数据库设计	第35-36页
·爬行策略设计	第36-41页
·Spider的详细设计与实现	第41-50页
·本策略Spider的体系结构	第41页
·爬行模块	第41-43页
·数据处理模块	第43-46页
·数据记录模块	第46-50页
第五章实验结果	第50-52页
·实验环境	第50页
·实验结果及分析	第50-52页
第六章总结与展望	第52-54页
·总结	第52页
·展望	第52-54页
参考文献	第54-56页
致谢	第56-58页
攻读硕士学位期间参加的科研课题和发表的学术论文	第58-60页
作者和导师简介	第60-61页
北京化工大学硕士研究生学位论文答辩委员会决议书	第61-62页