分布式Web Crawler系统研究与实现

摘要	第1-5页
ABSTRACT	第5-10页
第一章绪论	第10-14页
·引言	第10页
·国内外的研究现状	第10-12页
·论文的目的和意义	第12页
·论文的内容与组织结构	第12-14页
第二章搜索引擎相关理论	第14-21页
·搜索引擎简介	第14-15页
·搜索引擎的发展历史	第15-16页
·搜索引擎的主要需求	第16-17页
·搜索引擎的系统组成	第17-20页
·Web 信息的搜集	第18-19页
·对搜索信息的预处理	第19-20页
·信息查询服务	第20页
·本章小结	第20-21页
第三章爬虫系统基本原理	第21-29页
·超文本传输协议	第21-23页
·爬虫系统雏形	第23-25页
·通信信道的建立	第25-26页
·发送请求和接受数据	第26-27页
·解析HTML	第27-28页
·本章小结	第28-29页
第四章分布式 Web Crawler 核心技术	第29-43页
·网页抓取优先策略	第29-32页
·深度优先策略	第29-31页
·广度优先策略	第31-32页
·最佳优先策略	第32页
·万维网的直径	第32-33页
·网页重要性判定	第33-34页
·不重复抓取策略	第34-38页
·基于B-树的算法	第34-35页
·基于哈希的算法	第35-38页
·网页重访策略	第38-41页
·Robots 协议	第41-42页
·本章小结	第42-43页
第五章分布式 Web Crawler 系统设计	第43-55页
·分布式 Web Crawler 系统结构设计	第43-44页
·Web Crawler 抓取基本流程设计	第44-45页
·分布式 Web Crawler 合作抓取算法设计	第45-46页
·系统分布式实现策略	第46-52页
·系统分布式体系结构	第46-48页
·系统分布式实现过程	第48-50页
·系统回调实现	第50-52页
·大规模网页存储结构设计	第52-54页
·传统网页存储结构	第52页
·改进后的网页存储结构	第52-54页
·本章小结	第54-55页
第六章分布式 Web Crawler 系统实现	第55-71页
·系统主要功能模块	第55-62页
·网页静态分析模块	第55-57页
·网页抓取模块	第57-59页
·分布式RMI 模块	第59-61页
·URL 动态分配模块	第61-62页
·系统运行界面	第62-67页
·添加种子站点	第62页
·开启爬虫服务器和客户端	第62-65页
·开始抓取任务	第65-66页
·抓取结果	第66-67页
·系统评价	第67-70页
·系统运行环境	第67-68页
·性能评价	第68-69页
·可扩展性评价	第69页
·任务负载均衡评价	第69-70页
·本章小结	第70-71页
第七章总结与展望	第71-72页
·本文所做的工作	第71页
·进一步的工作和展望	第71-72页
参考文献	第72-74页
致谢	第74-75页
个人简历、在学期间发表的学术论文与研究成果	第75页