具有页面更新机制的网页爬行器的设计与实现
提要 | 第1-7页 |
第一章 引言 | 第7-9页 |
·研究背景及搜索引擎概要 | 第7-8页 |
·课题研究的意义 | 第8页 |
·本文结构 | 第8-9页 |
第二章 爬行器的相关原理与技术 | 第9-25页 |
·爬行器简介 | 第9-12页 |
·爬行器是什么 | 第9-10页 |
·早期爬行器的介绍及发展 | 第10-11页 |
·爬行器的典型结构 | 第11-12页 |
·爬行器的工作原理 | 第12-14页 |
·爬行器搜集的工作方式 | 第12-13页 |
·爬行器搜集的工作过程 | 第13-14页 |
·爬行器搜集的相关技术 | 第14-25页 |
·多结点协作 | 第15-17页 |
·URL 选择 | 第17-18页 |
·URL Frontier | 第18-20页 |
·URL 重复性判断 | 第20-22页 |
·DNS 解析 | 第22-23页 |
·网页搜集 | 第23页 |
·其它与搜集相关内容 | 第23-25页 |
第三章 页面更新机制 | 第25-28页 |
·页面更新介绍 | 第25-26页 |
·页面更新技术与算法 | 第26-28页 |
·邻近法 | 第26-27页 |
·等间隔 | 第27页 |
·及时返回法 | 第27-28页 |
第四章 爬行器系统的设计分析 | 第28-42页 |
·设计目标与方向 | 第28-29页 |
·前期相关设计 | 第29-34页 |
·爬行器内部的任务设计 | 第29-30页 |
·任务队列的设计 | 第30-31页 |
·从页面中的提取URL 链接 | 第31-32页 |
·URL 链接的消重 | 第32-33页 |
·对数据库的访问 | 第33-34页 |
·爬行器各模块的设计分析 | 第34-37页 |
·下载模块 | 第34页 |
·管理模块 | 第34-35页 |
·存储模块 | 第35-36页 |
·调度模块 | 第36页 |
·显示模块 | 第36-37页 |
·辅助模块 | 第37页 |
·数据库设计 | 第37-39页 |
·索引表 | 第37页 |
·URL 表 | 第37-38页 |
·页面表 | 第38-39页 |
·页面更新机制的设计 | 第39-42页 |
第五章 爬行器的实现 | 第42-55页 |
·下载模块 | 第42-43页 |
·管理模块 | 第43-45页 |
·调度模块 | 第45-49页 |
·存储模块 | 第49-51页 |
·显示模块 | 第51-52页 |
·实现综述 | 第52-53页 |
·程序实际运行情况 | 第53-55页 |
第六章 结论与展望 | 第55-56页 |
·结论 | 第55页 |
·展望 | 第55-56页 |
参考文献 | 第56-59页 |
摘要 | 第59-62页 |
Abstract | 第62-65页 |
致谢 | 第65页 |