具有页面更新机制的网页爬行器的设计与实现
| 提要 | 第1-7页 |
| 第一章 引言 | 第7-9页 |
| ·研究背景及搜索引擎概要 | 第7-8页 |
| ·课题研究的意义 | 第8页 |
| ·本文结构 | 第8-9页 |
| 第二章 爬行器的相关原理与技术 | 第9-25页 |
| ·爬行器简介 | 第9-12页 |
| ·爬行器是什么 | 第9-10页 |
| ·早期爬行器的介绍及发展 | 第10-11页 |
| ·爬行器的典型结构 | 第11-12页 |
| ·爬行器的工作原理 | 第12-14页 |
| ·爬行器搜集的工作方式 | 第12-13页 |
| ·爬行器搜集的工作过程 | 第13-14页 |
| ·爬行器搜集的相关技术 | 第14-25页 |
| ·多结点协作 | 第15-17页 |
| ·URL 选择 | 第17-18页 |
| ·URL Frontier | 第18-20页 |
| ·URL 重复性判断 | 第20-22页 |
| ·DNS 解析 | 第22-23页 |
| ·网页搜集 | 第23页 |
| ·其它与搜集相关内容 | 第23-25页 |
| 第三章 页面更新机制 | 第25-28页 |
| ·页面更新介绍 | 第25-26页 |
| ·页面更新技术与算法 | 第26-28页 |
| ·邻近法 | 第26-27页 |
| ·等间隔 | 第27页 |
| ·及时返回法 | 第27-28页 |
| 第四章 爬行器系统的设计分析 | 第28-42页 |
| ·设计目标与方向 | 第28-29页 |
| ·前期相关设计 | 第29-34页 |
| ·爬行器内部的任务设计 | 第29-30页 |
| ·任务队列的设计 | 第30-31页 |
| ·从页面中的提取URL 链接 | 第31-32页 |
| ·URL 链接的消重 | 第32-33页 |
| ·对数据库的访问 | 第33-34页 |
| ·爬行器各模块的设计分析 | 第34-37页 |
| ·下载模块 | 第34页 |
| ·管理模块 | 第34-35页 |
| ·存储模块 | 第35-36页 |
| ·调度模块 | 第36页 |
| ·显示模块 | 第36-37页 |
| ·辅助模块 | 第37页 |
| ·数据库设计 | 第37-39页 |
| ·索引表 | 第37页 |
| ·URL 表 | 第37-38页 |
| ·页面表 | 第38-39页 |
| ·页面更新机制的设计 | 第39-42页 |
| 第五章 爬行器的实现 | 第42-55页 |
| ·下载模块 | 第42-43页 |
| ·管理模块 | 第43-45页 |
| ·调度模块 | 第45-49页 |
| ·存储模块 | 第49-51页 |
| ·显示模块 | 第51-52页 |
| ·实现综述 | 第52-53页 |
| ·程序实际运行情况 | 第53-55页 |
| 第六章 结论与展望 | 第55-56页 |
| ·结论 | 第55页 |
| ·展望 | 第55-56页 |
| 参考文献 | 第56-59页 |
| 摘要 | 第59-62页 |
| Abstract | 第62-65页 |
| 致谢 | 第65页 |