并行网页抓取系统设计
中文摘要 | 第1-6页 |
ABSTRACT | 第6-9页 |
1 引言 | 第9-16页 |
·背景 | 第9页 |
·搜索引擎发展历史 | 第9-11页 |
·搜索引擎功能结构 | 第11-13页 |
·网页抓取器存在的挑战 | 第13-14页 |
·本文主要工作及组织结构 | 第14-16页 |
·主要工作 | 第14-15页 |
·组织结构 | 第15-16页 |
2 网页抓取相关技术综述 | 第16-34页 |
·网页抓取器系统结构 | 第16-18页 |
·抓取控制模块 | 第16-17页 |
·抓取模块 | 第17-18页 |
·网页抓取器工作规范 | 第18-20页 |
·网页抓取器特点 | 第18页 |
·网页抓取器使用规范 | 第18-20页 |
·页面的并行采集 | 第20-23页 |
·并行结构的引入 | 第20页 |
·使用并行结构产生的问题 | 第20-21页 |
·节点间URL 的划分策略分类 | 第21-22页 |
·交换模式静态URL 分配策略 | 第22-23页 |
·待采集页面选择 | 第23-29页 |
·无启发式搜索策略 | 第24-25页 |
·启发式搜索策略 | 第25-29页 |
·网页库更新相关概念 | 第29-32页 |
·网页库的新鲜度和年龄 | 第30-31页 |
·网页库的更新模式 | 第31-32页 |
·本章小结 | 第32-34页 |
3 并行启发式系统构架 | 第34-43页 |
·系统设计目标 | 第34-35页 |
·并行系统架构设计 | 第35-38页 |
·管理器 | 第35-36页 |
·下载器和域名解析器 | 第36页 |
·抓取控制器 | 第36-37页 |
·系统扩展 | 第37-38页 |
·启发式搜索策略的具体设计 | 第38-43页 |
·网页重要性因素选择 | 第38页 |
·网页重要性计算 | 第38-40页 |
·基于网页重要性的搜索算法设计 | 第40-43页 |
4 基于贝叶斯的网页库更新 | 第43-50页 |
·网页库更新策略分类 | 第43页 |
·网页变化估算 | 第43-47页 |
·估算网页变化频率 | 第44-45页 |
·贝叶斯方法简介 | 第45-46页 |
·使用贝叶斯方法实现网页分类 | 第46-47页 |
·基于贝叶斯分类的网页库更新算法设计 | 第47-48页 |
·网页库更新实现 | 第48-50页 |
5 结论 | 第50-53页 |
·本文总结 | 第50-51页 |
·搜索引擎发展方向 | 第51-53页 |
参考文献 | 第53-55页 |