首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

并行网页抓取系统设计

中文摘要第1-6页
ABSTRACT第6-9页
1 引言第9-16页
   ·背景第9页
   ·搜索引擎发展历史第9-11页
   ·搜索引擎功能结构第11-13页
   ·网页抓取器存在的挑战第13-14页
   ·本文主要工作及组织结构第14-16页
     ·主要工作第14-15页
     ·组织结构第15-16页
2 网页抓取相关技术综述第16-34页
   ·网页抓取器系统结构第16-18页
     ·抓取控制模块第16-17页
     ·抓取模块第17-18页
   ·网页抓取器工作规范第18-20页
     ·网页抓取器特点第18页
     ·网页抓取器使用规范第18-20页
   ·页面的并行采集第20-23页
     ·并行结构的引入第20页
     ·使用并行结构产生的问题第20-21页
     ·节点间URL 的划分策略分类第21-22页
     ·交换模式静态URL 分配策略第22-23页
   ·待采集页面选择第23-29页
     ·无启发式搜索策略第24-25页
     ·启发式搜索策略第25-29页
   ·网页库更新相关概念第29-32页
     ·网页库的新鲜度和年龄第30-31页
     ·网页库的更新模式第31-32页
   ·本章小结第32-34页
3 并行启发式系统构架第34-43页
   ·系统设计目标第34-35页
   ·并行系统架构设计第35-38页
     ·管理器第35-36页
     ·下载器和域名解析器第36页
     ·抓取控制器第36-37页
     ·系统扩展第37-38页
   ·启发式搜索策略的具体设计第38-43页
     ·网页重要性因素选择第38页
     ·网页重要性计算第38-40页
     ·基于网页重要性的搜索算法设计第40-43页
4 基于贝叶斯的网页库更新第43-50页
   ·网页库更新策略分类第43页
   ·网页变化估算第43-47页
     ·估算网页变化频率第44-45页
     ·贝叶斯方法简介第45-46页
     ·使用贝叶斯方法实现网页分类第46-47页
   ·基于贝叶斯分类的网页库更新算法设计第47-48页
   ·网页库更新实现第48-50页
5 结论第50-53页
   ·本文总结第50-51页
   ·搜索引擎发展方向第51-53页
参考文献第53-55页

论文共55页,点击 下载论文
上一篇:山东网通软交换网络建设方案研究
下一篇:基于CRM理念的银行呼叫中心系统的设计与应用