首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

搜索引擎中网络爬虫的研究与实现

摘要第1-4页
Abstract第4-7页
第一章 绪论第7-11页
   ·研究背景及意义第7-8页
   ·国内外现状分析第8-9页
   ·论文研究内容第9页
   ·论文组织结构第9-11页
第二章 相关技术分析与研究第11-23页
   ·搜索引擎工作原理第11-12页
   ·网页抓取算法第12-15页
     ·广度优先遍历算法第12-13页
     ·非完全的 PageRank 算法第13-14页
     ·OPIC 算法第14-15页
   ·网页去重 Bloom Filter 算法第15-18页
     ·Bloom Filter 算法概述第15-16页
     ·错误率估计第16-17页
     ·最优的哈希函数个数第17页
     ·位数组的大小第17-18页
   ·半同步/半异步并发模式第18-21页
   ·本章小结第21-23页
第三章 网络爬虫系统的总体设计第23-33页
   ·网络爬虫的分析第23-24页
     ·网络爬虫的组成部分第23页
     ·网络爬虫的工作原理第23-24页
   ·基于 Libevent 的爬虫系统线程模型设计第24-29页
     ·Libevent 概述第24-26页
     ·爬虫系统的线程机制第26-29页
   ·网络爬虫系统的体系结构第29-30页
   ·本章小结第30-33页
第四章 网络爬虫系统设计与实现第33-47页
   ·请求连接模块第33-38页
     ·客户端与服务器间的会话第33-35页
     ·采用 Libevent 框架库的 I/O 多路复用第35-38页
   ·数据分析模块第38-41页
     ·ROBOTS.TXT 文件的分析第38-39页
     ·HTML 页面的分析第39-41页
   ·URL 管理模块第41-45页
     ·URL 的多级队列管理第41-43页
     ·URL 的去重第43-44页
     ·URL 的 DNS 请求与管理第44-45页
   ·URL 调度模块第45-46页
   ·本章小结第46-47页
第五章 系统测试及分析第47-51页
   ·简述第47页
   ·测试过程第47-48页
     ·测试环境第47页
     ·测试方法第47-48页
   ·测试结果及分析第48-51页
     ·测试结果第48页
     ·结果分析第48-51页
第六章 结束语第51-53页
   ·论文工作总结第51页
   ·后续工作展望第51-53页
致谢第53-55页
参考文献第55-57页

论文共57页,点击 下载论文
上一篇:基于数据加密及驱动过滤的文件安全组件的设计与实现
下一篇:基于长连接的移动终端消息推送系统的设计与实现