首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

分布式智能网络爬虫的设计与实现

摘要第5-6页
Abstract第6-7页
第一章 绪论第10-16页
    1.1 研究背景及意义第10-11页
    1.2 本课题的研究进展第11-13页
        1.2.1 相关爬虫的特点第11-12页
        1.2.2 Web信息抽取第12-13页
    1.3 本课题主要研究内容第13-16页
第二章 相关理论与技术第16-28页
    2.1 网络爬虫第16-19页
        2.1.1 爬虫基本原理及结构第16-17页
        2.1.2 礼貌采集第17页
        2.1.3 网络爬虫分类第17-19页
    2.2 网页采集策略第19-20页
        2.2.1 广度优先策略第19页
        2.2.2 深度优先策略第19-20页
        2.2.3 最佳优先策略第20页
    2.3 DNS缓存第20-21页
    2.4 URL去重技术第21页
    2.5 一致性哈希算法第21-23页
    2.6 深层网络采集技术第23-24页
        2.6.1 动态页面渲染技术第23-24页
        2.6.2 自动导航技术第24页
    2.7 分布式文件系统第24-26页
    2.8 本章小结第26-28页
第三章 分布式智能网络爬虫系统设计第28-34页
    3.1 系统设计目标第28页
    3.2 系统整体设计第28-31页
        3.2.1 设计基本思路第28-29页
        3.2.2 系统整体架构第29-30页
        3.2.3 网站采集处理流程第30-31页
    3.3 系统主要模块功能划分第31-33页
    3.4 本章小结第33-34页
第四章 分布式智能网络爬虫系统实现第34-76页
    4.1 种子调度模块实现第34-38页
        4.1.1 种子智能调度实现原理第34-37页
        4.1.2 种子智能调度算法实现第37-38页
    4.2 种子智能分析模块实现第38-52页
        4.2.1 种子智能分析的原理第39-40页
        4.2.2 种子智能分析算法实现第40-52页
    4.3 URL去重模块实现第52-54页
    4.4 网页下载器模块实现第54-61页
        4.4.1 下载器模块的结构实现第55-57页
        4.4.2 下载器模块智能线程执行器实现第57-58页
        4.4.3 下载器模块DNS缓存实现第58-60页
        4.4.4 下载器动态页面渲染实现第60-61页
    4.5 网页自动导航浏览技术实现第61-65页
    4.6 网页抽取模块实现第65-66页
    4.7 数据存储模块实现第66-71页
        4.7.1 数据储存架构第67-70页
        4.7.2 采集数据存储第70-71页
    4.8 智能监控模块实现第71-74页
    4.9 本章小结第74-76页
第五章 系统测试和分析第76-84页
    5.1 系统部署环境第76-77页
    5.2 系统功能测试第77-79页
    5.3 系统性能测试与分析第79-82页
    5.4 本章小结第82-84页
第六章 结论与展望第84-86页
    6.1 论文工作总结第84-85页
    6.2 未来工作展望第85-86页
参考文献第86-90页
致谢第90-92页
个人简历第92页

论文共92页,点击 下载论文
上一篇:全区森林公安高清视频会议系统的设计与应用
下一篇:一种公共数据编码平台的数据质量管控子系统的设计与实现