首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于云平台网络爬虫的互联网信息采集系统研究

摘要第5-6页
Abstract第6-7页
第1章 绪论第11-17页
    1.1 课题背景及意义第11-12页
    1.2 研究现状与发展趋势第12-13页
        1.2.1 云平台第12-13页
        1.2.2 互联网信息采集技术第13页
    1.3 本文主要研究工作第13-15页
    1.4 本文组织结构第15-17页
第2章 相关技术第17-29页
    2.1 云计算第17-19页
        2.1.1 云计算服务层次第17-18页
        2.1.2 云计算技术体系结构第18-19页
    2.2 Hadoop第19-23页
        2.2.1 HDFS第20-21页
        2.2.2 Map/Reduce第21-23页
    2.3 网络爬虫第23-26页
        2.3.1 网络爬虫原理第23-24页
        2.3.2 网络爬虫基本工作流程第24页
        2.3.3 网络爬虫搜索策略第24-25页
        2.3.4 分布式网络爬虫第25-26页
    2.4 正则表达式第26-27页
    2.5 本章小结第27-29页
第3章 系统需求与总体设计第29-35页
    3.1 系统设计需求第29-31页
        3.1.1 非功能性需求第29-30页
        3.1.2 功能性需求第30-31页
    3.2 系统总体布局第31-33页
    3.3 本章小结第33-35页
第4章 信息采集模块设计第35-47页
    4.1 Nutch的crawl模块的原理分析第35-37页
        4.1.1 原理第35页
        4.1.2 工作流程第35-36页
        4.1.3 nutch中的Hado叩第36-37页
    4.2 云平台网络爬虫的总体设计第37-39页
        4.2.1 总体设计第37-38页
        4.2.2 相关数据结构设计第38-39页
    4.3 云平台网络爬虫详细设计第39-44页
        4.3.1 Map/Reduce的编程方式第39-40页
        4.3.2 云平台网络爬虫子模块详细设计第40-44页
    4.4 url结构分析第44-45页
    4.5 本章小结第45-47页
第5章 网页信息抽取技术及其实现第47-55页
    5.1 网页抽取技术第47-48页
        5.1.1 背景第47页
        5.1.2 概述第47-48页
    5.2 HTML第48-53页
        5.2.1 概念第48页
        5.2.2 结构分析第48-50页
        5.2.3 HtmlParser第50-52页
        5.2.4 信息解析的流程第52-53页
    5.3 本章小结第53-55页
第6章 系统配置与系统测试第55-63页
    6.1 云平台搭建第55-58页
        6.1.1 系统环境第55-56页
        6.1.2 配置流程第56-58页
    6.2 参数设置第58-59页
    6.3 系统运行测试第59-62页
    6.4 本章小结第62-63页
第7章 总结与展望第63-67页
    7.1 全文总结第63-64页
    7.2 本文的创新点第64页
    7.3 下一步工作展望第64-67页
参考文献第67-71页
致谢第71页

论文共71页,点击 下载论文
上一篇:支持实时媒体交换的多径传输控制协议的研究
下一篇:新型掺镱激光玻璃的研制