首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Hadoop平台的网络爬虫技术研究

摘要第4-5页
abstract第5页
第一章 绪论第8-14页
    1.1 课题研究背景第8-9页
    1.2 国内外研究现状第9-12页
        1.2.1 Hadoop平台第9-10页
        1.2.2 网络爬虫技术第10-12页
    1.3 研究意义与内容第12页
    1.4 论文的组织结构第12-14页
第二章 Hadoop与网络爬虫相关技术研究第14-29页
    2.1 Hadoop平台相关技术第14-21页
        2.1.1 Hadoop平台与云计算第14-16页
        2.1.2 HDFS分布式文件系统第16-18页
        2.1.3 MapReduce分布式计算模型第18-21页
    2.2 网络爬虫相关技术第21-28页
        2.2.1 网络爬虫体系结构第22-23页
        2.2.2 网络爬虫爬取策略第23-25页
        2.2.3 分布式网络爬虫第25-26页
        2.2.4 主题网络爬虫第26-28页
    2.3 本章小结第28-29页
第三章 基于云平台的主题爬取算法第29-39页
    3.1 相关度计算第29-31页
        3.1.1 主题特征值描述第29页
        3.1.2 相关度计算原理第29-31页
    3.2 主题爬取算法的语义因子第31-32页
        3.2.1 网页文档语义第31-32页
        3.2.2 语义相似度计算第32页
    3.3 改进的主题爬取算法第32-35页
        3.3.1 VSM的优化第32-33页
        3.3.2 相关度计算的语义加权第33-34页
        3.3.3 链接排序第34页
        3.3.4 算法流程第34-35页
    3.4 基于Hadoop平台算法设计第35-37页
        3.4.1 MapReduce并行化设计第35-36页
        3.4.2 算法步骤第36-37页
    3.5 本章小结第37-39页
第四章 基于云平台的链接去重算法第39-52页
    4.1 链接去重概述第39-42页
        4.1.1 链接重复的影响第39页
        4.1.2 链接去重算法第39-40页
        4.1.3 链接提取过程第40-42页
    4.2 布隆过滤器去重算法第42-45页
        4.2.1 布隆过滤器算法原理第42-43页
        4.2.2 布隆过滤器算法分析第43-45页
    4.3 改进布隆过滤器去重算法第45-49页
        4.3.1 基于属性链接分类第46页
        4.3.2 IBFLDA去重模型第46-48页
        4.3.3 IBFLDA性能分析第48-49页
    4.4 基于Hadoop平台算法设计第49-51页
        4.4.1 MapReduce算法设计第49-50页
        4.4.2 分布式算法流程第50-51页
    4.5 本章小结第51-52页
第五章 基于Hadoop的系统与分析第52-70页
    5.1 基于云平台网络爬虫系统设计第52-55页
        5.1.1 系统框架设计第53-54页
        5.1.2 系统流程设计第54-55页
    5.2 关键模块设计与实现第55-63页
        5.2.1 网页下载模块第56-58页
        5.2.2 网页文档解析模块第58-61页
        5.2.3 链接处理模块第61-63页
    5.3 实验与性能分析第63-69页
        5.3.1 实验环境第63-66页
        5.3.2 主题爬取算法实验第66-68页
        5.3.3 去重算法实验第68-69页
    5.4 本章小结第69-70页
第六章 总结与展望第70-72页
    6.1 总结第70页
    6.2 展望第70-72页
参考文献第72-74页
附录1 攻读硕士学位期间撰写的论文第74-75页
附录2 攻读硕士学位期间参加的科研项目第75-76页
致谢第76页

论文共76页,点击 下载论文
上一篇:水位和增温对崇明东滩滨海围垦湿地土壤呼吸的影响
下一篇:上海市基本住房公积金对职工的购房保障功能研究