首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Hadoop的分布式网络爬虫研究

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第13-19页
    1.1 课题研究背景第13-15页
    1.2 国内外研究现状第15-17页
    1.3 课题研究内容及意义第17-18页
    1.4 文章组织结构第18-19页
第二章 课题相关技术研究第19-39页
    2.1 Hadoop分布式计算平台第19-29页
        2.1.1 Hadoop平台组件第19-20页
        2.1.2 HDFS文件系统第20-25页
        2.1.3 MapReduce软件框架第25-29页
    2.2 网络爬虫技术第29-38页
        2.2.1 网络爬虫基本原理第29-33页
        2.2.2 网络爬虫分类第33-35页
        2.2.3 分布式网络爬虫Nutch研究第35-38页
    2.3 本章小结第38-39页
第三章 网络爬虫相关算法研究第39-51页
    3.1 链接分析算法第39-45页
        3.1.1 OPIC算法研究第39-40页
        3.1.2 HITS算法研究第40-43页
        3.1.3 PageRank算法研究第43-45页
    3.2 URL去重算法第45-50页
        3.2.1 基于数据库的去重算法第45-46页
        3.2.2 基于Hash的去重算法第46页
        3.2.3 布隆过滤器算法第46-50页
    3.3 本章小结第50-51页
第四章 基于Hadoop的PageRank算法及其改进第51-69页
    4.1 分布式PageRank算法存在的缺陷第51页
    4.2 基于Hadoop的分布式PageRank算法及其改进第51-58页
        4.2.1 分布式PageRank常规算法第51-54页
        4.2.2 基于链接图结构划分的分布式PageRank算法改进第54-58页
    4.3 算法实现第58-60页
    4.4 实验环境搭建第60-63页
        4.4.1 Hadoop平台整体信息第60-61页
        4.4.2 Hadoop全分布式配置第61-63页
    4.5 测试数据获取第63-65页
    4.6 算法仿真分析第65-68页
        4.6.1 MapReduce中间输出结果数据仿真分析第65-66页
        4.6.2 算法时间性能仿真分析第66-67页
        4.6.3 算法在集群节点改变时的性能仿真分析第67-68页
    4.7 本章总结第68-69页
第五章 基于Hadoop的Bloom Filter去重算法及其改进第69-85页
    5.1 布隆过滤器URL去重算法存在的缺陷第69页
    5.2 布隆过滤器改进算法第69-75页
        5.2.1 布隆过滤器的误判率第69-72页
        5.2.2 算法改进第72-75页
    5.3 算法实现第75-80页
    5.4 测试数据与仿真环境第80-81页
    5.5 算法仿真分析第81-84页
    5.6 本章总结第84-85页
第六章 总结与展望第85-86页
    6.1 全文总结第85页
    6.2 展望第85-86页
致谢第86-87页
参考文献第87-90页
攻读硕士学位期间取得的成果第90-91页

论文共91页,点击 下载论文
上一篇:基于超声波与图像识别的盲人导航眼镜研究与实现
下一篇:基于证书的二维码生成和认证系统的研究