首页--文化、科学、教育、体育论文--科学、科学研究论文--情报学、情报工作论文--情报检索论文

基于Heritrix与Hadoop的海量网络学术文献获取及并行处理研究

摘要第1-6页
Abstract第6-8页
目录第8-10页
图表目录第10-12页
第1章 绪论第12-21页
   ·研究背景与意义第12-14页
   ·国内外研究现状第14-18页
   ·主要研究内容及思路第18-20页
   ·本章小结第20-21页
第2章 Hadoop与Heritrix平台概述第21-43页
   ·Hadoop平台基础第21-35页
     ·Hadoop项目及结构第21-23页
     ·Hadoop分布式文件系统第23-28页
     ·MapReduce编程模型第28-32页
     ·Hadoop平台搭建第32-33页
     ·Hadoop与其他系统的比较第33-35页
   ·Heritrix平台基础第35-42页
     ·开源网络爬虫工具第35-40页
     ·爬虫工具比较分析第40-42页
   ·本章小结第42-43页
第3章 海量网络学术文献获取及并行处理模型设计第43-61页
   ·网络学术文献的主要来源及常用文件格式第43-46页
     ·网络学术文献的主要来源及特点第43-44页
     ·网络学术文献的常用文件格式第44-46页
   ·网络学术文献资源获取第46-51页
     ·网络学术文献获取方案第46-47页
     ·种子站点的选择第47-48页
     ·抓取任务的配置第48-50页
     ·文件类型和大小过滤第50-51页
   ·网络学术文献资源判定第51-53页
   ·网络学术文献并行处理第53-57页
     ·数据预处理第53-54页
     ·并行处理第54-57页
   ·MapReduce任务的优化第57-60页
     ·任务调度第58页
     ·任务数量第58-59页
     ·Combine函数第59页
     ·文件压缩第59-60页
     ·重用JVM第60页
   ·本章小结第60-61页
第4章 海量网络学术文献获取及并行处理模型实现第61-75页
   ·实验环境第61页
   ·实验平台搭建第61-65页
     ·集群网络环境介绍第61-62页
     ·JDK安装及Java环境变量配置第62-63页
     ·SSH无密码登录设置第63页
     ·Hadoop集群配置第63-65页
   ·网络学术文献资源获取模块实现第65-68页
   ·网络学术文献资源判定模块实现第68-70页
   ·网络学术文献并行处理模块实现第70-74页
   ·文章小结第74-75页
第5章 总结与展望第75-77页
参考文献第77-80页
致谢第80-81页
攻读硕士学位期间的科研情况第81-82页
附录A第82-86页
附录B第86-95页
附录C第95-99页
附录D第99-102页

论文共102页,点击 下载论文
上一篇:冷藏集装箱环境监控系统的研究与设计
下一篇:低碳经济运行机制探讨