基于Heritrix与Hadoop的海量网络学术文献获取及并行处理研究
摘要 | 第1-6页 |
Abstract | 第6-8页 |
目录 | 第8-10页 |
图表目录 | 第10-12页 |
第1章 绪论 | 第12-21页 |
·研究背景与意义 | 第12-14页 |
·国内外研究现状 | 第14-18页 |
·主要研究内容及思路 | 第18-20页 |
·本章小结 | 第20-21页 |
第2章 Hadoop与Heritrix平台概述 | 第21-43页 |
·Hadoop平台基础 | 第21-35页 |
·Hadoop项目及结构 | 第21-23页 |
·Hadoop分布式文件系统 | 第23-28页 |
·MapReduce编程模型 | 第28-32页 |
·Hadoop平台搭建 | 第32-33页 |
·Hadoop与其他系统的比较 | 第33-35页 |
·Heritrix平台基础 | 第35-42页 |
·开源网络爬虫工具 | 第35-40页 |
·爬虫工具比较分析 | 第40-42页 |
·本章小结 | 第42-43页 |
第3章 海量网络学术文献获取及并行处理模型设计 | 第43-61页 |
·网络学术文献的主要来源及常用文件格式 | 第43-46页 |
·网络学术文献的主要来源及特点 | 第43-44页 |
·网络学术文献的常用文件格式 | 第44-46页 |
·网络学术文献资源获取 | 第46-51页 |
·网络学术文献获取方案 | 第46-47页 |
·种子站点的选择 | 第47-48页 |
·抓取任务的配置 | 第48-50页 |
·文件类型和大小过滤 | 第50-51页 |
·网络学术文献资源判定 | 第51-53页 |
·网络学术文献并行处理 | 第53-57页 |
·数据预处理 | 第53-54页 |
·并行处理 | 第54-57页 |
·MapReduce任务的优化 | 第57-60页 |
·任务调度 | 第58页 |
·任务数量 | 第58-59页 |
·Combine函数 | 第59页 |
·文件压缩 | 第59-60页 |
·重用JVM | 第60页 |
·本章小结 | 第60-61页 |
第4章 海量网络学术文献获取及并行处理模型实现 | 第61-75页 |
·实验环境 | 第61页 |
·实验平台搭建 | 第61-65页 |
·集群网络环境介绍 | 第61-62页 |
·JDK安装及Java环境变量配置 | 第62-63页 |
·SSH无密码登录设置 | 第63页 |
·Hadoop集群配置 | 第63-65页 |
·网络学术文献资源获取模块实现 | 第65-68页 |
·网络学术文献资源判定模块实现 | 第68-70页 |
·网络学术文献并行处理模块实现 | 第70-74页 |
·文章小结 | 第74-75页 |
第5章 总结与展望 | 第75-77页 |
参考文献 | 第77-80页 |
致谢 | 第80-81页 |
攻读硕士学位期间的科研情况 | 第81-82页 |
附录A | 第82-86页 |
附录B | 第86-95页 |
附录C | 第95-99页 |
附录D | 第99-102页 |