基于Heritrix与Hadoop的海量网络学术文献获取及并行处理研究

摘要	第1-6页
Abstract	第6-8页
目录	第8-10页
图表目录	第10-12页
第1章绪论	第12-21页
·研究背景与意义	第12-14页
·国内外研究现状	第14-18页
·主要研究内容及思路	第18-20页
·本章小结	第20-21页
第2章 Hadoop与Heritrix平台概述	第21-43页
·Hadoop平台基础	第21-35页
·Hadoop项目及结构	第21-23页
·Hadoop分布式文件系统	第23-28页
·MapReduce编程模型	第28-32页
·Hadoop平台搭建	第32-33页
·Hadoop与其他系统的比较	第33-35页
·Heritrix平台基础	第35-42页
·开源网络爬虫工具	第35-40页
·爬虫工具比较分析	第40-42页
·本章小结	第42-43页
第3章海量网络学术文献获取及并行处理模型设计	第43-61页
·网络学术文献的主要来源及常用文件格式	第43-46页
·网络学术文献的主要来源及特点	第43-44页
·网络学术文献的常用文件格式	第44-46页
·网络学术文献资源获取	第46-51页
·网络学术文献获取方案	第46-47页
·种子站点的选择	第47-48页
·抓取任务的配置	第48-50页
·文件类型和大小过滤	第50-51页
·网络学术文献资源判定	第51-53页
·网络学术文献并行处理	第53-57页
·数据预处理	第53-54页
·并行处理	第54-57页
·MapReduce任务的优化	第57-60页
·任务调度	第58页
·任务数量	第58-59页
·Combine函数	第59页
·文件压缩	第59-60页
·重用JVM	第60页
·本章小结	第60-61页
第4章海量网络学术文献获取及并行处理模型实现	第61-75页
·实验环境	第61页
·实验平台搭建	第61-65页
·集群网络环境介绍	第61-62页
·JDK安装及Java环境变量配置	第62-63页
·SSH无密码登录设置	第63页
·Hadoop集群配置	第63-65页
·网络学术文献资源获取模块实现	第65-68页
·网络学术文献资源判定模块实现	第68-70页
·网络学术文献并行处理模块实现	第70-74页
·文章小结	第74-75页
第5章总结与展望	第75-77页
参考文献	第77-80页
致谢	第80-81页
攻读硕士学位期间的科研情况	第81-82页
附录A	第82-86页
附录B	第86-95页
附录C	第95-99页
附录D	第99-102页