基于Hadoop的OA论文资源存储方法研究

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-15页
·研究背景及意义	第10-11页
·国内外研究现状	第11-13页
·本文的主要研究内容	第13页
·本文的组织结构	第13-15页
第2章相关理论知识与技术	第15-23页
·HDFS文件系统	第15-19页
·HDFS整体架构	第15-16页
·HDFS作机制	第16-17页
·写入与读取	第17-19页
·MapReduce编程模型	第19-22页
·MapReduce基本原理	第19-21页
·MapReduce作机制	第21-22页
·本章小结	第22-23页
第3章面向OA论文资源的分布式聚类算法	第23-36页
·符号说明以及相关定义	第23-25页
·基于MapReduce的特征向量提取算法	第25-30页
·分布式分词算法	第25-26页
·基于文档频的分布式特征词选择算法	第26-28页
·基于TF-IDF的分布式特征向量构建算法	第28-30页
·基于Canopy的K-means聚类算法	第30-35页
·Canopy聚类算法	第30-31页
·算法的主要思想	第31-32页
·算法的并行实现	第32-35页
·本章小结	第35-36页
第4章面向OA论文资源的存储检索预取方法	第36-44页
·基于MapFile的OA论文资源存储结构	第36-37页
·MapFile数据结构	第36-37页
·存储结构	第37页
·基于Lucene的OA论文资源检索方法	第37-41页
·OA论文资源检索机制	第38-39页
·分布式建立索引	第39-41页
·面向OA论文资源的预取方法	第41-43页
·本章小结	第43-44页
第5章实验验证与分析	第44-52页
·实验环境和实验数据	第44-45页
·实验环境	第44-45页
·实验数据	第45页
·实验评价标准	第45-47页
·实验及结果分析	第47-51页
·对比算法简介	第47页
·内存占用对比	第47-49页
·读取速率对比	第49-51页
·结果分析	第51页
·本章小结	第51-52页
结论	第52-54页
参考文献	第54-58页
攻读硕士学位期间承担的科研任务与主要成果	第58-59页
致谢	第59-60页
作者简介	第60页