基于Hadoop的OA论文资源存储方法研究
摘要 | 第1-6页 |
Abstract | 第6-10页 |
第1章 绪论 | 第10-15页 |
·研究背景及意义 | 第10-11页 |
·国内外研究现状 | 第11-13页 |
·本文的主要研究内容 | 第13页 |
·本文的组织结构 | 第13-15页 |
第2章 相关理论知识与技术 | 第15-23页 |
·HDFS文件系统 | 第15-19页 |
·HDFS整体架构 | 第15-16页 |
·HDFS作机制 | 第16-17页 |
·写入与读取 | 第17-19页 |
·MapReduce编程模型 | 第19-22页 |
·MapReduce基本原理 | 第19-21页 |
·MapReduce作机制 | 第21-22页 |
·本章小结 | 第22-23页 |
第3章 面向OA论文资源的分布式聚类算法 | 第23-36页 |
·符号说明以及相关定义 | 第23-25页 |
·基于MapReduce的特征向量提取算法 | 第25-30页 |
·分布式分词算法 | 第25-26页 |
·基于文档频的分布式特征词选择算法 | 第26-28页 |
·基于TF-IDF的分布式特征向量构建算法 | 第28-30页 |
·基于Canopy的K-means聚类算法 | 第30-35页 |
·Canopy聚类算法 | 第30-31页 |
·算法的主要思想 | 第31-32页 |
·算法的并行实现 | 第32-35页 |
·本章小结 | 第35-36页 |
第4章 面向OA论文资源的存储检索预取方法 | 第36-44页 |
·基于MapFile的OA论文资源存储结构 | 第36-37页 |
·MapFile数据结构 | 第36-37页 |
·存储结构 | 第37页 |
·基于Lucene的OA论文资源检索方法 | 第37-41页 |
·OA论文资源检索机制 | 第38-39页 |
·分布式建立索引 | 第39-41页 |
·面向OA论文资源的预取方法 | 第41-43页 |
·本章小结 | 第43-44页 |
第5章 实验验证与分析 | 第44-52页 |
·实验环境和实验数据 | 第44-45页 |
·实验环境 | 第44-45页 |
·实验数据 | 第45页 |
·实验评价标准 | 第45-47页 |
·实验及结果分析 | 第47-51页 |
·对比算法简介 | 第47页 |
·内存占用对比 | 第47-49页 |
·读取速率对比 | 第49-51页 |
·结果分析 | 第51页 |
·本章小结 | 第51-52页 |
结论 | 第52-54页 |
参考文献 | 第54-58页 |
攻读硕士学位期间承担的科研任务与主要成果 | 第58-59页 |
致谢 | 第59-60页 |
作者简介 | 第60页 |