基于Hadoop的OA论文资源存储方法研究
| 摘要 | 第1-6页 |
| Abstract | 第6-10页 |
| 第1章 绪论 | 第10-15页 |
| ·研究背景及意义 | 第10-11页 |
| ·国内外研究现状 | 第11-13页 |
| ·本文的主要研究内容 | 第13页 |
| ·本文的组织结构 | 第13-15页 |
| 第2章 相关理论知识与技术 | 第15-23页 |
| ·HDFS文件系统 | 第15-19页 |
| ·HDFS整体架构 | 第15-16页 |
| ·HDFS作机制 | 第16-17页 |
| ·写入与读取 | 第17-19页 |
| ·MapReduce编程模型 | 第19-22页 |
| ·MapReduce基本原理 | 第19-21页 |
| ·MapReduce作机制 | 第21-22页 |
| ·本章小结 | 第22-23页 |
| 第3章 面向OA论文资源的分布式聚类算法 | 第23-36页 |
| ·符号说明以及相关定义 | 第23-25页 |
| ·基于MapReduce的特征向量提取算法 | 第25-30页 |
| ·分布式分词算法 | 第25-26页 |
| ·基于文档频的分布式特征词选择算法 | 第26-28页 |
| ·基于TF-IDF的分布式特征向量构建算法 | 第28-30页 |
| ·基于Canopy的K-means聚类算法 | 第30-35页 |
| ·Canopy聚类算法 | 第30-31页 |
| ·算法的主要思想 | 第31-32页 |
| ·算法的并行实现 | 第32-35页 |
| ·本章小结 | 第35-36页 |
| 第4章 面向OA论文资源的存储检索预取方法 | 第36-44页 |
| ·基于MapFile的OA论文资源存储结构 | 第36-37页 |
| ·MapFile数据结构 | 第36-37页 |
| ·存储结构 | 第37页 |
| ·基于Lucene的OA论文资源检索方法 | 第37-41页 |
| ·OA论文资源检索机制 | 第38-39页 |
| ·分布式建立索引 | 第39-41页 |
| ·面向OA论文资源的预取方法 | 第41-43页 |
| ·本章小结 | 第43-44页 |
| 第5章 实验验证与分析 | 第44-52页 |
| ·实验环境和实验数据 | 第44-45页 |
| ·实验环境 | 第44-45页 |
| ·实验数据 | 第45页 |
| ·实验评价标准 | 第45-47页 |
| ·实验及结果分析 | 第47-51页 |
| ·对比算法简介 | 第47页 |
| ·内存占用对比 | 第47-49页 |
| ·读取速率对比 | 第49-51页 |
| ·结果分析 | 第51页 |
| ·本章小结 | 第51-52页 |
| 结论 | 第52-54页 |
| 参考文献 | 第54-58页 |
| 攻读硕士学位期间承担的科研任务与主要成果 | 第58-59页 |
| 致谢 | 第59-60页 |
| 作者简介 | 第60页 |